95后哈佛小哥撰写从零开始的机器学习入门必备
金秋十月,人们应对新冠疫情更加从容。在疫情期间,很多数字化水平较高的企业呈现出更高的“抗压性”。即便疫情已经平稳,企业也意识到数字化的重要性,因此提高数字化水平成为很多企业的首要课题。如今,以5G、大数据中心为代表的“新基建”正在如火如荼展开,能否利用智能、高效的数字化手段,在提升效率的同时降低成本,加速企业业务的创新和变革,成为企业增强核心竞争力的关键。 然而,说易行难,很多企业IT部门在支持业务飞速发展时往往显得力不从心。疫情带来的新形态又令企业IT系统面临更多挑战。没关系,全球知名的一站式IT管理服务商SolarWinds 可以帮助IT“化繁为简”,助企业站在时代前沿。 IT运维管理日趋复杂,企业挑战重重
当上云进入“深水区”,企业发现IT运营管理越来越难。试想一下,企业部分应用被放在不同公有云,部分核心业务被放在本地私有云,统一管理难度猛增。疫情期间,政府鼓励居家办公,有些员工需用智能手机登录内部系统,有些则远程访问核心数据。这一灵活办公方式即便在疫情平稳之后仍然被一些企业采用。这其中任意一个环节出现问题,都可能影响企业业务的连续性和数据的安全性。或许有人会轻松一问,这些问题难道不是交给IT部门就可以解决了吗? 数据点5:支持训练和推理阶段的需求。 在训练系统“看猫”的经典示例中,计算机执行一个数字游戏,需要查看大量不同颜色的猫。由于包含大量并行文件读取的访问的性质,NVMe闪存通过提供超低的访问延迟和每秒的大量读取操作很好地满足了这些要求。在推理阶段,挑战是相似的,因为对象识别通常是实时发生的——另一个使用案例中,NVMe闪存也提供了延迟优势。 数据点6:考虑并行文件系统和替代方案。 诸如IBM公司的SpectrumScale或BeeGFS之类的并行文件系统可以帮助有效地处理大量小文件的元数据,并通过在网络上每秒交付数万个小文件,从而使机器学习数据集的分析速度提高3到4倍。鉴于训练数据的只读性质,因此在将数据卷直接提供给GPU服务器并通过Kubernetes之类的框架以共享方式共享它们时,也可以完全避免使用并行文件系统。 数据点7:选择正确的网络主干。 人工智能、机器学习、深度学习通常是一种新的工作负载,将其重新安装到现有的网络基础设施中通常无法支持复杂计算和快速高效数据传输所需的低延迟、高带宽、高消息速率和智能卸载。基于RDMA的网络传输RoCE(融合以太网上的RDMA)和InfiniBand已成为满足这些新需求的标准。 数据点8:考虑四个存储系统的性价比杠杆。 (1)高读取吞吐量和低延迟,不限制混合部署,可以在云平台或内部部署资源上运行。 (2)数据保护。人工智能、机器学习、深度学习存储系统通常比数据中心中的其他系统要快得多,因此在发生故障后从备份中恢复可能会花费很长时间,并且会中断正在进行的操作。深度学习训练的只读性质使其非常适合于分布式擦除编码,在这种存储中,最高容错能力已经内置在主存储系统中,原始容量和可用容量之间的差异很小。 (3)容量弹性可适应任何大小或类型的驱动器,以便随着闪存介质的发展和闪存驱动器特性的扩展,数据中心可以在最重要的情况下很大限度地提高性价比。 (4)性能。由于人工智能数据集需要随着时间的推移而增长,以进一步提高模型的准确性,因此存储基础设施应实现接近线性的缩放系数,在这种情况下,每增加一次存储都会带来同等的增量性能。这使得组织可以从小规模开始,并根据业务需要而无中断地增长。 数据点9:设置基准和性能指标以帮助实现可扩展性。
例如,对于深度学习存储,一个重要指标可能是每个GPU每秒处理X个文件(通常为数千或数万个),其中每个文件的平均大小为Y(从几十个到数千个)kB 。预先建立适当的基准和性能指标有助于从一开始就确定架构方法和解决方案,并指导后续扩展。 (编辑:阿坝站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |