加入收藏 | 设为首页 | 会员中心 | 我要投稿 阿坝站长网 (https://www.0837zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

剑桥AI全景报告出炉

发布时间:2021-02-11 11:43:39 所属栏目:外闻 来源:互联网
导读:Excelero公司首席技术官Sven Breuner和首席架构师Kirill Shoikhet为此分享了9个为人工智能、机器学习和深度学习准备数据中心的优秀实践。 数据点1:了解目标系统性能、投资回报率和可扩展性计划。 随着人工智能成为核心业务的重要组成部分,大多数组织都从最

Excelero公司首席技术官Sven Breuner和首席架构师Kirill Shoikhet为此分享了9个为人工智能、机器学习和深度学习准备数据中心的优秀实践。

数据点1:了解目标系统性能、投资回报率和可扩展性计划。

随着人工智能成为核心业务的重要组成部分,大多数组织都从最初的少量预算和少量培训数据集入手,并为无缝快速的系统增长准备基础设施。需要构建所选的硬件和软件基础设施,以实现灵活的横向扩展,以避免在每个新的增长阶段产生破坏性的变化。数据科学家与系统管理员之间的密切协作对于了解性能要求,并了解基础设施可能需要随着时间的发展而变得至关重要。

数据点2:现在或将来评估集群多个GPU系统。

在一台服务器中采用多个GPU可以在系统内部实现有效的数据共享和通信,并具有成本效益,参考设计假定将来可以集群使用,并且在单个服务器中最多支持16个GPU。多个GPU服务器需要准备好以很高的速率读取传入的数据,以使GPU高效运行,这意味着它需要一个超高速的网络连接,以及用于训练数据库的存储系统。但是在某个时候,单台服务器将不再足以在合理的时间内处理增长的训练数据库,因此在设计中构建共享存储基础设施将使随着人工智能、机器学习、深度学习使用的扩展,添加GPU服务器变得更容易。

数据点3:评估人工智能工作流程各个阶段的瓶颈。

数据中心基础设施需要能够同时处理人工智能工作流程的所有阶段。对于具有成本效益的数据中心来说,拥有一个可靠的资源调度和共享概念是至关重要的。因此,尽管数据科学家获得了需要摄取和准备的新数据,但其他人将训练他们的可用数据,而其他人则使用先前生成的模型进行训练用于生产。Kubernetes已成为解决这一问题的一种主要解决方案,使云计算技术易于在内部部署使用,并使混合部署变得可行。

数据点4:查看用于优化GPU利用率和性能的策略。

许多人工智能、机器学习、深度学习应用程序的计算密集型性质使基于GPU的服务器成为常见选择。但是,尽管GPU可以有效地从内存加载数据,但是训练数据集通常远远超过内存,并且涉及的大量文件变得更加难以摄取。在GPU服务器之间以及与存储基础设施之间,实现GPU数量与可用CPU功率、内存和网络带宽之间的优秀平衡至关重要。
 

围绕图形处理单元(GPU)计算的生态系统如今正在迅速发展,以提高GPU工作负载的效率和可扩展性。然而,在避免存储和网络中潜在的瓶颈的同时,也有一些技巧可以很大限度地提高GPU的利用率。

人工智能、机器学习、深度学习应用程序的密集需求对数据中心的性能、可靠性和可扩展性提出了挑战,尤其是在IT架构师模仿公共云的设计以简化向混合云和内部部署的过渡时。
 

蓝绿部署使您可以运行两个不同版本的应用程序,而一个运行实时流量。您可以通过几种不同的方式进行设置。过去,我在ECS中运行过两个版本的应用程序,都指向同一个数据库。

您的应用程序和数据库需要向前和向后兼容。兼容性的关键是您的数据库架构更改。您需要确保将列删除延迟到两个版本都不需要它为止。

为了在v1.0.3或v1.0.5之间进行切换,AWS ALB设置了两个规则,一个规则用于蓝色,另一个规则用于绿色。ALB将侦听器规则从蓝色切换为绿色,然后耗尽所有旧的(蓝色)连接。
 

Pod:尽量减少影响

Pods的概念有许多不同的迭代,从数据中心设计,VMware Pods到Kubernetes Pods。Pod有多种使用或设计的方式。关键是设计应用程序和基础架构,以减少任何故障对部分组件,客户或服务的影响。

当我们在Apigee一起设计应用程序和基础结构时,我们实现了这个概念。从操作方面与Engineering一起工作,我们设计了多租户应用程序,以在2个或更多应用程序Pod上运行客户。对我们而言,Pod是一组应用程序服务,其中有1到X个客户分配给特定Pod。例如,您可能有用于核心应用程序的Pod,有另一个用于分析或日志记录的Pod。在AWS设置中,您可以按AWS区域拥有应用程序Pod,然后可以将客户分配给全球所有或几个区域中每个区域的Pod。其他示例包括Google的gmail如何基于用户的默认位置或FaceBook如何将新功能推出给部分用户。

如果由于云故障,部署问题或其他因素导致特定区域中的Pod出现问题。该问题的影响将仅隔离到该区域中该Pod上的客户。通常,将客户部署到多个区域后,他们将永远不会注意到该问题。

通过一起设计应用程序和基础架构,减少问题影响/爆炸半径的可能性越大,最终的结果就越好。

蓝绿部署



(编辑:阿坝站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读