当前位置:首页 > 新闻中心

业界最高密度,浪潮IPF2017发布单节点16 GPU的SR

文章出处:亚博 人气:617发表时间:2019-06-08 07:38:34
Yabo报告:

在最近完成的2017年浪潮云数据中心全国合作伙伴大会(IPF)上,浪潮坚持计算+战略,进一步明确业务重点,专注于智能计算,开发开放和集成的计算生态系统,并构建智能计算市场。/P>

在最近完成的2017年浪潮云数据中心全国合作伙伴大会(IPF)上,浪潮坚持计算+战略,进一步明确业务重点,专注于智能计算,开发开放和集成的计算生态系统,并在智能计算市场。

智能计算的未来在商业应用中。随着人工智能应用的快速发展,人工智能所需的计算能力也急剧上升。此前,浪潮已部署在人工智能计算平台和架构中,并拥有一整套支持2,4和8 GPU卡的异构超级计算机服务器。在此IPF上,浪潮发布了业界密度最高的单机SR-AI机柜,支持16个GPU卡,进一步优化了AI计算硬件架构,改变了原有的CPU-GPU紧耦合状态,实现了GPU资源。灵活的池扩展。

业界最高密度,浪潮IPF2017发布单节点16 GPU的SR-AI整机柜

人工智能已成为未来社会发展的重要推动力

更复杂的AI应用需要更强大的计算平台

深度学习概念和浅层学习算法已经提出多年,人工智能近年来才开始升温,因为人工智能技术的进步受到计算平台性能和数据积累的限制。例如,从IBM Deep Blue击败卡斯帕罗夫,浪潮天梭击败了五位国际象棋大师,然后谷歌AlphaGo击败了Go冠军李世石,解决问题的游戏树空间扩大了237个数量级,这需要更多优化算法。还需要一种更强大的计算平台来支持实时计算。

除人工智能游戏外,人工智能在现实生活中的应用也越来越广泛和复杂。从面对呼叫,到动作跟踪,到无人驾驶汽车,更复杂的AI应用需要更强大的计算平台。传统的单卡单卡,2卡甚至8卡都不能满足多元化的业务需求。浪潮SR-AI全机柜服务器具有更高密度的单节点16卡,可满足当前快速扩展的AI计算能力的需求。

业界最高密度,浪潮IPF2017发布单节点16 GPU的SR-AI整机柜

SR-AI整柜服务器

密度更高+资源去耦,是传统AI计算设备性能的10倍

这次,浪潮和百度联合发布了SR-AI全机架服务器,该服务器符合最新的Scorpio 2.5标准。它是世界上第一个采用PCIe Fabric互连架构设计的AI解决方案。它采用PCI-E开关和GPU BOX两个模块。配合打破GPU与CPU之间的物理耦合,使两者可以灵活扩展。与传统的GPU服务器相比,这是一种颠覆性的创新,具有高密度,低延迟,易扩展等优点。

首先,传统的AI计算设备集群需要通过高速网络实现数据交互,这将带来我们级别或更高的延迟,并且SR-AI整体机柜中的GPU BOX之间的互连通过以下方式实现: PCI-E交换机和GPUDirect RDMA技术可以大大减少节点间GPU之间的通信延迟,从而实现ns级网络延迟。

其次,SR-AI整柜的I/O BOX单节点可实现16个GPU的超级扩展,可通过PCI-E交换机实现4个BOX和64个GPU的级联,峰值处理能力可以达到实现。对于512TFlops。

三,SR-AI整机的GPU资源扩展不需要同步配置高成本的IT资源(如IB交换机),成本可以优化5%以上,成本优势更加明显随着规模的增加。

SR-AI整体机柜是一个用于大型数据集和深度神经网络的超大规模AI计算平台。它可以有效地支持复杂的深度学习离线模型训练任务,适用于图像识别,语音识别,自然语言处理和搜索。排序和其他AI应用程序。百度实际业务的测试数据表明,SR-AI整体机柜的性能比传统的AI解决方案好5到10倍!

高效的开发框架+算法协同优化,AI计算效率最大化

与CPU的少量逻辑单元相比,GPU \ FPGA \ MIC是一种协处理加速设备,是一个巨大的计算矩阵,可以实现10-100倍的应用吞吐量。但与此同时,这种巨大的并行性需要付出代价:它需要强大的软件开发能力和算法优化功能。

为此,浪潮将开源高效的深度学习框架Caffe-MPI,并与众多开发人员进行优化,为用户提供深度学习更方便,更高效的应用方法。与单卡相比,浪潮Caffe-MPI可以将4个节点下16张卡的性能提高13倍,同时保证相同的正确率。它还增加了对cuDNN库的支持,使程序开发人员能够轻松实现高性能深度学习代码。发展。

在算法方面,前一波和客户在GPU加速交通流量特征分析技术方面进行了合作,通过软件,硬件和算法的协同优化,对240,000个时间单节点4GPU样本的训练速度比单个节点快3倍GPU,单机4GPU卡程序性能比原始版本快270倍。

数据显示,2016年,人工智能计算的市场份额超过60%,为百度,阿里巴巴,腾讯,奇虎,科达迅飞和Face ++等中国人工智能企业提供GPU,FPGA,KNL等协同处理服务。加速软件和算法优化,例如服务器和caffe-MPI。

下一篇:大唐卫士5012网络壁挂小机柜评测 上一篇:大唐卫士D1