作家
登录

全面解读DeepLearning11深度学习服务器

作者: 来源: 2017-10-31 11:13:10 阅读 我要评论

2017年架构师最重要的48个小时 | 8折倒计时


我们的体系有四个psu,这对于10个 GPU的设备是须要的。为了测试这个,我们让体系运行一个巨大年夜的模型几天,看看竽暌剐若干功耗被应用。以下是是10个GPU办事器的能耗,看起来就像是PDU运行Tensorflow GAN的工作负载的情况:

今天展示的可能是大年夜家最为推许的一种对深度进修的构建。DeepLearning11搭载10个NVIDIA GeForce GTX 1080 Ti 11GB GPU,是Mellanox的 Infiniband系列,外形尺寸是4.5U。该体系与DeepLearning10之间有重要的差别,主如果添加了8个GTX 1080 Ti显卡。 DeepLearning11 采取single-root的设计 ,这种设计已经在深度进修范畴中风行起来了。

之前已经有了很多深度进修的构建,很多机械已经投入应用。个中有一些较小的版本,包含之前宣布的DeepLearning01和DeepLearning02。它们仅仅是个开端,但DeepLearning11完全不合。如今这个架构已经被世界前十的超大年夜范围深度进修企业所应用。

如不雅我们请求应用NVIDIA可能会被告诉须要购买特斯拉(Tesla)或Quadro卡。但NVIDIA特别请求办事器原始设备制造商(OEM)不要在办事器中应用他们的GTX卡。当然,这仅仅意味着经销商在交付客户之前安装这些卡。

该体系采取的是超微的 SYS-4028GR-TR2,它是市场上主流的高GPU密度体系之一。TR2异常重要,因为它是机箱的single root 版本,不合于DeepLearning10的-TR dual root 体系。

DeepLearning11 GTX 1080 Ti Same CPU

与DeepLearning10的构建类似,DeepLearning11具有“隆起”,使体系总体积达到4.5U。你可以大年夜办事器“Humping”趋势在数据中间的部分懂得到更多。它使我们可以或许在本身的体系中也应用NVIDIA GeForce GTX卡。

超微4028GR-TR/ -TR2

我们正在应用Mellanox ConnectX-3 Pro VPI适配器,它既支撑40GbE(主实验室收集)也支撑56Gbps的 Infiniband(深度进修收集)。尽管已经在应用它,然则应用FDR Infiniband与RDMA在今朝来说照样十分受迎接的。1GbE或是10GbE的收集根本不克不及足够快地供给这些机械。于是我们在在实验室中安装了一个Intel Omni-Path交换机,这将是该实验室的首个100Gbps构造。

在CPU和RAM方面,我们应用了2个Intel Xeon E5-2628L V4 CPU和256GB ECC DDR4 RAM。Intel Xeon E5-2650 V4是这些体系的常见芯片,它们是最低端的主流处理器,支撑9.6GT / s QPI的速度。而我们正在应用的是英特尔至强E5-2628L V4 CPU,因为单根设计会付与另一个重要的优势,将不再只是GPU间的QPI流量。固然有可能可以应用单个GPU来为体系供电,然则我们仍然应用两种更高的RAM容量——16GB的RDIMM因为比较便宜。这些体系可以遭受高达24个DDR4的LRDIMM大年夜而获得大年夜量的内存容量。

对于那些应用NVIDIA nccl库的深度进修者来说,常见的PCIe是异常重要的。这也是很多深刻进修的构建不会转换到更高的PCIe数量的原因,它平日是更高的延迟或是更受限制的设计,如AMD EPYC与Infinity Fabric。

体系成本

在成本明细方面,如不雅应用英特尔E5-2650 V4芯片,这可能是什么样子:

Mellanox ConnectX-3 Pro

正如人们所想象的那样,添加更多的gpu意味着体系其余部分的开销将有可能跨越这些gpu。是以,如不雅你的应用法度榜样可扩大性比较好,每个体系可能获得10个gpu。

与AWS g2.16大年夜型实例类型比拟,总价约16,500美元的投资收受接收期在90天以内。以下是相干的托管费用。

将DeepLearning11 的10个GPU示例与DeepRearning10的8个GPU进行比较,你可以看到,在整系一嵌旧本方面,大年夜约25%的机能损掉较小:

DeepLearning11:情况身分

大年夜上图可以看到,大年夜约2600W确切是不错。根据模型在练习中的地位,这台机械在3.0 - 3.2kw范围内,持续功率消费更高,却没有触及到gpu的功率限制。

这个峰值袈溱深度进修范畴上,几个礼拜内应用不呵9依υ?题和框架,它的岑岭值仍不足4kW。应用4kW作为基本,就可以很轻易地计算出这种机械的托管成本。

正如你所看到的,12个月以来,托管成本方面开端缩小硬件成本。但其实,应用的是实际的数据中间实验室的托管费用。将上述与DeepLearning10的8个gpu进行比较,你可以看到添加500W额外计算的影响:


  推荐阅读

  内存价格疯涨!电脑整机会涨价吗?

2017年架构师最重要的48个小时 | 8折倒计时 作为电脑中弗成或缺的硬件之一,内存在以前一向都只能充当的副角, 因为其价格比拟CPU与显卡而言一向都处于不起眼的状况,花费者在选购电脑时内>>>详细阅读


本文标题:全面解读DeepLearning11深度学习服务器

地址:http://www.17bianji.com/lsqh/38296.html

关键词: 探索发现

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
自媒体专栏

评论

热度

精彩导读
栏目ID=71的表不存在(操作类型=0)