分类分类
2016-08-18 09:14作者:下载吧
硬件和算法在人工智能领域的作用可以说是各占一半的,而在芯片层面上,业界几乎观点一致——GPU在人工智能深度学习算法上的重要性远高于CPU,这也就是为何NVIDIA在人工智能领域的风头甚至盖过了英特尔。毫无疑问,GPU是当下训练深度学习神经网络最热门的方法,这种方案已经受到了谷歌、微软、IBM、丰田以及百度等企业的青睐,因此GPU厂商在最近两年逐渐成为众企业膜拜的对象。
作为GPU领域的绝对主导者,NVIDIA最近动作频频,今年早些时候公司专为深度神经网络推出了Tesla P100 GPU,并且发布了基于该GPU的单机箱深度学习超级计算机——NVIDIA DGX-1。
如今这款深度学习超级计算机已经问世,NVIDIA CEO黄仁勋日前将DGX-1交付给了马斯克创办的人工智能项目OpenAI,OpenAI会用DGX-1做什么项目?如何使用?还不得而知,不过我们可以先聊一聊这款深度学习超级计算机到底是什么?它有什么牛逼的地方。
深度学习超级计算机是什么?
顾名思义,深度学习超级计算机是深度学习和超级计算机的结合体,我们所熟知的“天河一号”、“天河二号”等都是超级计算机,当然不仅如此,通常情况下具备高性能计算(HPC)的计算机都可算作超级计算机,如NVIDIA的Tesla系列。
因为深度学习神经网络尤其是几百上千层的神经网络需对计算和吞吐能力的需求非常高,GPU对处理复杂运算拥有天然的优势:它有出色的浮点计算性能,可以同时保证分类和卷积的性能以及精准度。
所以搭载GPU的超级计算机已经成为训练各种深度神经网络的不二选择。例如在谷歌Brain项目中,其3台机器中配置了12颗GPU,性能就达到了包含1000个节点的CPU簇的水平。
NVIDIA DGX-1性能如何?
黄仁勋曾表示,3000人花费3年时间才研发出来这样一款DGX-1,深度学习超级计算机研发的难度之大可见一斑。
根据NVIDIA官方的介绍,DGX-1的规格如下:
半精度 (FP16) 峰值性能高到可达 170 Teraflops;
8 个 Tesla P100 GPU 加速器,每颗 GPU 16GB 内存;
NVLink Hybrid Cube Mesh (NVLink 混合立方网格);
7TB 固态硬盘 DL 高速缓存;
双万兆以太网,四路 InfiniBand 100Gb 网络连接;
功耗:3U – 3200W。
因为NVIDIA将这些硬件设计在了一个机箱内,所以DGX-1被称为单机箱深度学习超级计算机。
Tesla P100有153亿个16nm FinFET晶体管,其核心面积达到了610mm,按照黄仁勋的说法,这款GPU是迄今为止比较大的芯片。
DGX-1集成的8个16GB显存GPU吞吐量相当于 250台传统服务器的水平,其配置的7 TB固态硬盘用于储存神经网络训练的大量原始数据。
除此之外,DGX-1系统还包含一套深度学习软件,即深度学习GPU训练系统 (DIGITS),它可用于设计深度神经网络 (DNN),据了解DGX-1可以将深度学习的培训速度加快75倍,将CPU性能提升56倍。这是什么样的概念呢?
英特尔双路至强系统需要250多个节点和150个小时来训练Alexnet,而DGX-1只需要一个节点2个小时,后者在性能和节点总带宽上都有明显的优势。当然在性能的提升下,功耗达到了3200W,售价更是高达129000美元。
GPU是唯一选择吗?
虽然GPU相比CPU有一定的优势,但是在FPGA和神经网络芯片面前,GPU依然要逊色不少。
有研究人员测试,相比GPU,FPGA的架构更灵活,单位能耗下性能更强。深度学习算法在FPGA上能够更快、更有效地运行,而且功耗也能做到更低。英特尔甚至为此推出了FPGA和CPU的混合芯片架构。
另一个研究方向就是神经网络芯片,这一领域的代表当属IBM的TrueNorth和寒武纪的DianNao。根据模拟实验测试的结果,采用DianNaoYu指令集的寒武纪深度学习处理器相对于x86指令集的CPU有两个数量级的性能提升;而IBM的Truenorth里含有54亿个低成本晶体管神经突触芯片,功耗却低至700毫瓦,在性能以及功耗的优化上都提升到了一个新的高度。
寒武纪神经网络处理器研究者、中国科学院计算技术研究所研究员陈云霁表示,“加速芯片是神经网络芯片的最终形态。”
但是理想很丰满,现实很骨感!就目前来说,GPU是唯一实现大规模应用的方案,FPGA或者神经网络芯片想要取代GPU的地位只能说是路漫漫了!
相关文章