[原创] AI芯片独角兽Graphcore的底气​

2019-12-04 14:00:19 来源: 半导体行业观察


在AI芯片公司Graphcore CEO Nigel Toon看来,随着人工智能对芯片算力和带宽的需求越来越高,现在大多数的ASIC AI芯片并不能满足当下的需求。 为此打造一个全新架构的AI芯片就成为迫切需求。 这也正是Graphcore IPU(Artificial Intelligence/ Graph)正在做的事情。
按照Nigel Toon的观点,这个全新的芯片速度会非常快,可以支撑很多不同的神经系统,拥有极高的扩展性。 Arm联合创始人的Hermann Hauser甚至把Graphcore IPU成为芯片产业的第三次革命。 “这在计算机历史上只发生过三次,第一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。 他们的芯片是这个世界伟大新架构的一种”,Hermann Hauser说。

除了能获得这些业界大咖背书,Graphcore还因为其创新性不但拿到了红杉资本等知名机构的投资。 宝马、三星、微软、博世和戴尔等业界领先企业也对其青睐有加。 这让他们在成立短短三年后,就融到了3.25亿美金。

就在11月14日,Graphcore宣布了与微软的具体合作内容,并正式发布Microsoft Azure上Graphcore智能处理单元(IPU)的预览版。 这是重大公有云供应商首次提供Grapchore IPU,这些IPU从构建之初便旨在支持下一代机器学习。 微软和Graphcore已经紧密合作了两年多。 在此期间,由杰出工程师Marc Tremblay领导的微软团队一直在开发针对Azure的系统,并在IPU上提升高级机器视觉和自然语言处理(NLP)模型。 Azure上的Graphcore IPU预览版现已开放供用户注册,专注于突破NLP界限并在机器智能方面取得新突破的开发者可获得优先访问权限。
究竟这家英国芯片公司有何魅力? 让我们透过与其CEO的采访来揭开Graphcore的神秘面纱!

一个不同寻常的架构


Nigel Toon指出,IPU是专门为AI/Machine Learning设计的处理器。 其强大的并行处理能力实现了快速训练模型并进行超低延时运行,这也使的Graphcore能够在自然语言处理以及在理解自动驾驶视频方面取得重大进展。 因此,IPU强大的并行处理能力是我们区别于其他处理器的一个重要因素。
基于同一个IPU芯片,用户可以进行推理或训练。 这是我们在以前闻所未闻的。 而从Nigel Toon的介绍我们得知,这与他们的独特的架构设计有关:
首先, IPU采用大量片上SRAM,所以不需要外部DRAM。
其次, 它还支持all-to-all exchange,那就意味着从任何一个核到另外一个核,可以直接进行数据交换。
第三, IPU处理器的核的架构不同,Graphcore采用的是MIMD (Multiple instruction & Multiple date) 的架构。 目前看到也有一些 Graphcore 的竞争对手在做,但因为他们没有Graphcore的核间通信技术,所以他们的不同处理器之间的通信效率较之IPU更低,
第四, 大规模并行处理场景下处理器之间的通信问题十分关键,解决处理器之间通信效率也是个非常难的事情。 但Graphcore多核之间的通信有大量的创新,可以让软件工程师和程序员处理起来比较简单。 “例如我们有一个BSP的算法,是硬件和我们的软件Poplar一起协同工作的,这样对软件工程师来说,虽然处理器有1000多个核,7000多个thread,但是不需要担心通信的问题”,Nigel Toon强调。 “ BSP是在大规模的集群里面,很多人都部署了,只不过是用在主机之间,就是大规模的并行机制,在我们芯片上实现,同时我们另外一个叫Poplar的软件栈,Poplar 会针对你的神经网络来定义好什么时候做通信,如何做通信,这样就会非常简单”,Nigel Toon进一步指出。
“从架构的角度来看,这对我们非常重要。 因为随着机器学习演进,系统将能够从经验中学习。 推理性能表现的关键包括低延迟、能使用小模型、小批次(small batches),以及可能会尝试导入稀疏性(sparsity)的训练模型; 而IPU可以有效地完成所有这些事情”,Nigel Toon补充说。
他进一步指出,借助Graphcore的IPU,一个完整的机器学习模型可以在处理器内部生成。 而且IPU处理器具有数百兆字节的RAM,可在处理器上以1.6 GHz的速率全速运行。 具有高带宽内存(HBM)等技术的GPU可以提供每秒900 GB/s的内存带宽,而Graphcore的单个IPU处理器提供大约45 TB/s内存带宽,因此,Graphcore可以更快地操纵模型。 一个4U机箱中有16个IPU,它将使用户拥有无可比拟的内存带宽,其上运行了成千上万的线程,而且是同时运行,而这也是Graphcore得以加速机器智能工作的部分原因。
在问到这个IPU是面向什么应用的时候,Nigel Toon则用他的回答,给我们从另一个角度提升了对这个产品的了解。
他表示: “不管是什么样的神经网络,不管处理什么应用,最后在底层都会表征成一个计算图,IPU的设计就是来处理这些计算图的。 换而言之,不管是在处理图片也好,语言也好,最后就是个计算图”,“不过在我们往后在下一代产品发布的时候,可能会有一些微小的优化,但基本架构还是会维持当前的产品架构,只是处理器的能力强、规模更大,能支持更大的系统,但架构本质上还是当前的架构。 ”,Nigel Toon接着说。
而在实际应用中,Graphcore也迈出了重要一步。
日前,依赖于IPU的强悍性能,Graphcore宣布与与微软达成合作,并正式发布Microsoft Azure上Graphcore智能处理单元(IPU)的预览版。 这是公有云领导供应商首次提供GrapchoreIPU,这些IPU从构建之初便旨在支持下一代机器学习。 这对Graphcore而言是具有里程碑意义的时刻,证明了IPU硬件和Poplar软件栈的成熟性。
Graphcore同时也指出,金融行业的早期客户已经能够在IPU上仅用4.5分钟就可以训练它们专有的、优化的MCMC模型。 这在现有硬件则需要2个小时以上。 这表示训练加快了26倍。 即使使用未优化的、现成的TensorFlow代码,IPU仍将在45分钟内训练概率模型,而次优选择是400分钟。

未来的主要战场


虽然Nigel Toon在前面有说,IPU的特性,让他们能在很多市场能发挥作用。 但他也强调,IPU会有一些重点关注的市场,这一切是他基于对当下种类繁多的芯片的了解和市场的研究得出的结果。

首先,他指出,AI市场会有三类解决方案:

第一类是一些非常简单的小型化的加速产品, 用在手机、传感器或者摄像头里面。 但这个对厂商也有比较大的挑战,算法也在演进。 解决一个问题,然后会有新的问题出来。 Graphcore 并没有参与这个市场。
第二类是ASIC, 可能是对一些超大规模的公司,有超大规模的一类问题要解决,比如谷歌的TPU是一个例子,它用数学加速器来解决具体的问题;
第三类是可编程的处理器(Programmable Processor), 这个领域里面主要的玩家还是GPU。 这个市场也是Graphcore所聚焦的。 “我们认为未来还是会有非常多其他的应用场景,未来还是会有创新,未来会有巨大的市场份额的提升。 Graphcore要做一个非常灵活的处理器,我们是从0开始,专门针对AI做的处理器架构。 我们认为未来有很多新的AI应用,会在我们AI应用上面表现得更好,我们也有自己的领域和赛道”。
从上述描述可以看来,我们认为英伟达GPU所聚焦的市场将会是Graphcore瞄准打的第一个目标。
Nigel Toon也强调,如果只是针对基本的前馈卷积神经网络,GPU是一个非常好的解决方案,但随着网络变得越来越复杂,人们需要一个新的解决方案,这就是ASIC和FPGA产生的原因。 “某些创新者也告诉我们,GPU正在阻碍他们的创新”,Nigel Toon接着说。
“如果仔细看一下他们正在研究的模型类型,你会发现他们主要研究卷积神经网络的形式,因为递归神经网络和其他类型的结构,例如强化学习,并不能很好地映射到GPU。 由于没有足够良好的硬件平台,研究领域受到限制,而这正是我们将IPU推向市场的原因”,Nigel Toon告诉记者。
人们需要一种更高效、易于使用的为机器智能而设计的处理器,而这正是Graphcore所做的。 Graphcore认为通用IPU有机会形成截至目前最大的细分市场。 通过为上述所有问题提供更加高效的解决方案,Nigel Toon坚信他们可以引领该领域的行业标准。
从这一代IPU处理器的参数看来,它毫无疑问是迄今为止最复杂的处理器芯片。
在一个16纳米芯片上继承了几乎240亿个晶体管,每个芯片提供125Tflops运算能力。 一个标准4U机箱中可以插入8张卡,卡间通过IPU-Link 互连。 8张卡上的IPU提供了2Pflops的运算能力。 与芯片在CPU和GPU中的存在形式不同,它为机器智能提供了更高效的处理平台。 这个产品将用于云计算服务器,未来也会用于自动驾驶汽车。
IPU是一个通用的处理器,你也可以再起上面通过编程以惊人的效率来做许多不同的事情。 如果应用于云计算环境,这项技术更是可以非常轻松地解决问题。 它功能多样,易于编程,提供极为有效的结果。 但他真的会像Nigel Toon说的那样,引领该领域的行业标准。 或者如Hermann Hauser说的那样,开启第三次芯片革命。
这在当前我们无法给出答案,但显而易见的时,AI芯片的竞争开始进入下半场。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2148期内容,欢迎关注。

推荐阅读


先进制程DRAM抛弃了EUV?

关于芯片,这里有你没看过的硬核科普

功率器件市场,国内企业迎来好时机


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

中美半导体|AI |台积电 |英伟达 ASML RISC-V EDA|松下



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论