谷歌新一代TPU的更多细节曝光

2021-05-22 14:00:17 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)编译自「 nextplatform 」,谢谢。


Google最近谈论了它将如何致力于推动行业在SoC级别进行创新,并设计了自己的计算引擎,但该公司仍在构建自己的Tensor处理单元(简称TPU),以支持其TensorFlow机器学习框架及其在Google内部驱动应用程序,并为Google Cloud客户提供服务。

如果您希望在本周的Google I / O 2021会议上从搜索引擎巨头和机器学习先驱那里获得有关TPUv4架构的重大启示,那么像我们一样,您无疑会非常失望。

在他两个小时的主题演讲中,谷歌首席执行官Sundar Pichai、也是谷歌母公司Alphabet的首席执行官只是简短地谈论了由谷歌设计并可能由台湾制造的TPUv4定制ASIC。顾名思义,TPUv4芯片是Google的第四代Bfloat机器学习处理“野兽”,它与主机系统和网络结合在一起,构成了定制的超级计算机。


Pichai在主题演讲中解释说:“这是我们在Google上部署的最快的系统,对我们来说是一个历史性的里程碑。” “以前要获得exaflops,您需要构建一台定制的超级计算机。但是我们今天已经部署了许多此类设备。很快我们的数据中心将拥有数十个TPUv4 Pods,其中许多Pods将以90%或接近90%的无碳能源运行。我们的TPUv4 Pods将于今年晚些时候提供给我们的云客户。

看到这种创新步伐,真是太令人兴奋了。”

首先,无论Pichai说什么,当Google在其数据中心中安装TPU Pod来运行自己的AI工作负载并允许其他人使用Google Cloud及其AI平台堆栈运行它们时,谷歌正在构建的服务绝对是定制的超级计算机。实际上,这是定制超级计算机的定义。

Pichai对于TPUv4架构并没有多说什么,但是我们可以从他所说的内容中推断出一些东西。


如上图,这会让某些人感到困惑。

如果这只是一个实际的技术演示,Pichai可能会说,由于制程缩小,TPUv4以相同的时钟速度运行的计算单元是原来的两倍,因此每个TPU插槽可以拥有两倍的计算元素-大概是至少两倍的HBM2内存和至少两倍的聚合带宽来平衡它。但是Pichai没有说任何话。

但是实际上,这就是我们认为Google所做的事情。坦率地说,这不是太大的扩展,从技术上讲,如果这是所有谷歌已经完成从TPUv3移动到TPUv4。希望还有更多。

也许有必要进行一些审查,然后我们将解决“快2倍以上”的意思。前两代TPU和现在推出的TPU是标量/矢量处理器,带有一堆128×128 Bfloat16矩阵数学引擎,一些HBM2内存用于数学单元。

以下图表总结了先前的TPUv2和TPUv3单元以及采用它们的服务器主板:


基本的TPU核心是标量/向量单元-鉴于英特尔,AMD,Power和Arm处理器都具有这些元素的组合,因此我们如今将其称为CPU-具有Bfloat矩阵数学单元,Google将其称为MXU 。TPU芯片上有两个内核。MXU可以每个时钟处理16384个Bfloat格式的浮点运算,并且使用TPUv2内核可以驱动23 teraflops的Bfloat操作,每个芯片可以达到46 teraflops。

我们从来不知道时钟速度,但是我们猜想它就像GPU一样在1 GHz以上和2 GHz以下的某个地方。实际上,我们对TPUv2的猜测是1.37 GHz,而对于TPUv3,它的猜测约为1.84 GHz。TPUv3的瓦特估算值非常低。我们认为TPUv2是在20纳米工艺中蚀刻的,而TPUv3是在16纳米或12纳米工艺中蚀刻的,我们猜测Google已将TPUv4缩小到了7纳米,并且仍然保持在每个socket中450瓦的散热范围内,需要TPUv3 Pods。我们认为TPUv4没有太多的散热空间可以提高时钟速度。如果照原样,增加的内存可能会将其推到500瓦。

无论如何,借助TPUv3,制程缩减,使Google可以将两个MXU放在标量/矢量单位上,从而使每个内核在恒定频率下的原始性能提高了一倍;我们怀疑Google还能提高时钟速度。TPUv3每个芯片有两个内核,并将内存增加了一倍,每个内核高达16 GB的HBM2,而TPUv2芯片则为每个内核8 GB。

因此我们认为Google已经把TPU推进到7纳米,并且在芯片上获得了四个内核。它可能是通过创建单片TPUv4芯片来实现的,或者可能正在尝试使用Chiplet,并创建了将两个或四个小芯片相互链接到一个插槽中的互连。这实际上取决于Socket对延迟敏感的工作负载的程度。因为HBM2内存挂在MXU上,所以只要MXU都具有自己的HBM2控制器,我们真的认为这没什么大不了的。

因此,如果我们这样做,并且希望提高TPUv4芯片的良率并降低芯片成本(但要在小芯片封装上付一些钱),我们将采用四个TPUv3内核并将它们分成小芯片来制造一个TPUv4 Socket。但看起来Google坚持采用整体设计。

我们还将尽可能提高功耗。TPUv2为280瓦,而TPUv3则以高达450瓦,以驱动123 teraflops的性能。(从TPUv2到TPUv3的时钟速度提高了33.7%,但为此付出了60.7%的功耗增加,从280瓦增加到450瓦来支付。)

我们认为TPUv4设备上的HBM内存增加了一倍,但每个内核的HBM2内存可能相同,每个内核为16 GB。每个设备将是64 GB,这很多。(是的,我们知道Nvidia可以为每台设备提供80 GB的存储空间。)。Google很有可能将其推高到每台设备128 GB或每核32 GB的存储空间。这实际上取决于散热和成本。但是我们确实知道,谷歌和其他AI研究人员确实希望这些设备上有更多的HBM2内存。我们认为TPUv4器件的时钟速度极不可能提高很多。谁想要600瓦的零件?

现在,让我们谈谈上面的“快2倍以上”的评论。去年7月,Google发布了一些早期数据,将MLPerf AI基准套件上的TPUv4性能与TPUv3设备进行了比较。看一看:


在MLPerf机器学习培训基准测试的各个组件上,从具有64个芯片(128核)的TPUv3机器到也具有64个芯片(和128核)的TPUv4机器,其性能提高范围从2.2倍至3.7倍,平均约为2.7倍对于这五个测试。因此,这可能是Pichai所说的“快2倍以上”。但这不是他的图表所显示的。2X硬件峰值性能容量和MLPerf性能平均提高2.7X之间的差异是-您可以猜到-软件优化。

TPU Pods几乎按照以下方式设计而成。这是TPUv2 Pod:


这是TPUv3 Pod:


最大的TPUv2映像是512核心和4 TB的HBM2内存,最大的TPUv3映像是2,048核心和32 TB的内存。

现在,Pichai说TPUv4 Pod将具有“ 4,096芯片”,并且假设他不是核心,那可能意味着它具有4,096个插槽,每个插槽都具有单片芯片。这与Pichai所说的相符,并以Bfloat16精度使TPUv4 pod达到了1 exaflops以上。(相比之下,TPUv2 Pods只能扩展到256芯片和11.8 petaflops,而TPUv3 Pods只能扩展到1,024芯片和125.9 petaflops。)1 exaflops假定TPUv4插槽的时钟速度和散热量大致相同。TPUv3套接字和Google将socket增加了三倍。

我们还认为,TPU实例将能够在单个系统映像中扩展所有4,096个芯片和插槽,并具有至少64 TB的聚合HBM2内存。而且由于软件的改进,更多的峰值性能将推动工作量。我们将在Google实际告诉我们更多信息时看到多少。

最后一件事:Pichai还表示,TPUv4 Plds具有“每个芯片的互连带宽在规模上是其他任何网络技术的10倍”。与上图中的TPUv3卡相比,在查看TPUv4服务器卡时,看起来每个TPUv4插槽都有自己的网络接口。TPUv3卡有四个共享两个互连的插槽。(或者,看起来像那样。我们不确定这是正确的。那些可能是两端口路由器芯片。)。

我们期待更多地了解TPUv4的互连。


★ 点击文末 【阅读原文】 ,可查看本文原文链接!


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2683内容,欢迎关注。

推荐阅读


1nm攻坚战打响

EDA开源,前路几何?

8吋晶圆代工市场再添变数


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|美国|华为|苹果

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!


责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论