谷歌新一代TPU的更多细节曝光

2021-05-22 14:00:17 来源: 半导体行业观察

点击

来源：内容由半导体行业观察（ID:icbank）编译自「 nextplatform 」，谢谢。

Google最近谈论了它将如何致力于推动行业在SoC级别进行创新，并设计了自己的计算引擎，但该公司仍在构建自己的Tensor处理单元（简称TPU），以支持其TensorFlow机器学习框架及其在Google内部驱动应用程序，并为Google Cloud客户提供服务。

如果您希望在本周的Google I / O 2021会议上从搜索引擎巨头和机器学习先驱那里获得有关TPUv4架构的重大启示，那么像我们一样，您无疑会非常失望。

在他两个小时的主题演讲中，谷歌首席执行官Sundar Pichai、也是谷歌母公司Alphabet的首席执行官只是简短地谈论了由谷歌设计并可能由台湾制造的TPUv4定制ASIC。顾名思义，TPUv4芯片是Google的第四代Bfloat机器学习处理“野兽”，它与主机系统和网络结合在一起，构成了定制的超级计算机。

Pichai在主题演讲中解释说：“这是我们在Google上部署的最快的系统，对我们来说是一个历史性的里程碑。” “以前要获得exaflops，您需要构建一台定制的超级计算机。但是我们今天已经部署了许多此类设备。很快我们的数据中心将拥有数十个TPUv4 Pods，其中许多Pods将以90％或接近90％的无碳能源运行。我们的TPUv4 Pods将于今年晚些时候提供给我们的云客户。

看到这种创新步伐，真是太令人兴奋了。”

首先，无论Pichai说什么，当Google在其数据中心中安装TPU Pod来运行自己的AI工作负载并允许其他人使用Google Cloud及其AI平台堆栈运行它们时，谷歌正在构建的服务绝对是定制的超级计算机。实际上，这是定制超级计算机的定义。

Pichai对于TPUv4架构并没有多说什么，但是我们可以从他所说的内容中推断出一些东西。

如上图，这会让某些人感到困惑。

如果这只是一个实际的技术演示，Pichai可能会说，由于制程缩小，TPUv4以相同的时钟速度运行的计算单元是原来的两倍，因此每个TPU插槽可以拥有两倍的计算元素-大概是至少两倍的HBM2内存和至少两倍的聚合带宽来平衡它。但是Pichai没有说任何话。

但是实际上，这就是我们认为Google所做的事情。坦率地说，这不是太大的扩展，从技术上讲，如果这是所有谷歌已经完成从TPUv3移动到TPUv4。希望还有更多。

也许有必要进行一些审查，然后我们将解决“快2倍以上”的意思。前两代TPU和现在推出的TPU是标量/矢量处理器，带有一堆128×128 Bfloat16矩阵数学引擎，一些HBM2内存用于数学单元。

以下图表总结了先前的TPUv2和TPUv3单元以及采用它们的服务器主板：

基本的TPU核心是标量/向量单元-鉴于英特尔，AMD，Power和Arm处理器都具有这些元素的组合，因此我们如今将其称为CPU-具有Bfloat矩阵数学单元，Google将其称为MXU 。TPU芯片上有两个内核。MXU可以每个时钟处理16384个Bfloat格式的浮点运算，并且使用TPUv2内核可以驱动23 teraflops的Bfloat操作，每个芯片可以达到46 teraflops。

我们从来不知道时钟速度，但是我们猜想它就像GPU一样在1 GHz以上和2 GHz以下的某个地方。实际上，我们对TPUv2的猜测是1.37 GHz，而对于TPUv3，它的猜测约为1.84 GHz。TPUv3的瓦特估算值非常低。我们认为TPUv2是在20纳米工艺中蚀刻的，而TPUv3是在16纳米或12纳米工艺中蚀刻的，我们猜测Google已将TPUv4缩小到了7纳米，并且仍然保持在每个socket中450瓦的散热范围内，需要TPUv3 Pods。我们认为TPUv4没有太多的散热空间可以提高时钟速度。如果照原样，增加的内存可能会将其推到500瓦。

无论如何，借助TPUv3，制程缩减，使Google可以将两个MXU放在标量/矢量单位上，从而使每个内核在恒定频率下的原始性能提高了一倍；我们怀疑Google还能提高时钟速度。TPUv3每个芯片有两个内核，并将内存增加了一倍，每个内核高达16 GB的HBM2，而TPUv2芯片则为每个内核8 GB。

因此我们认为Google已经把TPU推进到7纳米，并且在芯片上获得了四个内核。它可能是通过创建单片TPUv4芯片来实现的，或者可能正在尝试使用Chiplet，并创建了将两个或四个小芯片相互链接到一个插槽中的互连。这实际上取决于Socket对延迟敏感的工作负载的程度。因为HBM2内存挂在MXU上，所以只要MXU都具有自己的HBM2控制器，我们真的认为这没什么大不了的。

因此，如果我们这样做，并且希望提高TPUv4芯片的良率并降低芯片成本（但要在小芯片封装上付一些钱），我们将采用四个TPUv3内核并将它们分成小芯片来制造一个TPUv4 Socket。但看起来Google坚持采用整体设计。

我们还将尽可能提高功耗。TPUv2为280瓦，而TPUv3则以高达450瓦，以驱动123 teraflops的性能。（从TPUv2到TPUv3的时钟速度提高了33.7％，但为此付出了60.7％的功耗增加，从280瓦增加到450瓦来支付。）

我们认为TPUv4设备上的HBM内存增加了一倍，但每个内核的HBM2内存可能相同，每个内核为16 GB。每个设备将是64 GB，这很多。（是的，我们知道Nvidia可以为每台设备提供80 GB的存储空间。）。Google很有可能将其推高到每台设备128 GB或每核32 GB的存储空间。这实际上取决于散热和成本。但是我们确实知道，谷歌和其他AI研究人员确实希望这些设备上有更多的HBM2内存。我们认为TPUv4器件的时钟速度极不可能提高很多。谁想要600瓦的零件？

现在，让我们谈谈上面的“快2倍以上”的评论。去年7月，Google发布了一些早期数据，将MLPerf AI基准套件上的TPUv4性能与TPUv3设备进行了比较。看一看：

在MLPerf机器学习培训基准测试的各个组件上，从具有64个芯片（128核）的TPUv3机器到也具有64个芯片（和128核）的TPUv4机器，其性能提高范围从2.2倍至3.7倍，平均约为2.7倍对于这五个测试。因此，这可能是Pichai所说的“快2倍以上”。但这不是他的图表所显示的。2X硬件峰值性能容量和MLPerf性能平均提高2.7X之间的差异是-您可以猜到-软件优化。

TPU Pods几乎按照以下方式设计而成。这是TPUv2 Pod：

这是TPUv3 Pod：

最大的TPUv2映像是512核心和4 TB的HBM2内存，最大的TPUv3映像是2,048核心和32 TB的内存。

现在，Pichai说TPUv4 Pod将具有“ 4,096芯片”，并且假设他不是核心，那可能意味着它具有4,096个插槽，每个插槽都具有单片芯片。这与Pichai所说的相符，并以Bfloat16精度使TPUv4 pod达到了1 exaflops以上。（相比之下，TPUv2 Pods只能扩展到256芯片和11.8 petaflops，而TPUv3 Pods只能扩展到1,024芯片和125.9 petaflops。）1 exaflops假定TPUv4插槽的时钟速度和散热量大致相同。TPUv3套接字和Google将socket增加了三倍。

我们还认为，TPU实例将能够在单个系统映像中扩展所有4,096个芯片和插槽，并具有至少64 TB的聚合HBM2内存。而且由于软件的改进，更多的峰值性能将推动工作量。我们将在Google实际告诉我们更多信息时看到多少。

最后一件事：Pichai还表示，TPUv4 Plds具有“每个芯片的互连带宽在规模上是其他任何网络技术的10倍”。与上图中的TPUv3卡相比，在查看TPUv4服务器卡时，看起来每个TPUv4插槽都有自己的网络接口。TPUv3卡有四个共享两个互连的插槽。（或者，看起来像那样。我们不确定这是正确的。那些可能是两端口路由器芯片。）。

我们期待更多地了解TPUv4的互连。

★ 点击文末【阅读原文】，可查看本文原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2683内容，欢迎关注。

谷歌新一代TPU的更多细节曝光

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

谷歌新一代TPU的更多细节曝光

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月