谷歌推出全新TPU，性能大增2.7倍

2021-05-19 14:00:44 来源: 半导体行业观察

点击

来源：内容由半导体行业观察（ID:icbank）编译自「 Venturebeat 」，谢谢。

在今天举办的Google I / O 2021上，Google正式宣布了其第四代张量处理单元（TPU），该公司声称可以在接近记录的时间内完成AI和机器学习训练工作量。谷歌表示，在对象检测，图像分类，自然语言处理，机器翻译和推荐基准等工作负载方面，TPUv4集群可以超越上一代TPU。

据介绍，TPUv4芯片提供的矩阵乘法TFLOP是第三代TPU（TPUv3）的两倍以上，其中一个TFLOP相当于每秒1万亿个浮点运算。矩阵通常用于表示输入到AI模型的数据。）。

它还提供了“显着”的内存带宽提升，同时受益于互连技术的未指定进步。谷歌表示，总体而言，在相同的64芯片规模下，不考虑软件带来的改善，TPUv4的性能平均要比TPUv3提升2.7倍。

Google的TPU是专用于加速AI的专用集成电路（ASIC）。它们是液冷的，旨在插入服务器机架中。交付多达100 petaflops的计算能力；并增强Google产品的功能，例如Google搜索，Google相册，Google翻译，Google助手，Gmail和Google Cloud AI API。谷歌在其年度I / O开发人员大会上宣布了2018年的第三代产品，今天早晨揭开了继任者的序幕，后者处于研究阶段。

领先的表现

根据Google的说法，TPUv4集群（即“ pod”）共有4,096个芯片，互连的带宽是大多数其他网络技术的10倍。这使TPUv4 Pod可以提供超过exaflop的计算能力，这相当于大约1000万台平均性能达到峰值的笔记本电脑处理器。

Google首席执行官Sundar Pichai在主题演讲中说：“这对我们来说是一个历史性的里程碑——以前要获得exaflop的功能，您需要制造定制的超级计算机。” “但是我们今天已经部署了许多这样的设备，并且很快将在我们的数据中心中安装数十个TPUv4四个Pod，其中许多将以90％或接近90％的无碳能源运行。”

今年的MLPerf结果表明，谷歌的第四代TPU不容小觑。在涉及使用ImageNet数据集对算法（ResNet-50 v1.5）进行至少75.90％的准确度训练的图像分类任务中，谷歌全新TPU在1.82分钟内完成了256个。这几乎与768个Nvidia A100图形卡，192个AMD Epyc 7742 CPU内核（1.06分钟）以及512个华为AI优化的Ascend910芯片与128个Intel Xeon Platinum 8168内核（1.56分钟）组合在一起的速度一样快。

当负责在大型维基百科语料库上训练BERT模型时，第四代TPU的得分也很高。使用256个第四代TPU进行培训需要1.82分钟，仅比使用4,096个第三代TPU进行培训所需的0.39分钟稍慢。同时，使用Nvidia硬件要达到0.81分钟的培训时间，需要2,048张A100卡和512个AMD Epyc 7742 CPU内核。

谷歌表示，从今年晚些时候开始，云客户将可以使用TPUv4 pod。

★ 点击文末【阅读原文】，可查看本文原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2680内容，欢迎关注。

谷歌推出全新TPU，性能大增2.7倍

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

谷歌推出全新TPU，性能大增2.7倍

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月