谷歌推出全新TPU,性能大增2.7倍

2021-05-19 14:00:44 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)编译自「 Venturebeat 」,谢谢。


在今天举办的Google I / O 2021上,Google正式宣布了其第四代张量处理单元(TPU),该公司声称可以在接近记录的时间内完成AI和机器学习训练工作量。谷歌表示,在对象检测,图像分类,自然语言处理,机器翻译和推荐基准等工作负载方面,TPUv4集群可以超越上一代TPU。

据介绍,TPUv4芯片提供的矩阵乘法TFLOP是第三代TPU(TPUv3)的两倍以上,其中一个TFLOP相当于每秒1万亿个浮点运算。矩阵通常用于表示输入到AI模型的数据。)。

它还提供了“显着”的内存带宽提升,同时受益于互连技术的未指定进步。谷歌表示,总体而言,在相同的64芯片规模下,不考虑软件带来的改善,TPUv4的性能平均要比TPUv3提升2.7倍。

Google的TPU是专用于加速AI的专用集成电路(ASIC)。它们是液冷的,旨在插入服务器机架中。交付多达100 petaflops的计算能力;并增强Google产品的功能,例如Google搜索,Google相册,Google翻译,Google助手,Gmail和Google Cloud AI API。谷歌 在其年度I / O开发人员大会上宣布了2018年的 第三代产品,今天早晨揭开了继任者的序幕,后者处于研究阶段。

领先的表现


根据Google的说法,TPUv4集群(即“ pod”)共有4,096个芯片,互连的带宽是大多数其他网络技术的10倍。这使TPUv4 Pod可以提供超过exaflop的计算能力,这相当于大约1000万台平均性能达到峰值的笔记本电脑处理器。

Google首席执行官Sundar Pichai在主题演讲中说:“这对我们来说是一个历史性的里程碑——以前要获得exaflop的功能,您需要制造定制的超级计算机。” “但是我们今天已经部署了许多这样的设备,并且很快将在我们的数据中心中安装数十个TPUv4四个Pod,其中许多将以90%或接近90%的无碳能源运行。”

今年的MLPerf结果表明,谷歌的第四代TPU不容小觑。在涉及使用ImageNet数据集对算法(ResNet-50 v1.5)进行至少75.90%的准确度训练的图像分类任务中,谷歌全新TPU在1.82分钟内完成了256个。这几乎与768个Nvidia A100图形卡,192个AMD Epyc 7742 CPU内核(1.06分钟)以及512个华为AI优化的Ascend910芯片与128个Intel Xeon Platinum 8168内核(1.56分钟)组合在一起的速度一样快。

当负责在大型维基百科语料库上训练BERT模型时,第四代TPU的得分也 很高。使用256个第四代TPU进行培训需要1.82分钟,仅比使用4,096个第三代TPU进行培训所需的0.39分钟稍慢。同时,使用Nvidia硬件要达到0.81分钟的培训时间,需要2,048张A100卡和512个AMD Epyc 7742 CPU内核。

谷歌表示,从今年晚些时候开始,云客户将可以使用TPUv4 pod。


★ 点击文末 【阅读原文】 ,可查看本文原文链接!


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2680内容,欢迎关注。

推荐阅读


日本半导体卷土重来,能成吗?

谷歌的芯片布局

深入分析5nm芯片


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|美国|华为|苹果

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

点击阅读原文,可查看本文
原文链接!
责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论