AWS Graviton3:遵循摩尔定律又有自己节奏

2021-12-06 14:00:18 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank) 转载自公众号 企业存储技术 ,作者: Winnie shao ,谢谢。


亚马逊云科技的 Graviton 3


1、 Graviton3的设计与创新


亚马逊云科技在2018年re:Invent大会发布了Graviton1, 2019年发布Graviton2,因此几乎从去年开始,媒体和业界人士就预测今年要发Graviton3了。果然第一天CEO keynote 就公布了Graviton 3,550亿晶体管,比300亿晶体管的Graviton2 翻倍。去年Graviton2就已经作为半导体行业的优秀产品上了摩尔定律的追踪图,Graviton3这个表现也一定可以入选的。

不仅仅是晶体管数目,如下图,从2018年的Graviton第一代,到今年的Graviton 3,可以清楚的看到,一代一次显著性能的飞跃。
注: 下面 红色 字段为作者推测,非官方信息


其实无论是用Chiplet设计,还是采用DDR5、PCIe Gen5、5nm工艺,先进归先进,但是阿里平头哥10月发布的的倚天710也都有,随后的Intel,AMD也都有,因此算是常规操作。不过Graviton系列的功耗,是显著低于前面说到的几个芯片的。以前,我一直没有想明白这个参数设计,直到看到Amazon C7g的服务器开盖图。这是在一个机箱内放了3个Graviton3,成为一个3节点的高密度服务器。换句话说,一个机箱内放入3个64核的服务器节点,如果换算成常规2路CPU,则相当于每个CPU是96核。如果Graviton2是常规的2路服务器设计,再考虑上主频的提升100Mhz,那么Graviton3的服务器是Graviton 2性能近2倍。这非常符合亚马逊云科技的本色,他们追求的是相同总功耗下的整服务器/整机架的性能最大提升,从芯片设计阶段,就通盘考虑过从服务器节点——到机架整体的合理功耗预算分配,而才能确定的设计方案。
最后一定要补上一句, 亚马逊云科技能做这样设计3节点服务器的另一个原因,是因为他们有能够支持多服务节点的Nitro卡,否则每个节点都需单独配网卡,会部分抵消高密度服务器设计的优势。

2、 CPU做机器学习


Amazon Graviton 3的设计中,还有一点要特别画一个重点。它支持了bfloat16,并且提升了3倍的机器学习性能。Intel的cooper lake、AMD的Zen4、IBM Power10也都支持了bfloat16,而且都3倍、甚至20倍的提升了机器学习的性能。CPU阵营难得一见的齐心合力,打算增强自己的人工智能业务能力。

3、与Graviton3同步的C7g实例标志着arm服务器生态成熟


除了Graviton3 在芯片、服务器上的各种创新之外,还有一点和2019年Graviton2的发布不一样。与Graviton3同时发布的还有一个实例Amazon C7g,虽然还是预览版,但是相对于Graviton2发布3个月之后才发布实例,AmazonGraviton家族的实例研发节奏明显快了。相对于同行的仅仅芯片,尚无实例上线的时间的新闻发布,Graviton3不仅仅有芯片、有服务器,还有实例预览,甚至还有客户的背书,产品成熟度有明显优势。
和Graviton3翻倍的浮点性能,3倍的机器学习性能相呼应。Amazon C7g是一个定位于高性能工作负载的实例。亚马逊云科技推荐的应用,包括高性能计算、批处理、电子设计自动化(EDA)、媒体编码、科学建模和基于CPU的机器学习推理。这跟当年Graviton1支持的是 Web 服务器、容器化微服务、数据/日志处理和其它可以在更小的内核上运行的轻量级工作负载,不可同日而语了。
其实Amazon Graviton2 处理器已经在性能和功能上都实现了巨大的飞跃,成为ARM阵营的领头羊。它们为 Amazon EC2 通用型(M6g、M6gd、T4g)、计算优化型(C6g、C6gd、C6gn)和内存优化型(R6g、R6gd、X2gd)实例提供支持,工作负载类型相当广泛。本次大会上又发布的AmazonG5g,这是一个Graviton + Nvidia T4G的组合,还有两个配合最新的NitroSSD的存储优化实例Im4gn and Is4gen。最后要重点提一下,数据库的标杆产品SAPHANA也支持Graviton家族了,这不仅仅是Graviton家族的成功,更是ARM服务器生态的一大步。
其实从arm进入服务器市场开始,对于arm是否能撬动服务器生态持怀疑态度。从三大Linux,到Java OpenJDK、gcc/LLVM,到Ngnix、MySQL、Redis,arm在开源软件阵营获得了很好的支持。但是像SAP HANA这样的ISV( 独立软件提供商 )的支持,是Graviton家族开拓arm服务器生态的重要里程碑事件。
不仅仅是生态成熟,实例丰富。Graviton3再次提升了实际应用性能。在亚马逊云科技展示的F1应用测试中,Graviton3比Graviton2 快40%。对于Nginx,Graviton3有超60%的性能提升,其它应用,也至少有25%的性能提升。


小结


现在回头看当年3.5亿美金收购Annapurna lab真是回报超高。先是业界领先的Nitro系列,接着是Graviton arm CPU家族,再接着是机器学习两件套支持推理的inferentia和支持训练的Trainium。数据中心的三大芯片,DPU、CPU、AIxPU,整整齐齐。
亚马逊云科技的CEO在采访中谈到芯片创新的时候说,这是改变游戏规则的能力。Graviton产品家族验证了从借助arm CPU IP的敏捷芯片设计,到芯片和服务器联合设计,到快速部署上云的互联网速度。这是一个用创新推动高质量服务的时代。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2880内容,欢迎关注。

推荐阅读


CMOS图像传感器何去何从?

本土汽车芯片多路出击

汽车芯片真的那么缺吗?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论