GPU,正式迈入Chiplet时代

2022-06-24 14:00:18 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank) 编译自tomshardware ,谢谢。

最近,外媒tomshardware与 AMD 高级副总裁、企业研究员兼产品技术架构师 Sam Naffziger 就过去几年 Radeon 显卡的发展情况以及对未来的预测进行了交谈。AMD 最近提供了有关其即将推出的RDNA 3 GPU 架构的一些诱人细节,该架构计划在今年年底前推出,采用基于Chiplet的设计,并为我们的采访和问答环节提供了背景。我们已经进行了讨论并将其提炼为关键点,因此我们不会以采访的形式呈现。


Naffziger 已经在 AMD 工作了 16 年,负责多个产品领域,专注于推动更高的每瓦性能以及提高 AMD CPU 和 GPU 的整体竞争力。他也是 AMD Chiplet架构背后的主要人物之一,该架构已在 Ryzen 和 EPYC CPU 系列中证明非常成功,现在将以某种形式出现在 AMD RDNA 3 显卡中。


Naffziger 在本次采访中概述了公司面临的挑战,以及他认为创新技术(如基于Chiplet的 GPU 架构)如何提高性能和能效。


撞上电源墙



在现代微处理器设计的核心,功耗和效率正变得越来越成问题,没有一家公司能逃避这个副作用带来的影响。所有的迹象也都表明,下一代 GPU 的功耗会增加:PCIe 5.0 电源接口和即将推出的支持它的电源可以通过单个 16 针连接器提供高达 600W 的功率,预示着更广泛的行业需求将转向更高功率的 GPU。


众所周知,Nvidia 的 Ada 架构将推动比我们过去看到的更高的功率限制——目前的传言表明,我们可能会看到 450W TBP(典型的板卡功率),甚至可能会看到顶级 RTX 40 系列的 600W TBP GPU。目前还没有关于 AMD RDNA 3 的 TBP 的消息,但公平地说,我认为他们可以遵循同样的趋势。


因此,虽然我们的谈话集中在 AMD 提高效率的方法上,但总体功耗问题仍然存在。Naffziger也 证实我们可以预期下一代 GPU 的总功耗会增加,但解释了关注效率如何可以最大限度地提高性能。


Naffziger 解释说:“这确实是物理学的基本原理推动了这一点。” “如果有的话,对游戏和计算性能的需求正在加速,与此同时,底层工艺技术以及改进速度正在显著放缓 。所以功率水平只会继续上升。现在,我们有一个多年的路线图,利用非常显著的效率改进来抵消这条曲线,但趋势就在那里。”


AMD 声称 RDNA 和 RDNA 2 的每瓦性能提高了 50%,并且它的目标是使用 RDNA 3 将每瓦性能再提高 50%。这可能意味着很多不同的事情:在相同功率下性能提高 50% , 相同的性能,同时减少 33% 的功耗,或者沿着性能和功率曲线的其他位置。另请注意,与 Nvidia 和 Intel 一样,AMD 只需要有一个特定的场景,它可以说每瓦特的性能提高了 50% 即可获得此类收益。


Naffziger 解释了 AMD 在其先前的 RDNA 2 架构中看到的一些改进。例如,如果它可以在 2.5 GHz 和 1.0V 而不是 1.2V 下运行,则后者需要多 40% 的功率。Naffziger 表示,通过利用其 CPU 设计团队的专业知识,AMD 能够通过 RDNA 3 驱动更高的时钟频率,同时保持高效。AMD 长期以来一直在讨论其“cross-pollinating”CPU 和 GPU 设计团队的战略,将双方最好的技术带到每个新的 CPU 和 GPU 设计中。Naffziger 表示,当前的 GPU 内核“本质上更节能”,但仍需要做出商业决策。


“性能为王,”Naffziger 说,“但即使我们的设计更节能,这并不意味着如果竞争对手做同样的事情,你就不会提高功率水平。只是他们会有把他们推得比我们要高得多。”


换句话说,如果与 Nvidia 类似的 AMD 最终增加其顶级 RDNA 3 显卡的 TBP,请不要感到惊讶。


功率效率和每瓦性能



摩尔定律的改进速度放缓的根本挑战必须通过巧妙的工程和对功率效率的关注来抵消,而 AMD 在这一领域已经证明了自己。


目前,AMD 的 Zen 3 CPU 在效率和每瓦性能方面通常领先于英特尔,不过我们必须看看Zen 4和Ryzen 7000的变化。此外,AMD 的 RDNA 2 GPU 在效率上也倾向于击败竞争对手 Nvidia 的 GPU,具体取决于您比较的具体型号。这一点至关重要,因为近年来我们已经看到更高功率的 CPU 和 GPU 迅速升级,从而驱动更多热量和昂贵的冷却解决方案。


具体来看 AMD 过去两代的图形部件,与上一代 Vega 和 Polaris 架构相比,RDNA 在 2019 年的每瓦性能明显提高了 50% 或更多。例如,我们自己的GPU 基准测试结果表明,RX 5700 XT 在我们的 1080p 测试套件中平均帧率为 74 fps,同时消耗 214W,而 RX Vega 64 的 57 fps 消耗 298W ,这实际上是将这两个部分的每瓦性能提高了 80%。


与 RDNA 相比,2020 年的 RDNA 2 能够再次提供高达 50% 的每瓦性能。需要强调一下的是,这里说的是最多。例如,RX 6600 在 1080p 超分辨率下平均 67 fps,消耗 137W,比 RX 5700 XT 效率高 41%。同时,RX 6700 XT 在使用 215W 时提供 96 fps,仅提升 30% 的纯效率,而 RX 6800 XT 达到 124 fps 并使用 303W,仅提升 18% 的效率。然而,RX 5500 XT 8GB 的平均速度为 40 fps,功率为 126W,因此 RX 6600 至少在某些情况下效率提高了 54%——而且使用了类似的 128 位内存接口。


更令人印象深刻的是,这些收益都是在工艺节点没有变化的情况下实现的,因为 RDNA 和 RDNA 2 都使用了台积电的 7nm N7 技术(尽管一些较新的 GPU,如 Navi 24 现在使用 N6)。


AMD 在其财务分析师日宣布,它再次承诺通过利用一组新功能,通过 RDNA 3 将每瓦性能提高 50%。我们知道Chiplet尤其将成为其中的重要组成部分。Naffziger 还暗示将进一步优化 Infinity Cache 设计,以提高其有效带宽和命中率。不过,确切的细节仍在保密中。


在 CPU 方面,随着 Zen 2 和后来的 Zen 3,AMD 将内存控制器和 PCIe 通道放在称为 I/O 芯片的中央Chiplet上,以及用于与封装内的其他Chiplet通信的高带宽接口——称为 Infinity Fabric。到目前为止,这些其他Chiplet包括 CPU 内核及其关联的缓存,以及Chiplet的共享 L3 缓存。


对于消费类 CPU,AMD 发布了带有一个或两个 CPU Chiplet的处理器,每个Chiplet最多可以启用八个 CPU 内核。然而,AMD 不仅仅创建了一个 I/O Chiplet,它还希望扩展到多达 8 个 CPU Chiplet。消费类 I/O 芯片只有两个 CPU Chiplet的 Infinity Fabric 链接,EPYC 和 Threadripper 变体可以链接多达八个 CPU Chiplet,提供多达 64 核 CPU,如 Threadripper Pro 5995WX 和 EPYC 7763。


因此在图形解决方案中,您可以说 AMD 自 Fiji 架构和 R9 Fury X 以来一直在玩Chiplet封装技术。但这是第一款使用 HBM(高带宽内存)的产品,其硅中介层有助于将主GPU 核心和 HBM 堆栈。


我们想澄清 GPU 的“Chiplet方法”的定义,以确保 AMD 不再谈论 HBM。Naffziger 证实确实会有单独的Chiplet(不是内存芯片),尽管他没有具体确定 AMD 将如何进行拆分。


Spitballing 可能的 RDNA 3 Chiplet设计



Naffziger 并没有对下一代 RDNA 3 架构进行更多的披露,但我们最好的猜测是 AMD 的 GPU Chiplet设计最终可能看起来至少有点像当前的 CPU 设计,它将拥有容纳计算的 GPU Chiplet单元 (CU)、着色器核心和一些 Infinity Cache。然后将至少有两种 I/O Chiplet设计,一种可以通过更宽的内存接口扩展到更高的Chiplet数量,另一种可能只支持最多两个具有更窄接口的 GPU Chiplet。AMD 将通过更新的 Infinity Fabric 链接Chiplet,并且它可能会在 I/O Chiplet上拥有适度的缓存块,以帮助优化内存访问。


用于 CPU 的Chiplet方法的伟大之处在于它实现了出色的规模经济。例如,Zen 3 的基本 CPU 计算Chiplet包含八个 CPU 内核和一个统一的 32MB 三级缓存,它的大小仍然只有 84 平方毫米——不到英特尔 i9-12900K 中使用的约 215 平方毫米 Alder Lake 芯片大小的一半,几乎是估计为 163 平方毫米的较小的六个 P 核 Alder Lake-S 大小的一半。然后,AMD 可以在其顶级解决方案中放置多达 8 个这样的Chiplet,考虑到芯片尺寸,良率还非常好。它还允许 AMD 在最重要的地方使用最新的工艺节点;例如,在 Zen 3 中,CPU Chiplet使用台积电的 7nm 节点,而 I/O Chiplet仍然使用 GlobalFoundries 便宜得多的 12nm 工艺。


对于 GPU,如果 AMD 抽出所有显示接口功能、视频编解码器、内存接口和其他通用硬件,只专注于计算单元,不难想象 AMD 会创建一个具有 40 CU 芯片的构建块2560(可能是 5120)着色器内核和 32–64MB 的 L3 缓存,以及 Infinity Fabric 接口。基本上,取 Navi 22 (RX 6700 XT),这是一个 335 毫米见方的芯片,然后拉出大约一半的大小,然后将其放入 I/O Chiplet中。然后通过台积电的 5nm N5P 节点缩小剩余的 CU,AMD 可以拥有一个小于 100 平方毫米的Chiplet。同样,良率也会很高,对于消费领域,AMD 可能拥有多达四个这样的Chiplet的解决方案。


I/O Chiplet将是一个完全不同的野兽。它将容纳外部存储器接口,因此,它实际上可以通过不在领先节点上而受益,这意味着 AMD 可以在 N7 或 N6 上而不是 N5 上制造它。I/O 接口往往不能很好地扩展到更小的节点,而外部接口通常需要更高的电压,这会给更新节点带来设计挑战。AMD 不必在基于稍旧工艺的 I/O 芯片上处理那么多问题,而且它已经拥有来自各种 RDNA 2 设计的现有 GDDR6 接口,这些接口经过测试并在台积电的 7nm 工艺上工作。



I/O Chiplet的主要症结在于扩展到不同的目标市场。具有 8 个Chiplet的服务器的最大配置似乎是合理的,但 AMD 已将其消费者和数据中心设计分别分为 RDNA 和 CDNA。我们已经知道CDNA 3 和即将推出的 Instinct MI300 APU 的一些内容,它们也将与 Zen 4 CPU 一起用于El Capitan 超级计算机。RDNA 3 将完全不同,就像 RDNA 2 和 CDNA 2 一样。简而言之,我们预计 AMD 不会像计划 RDNA 3 那样为 CDNA 3 使用相同的Chiplet,因此可能不需要扩展到八个 GPU Chiplet。


相反,AMD 可以创建两个 I/O Chiplet,一个用于预算和中端行业,另一个用于高端和超高性能显卡。同时,所有 GPU Chiplet都将采用相同的核心设计。这仍然是当前 RDNA 2 阵容的简化,AMD 已经拥有四个独立的芯片(Navi 21、22、23 和 24),更不用说所有集成的 RDNA 2 解决方案,如 Rembrandt 和 Van Gogh(Steam Deck 处理器) .


AMD 可以在较小的 I/O Chiplet上放置一个 128 位内存接口,为低层产品提供 64 位或 96 位变体,并能够链接到两个 GPU 计算Chiplet。更大的高端解决方案可能具有 256 位内存接口(甚至可能高达 384 位),具有针对较低产品层的缩减选项,以及连接四个甚至更多 GPU Chiplet的能力。


这听起来可能更复杂,而不是更简单,但会有一些很大的优势。首先,I/O Chiplet可能是领先优势之后的一个节点,这将降低成本,而 AMD 已经非常熟悉 N7 和 N6 产品的设计。较小的 I/O Chiplet最终可能具有大约 150 平方毫米的裸片尺寸(给或取),仍然比 Navi 23 小,然后它可以根据需要连接一个或两个 GPU Chiplet。更大的 I/O 芯片可能约为 225 平方毫米,并且可以使用三个或四个相同的 GPU Chiplet。


在任何一种情况下,总的组合芯片面积不会比单片设计差多少,但良率要高得多。AMD 将把其 5nm 生产集中在一个单一的设计上,即 GPU Chiplet,并使用较便宜的 N6 或 N7 晶圆作为 I/O Chiplet。唯一的诀窍就是让它们一起正常工作,并通过更多的 GPU Chiplet来扩展性能。


其他 RDNA 3 架构细节



除了Chiplet架构之外,我们还从与 Naffziger 的对话中收集了有关 RDNA 3 的其他一些细节。我们询问 AMD 是否会在架构中包含某种形式的张量核心或矩阵核心,类似于 Nvidia 和英特尔在其 GPU 上所做的事情。他回应说,RDNA 和 CDNA 之间的分离意味着将一堆专用矩阵内核塞入消费图形产品对于目标市场来说确实不是必需的,而且以前 RDNA 架构中已经存在的 FP16 支持应该足以满足推理类型的工作负载。我们将看看这是否被证明是正确的,但 AMD 似乎满足于将机器学习留给其 CDNA 芯片。


我们遇到的另一个问题是关于 Infinity Cache 的大小。RDNA 2 的缓存大小从 Navi 21 上的 128MB 到 Navi 24 上的低至 16MB 不等,即使使用较小的缓存大小,由此带来的性能提升仍然令人印象深刻。对于标准 GPU Chiplet,AMD 最终可能会放弃 16MB 缓存并使用 32MB 增量,或者它可能会使用更大的缓存大小——或者在 I/O Chiplet和 GPU Chiplet中都有缓存。无论采用何种方法,Naffziger 都暗示 AMD 已经学会了优化缓存使用的更好方法的设计决策,包括排除某些不会从缓存中受益的东西(Naffziger 提到显示界面、多媒体处理和音频处理是也许不要


更多方面



最终,在像 RDNA 3 这样的架构中需要平衡很多因素。迁移到Chiplet在规模经济方面具有优势,并且允许 AMD 比其他方式更快地迁移到更密集的节点,但也有缺点对四处移动的数据有更高的功率要求。在 Infinity Fabric 上移动数据并不是免费的,并且在所有其他因素相同的情况下,与单片设计相比,基于Chiplet的架构在数据遍历期间会损失一些效率。因此,必须注意确保平衡设计。AMD 一直处于Chiplet设计的最前沿,Ryzen CPU 在过去三年中一直在使用它们,而 EPYC 和 Threadripper 从 2017 年开始使用Chiplet。每一代都带来了性能和效率的提升,


我们还要明确一点,虽然我们已经对 AMD 可能对 RDNA 3 做些什么做出了一些有根据的猜测,但 Naffziger 对分享具体细节肯定有点谨慎。我们曾一度询问这些Chiplet是否类似于 Aldebaran(两个大型芯片,具有连接它们的快速接口),或者更像具有 I/O Chiplet和多个计算Chiplet的 Ryzen CPU。我们能从他那里得到的最好的结论是,后一种方法是“合理的推断”,并且 AMD 将以“一种非常特定于图形的方式”来开发其基于Chiplet的 GPU 架构。


无论最终实施的具体细节如何,我们都期待在今年晚些时候看到 RDNA 3 投入使用。谣言工厂仍然充满想法和可能性,包括每个计算单元的 FP32 管道数量可能翻倍。我们还想看看 AMD 是否仍然可以从最大 256 位内存接口中获得所需的带宽,以及下一代 Infinity Cache 的表现如何。


但最重要的是,我们希望看到代际表现的又一次大飞跃。AMD 专注于电源效率的方法,然后允许它在电压/频率曲线的较高端提取更多性能,这是一个合理的设计原则。当然,每种类型的基本设计理念都有其优点和缺点,我们知道 Nvidia 也没有坐以待毙——当 RDNA 3 和 40 系列面对时,你可以期待性能和效率两个王冠的激烈争夺关闭,大概是今年晚些时候。

★ 点击文末 【阅读原文】 ,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3080内容,欢迎关注。

推荐阅读


台积电工艺的最新分享:信息量巨大

CMOS图像传感器架构的演变

VLSI 2022亮点总结:中国大陆不可忽视!


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论