[原创] 英特尔架构的全面革新

2021-08-21 14:00:34 来源: 半导体行业观察


2017年,英特尔确立了“以数据为中心”的转型目标,致力于释放数据指数级增长带来的无限潜能,针对这一战略,英特尔也在近几年中制定了多项规划——2018年英特尔强调了在六大关键领域的持续创新需求,同时明确了在计算新时代必要的四大基础计算架构,即标量(对应CPU)、矢量(对应GPU)、矩阵(对应ASIC)、空间(对应FPGA);在2020年英特尔研究院开放日上,英特尔又展示了一系列前沿技术,旨在追求1000x算力的提升。

到了2021年,随着英特尔新任CEO Pat Gelsinger的上任,英特尔又发布了一系列重大战略规划,其中包括在3月份宣布全新的制造战略,紧接着在7月份,英特尔又公布了其有史以来最详细的路线图之一,涉及了晶体管、互连和封装技术等。

在上一轮重大发布没多久后的8月,英特尔在其架构日上又砸出了他们面向CPU、GPU和IPU的技术架构的改变和创新。结合他们之前所公布的规划,通过这次在架构上的革新,英特尔到底想向业界传递什么信号?

(英特尔本次架构创新概览)

英特尔首个性能混合架构


我们都知道,X86为英特尔在数据中心市场的拓展奠定了基础,在本次架构日上,英特尔也是首先介绍了两种全新x86内核架构——即能效核(E-Core)和性能核(P-Core)。

E-Core的前身是“Gracemont”,在此基础之上,英特尔希望能够再次提升能效比,以满足更多动态任务负载而推出了这款内核架构。从这一点中看,根据英特尔官方资料显示,相比英特尔最多产的CPU内核Skylake,在单线程性能下,能效核能够在相同功耗下实现40%的性能提升,或在功耗不到40%的情况下提供同等性能。与运行四个线程的两个Skylake内核相比,四个能效核所提供的吞吐量性能,能够在功耗更低的情况下同时带来80%的性能提升,而在提供相同吞吐量性能时,功耗减少80%。

Core的前身是“Golden Cove”,英特尔推出这款内核架构是旨在提高速度,突破低时延和单线程应用程序性能的限制,也可以说是为了计算密度较高的应用而设计。根据英特尔官方资料显示,相比目前的第11代英特尔酷睿处理器架构(Cypress Cove),在通用性能的ISO频率下,P-Core针对大范围的工作负载实现了平均约19%的改进,这也是英特尔有史以来构建的性能最高的CPU内核。

但英特尔所谓的创新并不仅于此,英特尔在本次架构日中所发布的基于E-Core和P-Core而打造的首个性能混合架构才是我们关注的重点。据介绍,其首个性能混合架构代号为“Alder Lake”。英特尔公司高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri也称Alder Lake是十多年来X86架构的最大进展之一。

(从Cove和Mont到Performance Hybrid)

我们认为,这种性能混合架构可能成为未来计算的发展趋势之一。从英特尔的介绍中看,Alder Lake不仅仅能够兼具E-Core和P-Core的性能,实现最大限度提高系统的性能和能效,更重要的是,能够动态分配在这两个内核上的工作负载。

实现这一颠覆传统方法(传统方法是利用固定规则将线程分配给内核)的工具是英特尔硬件线程调度器技术(Intel Thread Director)。据介绍,硬件线程调度器能够更精细地监控指令组合、每内核当前状态以及相关的微架构遥测,从而更智能地协助操作系统,这也使得操作系统能够充分利用以往无法获知的信息进行调度决策。换句话说,采用技术的内核架构能够在降低能耗的前提下,提升计算的速度。

据了解,Alder Lake SoC基于Intel 7制程打造,将于今年下半年出货,其共有三类产品形态:

1. 高性能、双芯片、插座式的台式机设计,具有领先性能、能效、内存和I/O。
2. 高性能笔记本处理器,采用BGA 封装,配置图像单元,更大的 Xe 显卡和Thunderbolt 4 连接。
3. 轻薄低功耗笔记本处理器,采用高密度封装和配置优化的I/O和电能输出

数据中心市场的革新


在此前半导体行业观察发布的文章当中,我们就曾指出,全球半导体龙头都在针对数据中心市场进行部署,而随着技术的升级,这种竞争也变得越来激烈。

在本次架构日当中,我们也看到了英特尔针对数据中心这一市场进行了一系列的技术更新——英特尔首先就表示了,Sapphire Rapids(下一代英特尔至强可扩展处理器)代表了业界在数据中心平台上的一大进步,英特尔方面认为,它将为数据中心架构树立新的标准。

从英特尔的新闻稿中我们得知,Sapphire Rapids的核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。Sapphire Rapids提供了一个单一、平衡的统一内存访问架构,每个线程均可完全访问缓存、内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽。

(Sapphire Rapids主要模块)

英特尔首席数据中心架构师Sailesh表示:“在数据中心层面,关键就是要在多租户场景下提供卓越的性能和利用率,满足严苛服务水平协议(SLA)的低抖动性能以及跨整个基础设施的高弹性。而通过将模块化SoC架构集成起来,能够在跨插槽、节点和数据中心的情况下提供一致且高效的性能提升。”

除此之外,在今年的数据中心市场当中,DPU成为了各大芯片龙头所关注的焦点之一,英特尔也在今年推出了与此相关的IPU产品——根据相关消息显示,英特尔基于FPGA的 IPU已经导入多个云端服务商。在本次架构日当中,英特尔宣布将针对云和通信市场,推出两款基于FPGA的IPU产品——Oak Springs Canyon和Arrow Creek。其中,Oak Springs Canyon是基于英特尔至强 D 处理器和英特尔 Agilex FPGA构建;Arrow Creek则是专为搭载至强服务器设计的SmartNIC。

除此之外,英特尔还推出了一款基于AISC的IPU,即Mount Evan,这也是英特尔的首个ASIC IPU。据英特尔方面介绍,Mount Evans是与一家一流云服务提供商共同设计和开发的,它融合了多代FPGA SmartNIC的经验。

(英特尔IPU产品概览)

“每一类IPU都有自己的优势和劣势。基于FPGA的IPU能够快速实施新协议,应对不断变化的要求或新协议;而专用ASIC IPU可以实现性能和效率的最大化”,英特尔数据平台事业部首席技术官Guido Appenzeller指出:“两者实际上都不同于经典的SMART NIC,后者缺乏执行基础设施控制面的能力。对于不同类型的基础设施加速,没有适用所有情况的方案。因此,英特尔将继续投资于这两类IPU以及SMART NIC。”

独立显卡层面的进展


在数据中心市场,GPU同样也扮演着重要的角色。去年,英特尔发布了其首款数据中心独立图形显卡,该GPU基于Xe-LP微架构,专为高密度、低时延的安卓云游戏和流媒体服务而设计。随后,在英特尔介绍的GPU发展规划当中,公司也无数次曾提到过将进军游戏市场。

在本次架构日当中,英特尔也向业界交出了这样一份答卷——他们推出了一款专为游戏和创作工作负载提供发烧级的高性能的全新的独立显卡微架构,即Xe HPG。

(Xe HPG性能提升)

英特尔发展显卡设计的核心是软件优先,因此在介绍Xe HPG之前,让我们先谈一谈,Xe HPG微架构所采用的全新Xe内核中的一些软件“秘密”。据介绍,英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,从而使计算密集型游戏的吞吐量提高了15% (至多80%),游戏加载时间缩短了25%。

回到Xe-HPG 微架构中,Xe-HPG 的Xe 内核包括16个矢量引擎和16个矩阵引擎,英特尔将其称为XMX,或 Xe Matrix eXtensions。从客户端产品来看,Xe HPG微架构为Alchemist系列SoC提供动力,首批相关产品将于2022年第一季度上市,并采用新的品牌名——英特尔锐炫(Intel Arc)。

(英特尔客户端显卡路线图)

需要注意的是,基于Xe-HPC微架构,英特尔还推出了面向高性能计算和人工智能工作负载的新款GPU——Ponte Vecchio。英特尔方面也称,Ponte Vecchio是英特尔迄今为止最复杂的SoC。

根据英特尔官方提供的资料显示,Ponte Vecchio由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接(EMIB)单元进行组装,实现单元之间的低功耗、高速连接。这些设计均被集成于Foveros封装中,为提高功率和互连密度形成有源芯片的3D堆叠。高速MDFI互连允许1到2个堆栈的扩展。

其中,计算单元是一个密集的多个Xe内核,是Ponte Vecchio的核心。基础单元则是Ponte Vecchio的连接组织。它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。可以看出,Ponte Vecchio的出现,也是英特尔拥抱异构集成的一个重要代表。

(英特尔Ponte Vecchio)

同时,在本次架构日上,英特尔还展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。据英特尔介绍:“我们的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。”

而英特尔在GPU方面的进展也不仅仅展现了其技术发展方向,也同时践行了其IDM2.0计划。在英特尔的IDM2.0计划当中,他们提出将深化和扩大与主要代工厂的合作关系,而Xe显卡产品则是这种演进第一阶段的成果——其中,Alchemist GPU是基于台积电的N6制程而构建,Ponte Vecchio则采用了台积电N5制程技术。

通过英特尔在GPU层面上发展,我们看到英特尔的XPU愿景正在一步步得到完善,而他们或许也是业内最早能够搭建完善的XPU架构的芯片巨头。

写在最后


回到文章开端我们提到的,英特尔通过架构的革新想告诉我们什么?

首先可以明确的是,就像是Raja Koduri在本次架构中讲的那样,为了在2025年满足1000x(千倍级)提升的需求,我们要在每个技术领域,实现至少4倍左右的摩尔定律提升,这些领域包括制程工艺、封装、内存和互连,而架构是将它们与软件结合起来的“炼金术”。这些技术的集合可以作为乘法因子,与4倍的提升相结合,就能提供处理繁重的工作负载所需的千倍提升,这同时例证了为何如今是成为架构师的大好时代。

这也让我们联想到了此前业内所说的,未来十年将是计算架构的黄金十年。对此,业内芯片龙头企业也纷纷针对多计算架构进行了部署,从他们的动作当中,我们看到围绕着计算架构的竞争正在展开。而英特尔这次针对CPU、GPU和IPU的技术架构的改变和创新,或许也在暗示,他们是这些厂商当中跑得最快的那个。

又或者,英特尔是在通过架构方面的全面革新向业界宣布,他们将重返巅峰——就像Pat Gelsinger在架构日中所说,Intel is back, and this story is just beginning.

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2773内容,欢迎关注。

推荐阅读


半导体设备公司,赚大发了!

台积电再上顶峰

热闹的WiFi 6芯片赛道


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|MLCC|英伟达|模拟芯片

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论