[原创] FPGA,大战继续!

2021-12-11 14:00:02 来源: 半导体行业观察


随着赛灵思并购案的顺利进行 ,AMD与英特尔在 FPGA 领域数十年的竞争还将继续。虽然FPGA不是一个被密切关注的细分市场,但也会出现这样诸如此类的问题,那就是谁将成为FPGA领域的领导者?


不久前回顾了英特尔的线上发布会,虽然 Ice Lake-SP是重点,但实际上Agilex FPGA才是那次发布会的“隐形冠军”。英特尔强调它是 FPGA 领域无可争议的领导者,如果英特尔能够将其转化为市场份额的增长(虽然目前还没有证据表明这一点,但这可能是由于产品短缺造成的),那么 赛灵思 以及AMD可能会陷入困境。从长远来看,AMD和赛灵思所面临的更大风险是英特尔的下一代 FPGA,得益于英特尔的封装优势,下一代FPGA将采用突破性的架构,性能会有前所未有的提升,进一步提高英特尔的领先地位。


什么是 FPGA?


简单地说,FPGA 是可编程逻辑设备,通过与其他类型芯片比较可以更直观得理解:CPU 可以通过软件完全编程,ASIC中特定的算法是在硬件中进行的,而 FPGA 可以在逻辑(布尔逻辑体系)级别就进行“编程”。这意味着逻辑将根据算法(如 ASIC)进行调整,也可以重新编程来迎合不同的算法,进而决定固定功能芯片和 CPU 之间的速度、灵活性和效率特性。性能优异的 FPGA 还可以通过 DSP 提供相当多的计算能力,甚至可以与 GPU 相媲美。随着AI 的兴起,英特尔 和 赛灵思 都进一步增加了对低精度的支持(例如 INT8),甚至在一些 FPGA 中增加了矩阵运算(类似于英伟达的张量核心—— Tensor Core)。(这也表明英伟达在 AI 方面成功的主要原因是2017年时凭借 V100 快速上市,从而形成了先发优势。此外,赛灵思和英特尔(以及许多初创公司)都已经表明可以添加 Tensor Core到 GPU 以外的其他芯片,并能够提供具有竞争力甚至卓越的性能。)


收购赛灵思


关于AMD收购赛灵思,我在传闻刚出现时就进行了分析。

回顾CPU 和 FPGA 的协同效应,从英特尔五年前的收购中,我们就可以知道:FPGA 可以用作数据中心加速器、AI 加速器、SmartNIC(智能网卡) 以及网络基础设施中的加速器。但我也指出过,迄今为止,这些协同效应并没有给英特尔的 FPGA业务带来太大的增长。在这方面,尽管(独立的)赛灵思的表现可能稍好一些,但其财务状况也喜忧参半。

作为这次讨论的补充,当时在电话会议上提出了以下问题,可能值得完整引用,因为我看到许多看好 AMD 的人认为, AMD的收购与英特尔不同,但我却不这么认为。

Stacy Rasgon: 我关于赛灵思的问题是,对于一家购买 FPGA 的 CPU 公司,显然有人在你的竞争对手尝试之前已经尝试过,就这一点而言,它并不是非常成功。您认为您对 赛灵思 的看法与 英特尔 对 Altera 的看法有何不同?您从英特尔 收购Altera中遇到的问题中学到了什么?

Lisa Su: 经过一段时间的考虑,我认为不同之处在于赛灵思是市场领导者。从过去几年里业务增长情况来看,他们的市场份额一直在增长。我也认为两家企业的执行情况都非常好。

你可能会问,为什么现在我们对我们的基础业务感觉很好。别人可能觉得我们的业务是互补的,确实从产品和市场的角度来看,它们十分互补。但其实在数据中心焦点、技术战略等方面,我们是存在一些重要的交叉点。

我们都是技术领先者,都与台积电合作,也都喜欢这种模块化设计环境,而赛灵思在2.5D、3D集成等方面处于领先地位。此外,我们都致力于软件和开源,所以可以明显看到很多隐藏在幕后的协同效应。未来,你可能看到我们的路线图规划。

最后,我想说的是,我认为我们的文化非常一致,Victor和我都是工程师。我们热爱所拥有的共同愿景的技术,我真的非常高兴他能加入我们。对于此次收购将会对行业和我们的合资公司带来什么,我们也有一个大胆的愿景。我认为这就是我们所看到的不同之处,正如你所知道的, Stacy。

我的意思是我们不是为了并购而进行并购,而是因为这对于我们而言,都是一个难得的机会,没有比 赛灵思 更好的行业匹配者了。Victor,你来补充一些你的看法。

Victor Peng: 我认为这次收购与英特尔那次完全不同。我认同Lisa所说,不仅仅是在数据中心,我们对其他正在发生的转型都有着共同的愿景,比如在边缘甚至端侧应用中。我非常高兴能再次加入AMD和赛灵思团队。

并且我认为我们确实有非常相似的文化,都注重创新、执行和团队合作文化,既适用于公司内部,也适用于客户。我认为这就是全部。我们将给客户创造巨大的价值,随着时间的推移,我们将会把 Lisa 谈到的那些基础技术展现给大家。很明显,我个人觉得我们将很好地整合。

确切的说,将Altera收购认为是不成功的案例其实是一种误导。与 AMD 和 赛灵思 管理层希望投资者相信的相反,英特尔 收购Altera与 AMD 收购 赛灵思 其实完全相同,都是在CPU里添加一个 FPGA。然后将其作为加速器或 SmartNIC 放入数据中心以进行卸载,或用于综合网络基础设施组合,又或用于寻求其他边缘机会。

这是英特尔执行其收购时的策略,我看不出AMD收购赛灵思有什么不同,都是在扩大机会。还有两个论点:


  • 就技术而言,Altera-英特尔 的协同效应实际上要广泛得多。有些人可能还记得,早在英特尔代工服务之前,Altera 是英特尔第一个具有里程碑意义的代工客户,不仅采用英特尔的代工,同时也是英特尔业界领先的先进chiplet封装(带EMIB)的主要用户。此外,英特尔的 oneAPI 软件计划还包含 FPGA,创建一个统一的开放式编程模型,涵盖 CPU、GPU、FPGA 和 NPU。


  • 上市协同效应以及整体产品组合也有利于英特尔。英特尔在 (5G) 网络基础设施整体上处于领先地位,而 AMD 则在这个市场上仍然缺席。(尽管看好 AMD 的人认为这次收购让 AMD 能够扩展到新市场。)英特尔不仅拥有 ASIC 业务,还收购了 Easic 以获得更广泛的产品组合:英特尔称之为从可编程芯片到非可编程芯片的“逻辑连续体”。


尽管一些协同效应仍有待观察,就像我在 2020 年 10 月之前的分析中所说的那样,鉴于AMD近 2000 亿美元的市场估值,此次收购表明并符合 AMD追求进一步增长的目标,这与英伟达想要收购Arm没什么不同。因此,与上述管理层引述相反,可以认为此次收购与英特尔在 2015-2016 年的收购相同,这意味着 AMD 在追求 CPU + FPGA 协同战略方面至少落后英特尔五年。

CPU+FPGA 集成有意义吗?


关于赛灵思的收购,还有一个话题可以讨论:一些投资者或许有这样的印象,AMD未来会推出类似超级APU的东西,除了CPU(也许还有GPU)也会集成FPGA。

那我们分别来讨论下AMD 主要服务的两个市场。首先,在 PC 市场上,AMD 推出 FPGA 的机会很小。正如我所说的,CPU(尤其是 英特尔 的)已经包含了许多加速器,而FPGA 似乎没有价值主张。当然,AMD也许会进行尝试,从而创造一个新的市场,但这种可能性很小,因为FPGA 只会增加 CPU 的成本。
其次,如上文所说的,FPGA 更有前景的市场是数据中心,但事实证明,这里也不需要将 FPGA 集成到 CPU 中。

与数据中心未集成 GPU 以及 英伟达 仅基于 GPU 就积累了约 8000亿美元市值的原因完全相同:GPU 或 FPGA 等加速器可以作为PCIe互连通过一个标准的链接被附加到CPU。

当然,有些人可能会争辩说,集成或许会带来一些好处,例如缓存一致性。然而,正是出于这个原因,业界即将采用一种称为 CXL的新互连标准(由英特尔于 2019 年提出,并得到包括 AMD、赛灵思 和 Arm 在内的整个行业的支持)。

总而言之,收购 赛灵思 的主要理由不是硬件集成,而是(如 2020 年所述)AMD 试图通过进入 FPGA 市场来扩展其 TAM。任何协同效应都将是在更高层次上,如提供 AMD CPU + 赛灵思 FPGA 作为英特尔 CPU + Altera FPGA 组合的竞争产品,以及软件集成,例如英特尔如何通过一个API创建统一的编程模型。

FPGA 发展:之前发生了什么


本节将总结过去几年 FPGA 的主要市场趋势。特别是英特尔的财务数据虽然没有显示,但实际上谁将在未来拥有 FPGA 领导地位,这已经有了明显的演变。

总结 Altera-英特尔 的发展:

  • 由于收购前的延迟,Altera 在转向 14/16nm 节点方面比 赛灵思 晚了一年。

  • 然而,英特尔迅速采取行动并立即投资了一个并行开发团队,在 14nm Stratix 10 开始出样前,就开始研究10nm Agilex。因此,Agilex 和 Versal 大约在 2019 年年中同时开始采样,这意味着英特尔在短短一代内就追平了工艺技术。

  • Altera 一直是英特尔非常成功的代工厂客户,利用英特尔领先的工艺以及2.5D 和 3D 小芯片封装技术,形成了丰富的小芯片生态系统。值得注意的是,这甚至早于AMD 将其第一个 MCP(多芯片封装)(“Naples”,2017 年)推向市场,更不用说 AMD 的第一个半芯片设计(“Rome”,2019 年)。因此,与 AMD 粉丝经常所说的相反,业界第一个采用小芯片的实际上是 Altera。

  • 此后,Stratix 10 和 Agilex 成为越来越大的第一方和第三方小芯片生态系统的一部分。实际上,这仍然是业界唯一真正的跨供应商和跨代工厂的小芯片生态系统。我称 AMD 的方法为半芯片,因为它仍然基于传统的 MCP 方法。

  • 收购让英特尔实现了什么:尽管收购前有延迟,英特尔仍然能够提供业界首款具有 集成 HBM、58G 收发器和PCIe 4.0 的 16/14nm FPGA。

  • 英特尔还在 2019 年收购了 eASIC,从而创建了 eASICs。它们提供了介于 ASICs 和 FPGAs 之间的功能集(在成本、上市时间、功耗、性能等方面)。这些 eASICs 也可以作为小芯片添加到 Agilex FPGA 中。

  • 英特尔还于 2019 年创建了网络和自定义逻辑,以实现上述网络协同效应。虽然由于FPGA在网络领域的销售额下降,英特尔的收入实际上有所下降,但英特尔表示,这些销售额已从英特尔FPGA转移到英特尔ASIC。最近,英特尔表示,由于供应短缺,无法完成所有订单:“由于严重的供应限制,DSG 收入为 4.86 亿美元,同比下降 3%。但FPGA市场继续仍然供不应求。”

  • 英特尔 FPGA 也是英特尔异构 XPU 战略的关键部分,它在软件方面转化为对英特尔 oneAPI 计划的支持。

  • 英特尔 FPGA 与AI无处不在的战略保持一致,几年前英特尔还推出了带有 Tensor Blocks 的 14nm Stratix 10 NX。在某些工作负载中,FPGA 的效率可能比 GPU 高一个数量级。

在赛灵思方面:


  • 赛灵思 将其 Versal 产品称为 APACs(自适应计算加速平台),而不是 FPGA,为的是强调它包含了更多的IP和加速器(例如用于5G和AI),从而扩展并增强了传统 FPGA以外的用途。


  • 这些APACs可以被视为英特尔通过小芯片为其 FPGA 增加更多功能的方法的单片等效:赛灵思的 7nm Versal 路线图由不少于 6 个产品线(单片芯片)组成。


  • 赛灵思 的 oneAPI 相当于其 Vitis 软件,显然这仍是一个仅限 FPGA 的解决方案,而 oneAPI 则针对英特尔的完整芯片产品组合。


总的来说,Altera(英特尔)和 赛灵思(AMD)都采用了一种策略,即通过包含专用加速引擎来扩展 FPGA 的用途,但两家公司采用的是不同方式:Altera已经能够采用英特尔行业领先的先进封装来创建小芯片生态系统,允许根据客户的要求对每个单独的FPGA进行定制,而赛灵思则仍然遵循传统的单片芯片方法。

Altera 的小芯片方法取得了成功,因为它率先将 58G/112G 收发器、Arm 内核和 HBM 集成到 FPGA 中。小芯片的好处是一旦创建,就可以添加到 FPGA 中,而无需重新流片,从而大大缩短上市时间。

最后,由于 Versal 和 Agilex FPGA 基本上是在同一时间推出的,应该可以看到 英特尔 的投资让 Altera 在这方面迎头赶上。


FPGA的对决继续


由于两家公司的路线图都非常明确,所以可以进行比较。英特尔和赛灵思同时向 10nm/7nm 迈进。

如前面所说的,在 10nm/7nm这一代,两家公司都采取了一种有些相似但又有所不同的方法,尽管两家公司都在多个 SKU扩充产品线,但赛灵思似乎正在通过广泛的Versal acap,对其瞄准的几个领域(如边缘、5G和机器学习)采取更具体的方法。为此,赛灵思更加专注于围绕 FPGA 平台集成多个加速器,因此得名 ACAP。请注意,这些都是单片芯片。


另一方面,Agilex FPGA 主要专注于改进核心 FPGA 结构(英特尔称之为 HyperFlex 2 架构),声称性能(频率)将提高 40%,功耗降低 40%。Agilex 还引入了各种新功能:强化的bfloat16 AI 数据类型支持、改进的DSP 性能(但还没有专用的 AI 加速),以及未来版本中的 116G 收发器、PCIe 5.0、DDR5 和 CXL(通过新的小芯片)。


这些发展意味着,对于不使用任何加速器的纯 FPGA 应用,Agilex 作为整体卓越平台,优于 赛灵思,拥有非常明确和切实的 FPGA 领先地位。这确实是英特尔在2021年初推出的Ice Lake-SP数据中心的一部分(与Versal相比):


  • 视频 IP 性能提高 50%;

  • 每瓦性能提高 2 倍(结构);

  • (结构)性能提高 30%。


第二个主要区别是英特尔继续其小芯片战略:与基础10nm FPGA 相同,但可以附加小芯片生态系统来定制 FPGA。这种方法在开发成本、特性集和上市时间方面具有实质性优势。例如,上面提到的116G 收发器、PCIe 5.0/CXL 和 HBM等一些功能,只有未来在这些技术可用时才能出现。


可以肯定的是,这是小芯片的优势,而不是缺陷:116G 收发器、DDR5 和 PCIe 5.0 或 CXL 在 Agilex 于 2019 年首次开始采用时还不可用,因此基本上英特尔的 FPGA 是面向未来的,因为这种小芯片方法:英特尔只需要创建一个具有PCIe 5.0 支持的小型小芯片。相比之下,Versal FPGA 将永远无法获得 PCIe 5.0 支持,除非赛灵思通过昂贵的努力来创建新的成熟的单片芯片。当然,赛灵思 绝对不会仅为了添加一项功能而这样做。

这实质上表明了除了性能之外,英特尔在连接性和 I/O 支持方面进一步获胜,因为 Versal 没有 116G 收发器、DDR5、PCIe 5.0 或 CXL 1.1 支持。

这也说明,原则上没有什么可以阻止客户为 赛灵思 Versal ACAP 中的加速器添加小芯片,这确实是英特尔通过从ASIC到 eASIC 再到 FPGA 的自定义逻辑连续体的战略。例如,随着 2020 年 5G ASIC 的兴起,英特尔的数据中心邻接收入开始显著增加(增加了数亿美元),“交付英特尔领先的 5G ASIC,产生可观的年收入增量”。这意味着真正潜在财务状况可能比仅比较英特尔 FPGA 与赛灵思更微妙,因为英特尔 ASIC 的收入未知。

从英特尔看FPGA的创新


除了在 FPGA 功率和性能方面处表现优越之外,英特尔还有一些创新正在进行中,这可能会进一步巩固其实力:

  • Stratix 10 NX :业界首款针对 AI 优化的 FPGA,性能提升 15 倍。
  • PCIe 6.0 和 CXL 2.0 将在以后阶段(通过新的小芯片)出现在 Agilex 上。
  • 业界首款 224G 收发器 ,针对下一代(英特尔 4)FPGA。
  • 英特尔 4 FPGA :使用 EMIB 和 Foveros 3D 封装(以 Foveros 为特色),可能会让效率和密度提高一个数量级以上。

尤其是下一代 FPGA 清楚地表明,英特尔除了进一步扩展其 FPGA 领先地位外,还可以做任何事情,因为其3D堆叠的使用将是赛灵思无法比拟。

Stratix 10 NX


我在2020年6月发布时与 Cooper Lake Xeon Scalable 一起讨论了 Stratix 10 NX)。它是英特尔首款针对 AI 优化的 FPGA,具有 AI Tensor Blocks:将传统的 DSP 单元换成 AI Tensor Blocks,而AI Tensor Blocks 拥有 15 倍多(支持 INT8 的)计算单元,相应的性能提升了 15 倍,这使它们能够与 英伟达 GPU 竞争:

针对 英伟达的产品 ,英特尔表示,其 Stratix 10 NX 设备在 BERT 批处理中比 英伟达 V100 GPU 快 2.3 倍,在 LSTM 批处理中快 9.5 倍,在 ResNet50 批处理中快 3.8 倍。

另一篇论文描述了与 英伟达 的 V100 相比,Stratix 10如何在现实世界最先进的文本转语音工作负载上实现 8 倍的性能和 10 倍的每瓦性能。考虑到这些数据,这使得它能与 英伟达 的 7nm Ampere 竞争。(之所以没有与最新的A100进行比较,是因为当时这些工作负载还不适用于A100或者还未针对A100进行优化)。

以下幻灯片显示了它如何利用其小芯片方法从小芯片库“构建”Stratix 10 NX。


对于“计算”小芯片,这是英特尔第四个基于 14nm 的 FPGA 架构,还包括了 AI Tensor Blocks。其他结构是带有或不带有四核 Arm A53 CPU 的 FPGA,以及用于Stratix 10 GX 10M的高密度 FPGA (这里没有讨论,是另一个领先的 FPGA)。

FPGA 的其余部分类似于 Stratix 10 MX:

  • 互连小芯片采用 58G 收发器 (SerDes) 技术和 PCIe 3.0。
  • 没有内存或“专用”小芯片。
  • 对于其他“自定义小芯片”,支持 HBM(通过英特尔的开源 AIB 协议)。

通过这种方法,NX是第六个Stratix 10版本(每个版本都有多个SKU,以进一步区分性能和功能)。如果没有小芯片,这种扩展是不可能的:例如,Stratix 10 DX引入了PCIe 4.0和UPI支持。

总体而言,这种设计方法降低了成本(因为验证是在小芯片级别进行的)和加快了上市时间(因为每个新变体都可以在组成小芯片后立即上市)。

PCIe 6.0 和 CXL 2.0


通用 PCIe 互连已经在加速路线图上。经过多年的 PCIe 3.0,行业在 2019 年左右转向 PCIe 4.0,并在 2021 年转向 PCIe 5.0。Agilex 也支持 CXL,因为它基于 PCIe 5.0。PCIe 6.0(大约 2023/2024 年)将进一步跟上这种类似摩尔定律的节奏。

英特尔的 Agilex 路线图显示,未来这些 FPGA 将支持 PCIe 6.0 和下一代 CXL 2.0,这也将为超 400G 以太网带来支持。


英特尔透露,其下一代 FPGA 将基于英特尔 4 构建,并使用英特尔的下一代“Co-EMIB”封装技术,这进一步扩大了英特尔在先进封装领域的领先地位。


Co-EMIB 基本上是 2.5D EMIB 和 3D Foveros 的组合:它将利用 Foveros 进行基础芯片的 3D 堆叠,同时还将继续使用 EMIB 来连接小芯片,类似于英特尔的 Ponte Vecchio Xe HPC GPU。

然而,上面的 2020 年幻灯片并未表明 FPGA 转向 3D 封装的重要性。相比之下,在之前 2018 架构日,英特尔曾暗示它可以使用 Foveros 堆叠不仅仅是两层(就像在 Lakefield 和 Ponte Vecchio 中所做的那样),这将把FPGA 转变为“可配置扇区的海洋”。英特尔表示,这将带来高达 1-2 个数量级的能效提升。换句话说,这可能是 FPGA 的范式转变。

展望未来,英特尔还计划将 Foveros 用于 FPGA。英特尔的下一代 FPGA 将大量使用芯片堆叠,预计 Foveros 能在性能、能源效率或密度压缩方面实现 1 甚至 2 个数量级的提升,而这种提升来自一种完全不同的 FPGA 配置方式。为了满足当今的高端 FPGA,业界使用高带宽存储器,该存储器通过导线连接到所有可配置模块。英特尔可编程解决方案工程集团副总裁兼总经理Ravi Kuppuswamy表示:“有了Foveros和3D堆叠,突然之间,您就拥有了大量可重新配置的内核。”主要的简化来自于它们将传统的长电线转换为短垂直电线的能力。


224G 收发器领导地位


最后,SerDes(收发器)可能是一个鲜为人知的技术组件,但它却是 FPGA一个非常重要的部分,因为 FPGA 有多种用途,从存储到移动再到处理数据,这正是 SerDes 在互连方面发挥作用的地方。

它可以与 PCIe 互连进行比较,因为两者具有相似的每通道吞吐量。为了不断提升互连速度,该领域正在使用先进的技术,同样,扩展SerDes也有其自身的挑战。

英特尔 以 58G FPGA 击败 赛灵思 推向市场,开始为 Agilex 提供 116G FPGA,并且在 2020 年 8 月,英特尔 是第一家宣布在实验室中运行的 224G PAM-4(每个信号两位)收发器 IP的公司(似乎在 英特尔 4 上)。


总结


英特尔在 2017 年推出了 Stratix 10 FPGA,虽然比赛灵思晚了一年,但 Versal 和 Agilex 大约在 2019 年年中同时开始提供样品。Agilex 还展示了优异的领导能力和效率。需要注意的是,鉴于FPGA客户设计周期较长,FPGA 的出货量通常需要 3-4 年才能达到峰值。展望未来,鉴于英特尔提到的“1-2 个数量级”的改进,英特尔正在开发可能是革命性的FPGA。

英特尔的 FPGA 引人注目,因为它们是其最新封装和小芯片技术的运载工具,从而产生了广泛的小芯片库。最值得注意的是,英特尔在收发器方面的持续领先地位 (58G-116G-224G) 强化了这一观点。最后,FPGA 在英特尔的 AI 战略中也发挥着关键作用,英特尔的 oneAPI 软件为此提供了支持。

虽然两家公司的上市战略有很大不同(英特尔:小芯片;赛灵思:ACAP),但通过使FPGA更容易获得来扩大市场的目标对两者来说是相似的。而这是一般是通过诸如OneAPI和Vitis等高级工具(而不是传统的FPGA低级编程工具)实现的。

尽管 FPGA 的整体增长相当疲软,但从Altera被收购以来的五年左右的时间里,FPGA 最有前途的市场可以说仍然是数据中心,在那里它们可以用作 IPU/DPU/SmartNIC 或作为 AI 或其他加速器工作负载(因为已经证明 FPGA 的性能远远优于 英伟达 GPU)。FPGA 不太可能像 GPU 那样成为主流,但如果这些较新的编程范例至少取得一些成功(例如通过OneAPI),那么对于英特尔和赛灵思而言,那么这可能会极大地增加其可寻的目标市场。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2885内容,欢迎关注。

推荐阅读


RISC-V生态系统即将爆发

破局“内存墙”,存算一体路线分析

并购推动“两极分化”,中国半导体如何应对?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论