Marvell的Arm服务器芯片野心

2019-12-12 14:00:09 来源: 半导体行业观察

点击

来源：内容由半导体行业观察（icbank）编译自「 next platform 」，作者：Timothy Prickett Morgan，谢谢。

如果你要在服务器处理器上取代英特尔芯片，那就必须机灵像从英特尔台式机跳到数据中心一样的漫长的历程。现在，Arm服务器芯片供应商Cavium是芯片巨头Marvell的一部分，而大部分公司也已经退出了市场，以Marvell的优势，ThunderX服务器芯片系列未来也将会持续上演相同的戏码。

对于Cavium或者Marvell来说，最好的事情之一就是Avago收购了Broadcom，因为Broadcom以前是一家没有太多耐心的公司，并且他们的工作方向是最大程度地挤占已建立的利基市场。当阿茹娜，这个策略没有任何问题。但我们也应该看到，迄今为止，每位Arm服务器玩家都做过大赌注和大冒险。

无论如何，因为Avago于2015年5月以高达370亿美元的价格收购了Broadcom并把公司命名为新博通，因为Avago的创始人Hock Tan喜欢从传统业务中获得丰厚利润的老牌公司，这也是新博通以189亿美元收购CA的唯一解释。又因为Broadcom在2017年11月试图以1,170亿美元的价格收购芯片竞争对手Qualcomm，因此Cavium获得了三倍的幸运：

首先，因为Broadcom交易的干扰，迫使高通重新考虑其“ Amberwing” Centriq 2400 Arm服务器芯片的未来，反过来又迫使微软重新考虑其Arm服务器芯片CPU的合作伙伴。因为据之前报道，高通公司的Arm服务器芯片上会被Microsoft Azure采用。随着这一切的进行，新博通（Broadcom）对其“ Vulcan” Arm服务器芯片系列失去了兴趣。因此，Cavium捡起了Vulcan芯片，将其重命名为ThunderX2，吸引了一些优秀的芯片设计人员，并成功地将其推入了超大规模产品和HPC市场。

32核的Vulcan ThunderX2比Cavium开发的原始54核ThunderX2好很多，我们也再没有听说过原始的ThunderX2。我们认为，主要的原因是原始的ThunderX2仅具有六个内存控制器，因此具有与Intel Xeon SP相同的瓶颈。此外，这54个内核在以3 GHz的频率运行时却没有同步多线程（SMT），这与Intel的SMT超线程变体的28内核，56线程芯片所能容纳的线程数量几乎相同。

但Vulcan ThunderX2具有八个内存控制器，其计算和内存带宽更加平衡，因此其32核可以与Xeon SP并驾齐驱，并且能经常在基准测试中击败它们。就像IBM的“ Nimbus” Power9和AMD的“ Rome”Epyc 7002芯片一样。

从那以后，大量的从桥下流过。

例如在收购了Arm服务器先驱Applied Micro之后，Ampere成为竞争者，凯雷投资集团（Carlyle Group）则是其支持者，前英特尔总裁雷尼·詹姆斯（Renee James）作为其首席执行官。Ampere将Applied Micro的“ Skylark” X-Gene 3处理器的变体作为32核eMAG 8180并投入了该领域，他们主要是在追逐超大规模生产者和云构建者，而不是HPC中心。

中国华为技术的芯片子公司海思正在推动其Kunpeng 920处理器的发展，由于地缘政治原因，它实际上只有在中东国家和一些亚洲卫星国家中才有机会。

但是对于Arm服务器芯片来说，最重要的是Amazon Web Services刚刚透露了其第二代Graviton2处理器，这是一款自主研发的Arm芯片，该处理器很大程度上基于Arm Holding的“ Ares” Neoverse N1服务器芯片设计。AWS Graviton2实例将是公司测试Arm代码的最快，最简单的方法。

但是，就在本地和云上运行Arm服务器而言，目前Marvell的ThunderX2处理器处于领先地位。微软在过去的几周内已经开始在内部部署ThunderX2芯片，而AWS则在外部部署了经过大幅度改进的64核Graviton处理器（我们认为Graviton2没有多线程），微软也看好了这一机会——在Azure云上为客户提供Arm服务器实例，而不是像过去一样一直将Arm芯片保留给内部使用。

由于所有这些进展都在进行中，所以Marvell在今年一直保持沉默，但他们最近与The Next Platform坐下来，并向我们提供了最新动态以及ThunderX芯片行情的最新动态。公司希望看到能够持续有节奏地改进其服务器芯片，制定路线图并讨论未来，这可能是提供竞争性芯片的讨论中最关键的部分。当然，这是最困难的部分。

首先要考虑的是，Marvell不是像Cavium和Applied Micro一样的“小玩意儿”。该公司成立于1995年，拥有6,000多名员工，在截至今年1月的2019财年，公司收入为29亿美元。该公司生产用于嵌入式和数据中心产品的各种芯片，包括CPU和NPU以及许多其他种类的外围控制器等。Marvell也拥有10,000多项专利，这在现代IT时代非常重要，在现代IT时代，公司有时会与律师抗争。您可以看到，Marvell的产品组合非常广泛：

他们的额一些资产来自QLogic，XPliant，Broadcom和Cavium收购，其中一些来自其他收购或内部开发。我们可以看到，Marvell一直致力于扩大其在数据中心的影响力，他们上周进一步证明了这一点。公司宣布将以17.6亿美元的价格将其WiFi和蓝牙芯片业务出售给了NXP Semiconductors。这让Marvell可以积累更多的实力，可以与数据中心的竞争对手一较高下。

此外，Marvell于今年5月以6.5亿美元的价格从GlobalFoundries手中收购了IBM Microelectronics部门，这是一个专门为客户提供定制ASIC设计服务的部门。这笔交易带来了800多名工程师以及大量工具和技术，这将为Marvel带来每年约3亿美元的收入。Marvell还聘请了高通公司在Centriq系列Arm服务器芯片上工作的工程师，并正在北卡罗来纳州罗利市设立芯片设计中心。

现在，Marvell提供了三种不同的营销途径：

而且，它现在与使用IBM / GloFo单元设计定制芯片的超大规模生产商和电信运营商站在一起。目前，Marvell有100多个合作伙伴，它们直接与公司合作处理ThunderX2处理器。Cadence和Mentor Graphics是两家大公司，分别拥有其EDA和CAE工具。而英特尔在2000年代则在Xeon芯片和Linux操作系统上进行了巨额投资以巩固其数据中心的地位。

Marvell为各行各业设计和交付CPU和NPU芯片已经超过15年了，他们并共同处理了数十亿个芯片。这不仅包括从Cavium交易中获得的ThnderX1和ThunderX2系列，还包括Marvell自己设计的Armada系列芯片以及基于MIPS64内核设计的Octeon TX和Octeon Fusion网络处理器。（ThunderX1实际上是一个Octeon III NPU，它在全球范围内用Arm内核取代了MIPS内核，然后又对其进行了调整。）

关键的是，这不再是“小公司”Cavium操盘。Marvell服务器处理器业务部门总经理Gopal Hegde表示，ThunderX2在服务器市场上占有微不足道的地位，在超大规模生产者和HPC中心中有20个落地，出货量达数万个。但Hegde并没有过多评价，他只是指出，Marvell现在正在与所有构建服务器和其他数据中心设备的ODM合作，但是到目前为止，只有富士康，技嘉和和硕是提供公共参考。对于OEM而言，惠普（Enterprise）（包括Cray完成的工作）和Atos（准确地说是Bull服务器部门）是大型企业，它们的目标都是在HPC中心部署ThunderX2——这里有时使用GPU加速，但通常仅是在CPU群集上部署。

ThunderX1和ThunderX2之间的区别不仅在于核心数量，内存控制器和进程微缩。最大的变化是软件生态系统。

Hegde回忆说：“如果再追溯几年，生态系统压根就不存在了。” “编译器、工具，这些所有的东西都必须人工整理。但是到了今年，在ISC19超级计算会议上，Nvidia可以在ThunderX2系统上添加GPU并对整个过程进行基准测试，他们从未真正与我们交谈过，而是自己完成了整个过程。但是从那时到SC19超级计算机会议之间，我们与Nvidia和Arm进行了大量合作，并且看到了许多基准测试发布。这说明Linux生态系统，特别是与编译器，库和工具链有关的系统已经相当成熟。HPC中心花了很短的时间才提出他们的应用程序，而实际上没有一个人要求我们提供支持或帮助。

微软也在Azure上使用Arm服务器芯片（特别是ThunderX2）并提出了一个有趣的案例，早在2017年3月，微软就宣布了其“ Project Olympus”服务器设计，并表示将Windows Server移植到Arm芯片上，但仅适用于内部工作负载或作为Azure上的服务而不是原始基础结构公开的工作负载。

“很多人问我为什么Windows Server在Arm上运行要花两年半的时间，为什么在Azure上的Windows Server on Arm上发生的事情一直没有引起人们的关注，” Hegde说。我们已经反复要求微软谈论它在做什么——他们几年前表示，希望将Azure上运行的50％的计算能力放在Arm机器上，这是非常大胆的想法，但实际上徒劳无功。然而几周前，当我们谈到Microsoft最终如何在Azure上部署ThunderX2时，我们与Microsoft取得了联系，但他们不再发表评论，也没有谈及将其应用到哪些负载上。

Hedge表示：“ 我们在Windows Server做了大量的工作，因为Windows与Linux相比是一种不同类型的操作系统。” “我们与微软紧密合作，使Windows在Arm服务器上运行。不仅如此，我们还对所有编译器和库乃至整个工具链进行了测试和验证，以便可以将它们部署到生产中。因为数据中心客户在平台方面非常挑剔，Azure的资格认证过程也不例外。为了做到这些，Marvell，Ingrasys，Microsoft的ThunderX2硬件制造商一起做了大量的工作。”

此外，我们必须使其可以基于Arm的服务器节点运行Azure的服务器固件，Hyper-V服务器虚拟化管理程序以及Autopilot监视和管理工具。微软还拥有自己的一组网卡，闪存和磁盘驱动器，FPGA和GPU加速器以及其他外围设备，所有这些外围设备都必须在基于Arm的Olympus机器上完全完美运行。

当然，如果Microsoft更早启动，更快完成，那会更好。但是，正如一个聪明人曾经说过的：做任何事情的最佳时间是十年前。第二个最好的时间现在了。

在进入ThunderX路线图之前，让我们先讨论一下Arm服务器正在兴起的相邻市场——那就是Arm客户端软件开发，我们需要对其进行测试才能在可以模拟的Linux平台的各种SKU上运行。在云中部署服务器。从通用服务器标准来看，这并不是一笔大数目，但这也是非常重要的。

无论你相信与否，有超过一千万个小型Arm设备（其中很多是Raspberry Pi嵌入式服务器，某些实际上市智能手机和平板电脑）被用于Arm设备的开发，测试和验证客户端软件，他们通常运行Linux的某些变体。这将给能提供模拟这些设备、获得更好的成本优势的大型服务器带来机会。Hedge表示，在基准测试中，单个两路ThunderX2服务器可以代替190个Raspberry Pi节点来进行此智能手机和平板电脑仿真，并且可以将总成本降低50％或更多。

另一个机会是在ThunderX2或其他Arm服务器上运行Android云游戏，此外，还有企业虚拟电话市场。就是将其视为虚拟桌面基础结构（VDI），但具有电话个性而不是Windows PC个性。这种形态也正在出现。所有这些都可以托管在数据中心的Arm服务器上，并且可能应该赋予Android客户端和Arm服务器之间的软件兼容性。

总体而言，该市场在未来四年中将增长6倍。

上面的图表只是在计算这三个新兴领域所代表的服务器芯片机会，而不是整个服务器机会。乘以大约3倍至4倍的倍数即可获得完整的服务器机会。那就意味着到2023年，市场上运行的12亿美元的Arm服务器，这意味着5％的收入份额。这无需更换任何一台X86服务器，因为它实际上正在占领一个全新的市场。

现在，让我们进入ThunderX的路线图。

早在6月，Arm Holdings和Marvell签订了一项为期三年的协议，虽然未披露任何细节，但我们怀疑Marvell会更接近使用Neoverse“ Ares” ”，“宙斯”和“波塞冬”的设计并遵循摩尔定律曲线。

正如Arm自己承诺的那样，它将在系统级别上以每年的速度显著（至少30％，有时更多）提高性能。Hedge表示，洛斯阿拉莫斯国家实验室于2018年11月部署了配备有ThunderX2处理器的Cray XC50系统，并使用了Cray的“ Aries”互连，它也开始筹集资金，用于开发“ Triton” ThunderX3处理器及以后的产品。

Hedge说：“我们正在制定非常激进的路线图。” “ ThunderX3将于2020年初问世，我们新一代产品的性提升将超过2倍。这会让你想起AMD Epyc X86服务器芯片上从那不勒斯到罗马的能力提升，这是由内核数量增加和IPC更好等因素带来。我们这里有一个非常相似的模型。我们的IPC也正在大幅度提高，我们的核心数量也在增加。因此，ThunderX2和ThunderX3之间的差异比2X高得多。”

Marvell的各个团队都有并行的工作，例如新一代的ThunderX4的是Raleigh团队来推动设计。Hedge并没有随意透露有关ThunderX3或ThunderX4的详细信息的方式，但是随着每次跳跃，功率效率都会提高，核心数量和IPC也会提高。

顺便说一下，就我们所见，Marvell路线图并不是对Arm控股公司Neoverse路线图的效仿。一方面，Arm Holdings是年度节奏，而Marvell是两年节奏。但是，Marvell可能会从Neoverse中抽出东西来进行扩展和调整，然后每两年发布一次结果。实际上，这就是我们认可的做法。

Marvell可能成为Neoverse产品线的代言人，并更多地利用Arm控股公司在过去几年中获取的知识产权。因为重新发明这些轮子没有多大意义。因此，我们认为Marvell可以采用Neoverse设计，并在全球范围内将通用的Arm内核替换为基于Arm指令集设计的内核。

我们可以肯定地告诉您的一件事是，ThunderX3将是单片设计，Hedge向The Next Platform证实了这一点。Marvell不想使用专为笔记本电脑和台式机设计的内核和芯片，然后将它们组合在一个小芯片风格的单个插槽中，以制造服务器处理器。

IPC的提升与时钟速度的提升相结合，这将让ThunderX3带来50％左右的提升。其中L1指令高速缓存和L2高速缓存也将得到扩展，Marvell将调整算术单元，分支预测器和芯片前端的其他部分。同时缓存层次结构，预取器也也将进行调整，而频率则将上升而不是下降。

如我们预期的那样，如果ThunderX3具有64个内核，那么每个插槽将带来3倍的性能提升，IPC则提升20％，时钟也提升30％（从2.2 GHz提升至2.9 GHz）。如果将芯片的频率降低到2.2 GHz，则散热可能会降低很多，也许会降到ThunderX2的150瓦，而不是我们期望ThunderX3的200瓦。

Marvell可以利用很多杠杆，其中只有一些来自芯片合作伙伴TSMC。

Hedge说：“英特尔拥有许多可以支持应用程序的传统电路，这些电路可以追溯到几十年前。但是Arm具有清晰的架构。”

“我们有一个专为服务器应用程序设计的自定义Arm内核，当我们查看每瓦性能和每面积性能时，我们显然会看到很大的优势。我们拥有比那不勒斯好20％的芯片面积优势，并且具有类似的功耗优势。当我们把ThunderX3迁移到7纳米时，我们发现我们的面积和功耗优势实际上得到了改善。与AMD Rome和Intel Ice Lake相比，我们的面积更好，并且我们的电源效率将大大提高。”Hedge补充说。

*点击文末阅读原文，可阅读英文 原文。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2156期内容，欢迎关注。

Marvell的Arm服务器芯片野心

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

Marvell的Arm服务器芯片野心

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月