[原创] 国产GPU奋起直追,芯动科技一马当先

2021-12-06 14:00:03 来源: 半导体行业观察

全球GPU市场长期被英特尔、英伟达、AMD等国外三巨头垄断,国产高性能GPU一直未见起色。


在自主可控需求及国产替代浪潮之下,近年来有不少公司开始涉足GPU领域,也吸引着越来越多资本的涌入。然而,只听雷声响,未见雨下来,阵阵喧闹过后,市场上仍未见可与国际巨头对标的量产产品。


谁能横枪勒马,打破格局,人们翘首以盼……



GPU(Graphic Processing Unit),图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。

通俗来讲,GPU就是完成3D图形的生成,将图形映射到相应的像素点上,对每个像素进行计算确定最终颜色并完成输出,GPU采用流式并行计算模式,可对每个数据行独立的并行计算。

作为图形渲染和智能计算的主要平台,GPU产业已形成较大规模。据Verified Market Research数据统计,2020年全球GPU市场价值为254.1亿美元,2027年有望达到1853.1亿美元,年平均增速高达32.82%。

全球GPU规模走势预测
(数据:Verified Market Research,半导体行业观察制图)

当前,GPU市场主要被英特尔、英伟达、AMD等厂商垄断,市场高度集中。据JPR公布的数据显示,2021年第二季度,在全球独立GPU市场中,英伟达独占83%的市场,AMD则占据17%的份额;在PC GPU市场中,英特尔占比超过68%,英伟达与AMD次之。

在中国市场中,三大巨头自然也是分走了大部分蛋糕,作为全球GPU市场重要组成部分,2020年英伟达、AMD在中国大陆收入占比分别为23.3%、23.9%,可以说是赚得盆满钵满。


国产GPU涌动


当前,在5G数据中心、云游戏,以及云宇宙等热门应用的推动下,GPU领域的市场空间正在快速增长,市场潜力巨大。结合市场趋势、行业格局以及不稳定的国际贸易关系等多重因素,国内越来越多的企业开始在GPU市场布局。


近年来国产GPU市场的火爆引起广泛关注,国产GPU厂商相继发布产品进展,也有GPU厂商陆续获得大笔融资,这说明国产GPU不仅受到了资本的大力支持,也切实在产品上取得了一定的突破。

但能够发现,由于GPU行业的准入门槛较高,国内很多厂商专注的是通用GPU(GPGPU)的研发,这种GPU并不具备图形处理能力,主要是用来计算原本由CPU处理的通用计算(与图形无关的)任务,实现相对简单的一些AI运算。虽然GPGPU的价值也很高,增长也不错,但细分市场总的体量还是远不及图形渲染GPU领域。

而在图形GPU领域,国内还是以景嘉微、航锦科技等为代表的传统企业为主力。另外,从事CPU研发的企业(如兆芯、龙芯等),也开始切入这个赛道,增强了国内GPU企业的整体研发实力。

然而,喧闹过后,市场上仍无一款可与国际巨头对标的量产产品。 艰难破局的关口,需要更多有实力的厂商参与进来,助力国产突围。

在此行业背景和市场推动下,11月26日,芯动科技正式发布了自己的GPU芯片——“风华1号”,并通过现场多项4K级重度渲染演示,揭开了这款集众多自主技术创新、备受瞩目的国产GPU的神秘面纱。


国产GPU突破


对于“风华1号”GPU性能,芯动科技云计算总裁敖海进行了介绍:


芯动科技云计算总裁敖海


  • “风华1号”单芯片A卡渲染能力达到160GPixel/秒,FP32浮点性能达到5T FLOPS;
  • 3D图形渲染处理管线定制优化,支持Linux/龙芯/Windows/安卓操作系统图形框架,同时支持4路4K@60、16路1080P@60fps或32路720P@30fps,集渲染+低延迟编解码+AI计算于一体,AI性能为25TOPS(INT8);
  • 芯片支持32路SR-IOV虚拟化,内置中国专利的物理不可克隆PUF技术,保护信息安全;
  • 显存技术采用全球领先的GDDR6/GDDR6X Combo自研技术,单比特最大传输速率达到19Gbps。显存带宽最高可达304GB/s,显存容量最大可扩展至16GB;
  • 主机接口支持PCIe4.0X16,且向下兼容PCIe3.0/2.0X8,支持OpenGL4.0;
  • 视频输出接口方面,“风华1号”配置自研HDMI2.1/DP1.4/VGA等超高清接口,支持多路独立输出。

“风华1号”主要性能指标(图源:现场拍摄)

在发布会现场,芯动科技还进行了“风华1号”A卡的渲染演示,在国产CPU和操作系统桌面上办公上网、CAD设计、图形工作站、EDA设计、GIS实景地图、重度游戏benchmark、OpenGL4.0 Heaven、Vulkan框架下运行Windows游戏、多路云游戏等多种高清渲染场景下的流畅表现,“风华1号”实测功耗表现非常优秀,桌面4K重度渲染典型芯片功耗在20W左右,多路重度云渲染典型功耗在50W左右。

从芯片算力性能来看,“风华1号”双芯片B卡(下文有介绍)FP32浮点性能达到10T FLOPS,可以对标英伟达Tesla T4 GPU(FP32 / 8.1T FLOPS),且功耗更低,远超其它国产GPU性能。 此外,风华GPU还搭载了Chiplet、GDDR6X以及虚拟化解决方案等众多优势技术,为产品提供赋能。

  • Innolink Chiplet技术


值得关注的是,“风华1号”还首次成功实施了中国自主标准的Innolink Chiplet多晶粒技术。芯动科技GDDR6X研发负责人高专表示,Innolink Chiplet技术是芯动科技推出的国产标准封装技术,将不同功能不同工艺制造的小芯片进行模块化封装,成为一个异构集成芯片。


简单来说,Chiplet技术就是像搭积木一样,把一些预先生产好的能实现特定功能的芯片裸片(die)通过先进的集成技术集成封装在一起,形成一个系统芯片(SoC)。从这个意义上来说,Chiplet就是一个新的IP复用模式。


芯动科技可以为多种场景的Chiplet提供接口解决方案,Innolink A/B/C三种互连选项满足不同芯片的需求,具有高度可编程性和灵活性,可实现高达1.5Tbps以上的带宽,同时保持信号完整性和低延迟。


芯动科技Innolink IP(图源:现场拍摄)


在风华GPU里面用的是InnolinkB的技术,InnolinkB基于GDDR6技术,可以兼容一些传统封装,实现芯片到芯片间的互联,可以做到低延时、小面积。通过Innolink Chiplet扩展,“风华1号”GPU显卡服务器用B卡,在A卡基础上直接性能翻倍,渲染能力达到320GPixel/秒,FP32浮点性能达到10T FLOPS;同时支持32路1080P@60fps和64路720P@30fps强渲染+低延迟编解码+AI计算,显存达到32GB。


基于Chiplet的模块化设计方法,用先进封装的方式将不同功能“芯片模块”封装在一起,可以跳过流片快速定制出一个符合应用需求的芯片,芯片的交付过程也被进一步加快。


据了解,Innolink方案不只是用在GPU上,芯动科技也授权给了合作伙伴和客户,通过复用芯动科技的国产Innolink Chiplet技术,能够快速便捷地实现多die、多芯片之间的互连,有效简化了设计流程。作为中国半导体IP和芯片定制的一站式生态赋能型领军企业,芯动科技希望将该技术推广出去,让它为中国的集成电路、芯片产业的崛起做出贡献。


  • 业界最先进显存GDDR6X


此外,“风华1号”搭载的GDDR6X也是目前最为先进的显存,英伟达的RTX3090和RTX3080搭载的显存就是美光独家供货的GDDR6X显存,目前全球只有英伟达和芯动科技两家拥有。


芯动科技GDDR6X研发负责人高专


据介绍,GDDR6/6X速度是DRR4/LPDDR4最高速度的5倍,这在GPU领域意味着内存带宽性能的碾压。新显存的优势体现在两个方面,一是显存容量可扩展至16GB,二是速度高达21Gbps。


“核心技术是买不来的,英伟达的高带宽显存技术一直自研,是其保持其竞争优势和70%利润率的一大利器,芯动科技在这方面能与其并驾齐驱,确保了GPU性能和工艺量产的灵活性和性价比。” 高专强调,“GDDR6X的PAM4并行技术超级难做,英伟达与美光在一栋楼里共同研发两年才研发出来; 而芯动团队是全球唯一一家仅凭有限的远程技术支持,只用一年时间就做出来了的公司,这一点连AMD都还没有做到,所以美光的架构师都不禁感叹我们的研发实力之强”。


  • GPU虚拟化技术


除了采用全球顶尖的GDDR6X高带宽显存技术和Chiplet等前沿技术之外,虚拟化技术也是“风华1号”GPU的一大亮点。


据介绍,虚拟化方面,“风华1号”是一个支持虚拟化云服务的GPU,能支持32路的720P,并且目前采用的是超低功耗的设计,在现有架构上还有非常多的创新空间,更进一步地扩大算力。硬件虚拟化和可延展性给用户在未来进行类似于对安全性很高的应用场景,通过加密并且不断地延展在特定场所的计算能力和渲染能力方面,提供非常大的优势。


虚拟化技术能够把GPU虚拟成多个可以独立工作的GPU,支持多路计算的场景,同时给多个用户使用。 芯动科技SoC体系架构师何颖表示:“该技术适用于云服务领域,因为在云服务里面很可能是很多客户一起在一个服务器上跑,这个时候如果是一个GPU服务一个客户的话,实际上满足不了需求。因为GPU本身的性能比较强,用来满足一个客户的需求的话性能会有冗余,这个时候虚拟化就是把这个GPU变成多个虚拟的GPU,每个虚拟GPU服务每个客户。当然这里面涉及到很多东西,要做到每个客户之间采用的资源是互相隔离的,包括他们用的显存、计算资源、编解码资源等全部都要虚拟化起来,使得每个客户能够用得很流畅。”


芯动科技SoC体系架构师何颖


英伟达和AMD在GPU虚拟化的路上走的比较慢,即使提供虚拟化的方案,好像它不太支持灵活的虚拟化。对此,芯动科技工程副总毛鸣明指出, 虚拟化除了技术方面有很大的瓶颈,它还有一个商业的原因。 GPU虚拟化是一个类似于内卷的技术,因为GPU虚拟化之后,卖的显卡数量就会减少,因此对于显卡巨头来说没有太大的动力去支持其快速推进虚拟化技术,或者哪怕支持也会收取特别昂贵的费用。因此,这也属于芯动科技的一个差异化优势,国产GPU本身也是一个要走向国际市场的产品,面对巨头竞争要走差异化路线。


从芯片参数和各项优势技术可以看到, “风华1号”的发布实现了国产5G数据中心服务器GPU和4K桌面GPU这两大应用场景从0到1的突破。 “风华1号”显卡实现了多项第一,如第一款渲染能力达到5T-10T FLOPS的国产GPU显卡,第一款图形API达到OpenGL4.0以上,并能实际演示4.0 benchmark的GPU,还是第一款支持多路渲染+编解码+AI服务,硬件虚拟化和Chiplet可延展的国产GPU等。


在桌面上,“风华1号”适配了4K、1080p分辨率,支持Windows、Android、Linux(含国产)等操作系统,支持ARM、MIPS、x86 CPU架构,支持OpenGL、OpenGL ES、OpenCL、Vulkan、DirectX等主流图形框架,支持嵌入式VR/AR/AU、智能座舱、工控机、元宇宙等应用。


在服务器上,“风华1号”支持数据中心服务器高密度图形渲染、AI超分/运算,支持5G数据中心多路云办公、云渲染、云游戏、云手机,支持高安全性多路硬件虚拟化、远程桌面应用。

从当前市场来看,服务器GPU被广泛应用于AI、数据分析、高性能计算与渲染等领域,服务器作为网络中的重要设备,要接受少至几十人、多至成千上万人的访问,因此对服务器GPU具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求。相较于其他运算单元,服务器GPU因较高的可编程性和不错的通用性能,被用作特定应用处理器(ASP),部署在云端、办公室、数据中心、边缘计算。目前,主要的服务器GPU解决方案主要由英伟达、AMD来提供。

“风华1号”的发布大幅提升了国产GPU的渲染能力,从而在5G数据中心渲染性能上能够对标国外服务器级别显卡。 中国服务器市场规模和潜力非常大,IDC数据显示,2021年上半年,国内服务器市场出货量为170.6万台,同比增长8.9%;市场规模达到108.1亿美元,同比增长12.1%。同时IDC预测,未来五年,中国服务器市场复合增速在12.7%,2025年市场规模预计达到424.7亿美金。

2020-2021年中国服务器市场规模(数据来源:IDC)

这一增幅足以说明了加速计算的发展势头,庞大的整机制造能力意味着巨量的GPU采购。据IDC预测,中国GPU服务器市场规模到2024年预计可以达到60亿美元。未来,“风华1号”或将在5G数据中心、云桌面、工作站等多个关键领域迎来发展机遇。


国产GPU生态如何突围?


风华GPU芯片的发布才是刚刚开始,后面更重要的问题是产品要如何实现规模化商用,国产GPU生态又该如何突围?


芯动科技工程副总毛鸣明表示,作为一家比较本土化的设计公司,芯动科技可以更贴近客户,更贴近云游戏的厂商,在硬件设计和定制化方面做一些有差异化的东西。

芯动科技工程副总毛鸣明

在进入新领域的时候不在存量市场上跟巨头进行PK,芯动科技计划凭借“风华1号”先立足于国产信创桌面和服务器市场,先把这一块做好,通过快速的技术升级和产品迭代站稳脚跟,从站住脚的出发点跟着云渲染指数级增长的态势一同向前发展,等积累到一定程度的时候或许会逐渐进入桌面、笔记本,甚至手机市场,一旦在一个战场上站住脚以后就可以慢慢发展开来。

信创市场是国产GPU成长的机会,而不是终极目标。 国家做信创本身鼓励的也是更通用、商业化的行为。因此,信创只是一个开始,往后商用的应用场景也会往国产化方向走,不管是软件还是硬件,芯动科技也是想在信创上站稳脚跟,往更通用的方向走。这是一个动态变化的,当有足够的技术积累之后就会切入到新的赛道。

长远来看,芯片技术最终还是需要经年累月的迭代和优化。巨大的研发费用和资本开支是必需,但是下游产业链长期、持续的利润支撑才是芯片长久发展的强力驱动。也就是说, 芯片的成功和成熟需要大量的验证和出货,而找到可持续的落地场景才是长期发展的关键驱动力。 所以国产GPU生态要突围,还必须脚踏实地,从切切实实的好产品开始。


写在最后


“风华1号”目前正在跟合作伙伴进行适配调优,今年年底之前开始进行商业化的试用和适配,在这个过程中不断地总结和提升产品的核心竞争优势。


敖海表示,在“风华1号”向客户送样的同时,新一代GPU芯片已经在路上了。先进工艺的强悍迭代能力是芯动的固有优势,靠自有IP和定制能力以及代工厂合作伙伴的支持,不断演进先进技术,确保性能持续领先、供应链安全和优势性价比,“芯动计划在未来三年里持续每年量产两颗以上、性能不断大幅度提升的GPU芯片, 并满足用户的定制需求。明年初‘风华2号’和‘风华3号’将接踵而至,2022年我们计划投片5nm加光追技术,赋能国产GPU产业。”

可见,在以芯动科技为代表的这些企业的努力下,我国GPU行业正在加速发展,实现了快速的进步,正一点点敲开外资企业封锁的大门。

据Verified Market Research数据显示,2020年中国大陆的独立GPU市场规模为47.39亿美元,预计2027年中国大陆GPU市场规模将超过345.57亿美元。

中国大陆独立GPU市场规模预测(数据来源:Verified Market Research)

这片巨大的市场,吸引着越来越多资本的涌入。同时, 随着政策端对信息关键基础设施自主可控的重视,国产替代浪潮来临,更是给国产GPU的发展添了一把火。

不过,GPU是一个高技术含量的赛道,而且我国在这一领域发展已经落后许久。尽管近年来突然开始有不少初创公司踏足GPU领域,并受到资本青睐,但我国想要彻底打破GPU垄断并不是一件易事。

国内投资GPU的热潮既是商业化的需求,也是国家战略替代的需求。相较于已有一定积累的CPU来说,我国在GPU方面的发展进度还十分缓慢。目前桌面和移动端的GPU基本被英伟达、AMD、ARM垄断,所以国产替代的空间和潜能很大,可以说是一个巨大的蓝海市场。投资者青睐GPU领域其实也是看好这个市场的巨大发展前景和机会。

但是,毛鸣明认为:“我们也不能忽视这背后的投机属性。一方面,一些GPU新势力尚没有明确自己的细分市场,没有想清楚未来长远的发展方向,还只是停留在PPT阶段,所以尽管热度高涨,但真正能用产品说话的企业非常少,尤其是高性能商业化的渲染GPU产品凤毛麟角;另一方面,GPU技术门槛高,长期被国外行业霸主垄断,新势力想要生存必须掌握核心技术,有多年的技术积累和人才资金供给。 长远来看,GPU领域在竞争中将会逐渐由多家公司收敛成屈指可数的几家公司。

必须正视的是,现在的GPU市场已经略显浮躁,很多初创公司通过竞相融资来“秀肌肉”,像极了通过比拼烧钱来争胜负的互联网公司。其实优秀的硬件产品本身是有利润的,像英伟达和AMD的利润都非常高。每一个硬件公司、芯片公司,只有保持良性正循环,不断通过一个胜利来赢得下一个胜利,这才是真正优秀公司的特质。通过烧钱,迟早会烧出越来越大的窟窿。

记者在采访中了解到,芯动多年来一直是持续盈利的企业。虽然在不断投入重大新项目,但是财务管理非常健康,不仅不需要通过融资来烧钱,反而可以通过自身强大造血能力确保供应链安全。


所以,新的竞争和涌动或许才刚刚开始。希望芯动科技一马当先,引领这个潮流!


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2880内容,欢迎关注。

推荐阅读


CMOS图像传感器何去何从?

本土汽车芯片多路出击

汽车芯片真的那么缺吗?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论