[原创] 龙芯曲折的自主CPU之路

2019-12-25 14:00:10 来源: 半导体行业观察


通用CPU被称作是集成电路中的“珠穆朗玛峰”,对集成电路和软件产业具有基础性和带动性作用。但CPU的微架构需要长期积累,且需要对应用、操作系统、编译、逻辑和电路的行为都融会贯通。我国由于缺少自主的CPU技术和产业,在信息产业严重受制于人。在自主CPU的研发道路上,国内以龙芯为代表的企业手握自主创新的“枪杆子”走过了坎坷的十八年。


行走在路上的龙芯


回顾龙芯十八年多的发展历史,走的是“之”字形的发展道路,弯路比直路多。


2000年10月,一个偶然的机缘,胡伟武开始参与中科院计算所的CPU开发项目。


2001年8月,中国自主研发的龙芯1号FPGA成功地运行了Linux操作系统。


2002年8月10日,“龙芯1号”问世,中国人结束了只能用国外CPU造计算机的历史,被业内人士誉为民族科技产业化道路上的一个里程碑。


2003年4月18日,由中科院计算技术研究所自主研发的国产首款64位高性能通用CPU——“龙芯2号”问世。龙芯2号在性能上有着大幅提高,对我国行成具有自主知识产权的计算机产业有着重要的推动作用。


此后研制龙芯3号系列CPU发展道路之曲折、奋斗之艰辛,付出之巨大无人知晓,直到2016年,龙芯3A3000才研制成功,因2016年是红军长征胜利80周年,因此以CZ80命名,每颗芯片的硅片上都刻有CZ80字样。


十年来,龙芯先后研制了龙芯3A1000、3B1000、3B1500、3A2000/3B200、3A3000/3B3000五款龙芯3号系列芯片。为什么龙芯CPU研制经历这么多坎坷呢?除了龙芯的质量流程需要持续改进以外,究其根本原因,是因为龙芯始终坚持芯片中的核心模块自己研制,龙芯长期坚持芯片中的核心IP自己掌握。


胡伟武在《龙芯的足迹》一书中写到:“做任何事情,依靠别人总是容易一些,完全靠自己则困难的多。但依靠的多了,吃过亏后才明白还得靠自己”。


比肩AMD,龙芯新一代CPU实现自主可控


那么自主CPU与国外先进水平主要差距在哪?在胡伟武看来,自主CPU在技术上的核心问题是由于没有很好地掌握处理器的微架构技术,自主处理器单核性能较低,而不是处理器核不够多,在CPU芯片中多放些处理器核是容易的,难的是要把处理器核做好。再就是通用处理能力和设计能力不行。


龙芯的设计原则是练好内功,通过设计优化来提高单核通用处理性能。在昨天的龙芯新产品发布暨用户大会上,龙芯发布了新一代通用CPU产品3A4000/3B000。3A4000/3B000基本完成了单核通用处理性能“补课”。

龙芯3A4000/3B4000在片内集成了安全机制,实现自主可控和安全可靠的统一。3A4000/3B4000主要有三大特点:


特点一:相同工艺性能(28nm)成倍提高


龙芯3A4000/3B4000使用与上一代产品3A3000/3B3000相同的28nm工艺,通过设计优化成倍提升性能。具体可表现为SPEC CPU2006单核peak分值双21分,base分值双18分;3B4000支持四路直连,四路服务器性能是3B3000双路服务器的四倍;科学计算性能是3A3000的四倍以上,支持128/256位向量;据胡伟武介绍,3A4000通用处理性能与AMD公司28nm工艺最后产品“挖掘机”处理器相当,且单核性能高于用14nm实现的ARM处理器。


特点二:片内安全机制


龙芯3A4000/3B4000能够从机制上有效防范Meltdon和Spectre等漏洞,支持MD5、AES、SHA等加解密算法,支持专用安全可信模块及国密算法,支持“影子栈”等访问控制机制。据龙芯中科董事长胡伟武介绍,传统的CPU安全机制只是在处理器核外增加安全可信模块,龙芯3A40003B4000专门在处理器核内设计了安全控制机制,从而达到本质安全。


特点三:一如既往地自主研发


龙芯3A4000/B4000一如既往地强调自主研发。芯片中的所有功能模块,包括CPU核心、片内互联总线、DDR4内存控制器及各种接口模块等的所有源代码均自主设计。芯片中各类全定制模块,包括多端口寄存器堆、锁相环、DDR4PHY、PLL等均自主研发。除了流片厂家提供的基本设计环境,龙芯3A4000/3B4000没有使用任何第三方IP。


3A4000/3B4000使用龙芯公司最新研制的新一代处理器核GS464V,主频1.8ghz-2.ghz,通过优化功耗管理,基于龙芯3A4000笔记本工作时间比上一代产品延长一倍以上。采用37.5mm*37.5mm封装工艺,还支持BGA、LGA以及CBGA的多种封装形式,同时其桌面主板可支持四层布线。


胡伟武还指出,3A4000/3B4000还存在一些问题,例如DDR4内存频率不够高,功耗偏大,但这也是龙芯进一步改进的动力。下一步龙芯的主要工作重点就是提高主频和核数。龙芯将于明后年推出使用12nm工艺的四核3A5000和16核3C5000,其主频将提高到2.5GH以上,通用处理性能将达到当时AMD的水平,3A5000通过工艺改进提高主频,3C5000工艺改进增加核数。通过20年积累完成CPU性能“补课”。


龙芯操作系统的“三条线、两个面”


龙芯的“初心”是打造独立于Wintel和AA (ARM+Android)的第三大生态体系。优秀的生态有三个重要特点:一是开放,越开放合作伙伴越多,产业生态力量越大,Google和ARM做得最好;二是兼容,越兼容越容易形成合力,产业生态不易碎片化,Intel和微软做得最好;三是优化,以用户体验为中心,通过软硬件紧密结合进行优化,苹果做得最好。


他山之石,可以攻玉。经过多年探索,龙芯形成了“Intel+ Google+ Apple”的商业与技术模式。一是学 Intel商业上形成CPU、OS、ODM核心并向外辐射,技术上做好 Outside规范,保持结构的兼容和稳定,实现操作系统级二进制兼容。二是学 Google“做OS但不卖OS”,谷歌研制 Android但不卖 Android操作系统,而小米的米OS和华为的麒麟OS均基于 Google的 Android;龙芯研制 Loongnix形成龙芯CPU的基础版操作系统并免费开放给合作伙伴,支持合作伙伴推出发行版操作系统产品。三是学 Apple以用户体验为中心从全系统角度进行优化,把细节做精。


结合龙芯生态建设的要求,龙芯在实践中形成了软件生态“三条线、两个面”的总体思路。


龙芯操作系统的“三条线”:

  • Loongnix面向通用信息化系统,基于通用Linux平台进行完善和优化,为统一操作系统龙芯版提供支持;
  • LoongOS面向高可靠实时终端,基于Linux/RT-Linux构建简洁高效的OS,没有Xserver的图形系统;
  • LoongWorks面向实时嵌入式应用,针对历史应用,基于VxWorks内核,完善图形、网络等API,把VxWorks从“DOS”阶段升级到Windows阶段;

龙芯操作系统的“两个面”指的是在“三条线”的基础上,通过统一系统架构实现操作系统跨硬件的二进制兼容,完善API实现应用的二进制兼容及优化。

  • 一是面向硬件,对不同主板实现二进制兼容,ARM系统做不到OS的二进制兼容,其设计OS、BIOS、桥片等多方面规范,ARM只能管住CPU核及AMBA总线,Intel能管住UEFI、PCI软件协议等;

  • 二是面向应用,对不同应用实现二进制兼容,API是OS的指令系统,也是建立生态的必争之地,我国用JS和Java编程的工程师数以百万计,但会写JS和java虚拟机的不到百人,再加上开源软件的不兼容性,使得浏览器升级就会导致应用的不兼容。龙芯通过基础版操作系统管住这“两个面”。


本次发布会龙芯中科发布了统一系统架构的标准规范体系,并通过与OEM/ODM厂商签署认证协议建立产品认证体系。从龙芯3A4000/3B4000起,龙芯的参考设计全面支持统一系统架构,CPU和主板升级均不影响操作系统及应用的兼容性。

通过统一系统架构保持操作系统跨硬件平台的进制兼容可以大幅提高系统开发的效率。在 Wintel的平台上,不管是谁做的主板,一套 Windows操作系统都能装。不管是多新的CPU,十年前的 Windows XP还能装。通过指令系统兼容可以实现应用程序的二进制兼容,但要实现操作系统的二进制兼容则需要从包括CPU、桥片、BIOS、操作系统等全系统的角度进行规范并保持长期兼容。

在统一系统架构的总要求下,实现了主板、固件、内核层面的兼容,并支持ACPI的UEFI固件,把硬件细节抽象为OS对地址空间的访问,通过ACPI表向OS提供启动配置/运行时配置和以OS为主导的电源管理。除此之外,还有检测工具集合认证协议。

龙芯中科副总裁张戈在题为《龙芯生态及解决方案分享》的演讲中表示,随着相关市场需求的不断拉动,龙芯的合作伙伴已经增至近千家,下游基于龙芯的开发人员达到数万人,2019年龙芯芯片出货量已经达到50万颗以上,在国产化应用中市场份额遥遥领先。

国产CPU要不怕远征难


世界上做CPU的企业中,凡是不做生态或者跟生态的CPU企业都活不好。Intel是一个做生态的企业,佛教《百喻经》中有一个“三重楼喻”,在信息产业技术也有“三重楼喻”,第一层是CPU技术+操作系统技术,即通用CPU;第二层是网络技术+图形/媒体技术,即GPU,Intel的通用打败思科的专用,片内集成GPU摆脱对英伟达的依赖;第三层是AI技术+虚拟化技术,如NPU。在芯片内部结构复杂度上,如果CPU的微结构复杂度是1,GPU的复杂度为0.3-0.5,神经网络处理器NPU的复杂度则小于0.1。

胡伟武指出,龙芯的三层楼要一层层盖。经过20年的发展,到2020年自主CPU和OS基本完成“补课”,CPU通用处理性能已达到AMD水平,OS成熟度也已接近Windows XP。但应用不够丰富和产业不配套成为自主CPU和OS发展的下一个瓶颈,过去我国的信息化应用主要构建在国外Wintel和AA等平台上,在CPU、GPU、网络等的产业链配套不足。因此未来CPU与应用软硬件企业应该相向而行,龙芯将不断完善基础软件环境(如NET等)和配套芯片(如GU、电源时钟芯片),信息化应用软件企业应把 Windows上的应用软件往Linux平台上迁移。

胡伟武还提到,国产CPU应“不怕远征难”,纵观历史,高复杂系统能力建设需要以30年为周期,例如“运十”1996年拆解,“C919”2017年首飞。那么有没有办法避免上述耗时的多轮试错,一步就上楼?对此,龙芯进行了各种尝试:造不如买,市场换技术、研不如买、弯道超车。。。。事实证明,这些都不是根本的解决办法。正所谓不同产品需要不同周期,CPU就是个孩子,千万不能指望2~3年把他养好。在核心技术产业“爬楼梯”的过程中,必须要有愚公移山的精神和实事求是的作风,不要幻想弯道超车,建立自主IT产业体系需要30年的努力,目前龙芯已发展19年,正呈现加速发展态势。
龙芯中科技术有限公司总裁胡伟武

胡伟武介绍到,改革开放以来,我国发展核心技术形成了以“市场换技术”和“市场带技术”为主要特点的两条道路。所谓市场换技术,就是通过合资等方式把中国市场给予国外企业,希望在合资过程中得到先进技术;我国汽车产业是“市场换技术”道路的典型代表,事实证明,走这条道路在发展核心技术方面没有取得预期的效果。境外主要CPU企业均通过合资或授权方式成为“自主CPU”,要强调自主CPU需“融入”已有生态。

所谓“市场带技术”,就是充分发挥我国体制优势和市场优势,通过体制内市场引导,形成技术能力,带动技术进步,再参与体制外市场竞争;我国航天产业是“市场带技术”道路的典型代表。事实证明,走“市场带技术”道路更有利于我国发展和掌握核心技术。

龙芯走的正是市场带技术的道路,龙芯CPU通过自主编写CPU源代码,并在应用中不断演进,强调自主CPU要建立自主生态(独立于 intel体系和AA体系)。要同台竞技需先通过楼梯“上台”,一步楼梯就是一次在市场应用中试错,不断的试错,才能促使性能的提高和生态的完善。

龙芯OS在试错中不断趋于成熟:第一功能丰富,在主要的功能软件和大量的IO驱动上功能更加丰富;第二架构稳定,实现了操作系统对不同主板及升级后的CPU二进制兼容,涉及CPU、桥片、BIOS、OS的大量细节更加规范化;第三性能优化,性能成倍提高,从被动优化逐渐到主动优化,另外打造技术链,在每个局部都不如国外的情况相爱啊,整体性能优于国外系统;第四问题收敛,应用现场问题追溯到CPU和OS的越来越少,成熟度更接近Windows XP的水平。

胡伟武指出,走“市场带技术”的道路,通过自主研发掌握CPU的核心技术,建立自主可控的信息技术体系,我们失去的只有锁链,得到的将是整个世界。走“市场换技术”的道路,通过引进技术发展自主CPU产品,只是将一副锁链换成另外一副锁链。

结合过去龙芯十八年的发展之路,任何企业和新技术在发展的过程中,既要埋头拉车,又要抬头看路。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2169期内容,欢迎关注。

推荐阅读


14nm代工江湖再添变数

建一个5G基站,到底要花多少钱?

Jeff Dean讲述AI芯片的未来发展趋势


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|AI |台积电 |华为 |博通 TWS|英特尔|存储



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论