超越摩尔定律 芯片堆叠技术正夯

2017-09-04 14:15:15 来源: eettaiwan
在8月下旬于美国硅谷举行的年度Hot Chips大会上,Intel与Xilinx分享了芯片堆叠技术的最新进展...
 
美国的一项研究专案旨在培育一个能以随插即用的“小芯片(chiplet)”来设计半导体的生态系统;而在此同时,英特尔(Intel)和赛灵思(Xilinx)等厂商则是使用专有封装技术,来让自己的FPGA产品与竞争产品有所差异化。
 
在未来八个月,美国国防部高等研究计划署(DARPA)的“CHIPS”(Common Heterogeneous Integration and Intellectual Property Reuse Strategies)专案,期望能定义与测试开放芯片介面(open chip interfaces),并在三年内让许多公司运用该连结介面来打造各种复杂的零组件。
 
英特尔已经参与此项专案,其他厂商预计也会马上跟进;这位x86架构的巨擘正在内部争论是否要公开部份的嵌入式多芯片互连桥接技术(embedded multi-die interconnect bridge,EMIB),而在8月下旬于美国硅谷举行的年度Hot Chips大会上,英特尔公布了目前EMIB技术的大部分细节。
 
Xilinx为CCIX (Cache Coherent Interconnect for Accelerators)互连架构的领导者,该公司的一些高阶主管表达了对于该DARPA专案的兴趣,并宣布其第四代FPGA使用台积电(TSMC)专有的CoWoS 2.5D封装技术。然而究竟哪一种方式能为主流半导体设计降低成本、带来高频宽连接,至今尚不明朗。
 
 
英特尔将EMIB (中间)定位为电路板与裸晶之间的连接技术(来源:Intel)
 
使用有机基板(organic substrate)的多芯片模组(MCM)已经行之有年,除了相对较低密度的问题,有些供应商正在想办法降低成本。台积电率先推出了一种扇出型(fan out)晶圆级封装,用来封装苹果(Apple)最新iPhone手机中的应用处理器及其记忆体,该技术提供比多芯片模组技术更大的密度,但用来连结处理器仍不够力。
 
高阶的AMD与Nvidia绘图芯片已经和Xilinx一样,使用像是CoWoS的2.5D技术,将处理器与记忆体堆叠连结在一起;不过一位曾拒绝在Xbox上使用此技术的微软(Microsoft)资深工程师提到,目前这些技术对于消费性电子产品来说仍太过昂贵。
 
如同微软,AMD的Epyc伺服器处理器不考虑采用相对昂贵的2.5D 堆叠技术,此处理器是由有机基板上的四颗裸晶(die)所组成。在Hot Chip大会上介绍该芯片的AMD代表Kevin Lepa表示:“较传统的多芯片模组是较为人知的技术,成本更低…某些方面(效能)会有所牺牲,但我们认为这是可以接受的。”
 
一些人希望DARPA的研发专案能尽速解决复杂的技术与商业瓶颈,Xilinx的一位资深架构师即表示:“我们希望小芯片能变成更像是IP。”
 
在2014年,英特尔首先将其EMIB技术形容为功能媲美2.5D堆叠技术、但成本更低的方案,某部分是因为它只使用一部份的硅中介层(silicon-interposer)来连接任何尺寸的裸晶两端。Altera在被英特尔并购前尝试过该技术,其现在出货的高阶Stratix FPGA使用EMIB来连结DRAM堆叠与收发器。
 
EMIB介面与CCIX进展

在Hot Chips大会上,英特尔介绍了两种采用EMIB技术的介面,其一名为UIB,是以一种若非Samsung就是SK Hynix使用的DRAM堆叠Jedec连结标准为基础;另外一个称作AIB,是英特尔为收发器开发的专有介面,之后广泛应用于类比、RF与其他元件。
 
 
英特尔的AIB介面内部架构(来源:Intel)
 
对于EMIB来说,这两者都是相对较简单的平行I/O电路,英特尔相信比起串列连结介面,可以有较低的延迟性与较好的延展扩充性(Scaling)。到目前为止,采用上述两种介面的模组已经在英特尔的3座晶圆厂以6种制程节点进行过设计。
 
英特尔还未决定是否将公布AIB,也就是将之转为开放原始码;该介面在实体层的可编程速度可高达2 Gbps,即在一个EMIB连结上支援2万个连接。
 
英特尔FPGA部门的高级架构师Sergey Shuarayev表示:“纯粹就频宽来说是很大的,而且我们可以建立庞大的系统──比光罩更大;”他表示EMIB元件频宽会比2.5D堆叠大6倍。此外密度也会提高,新一代的EMIB技术将支援35微米(micron)晶圆凸块,现今在实验室中使用10mm连接的情况下,密度比目前使用的55mm凸块高出2.5倍。
 
Shuarayev认为EMIB技术能被用以连结FPGA与CPU、资料转换器与光学零组件,比起2.5D堆叠技术来说,成本更低、良率更高;他补充说明,部分原因是它能从FPGA中移除难以处理的类比区块。
 
Xilinx则在Hot Chips大会上推出VU3xP,为第四代的芯片堆叠方案,包含最多3个16奈米FPGAs与两个DRAM堆叠;估计明年4月前可提供样品。这也是第一款使用CCIX介面的芯片方案,支援四个连结主处理器与加速器的一致性连结(coherent links)。
 
基于PCIe架构的CCIX最初运作速度为25 Gbits/s,有33家公司支援此介面,目前IP方面由Cadence与Synopsys提供;Xilinx副总裁Gaurav Singh表示:“有许多处理器正导入此标准。”此外,Xilinx采用坚固的AXI开关,自行设计了DRAM堆叠区的连接(如下)方式,与各种记忆体控制器互通。
 
 
Xilinx以16个256位元、运作速度达到450MHz的AXI埠连结8个记忆体控制器,将其最新的FPGA连接到DRAM堆叠(来源:Xilinx)
 
英特尔与Xilinx都提到了设计模组化芯片时所面临的一些挑战。CoWoS制程要求芯片的最大接面温度维持在摄氏95度以下;Singh提到,DRAM堆叠每减少一层,温度大约会提高两度;Shumarayev则表示,英特尔要求芯片供应商为堆叠出货的裸晶都是KGD (known good die),因为封装坏晶粒的成本问题一直是多芯片封装市场的困扰。
责任编辑:星野