冯诺依曼瓶颈渐显,未来的计算架构如何发展?
来源:内容来自「柔性电子服务平台」,谢谢。
过去几十年中,电子计算能力呈现几何指数增长,并从根本上改变了我们的工作,生活和互动方式。而未来在未来甚至会引发更大的发展变革。回看历史,基于摩尔定律的计算能力发展主要由两个因素驱动:1、电子设备的巨大规模化驱动的,2、器件尺寸的减小显著改善了成本,速度和功耗。为了保持这种发展趋势,必须投入了大量资源来维持扩展趋势,目前已能大规模制备集成数十亿纳米级晶体管的芯片,并为今天的智能手机和超级计算机提供计算动力。然而,随着制造成本的增加和即将到来的基本物理限制,单纯通过器件缩放不再能够提供所需的性能增益。
特别是,随着摩尔定律的临近终结,半导体行业一直处于“正在濒临死亡”的阶段,许多技术都在寻求填补后摩尔时代遗留的技术真空。
而忆阻器则是可能性技术之一。作为最近研发的四种基本电子元器件,忆阻器结构形式非常简单,总共仅需要三层—— 两个发送和接收电信号的电极以及之间的“存储”层。从外部看,忆阻器看起来像一个电阻,因此具有高密度集成和低成本制造的巨大潜力。然而,不同于静态电阻,忆阻器中的存储层的物理参数可以通过电学刺激而重新配置,并且会形成记忆效应,其中物理参数的变化(电阻)可用于数据的存储和处理。
图1 电阻器,电容器,电感器,忆阻器的概念之间的对称性
因而,我们可以称具有记忆效应的电阻器件即为忆阻器(存储器+电阻器),或定义为忆阻系统。在存储器中所使用的忆阻器也通常被称为电阻式随机存取存储器(RRAM)。基础理论研究表明,典型的忆阻器特征尺寸可以降低到10nm以下,存储状态维持数年,同时具有开启速度快(亚秒级别),长写擦除耐力和低编程功耗等特点。应该注意的是,尽管目前可以实现了某一特性的重复制备,但同时集成多种功能的单一忆阻器材料仍然是一个巨大的挑战。
基础材料和器件测试表征表明,忆阻器中电学重新配置通过存储层内部离子再分配驱动形成的。通常存储层为几纳米厚,因此较低的电势即可产生足够大的电场用以以驱动离子迁移并改变材料的离子分布形式。存储层常见的再分配方式包括存储层的阳离子或阴离子的物种氧化,迁移和还原,这些变化导致存储层材料局部电导率发生变化,从提高或降低导电区域。这个过程可以是突变(二进制)或渐变(类似物),并且伴随不同时间尺度发生不同的物理过程。因而通过材料筛选和驱动模式的改变可以使简单的器件能够产生丰富的结构变化。
在本文中,我们主要是评估基于忆阻器模式的新型计算系统的优势与劣势,以及在未来中是否能够超越摩尔定律,取代现有计算模式。未来将会从忆阻器开发中获益匪浅的主要有三种类型的计算系统,如图2所示:片上存储(on-chip memory and storage),神经网络模式(biologicallyinspired computing)和存储计算(in-memory computing)。基于忆阻器的计算模式可以帮助克服当今计算架构面临的障碍,并且能够用于未来的计算需求:认知处理,大数据分析和基于物联网的低功耗智能系统等计算系统。
图2:未来计算解决方案的竞争
传统的计算架构面临着各种挑战,包括散热,存储和摩尔定律。忆阻器技术可以提供一种替代路径,实现存储-逻辑集成,神经网络计算和高效的内存计算系统。CMOS,互补金属氧化物半导体; GPU,图形处理单元; CPU,中央处理单元。
冯诺依曼瓶颈?
现今,传统计算结构面临的挑战源于存储能力瓶颈以及存储器与处理器之间的特定的数据转移速度所带来的高成本,即为冯·诺伊曼瓶颈。忆阻器模式则直接提供了一种超高密度存储解决方案,并且可直接与处理芯片集成,减少内存瓶颈,显著提高系统的能效和计算速度。
与静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM)相比,忆阻器(以RRAM的形式)比硬盘驱动器和闪存快得多,同时存储密度更高,成本更低,且具有良好的非挥发存储性能。此外,晶体管模式的存储器不同,忆阻器式存储可以与处理器进行高密度低热功耗集成,消除了传统模式那种缓慢且耗能的片外通信。这些特性使得忆阻器模式能够简化存储层次结构,并显着提升计算系统性能,特别是在大数据时代。
目前的研究工作主要促进忆阻器作为存储器和存储系统的实际应用,进一步增强设备性能并解决与大规模应用相关的挑战。包括优化设备速度,开/关比,循环耐久性和数据保留时间等。更深度的优化工作包括降低工作电压和电流以及解决器件可变性挑战。在电路和系统级别上,忆阻器存储器(RRAM)的大规模实现还需要解决诸如潜行电流和导线电阻之类的挑战。
值得注意的是,忆阻器可能在非存储模式的计算系统中发挥更大的作用,例如生物神经网络计算。这种计算模式是将存储与计算集于一体,因此忆阻器非常适合用于这种模式的计算需求。生物神经网络在认知学习和大数据处理方面的表现明显优于传统计算系统,甚至在复杂任务中的表现过人类,比如Google开发的基于神经网络模式的AlphaGo在围棋领域已经超过人类最顶尖选手。最简单形式的神经网络是通过加权突触连接形成的神经元(图3)。每个突触将信息从突触前神经元传递到突触后神经元,并经过突触权重进行缩放。通过更新其突触权重来训练神经网络以执行特定任务。目前神经网络具有超过100个的隐藏层,因此需要训练并且存储大量突触连接。到目前为止,神经网络的实现主要基于传统的计算硬件,其中突触权重存储在(片外)存储器中并且需要不断地加载到处理单元中以计算到下一神经元的期望输出。基于这一模式的计算性能仍然受到冯诺依曼瓶颈的限制,并且需要消耗巨大的计算硬件资源,产生极高的功耗。相反,基于忆阻器的神经网络下,单一器件可以同时存储突触权重并且传输数据信号,(如图3所示),在这种情况下,发射信号(即进入后神经元的电流)由输入信号(即来自前神经元的电压脉冲)与突触权重(由忆阻器电导表示)的乘积确定。存储单元和计算模块在同一设备中避免了数据移动,可显着提高系统效率。
图3:基于忆阻器模式的人工神经网络的硬件实现方式
在每个交叉点形成忆阻器,可同时用于存储数据和处理信息。在这种方法中,矢量矩阵乘法可由欧姆定律和基尔霍夫定律的简单读取操作获得。此外,忆阻器的内部动力学可用于忠实地模拟生物突触中的潜在过程。Vi,第i行施加的电压; Ij,当前通过列j的电流 ; Gij,在第i行和第j列的交叉点处的忆阻器的电导率。
如图3所示,网络结构可以直接映射到硬件中的交叉开关形式,其中输入连接到忆阻器交叉开关的行,输出端连接到列。此外,所有输入可在单个器件所有节点可同时进行计算操作,其中特定列的输出电流由通过连接输入到特定列的所有忆阻器的总和电流确定。换句话说,N个输入和M个输出的N × M忆阻器交叉开关的单个读操作执行N ×(N × M)矢量矩阵乘法,具有高度的计算并行性。而在传统系统中,执行同样的任务需要N×M个乘机累加运算才能实现。忆阻器的神经网络硬件的高效计算特性主要是基于存储和计算的共存位置以及高水平的并行计算特性。
神经形态硬件对于忆阻器研究来说是一个特别有吸引力的领域,因为系统级神经网络可以容忍当今许多器件非理想性特性,如器件的本征变化。实际上,设备运行时间随机性正可以用来模拟真实生物突触特性,并且可在训练期间进行优化。此外,实际的网络操作不需要多年的数据保留,并且也可以放宽对设备耐久性的要求,因为权重更新通常比较少。
从数学的角度上说,神经形态计算可以分解为一系列矢量矩阵乘法运算,通过忆阻器交叉结构结构实现。在这些系统中,通过突触连接的相对加强和弱化发生实现“学习”功能(图 2)。在过去的几年中已经证明了基于忆阻器的神经网络硬件模式。例如,已经演示了执行模式分类的忆阻器硬件,最初使用2×10阵列并且稍后扩展到12×12阵列。2016年引入了一个使用忆阻器阵列进行神经形态应用的通用点积引擎,通过在线学习进行了主成分分析的演示。
在SNN中,常见学习规则是尖峰定时依赖模式 - 当突触前神经元尖峰在突触后神经元尖峰之前时,两个神经元之间的突触增强,如果相反则减弱。实际上,甚至有人认为忆阻效应可以解释与尖峰定时相关的可塑性行为。到目前为止,许多研究人员已经使用实验装置参数通过全系统仿真研究了基于忆阻器-SNN。
总体而言,神经网络模型的开发和探索是目前非常活跃。使用不同的神经元,突触和网络模型来探索各种新型计算模式。例如,在生物系统中,SNN中的尖峰被认为是实现高能量和计算效率的关键。目前最先进的物体分类精度是通过模拟大脑的深度学习技术实现的。如上所述,忆阻器作为硬件系统的优势是可用于神经形态计算和机器学习模型。除此之外,我们注意到上述相同的矢量矩阵运算可用于解决诸如矢量算术函数和线性代数之类的经典问题。因此,忆阻器可以实现有前途的内存计算解决方案,消除内存瓶颈和数据拥塞,并为不同类型的数据密集型任务提供低功耗,高效率的硬件系统。
面临的挑战与解决方案
虽然忆阻器在存储器,计算和神经网络应用显示出巨大的应用潜力,但仍需要解决材料和器件应用中出现的问题。当然这些问题可以根据具体应用而变化。例如,在高性能存储器应用(例如DRAM替换)中,降低编程电流和电压,提高耐久性并改善选择器性能以降低潜行电流至关重要,并且通过最少的器件实现所有这一切。这显然给研究界带来了巨大挑战。幸运的是,对于神经形态和类似的计算应用,这些规范中的一些可以放宽,而模拟状态的稳定性等新需求就变得非常重要了。
如何降低器件尺寸和提升集成规模?
虽然,近年的研究中忆阻器已经有了极大的改进,但是注意到忆阻器研究仍处于起步阶段。关于忆阻系统的研究仍在学术研究小组中进行,大多数演示都侧重于概念证明,而并非建立实际系统。为了将基于忆阻器的计算硬件引入实际应用,需要在后期的研发中着重提高三个方面的特性:扩大器件集成规模、多功能集成、以及与CMOS的系统集成。
图4:忆阻器技术的快速发展
第一种方法是增加功能忆阻器网络规模。系统规模扩展很大程度上取决于可以集成到系统中的器件的数量。实际的存储器或计算系统可能需要数十亿个功能性忆阻设备。实现这种集成度需要提高忆阻器器件制造的产量以及大学研究人员与行业合作伙伴的密切合作。此外,开发和优化系统层次结构以提高硬件的可扩展性。令人鼓舞的是,研究已经朝这个方向发展(图4)。
另一个方面是通过在同一硬件系统中执行多个任务来改进系统功能。例如,可以利用相同的物理结构来执行不同的功能,即神经网络,算术运算和数据存储等功能。这种方法可以产生可扩展的计算系统,其可以被动态地重新配置以适应不同的工作负载。在这种情况下,可以在运行时中纯粹通过软件动态地重新配置(重新定义)相同物理忆阻结构的功能,而无需任何物理硬件修改。为了将这样一个系统变为现实,仍然需要解决一些挑战。例如,与存储和神经网络相比,使用忆阻器执行算术运算需要更严格的设备分布。此外,可能需要长的设备耐久性循环以允许有效地执行逻辑任务。最近的设备研究工作已经显示出有希望的结果,并且我们相信基于忆阻器的可重新配置计算系统可以是扩展系统功能的有吸引力的替代方案。
第三个因子就跨系统整合。跨系统扩展的成功与否主要取决于可忆阻器– CMOS可靠集成。通常,基于忆阻器系统的操作仍然需要一些CMOS电路来提供必要的接口和控制操作。因此,高效的忆阻器-CMOS集成是实现系统增益的关键因素。基于芯片级集成或硅通孔的典型方法将无法在忆阻器层和CMOS电路之间提供所需的带宽。忆阻器与CMOS电路的成功3D集成可以显着提高系统密度,而不仅仅是简单的器件缩放。
从根本上扩展到3D可以为物理和概念上的更多认知架构创造新的机会。例如,受到神经网络的巨大规模的启发,早期的认知工作探索了大脑如何在高维空间中将概念及其关系表示为稀疏向量。这些超向量可以具有高达10,000的维数,这个数字部分地由神经系统中的连通性证明。在如此大的空间中工作(也受到随机性和稀疏性的影响)导致认知操作(绑定概念,例如人名和性别),这可以通过相对简单的操作来实现,例如乘法,加法和置换,形成这个空间的代数称为超维计算。高维计算的挑战在于,考虑到维度和预期的向量数量(例如,英语中的100,000个单词),这些操作仍具有高度内存密集性。最近的工作已经探索了使用3D垂直结构的具有忆阻阵列的超维计算的实现两者生成随机矢量和原位执行乘法,加法和置换操作。在硬件中实现这种大规模系统的能力显然取决于在三个维度上扩展的能力。
化学和生物计算
在生物启发计算中,人们的目标是模仿已知的大脑,并希望基于此构建更高效的计算系统。但是,特定任务需要多少生物细节仍然是一个悬而未决的问题。例如,不需要大量的生物细节结构,仅通过网络拓扑结构的深度神经网络能够在充分训练之后以高精度执行诸如图像分类的任务。然而,最近的发展表明,即使对于深度神经网络,更有效的训练算法显示出与生物学中观察到的基于尖峰的学习规则惊人的相似性。关于生物细节结构作用的争论源于两个因素:实施生物类特性的成本增加,以及缺乏对这些特性如何导致实际功能的理解(来自神经科学)。在这方面,如果一个人可以忠实地模仿硬件系统中的生物行为而几乎没有或没有增加成本 - 通过使用原生具有生物地理特性的设备,这个问题可能会变得更容易回答。基于此类设备的硬件系统将在人工神经网络中提供新功能,甚至可能有助于加速神经科学中假设的制定和测试。
最新发现表明,在忆阻器设备中有可能实现生物地理特性而无需额外补偿。代表性例子是钙效应。突触后神经元中的钙浓度在突触前神经元的尖峰事件之后增加,然后在几十毫秒的时间尺度内衰减。如果突触后神经元也在该时间范围内发射,则钙浓度可以增强到高于触发突触增强的阈值。反过来增强的强度钙浓度,取决于神经元前后峰值的相对时间,这种机制被认为是观察到的尖峰时间依赖性可塑性和速率背后可能的潜在过程在不增加系统成本的情况下,在实现生物启发网络时,设备级别的这种生物实际实现水平极具吸引力。
另一个有趣的例子是研究化学在生物系统中的作用,其中突触权重是通过可以与神经递质结合的受体的活性来测量的,其中结合过程和受体活性又由化学反应驱动,例如,酶- 启用生物催化反应。从器件的角度来看,类似的化学反应可以帮助降低操作器件所需的能量并提高器件的可靠性。例如,在忆阻器中的电阻切换期间,通过克服两个状态之间的能垒,将器件从一个稳定状态转换为另一个稳定状态。能垒越高,状态越稳定。然而,更高的能量势垒意味着更大的偏置电压,因此,需要更大的功率来对器件进行编程。通过模拟生物学和使用化学来辅助切换过程,在切换期间可以显着降低有效能垒,同时在释放“门控”化学品之后可以保持高能量势垒以确保装置稳定性。通过使用具有低能垒的离子(例如,Li离子)以类似电池的方式驱动导电通道中的充电 - 放电氧化还原反应,可以获得这种化学“门控”效应。在这种情况下,可以在非常低的电压(例如,5mV)下进行切换,从而产生优异的功率效率。
除了突触行为之外,忆阻系统还可替代仿生计算系统中接收,处理和传输信息的神经元。神经元主要表征为接受其他神经元的输入电荷并存起,在超过阈值之后产生相应动作电位。神经元动力学的模型可以在生物保真度水平上变化很大。然而,复制神经元行为的关键因素是主动增益,即小输入信号可以 - 在适当的情况下 - 产生大量放大和动态的输出。因此,神经元的固态实现必须满足一些基本的动态特性。
忆阻器中可实现“神经元”特性的动态物理的一个重要参数是器件中的局部温度。温度强烈地影响电子(传输)和离子(迁移率)性质,并且反过来也可能受它们的强烈影响。举一个简单的例子,当增加电压扫描到忆阻器时,上升的焦耳加热和局部温度激活电子传输,这进一步增加了强正反馈模式下的焦耳加热。对于某些材料系统,该过程导致观察到的负微分电阻(NDR),从而在电导中产生强烈但不稳定的变化。事实上,NDR的许多形式最终可以描述为基于耦合到所述电子传输内部温度一个正反馈驱动的效果。因此,由于固有的正反馈,仅需要少量的输入信号来产生大的效果,因此提供了早先提到的所需的神经元放大。
结论
基于忆阻器的架构在冯诺依曼瓶颈和摩尔定律时代之后展示了开发未来计算系统的巨大潜力。在短期内,忆阻器提供的高密度片上非易失性存储器可以显着提高传统的基于冯诺依曼的计算系统的性能,并且可以找到从高性能机器学习系统到低性能的应用程序,用于物联网的嵌入式芯片。器件技术和架构发展的进一步发展可能导致基于忆阻器的神经形态计算系统的大规模实施。忆阻交叉开关提供了本机解决方案,以实现大规模并行和功率有效的矢量矩阵运算,这些运算构成了神经形态运算的基础。此外,精心设计的忆阻器设备可以模仿生物学对应的动力学。最终,我们期待一个基于忆阻器的通用内存计算平台(图5)。这个高效且可重新配置的计算平台,称之为内存处理单元,可以执行不同的任务-数据存储,算术,逻辑和神经形态计算。可以说,基于忆阻器的存储器处理单元等体系结构是计算范式的自然演化,遵循从中央处理单元到图形处理单元的相同趋势,转向更细粒度和高度平行的结构(图 5))。
图5:计算系统的可能演变
从具有独立处理器和内存(中央处理单元,CPU)的传统架构开始,具有数千个较小内核和更快内存访问的图形处理单元(GPU)已成为当今数据密集型计算任务的主力。所提出的存储器处理单元(MPU)架构将延续这一趋势,并最终将最小颗粒的存储器和逻辑完全共存 - 单个设备级别,以便有效处理各种计算任务。
最后,我们注意到生物学一直服务并将继续作为开发实现低功耗和实时学习系统的方法的巨大灵感。然而,正如自然界中的鸟类可能激发了现代航空技术的灵感,我们最终在新的方向和能力方面迈进了更快的旅行,更大的承载能力和完全不同的加油要求。类似地,在计算中,现代应用程序需要超越自然界面临的那些,例如搜索大型数据库,有效地调度资源或解决高度耦合的微分方程组。有趣的是,忆阻器中观察到的一些特征可能同样在计算中提供“超越生物学”的机会,利用新颖的设备动态行为和受生物学启发的网络拓扑。在这方面,诸如存储器处理单元的概念代表了真正令人兴奋的机会。要实现这些以及未来的其他新计算系统,将需要超越任何单一学科的持续和创造性研究,并且必须包括来自神经科学,物理学,化学,计算机科学以及电气和计算机工程等的见解。
今天是《半导体行业观察》为您分享的第1819期内容,欢迎关注。
推荐阅读
★ 新一年值得关注的20家模拟、MEMS和传感器初创公司,中国有3家上榜
关注微信公众号 半导体行业观察(ID:icbank) ,后台回复以下关键词获取更多相关内容
华为 | 中美贸易 | IPO | 财报 | 被动元件 | 开源 | 射频 | 5G | 展会
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
关于摩尔精英
摩尔精英是领先的芯片设计加速器,愿景“让中国没有难做的芯片”,业务包括“芯片设计服务、供应链管理、人才服务、孵化服务”,客户覆盖1500家芯片公司和50万工程师。我们致力于提供ASIC设计和Turnkey解决方案,从Spec/FPGA/算法到芯片交付,包括:芯片架构规划、IP选型、前端设计、DFT、验证、物理设计、版图、流片、封装和测试服务等。 自2012年以来,我们的团队一直专注于积累技术能力,帮助客户实现最优芯片性能,并支持Turnkey、NRE、专业咨询和驻场等灵活服务模式。 摩尔精英目前全球员工200人,总部位于上海,在北京、深圳、合肥、重庆、苏州、广州、成都、西安、南京、厦门、新竹和硅谷等地有分支机构。
点击阅读原文,了解摩尔精英
相关文章
- 半导体行业观察
- 摩尔芯闻
最新新闻
热门文章 本日 七天 本月
- 1 兆易创新的汽车芯片规划
- 2 英飞凌2024汽车创新峰会:揭秘全球汽车芯片No.1供应商的创新与布局
- 3 CUDA高生态壁垒下,RISC-V+AI是必然趋势
- 4 性能更进一步,英特尔发布至强6性能核处理器