一文看懂缓存

2020-08-28 14:00:18 来源: 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)编译自「techspot」,作者: 尼克·埃文森(Nick Evanson) ,谢谢。


从廉价笔记本电脑到价值一百万美元的服务器,任何一台计算机中CPU都有一个叫做“缓存”的东西。当然缓存的级别往往有所不同。

缓存很重要,不然也不会无处不在。但是缓存到底有什么作用,为什么是不同级别的呢?

而且12路路组相连到底意味着什么?


缓存到底是什么?


TL和DR很小,但却非常快并位于CPU的逻辑单元旁边。当然,我们需要了解更多有关缓存的信息。

让我们从一个虚构的,神奇的存储系统开始说起。这个存储系统速度极快,可以一次处理无限的数据,并始终保持数据安全。对它来说甚至不存在任何需要远程操作的东西,但是如果的确存在,处理器的设计将更加简单。CPU仅需要具有用于加法,乘法等的逻辑单元,以及用于处理数据传输的系统。这是因为我们的理论存储系统可以立即发送和接收所需的所有编号;没有一个逻辑单元会等待数据处理。

但是,众所周知,实际上不存在任何上述魔术般的存储技术。反之,我们拥有硬盘驱动器或固态驱动器,即使其中最好的驱动器也无法远程处理典型CPU所需的所有数据传输。原因在于,现代CPU的运行速度非常快-它们仅需一个时钟周期即可将两个64位整数值相加,而对于以4 GHz运行的CPU,则仅为0.00000000025秒或四分之一纳秒。同时,旋转硬盘驱动器仅需数千纳秒即可在内部磁盘上查找数据,更不用说传输数据了,而固态驱动器仍需数十或数百纳秒。

显然,此类驱动器无法内置在处理器中,因此这意味着两者之间将存在物理隔离。这只会增加数据移动的时间,使情况变得更糟。因此,我们需要的是另一个数据存储系统,它位于处理器和主存储之间。它需要比驱动器更快的速度,能够同时处理大量数据传输,并且离处理器更近一些。



如今它已成为现实,叫做RAM。每个计算机系统都有一些用于上述目的的装置。而几乎所有这类存储都是DRAM(动态随机存取存储器),它能够比任何驱动器更快地传输数据。但是,尽管DRAM速度极快,但它无法存储尽可能多的数据。

美光公司是DRAM的少数制造商之一,其中一些最大的DDR4存储器芯片可容纳32 Gbit或4 GB数据。最大的硬盘驱动器的容量是此容量的4000倍。因此,尽管我们提高了数据网络的速度,但仍需要附加系统(硬件和软件),以便确定应将哪些数据保留在有限数量的DRAM中,以备CPU使用。或者至少可以将DRAM置于芯片封装中(称为嵌入式DRAM)。不过,CPU很小,所以您不能在其中塞太多。

绝大多数DRAM位于处理器旁边(插入主板)。在计算机系统中,它始终是最接近CPU的组件。然而,这还是不够快。DRAM仍需要约100纳秒的时间才能找到数据,但至少每秒可以传输数十亿比特。看来我们需要另一级存储器,才能进入处理器单元和DRAM之间。


左级输入:SRAM(静态随机存取存储器)。在DRAM使用微观电容器以电荷形式存储数据的情况下,SRAM使用晶体管做同样的事情,并且它们的工作速度几乎与处理器中的逻辑单元一样快(大约比DRAM快10倍)。

当然,SRAM有一个缺点,那就是空间。

基于晶体管的内存比DRAM占用更多的空间:对于相同大小的4 GB DDR4芯片,您将获得不到100 MB的SRAM。但是,由于它是通过与创建CPU相同的过程制成的,因此SRAM可以直接在处理器内部构建,并尽可能靠近逻辑单元。每增加一个环节,我们就增加了数据移动的速度,从而增加了存储量。我们可以继续添加更多的环节,每个环节更快但简洁。


因此,我们对高速缓存下了一个更为专业的定义:它是全部位于处理器内部的多个SRAM块,通过以超快的速度发送和存储数据来确保逻辑单元保持尽可能繁忙。

对这个定义满意吗?很好-因为从现在开始它将变得更加复杂!

高速缓存:多层停车场


如上所述,需要缓存是因为没有一种神奇的存储系统可以满足处理器中逻辑单元的数据需求。现代的CPU和图形处理器包含许多SRAM块,这些SRAM块在内部组织成一个层次结构,即一系列高速缓存,其顺序如下:



在上图中,CPU由黑色虚线矩形表示。ALU(算术逻辑单元)在最左边;这些是为处理器提供动力,处理芯片运算能力的结构。从专业角度来讲,它不是缓存,而最接近ALU的内存级别是寄存器(它们组合在一起成为一个寄存器文件)。

其中的每一个都拥有一个数字,例如64位整数。该值本身可能是有关某物的一条数据,一条特定指令的代码或某些其他数据的内存地址。

台式机CPU中的寄存器文件非常小-例如,在Intel的Core i9-9900K中,每个内核中有两个存储区,而一个整数存储区仅包含180个64位寄存器。另一个寄存器文件,用于向量(数字的小数组),具有168个256位条目。因此,每个内核的总寄存器文件略低于7 kB。相比之下,Nvidia GeForce RTX 2080 Ti的流式多处理器(GPU等效于CPU内核)中的寄存器文件大小为256 kB。

寄存器是SRAM,就像高速缓存一样,但是它们和它们所服务的ALU一样快,可以在一个时钟周期内输入和输出数据。但是它们的设计并不是要容纳太多数据(仅存储其中的一部分),这就是为什么附近总是存在一些更大的内存块的原因:这是1级缓存。



上图是英特尔Skylake台式机处理器设计的单核的放大照片。

可以在最左侧看到ALU和寄存器文件(以绿色突出显示)。图片的顶部中间是白色的1级数据缓存。它容纳的信息并不多,仅为32 kB,但是与寄存器一样,它非常靠近逻辑单元,并以与它们相同的速度运行。

另一个白色矩形表示1级指令高速缓存,大小也为32 kB。顾名思义,该命令存储了各种命令,这些命令可以分解成较小的所谓的微操作(通常标记为μop),以供ALU执行。它们也有一个缓存,您可以将其归类为0级,因为它比L1缓存小(仅进行1,500次操作)并且更近。

您可能想知道为什么这些SRAM块这么小?为什么它们不是一兆字节大小?数据和指令高速缓存一起占用的芯片空间几乎与主要逻辑单元占用的空间相同,因此使其增大将增加芯片的整体尺寸。


但是它们仅保留几kB的主要原因是,随着内存容量的增大,查找和检索数据所需的时间也会增加。L1高速缓存必须达到真正意义上的快,因此必须在大小和速度之间达成折衷-最多需要大约5个时钟周期(较长的浮点值)才能从该高速缓存中获取数据,以备使用。

但是,如果这是处理器内部唯一的缓存,则其性能将突然崩溃。这就是为什么它们都在内核中内置了另一级内存的原因:二级缓存。这是一个通用的存储块,保存着指令和数据。


它总是比级别1大很多:AMD Zen 2处理器的最大容量为512 kB,因此可以保持较低级别的缓存的良好供应。但是,这种额外的大小需要付出一定的代价,而与1级相比,从此缓存中查找和传输数据大约要花费两倍的时间。

追溯到最初的Intel Pentium时代,Level 2高速缓存是一个单独的芯片,其位于小型插入式电路板上(例如RAM DIMM)或内置在主板中。最终它像奔腾III和AMD K6-III处理器一样,一直运用于CPU封装本身,直到最终被集成到CPU裸片中。


由于多核芯片的兴起,这项发展很快之后又有了另一个级别的缓存,以支持其他较低的级别。


上图是Intel Kaby Lake芯片,其左中间有4个内核(集成GPU占据了右侧一半的裸片)。每个内核都有其自己的“专用”组1级和2级缓存(白色和黄色高亮显示),但它们也带有第三组SRAM块。


3级高速缓存即使直接围绕一个内核也可以与其他内核完全共享-每个都可以自由访问另一个L3高速缓存的内容。它 内存更大(在2到32 MB之间),但也慢得多,平均超过30个周期(尤其是在内核需要使用相距一定距离的缓存块中的数据时)。


在下面,我们可以看到AMD Zen 2架构中的单核:白色的32 kB 1级数据和指令缓存,黄色的512 KB 2级缓存和红色的4 MB巨大块L3缓存。

不只是一个数字


高速缓存两个环节:其一是来提高性能通过加速向逻辑单元的数据传输,其二是保留常用指令和数据的副本。缓存中存储的信息分为两部分:数据本身以及它最初位于系统内存/存储中的位置。此地址称为缓存标签。

当CPU运行要从内存读取数据或向内存写入数据的操作时,它首先检查1级缓存中的变量。如果存在所需的数据(缓存命中),则几乎可以立即访问该数据。当所需标签不在最低缓存级别中时,即缓存未命中。

因此,在L1高速缓存中会有一个新标签,其余的处理器体系结构将接管,尽数浏览其他高速缓存级别(如有必要,一直返回主存储驱动器)以查找该标签的数据。但是要在L1缓存中为该新标签腾出空间,必须将其他内容始终引导到L2中。

这导致了几乎恒定的数据改组,所有这些都只需要几个时钟周期即可实现。实现此目的的唯一方法是在SRAM周围构建一个复杂的结构,以处理数据管理。换句话说,如果一个CPU内核仅由一个ALU组成,则L1缓存会简单得多,但是由于ALU有数十个(其中许多将处理两个指令线程),因此缓存需要多个连接来保持一切都在进行中。


您可以使用免费程序(例如CPU-Z)来检查为自己的计算机供电的处理器的缓存信息。但是所有这些信息意味着什么?一个重要的元素是关联的标签集。这与规则有关,这些规则取决于由系统内存中的数据块复制到缓存的方式。


上面的缓存信息适用于Intel Core i7-9700K。它的1级高速缓存每个都分成64个小块,称为集合,并且每个小块进一步划分为高速缓存行(大小为64字节)。集相关意味着将来自系统内存的数据块映射到一个特定集合中的高速缓存行上,而不是自由地在任何地方进行映射。

8向告诉我们,一个块可以与一组中的8条缓存行关联。关联性级别越高(即“方式”越多),则当CPU搜寻数据时,命中高速缓存的机会就越大,并且减少由高速缓存未命中引起的损失。缺点是它增加了复杂性,增加了功耗,还可能降低性能,因为有更多的缓存行要处理一个数据块。


高速缓存复杂性的另一方面在于如何在各个级别上保留数据。规则是在包含策略中设置的。例如,英特尔酷睿处理器具有完全包含的L1 + L3缓存。例如,这意味着第1级中的相同数据也可以在第3级中。这似乎在浪费宝贵的缓存空间,但是好处是,如果处理器在搜索低级标签时出错,数据就会丢失,而不需要遍历更高的级别来找到它。

在同一处理器中,L2缓存是非包含性的:存储在其中的任何数据都不会复制到任何其他级别。这样可以节省空间,但确实会导致芯片的存储系统必须搜索L3以找到丢失的标签(实际上总会比这个更大一些)。受害者缓存与此类似,但是它们习惯于存储从较低级别推出的信息-例如,AMD的Zen 2处理器使用L3受害者缓存,该缓存仅存储来自L2的数据。

还有其他用于缓存的策略,例如何时将数据写入缓存和主系统内存。这些称为写策略,当今大多数CPU使用回写式缓存。这意味着,当将数据写入高速缓存级别时,在使用其副本更新系统内存之前会有一个延迟。在大多数情况下,只要数据保留在高速缓存中,此暂停就会一直运行。只有将其引导后,RAM才会获取信息。


对于处理器设计者而言,选择高速缓存的数量,类型和策略都是为了平衡对更大处理器能力的需求与增加的复杂性和所需的芯片空间。如果有可能拥有20 MB,1000路完全关联的1级高速缓存,而芯片又不大的离谱(并消耗相同的功率),那么我们都将拥有配备这种芯片的计算机!

在过去的十年中,当今CPU中最低的缓存级别并没有太大变化。但是,级别3缓存的大小仍在继续增长。十年前,如果您幸运地拥有一台售价999美元的Intel i7-980X,则可以获得12 MB的内存。如今,您只需花一半的钱就能得到64 MB。

简而言之,缓存是不可或缺的,也是尖端技术的体现之一。我们没有研究过CPU和GPU中的其他缓存类型(例如转换查找缓冲区或纹理缓存),但是由于它们都遵循我们在此介绍的简单的级别结构和模式,因此听起来可能并不复杂。

您是否拥有一台在主板上具有二级缓存的计算机?子板中的那些基于插槽的Pentium II和Celeron CPU(例如300a)怎么样?您还记得您的第一个共享L3的CPU吗?请在评价部分留下您的意见。

点击文末【阅读原文】,可查看 本文原链接


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2415期内容,欢迎关注。

推荐阅读


5nm芯片订单争夺战打响

DRAM竞争的新时代

晶圆代工全面爆发


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|蓝牙| 5G|EDA|华为|英伟达|封装|手机芯片

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

点阅读原文,可查看本文原文链接!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论