AMD推新款HBM加速卡:带宽翻倍、密度翻倍

2024-06-07 07:53:21 来源: 互联网
因为人工智能的急速发展,市场在过去几年对算力的要求迅速增长,这就给芯片带来了一系列的麻烦。当中,尤其以网络接口和内存带宽瓶颈最为显著。
 

 
AMD 自适应和嵌入式计算事业部( AECG )高级产品线经理Shyam Chander在也指出:“如图所示,传统的处理架构在无论是存储器还是网络访问方面都非常容易形成瓶颈。这在包括高性能计算在内的很多情况下都会出现。通过引入HBM,就能够很好地克服上述瓶颈,”
 
这也正是AMD在新推出的 Alveo V80 计算加速卡上选择了这个垂直堆叠DRAM的原因。
 
“把安全连接、Versal器件和HBM放到一起,我们不再需要DDR4或其他外部芯片,就可以帮助用户实现性能的最大化,同时减少功耗、占板面积以及时延。”Shyam Chander强调。
 
密度翻倍,带宽翻倍
 
据Shyam Chander介绍,AMD Alveo V80 计算加速卡是Versal HBM系列家族最大的一个器件,能够提供250万个LUT的可编程逻辑;同时,该极速卡还包括一个32GB的DDR4 DIMM扩展插槽和高达每秒800GB(4X200GB)的带宽,能消除之前提到的很多瓶颈,也可以应对非常大数据工作量的要求;
 
来到接口方面,这个加速卡用的是PCle Gen5的接口,能够支持64G传输速率,是前一代产品的2倍。该加速卡还支持MCIO的连接,有可扩展的GTY,能实现存储卡的一系列连接;此外,它是全高有3/4长,共300W的功率,采用被动冷却,可以使用VivadoTM工具进行开发。
 


受惠于这个领先配置,与前代产品AMD AlveoTM U55C相比,AMD Alveo V80 逻辑密度翻倍、存储器带宽翻倍,性能提升也至高两倍,能够适用于包括高性能计算、数据分析、金融科技、存储等在内的计算负载和内存密集型工作负载应用。
 

 
在Shyam Chander看来,V80能能获得这样的表现,与Versal自适应SoC设计的先进性密不可分。如他所说,得益于这个芯片的集成,让这个加速卡其拥有了灵活应变的SoC,还好汉了标量引擎和灵活应变的引擎。值得一提的是,该芯片集成了很多的DSP计算逻辑片,能提供较之前代产品至高2到3倍的DSP性能。当然,如上所述,高带宽也是这个芯片的特点之一。
 
“自适应计算一个非常灵活的架构,能在计算附近分配内存,实现降低延迟和低功耗,而且可以灵活适应自定义的数据设计和数据建议。”Shyam Chander说。
 


除此以外,很多硬化的功能也让该芯片增色不少。如下图所示,该产品预构建了硬化的数据中心基础设施连接,其中包括了硬化的DDR控制器以太网,以及PCle控制器来实现连接。另外还有PCle的块,它就是在机器的收发器方面,可以扩展MCIO的连接。



众所周知,系统中使用的计算卡一般都需要和本地的CPU进行连接,但这会限制能够使用的加速卡的数量。但V80从设计开始,就考虑到这个问题,那就是通过预设的MCIO扩展口实现FPGA到FPGA卡对卡的连接,从而绕开CPU,打破上述限制。
 
从Shyam Chander的介绍我们得知,这样的设计能带来四方面的优势:首先是低时延处理传入的网络数据;其次能避开CPU至加速器的PCle的瓶颈;第三是消除自己或分类式网络接口卡;最后是能够实现每服务器的卡数和计算密度的最大化。
 
“我们还可以通过加密引擎实现在线加密,还能在此卡上执行数据包监控和传感器处理。”Shyam Chander补充说。

低延迟、高灵活性
 
对于加速卡,正如大家所了解,除了FPGA以外,还有ASIC和GPU的加速卡以供选择。为此在问到AMD Alveo V80与这些产品相比时的优势以及具体应用差异时,Shyam Chander回应道:“AMD Alveo系列产品主要针对的是内联网络和实时处理应用,它们都需要非常低的时延和非常灵活应变系统,这时候FPGA的自适应SoC就是非常好的解决方案。”
 
以传感器处理为例,澳大利亚国家级研究机构联邦科学与工业研究组织CSIRO是参与了世界最大射电天文天线阵列的建设。该阵列目前包含420块Alveo U55C加速卡,主要通过处理无线电波来研究早期宇宙并探索信息演化。具体做法是采用在线的传输速度来支持全球最大的射电天文天线阵列,其持续传感器数据传输速度能达到每秒15TB,工作负载主要是传感器的实时传输还有波束成型和连接器,使用的是DSP的工作负载。
 

 
但在实施过程中,CSIRO发现工作负载越来越复杂。为此他们需要迅速扩展计算资源,同时还要包容现在有限的机架空间,优化机架空间的使用,让数据中心容纳更多的设备。而且在这个过程中还需要支持不断提高计算功耗和功能灵活性方面的需求。
 
这时候,新推出的V80计算加速卡就成为了CSIRO的选择。据介绍,这个新加速卡不但扩大了计算方面的性能,还提升了Versal上的DSP引擎,降低时延来实现高精度。据透露,较前代产品,强化的Versal DSP计算逻辑片性能至高能提升约2倍到3倍。而且每张卡的密集计算也简化了集成、扩展和集群。
 

 
压缩与数据分析功能的服务器存储节点则是V80的另一个典型用例。
 
据介绍,这个应用的主要功能就是数据压缩以及数据分析,对执行速度和低时延有更高的需求。在使用了V80之后,能给其带来多方面优势:第一,FPGA架构和AMD压缩IP可扩展存储节点;第二,MCIO接口直接将FPGA架构连接至NVMe;第三是整合额外的功能性,例如查询加速。
 
更重要的是,这样的方式不但实现了更快的执行,还进一步节省了总拥有成本。
 

 
Shyam Chander举例说,在处理10Pb数据的存储时候,如果没有压缩,就需要55台服务器,1303个SSD驱动器,每年约427千瓦时的功耗。但如果进行压缩的话,同样10Pb数据则只需要21台服务器,504个SSD驱动器,每年约233千瓦时。“使用42张AMD AlveoTM V80卡进行压缩,总拥有成本三年以上至高可以达到56%的降低,而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。”Shyam Chander强调。
 
V80对于网络安全应用来说,也是一个不错的选择。
 

 
众所周知,现在有很多企业客户普遍重视网络安全问题,他们都希望能够有非常坚硬坚固的网络安全保障,来保护数据,防止网络安全方面的攻击。下一代防火墙也要在确保安全的同时,进一步提高能力。V80加速卡则能帮助实现这样的目标。一方面,其HBM可以用于缓冲和流量表的存储;另外,它还能与数据有更好的连接,更好地实现流量管理。
 
“新一代的安全解决方案就需要在传统防火墙的基础上有更好的功能性。我们的Versal芯片恰好能提供硬化的IP包括加密引擎,能实现至高800G的内嵌 IPSec,HBM也用于缓冲和流量表存储来加强安全性能。”Shyam Chander接着说。
 


包括金融建模和算法交易在内的金融科技则是V80的又一个典型用例,这也是FPGA和HBM天然使用的应用场景。
 
写在最后
 
Shyam Chander总结说,因为它有很多的设计采用的就是原来与硬件非常熟悉的开发人员用的Vivado设计套件,所以AMD Alveo V80主要面向的是传统FPGA开发人员。当然,该加速卡也可以支持定制和优化。另外,AMD还提供用于快速启动项目的示例设计,可以简化Alveo硬件设计框架硬件的开发。上述所有的这些示例和使用方式,在GitHub上面都有展示,用户也可以直接从上面下载。
 
“在新一代的定制化需求方面,Alveo大放异彩,因为它能够大大的降低时延,在实时处理方面也非常优秀。主要是两个关键的领域,一个是硬化硬件的处理,一个是灵活应变方面。”Shyam Chander自豪地说。
 
在Shyam Chander看来,现在正处于AI大爆炸时代,几乎所有的工作负载都用上了人工智能,因此FPGA加上AI还是会有很多的应用场景,包括金融科技、网络安全等工作负载,还有防火墙。也有很多应用会用到机器学习,比如金融科技领域有一些交易公司就用到了机器学习,可以通过它们的模型执行更快的接续性的交易,也可以做出景气分析。
 
正因为如此,在人工智能方面,还可以给FPGA和FPGA加速卡打来巨大的市场潜力。AMD也会相机而动,推出适合市场需求的产品,这正是公司一直以来所擅长的。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论