DPU上云,英伟达云原生超级计算架构释放云的力量

2022-11-28 18:05:57 来源: 杜芹
现在数据中心的一个典型架构是CPU处理应用,GPU对应用进行加速,通过网络搭建成一个大规模的数据中心。CPU要解决很多基础设施的操作,比如存储和安全等,导致CPU的资源没有办法充分运用在应用上。因此数据中心的资源分配不均,影响系统性能的发挥。针对数据中心和云面临的这一挑战,NVIDIA提出了云原生超级计算架构,加速业务上云,在云上实现超算性能。
 
了解云原生超级计算架构
 
云原生超级计算架构是NVIDIA面向新一代的云和数据中心推出的一项新技术,据 NVIDIA 网络亚太区高级总监宋庆春的介绍,它是一个整体的名字,不能把云原生和超级计算分开,云原生超级计算技术的主要目标是在数据中心支持多任务的时候,或者当业务上云的时候能够获得到像业务在独享所有计算和存储资源的时候一样的性能。
 
NVIDIA 网络亚太区高级总监宋庆春
 
具体是怎样来实现的呢?NVIDIA的云原生超级计算架构把原来CPU操作的基础设施工作负载卸载到DPU上来,然后让CPU、DPU、GPU以及其它加速器和网络一起协同工作,所有的资源都成为整个应用的算力资源。通过这样一个新的架构就可以提供最优的性能,同时通过新的架构改进可以用更低的成本或者更少的硬件构建更高性能的系统。通过降低硬件数量的方式降低能耗,这是一种最有效的节能减碳的方式。因为DPU做了基础设施操作,CPU可以更高效的工作,减少了同一个工作对于CPU数量的需求,可以让我们的系统更绿色环保,也更安全。
 
 
在云原生超级计算架构中,DPU将成为新兴计算平台的关键。现在BlueField-2 DPU已经在很多市场被广泛应用,BlueField-3 DPU也会很快走向市场,BlueField-3 DPU可以支持400Gb的带宽,RDMA 信息处理的能力达370Mpps,存储带宽比BlueField-2提升4倍以上。这些技术的提升,使得BlueField-3 DPU 也将可以更好地满足云原生超级计算对卸载、加速计算方面的需求。
 
 
在BlueField DPU加速计算或者卸载通信方面,NVIDIA已经在一些业务上实现了不错的性能提升。如下图是不同模型下通过DPU卸载和加速带来的一些性能优势,在分子动力学模型上实现了20%的性能提升,数据建模应用场景实现26%的性能提升,天气预告模型实现24%的性能提升。
 
 
 
云原生超级计算离不开的一个技术就是交换机计算技术,在这方面,SHARP网络计算技术是NVIDIA独有的技术,它在交换机上可以进行数据的Aggregation和Reduction,通过这个技术可以助力Allreduce通信带宽突破网络极限,SHARP加速后8张200Gb/s InfiniBand网卡的Allreduce的性能可达到 230 ~ 260GB/s。
 
此外很重要的是,NVIDIA DOCA作为支持BlueField DPU的一个软件平台,对充分发挥DPU的卸载和加速的功能起着不可替代的作用。在DOCA平台中可以跑各种各样的加速库,比如专门面向集合操作的UCC,专门面向点对点UCX,还有面向存储、面向性能隔离、专门面向Orchestration的加速库。
 
 
困扰业界数十年的应用性能隔离难题如今NVIDIA通过网络计算技术实现了突破,NVIDIA和微软联合开发公有云上的业务性能隔离技术已经很长时间了,并且已经在Azure云上得到了验证和应用,通过充分利用CPU、GPU和DPU各计算单元,今后在云上提供高性能不再是梦。云原生超级计算架构用一个异构网络的方式,让我们的性能达到极致,同时优化整个数据中心的设计,能够以最少的硬件达到最优的性能,符合现在节能减排的大趋势。
 
NVIDIA InfiniBand网络表现强劲
 
不仅仅是DPU,英伟达的整个网络在最近的超级计算大会上发布的TOP500榜单中,NVIDIA的GPU和InfiniBand网络处于绝对领先的位置。
 
在TOP500系统中,NVIDIA GPU或网络(InfiniBand,以太网)加速了361个系统,占据72%。其中仅InfiniBand就加速了世界上前十大超级计算机中的5台,以及前100个系统中的63%。NVIDIA InfiniBand和以太网网络解决方案连接了334个系统,占TOP500系统总数的67%。InfiniBand加速了195个系统,与2021年11月TOP500榜单相比增长9%。

 
在2022年11月全球前500 HPC和云/超大规模平台的网络互连方案的趋势中,NVIDIA的InfiniBand继续保持了作为高性能计算平台最常用的互连解决方案的领导地位,NVIDIA网络还连接了大部分25G和更快的云和超大规模以太网系统,如下图所示。
 
 
除了在提升算力性能方面遥遥领先,NVIDIA的InfiniBand在提升存储性能方面也表现不菲。
 
在2022年11月全球IO 500高性能存储网络方案中,在10节点测试平台中,前4名系统都是基于InfiniBand网络。
 
 
英伟达生态的进击:DPU黑客松竞赛
 
自英伟达推出NVIDIA BlueField DPU和NVIDIA DOCA以来,NVIDIA DPU中国黑客松活动近年来广受学生和创业者等的欢迎。DPU中国黑客松竞赛也是英伟达在生态上的一个很重要的布局。
 
据NVIDIA网络技术专家崔岩的介绍,DPU中国黑客松是开发者学习、实践使用NVIDIA DOCA软件开发套件的一个很好的参与活动,参赛者可以基于NVIDIA BlueField DPU去做数据中心应用程序的开发,参赛团队可以利用DOCA驱动、DOCA库、开发工具和相关文档构建、优化NVIDIA BlueField DPU,去做基础设施相关的加速应用开发,在此过程中展现他们的奇思妙想、创新精神和团队气质。

NVIDIA网络技术专家崔岩
 
崔岩进一步介绍到,2022秋季DPU中国黑客松竞赛的大方向是围绕使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速存储与AI解决方案。大赛总共有二十七支团队注册报名参赛,十三支团队参加最终比赛,总共51位开发者,有6位女性开发者,从开发者角度来讲,这一届吸引了更多的女性开发者来做DPU和DOCA开发,其中还是一个团队队长。从参赛团队构成来看,既有企业开发者也有高校开发者。
 
 
经过国内评委和国际评委的审核和相应的评分,最终有四支做得比较好的团队脱颖而出,分别获得黑客松的相应奖项。获得一等奖的是SDIC团队,二等奖是知音牛码团队,并列第三的是网络需要配团队和极客天成团队。
 
 
结语
 
以BlueField DPU为核心的云原生超级计算技术将对云和传统算力中心用户带来积极的影响,它让云提供商在云上拥有了和超算一样的性能,也为算力中心用户对外提供云服务提供了基础。同时,英伟达也在通过DPU中国黑客松这样的竞赛来不断推动DPU的生态建设和落地。DPU未来在数据中心和云上的作用将越来越大。
责任编辑:sophie
半导体行业观察
摩尔芯闻

热门评论