英伟达:DPU用的越多,总成本省的越多

2022-10-18 15:42:20 来源: 杜芹
DPU自2019年开始由英伟达正式提出,如今已被大家逐渐接受,并且把它变成行业术语继续去使用。诞生3年之久,DPU行业的应用度逐渐上升,在DPU的行业应用方面,最先部署DPU的是一些云服务商,如BAT、京东、头条、微软等等公司,他们大量的数据需要DPU来帮助其提前处理和做安全问题。而且英伟达预计,明年开始将会有更多类型的企业加大对DPU的采用。
 
在DPU领域,英伟达正在携手行业合作伙伴不断构建完好的开发者生态。而一大利器就是其DOCA软件,没有软件的芯片就是没有灵魂的沙子,这几年英伟达的DOCA软件为其NVIDIA BlueField DPU注入了灵魂,也帮助英伟达DPU解锁了更多的应用空间。
 
数据中心面临的四大挑战
 
据NVIDIA 网络技术专家崔岩的介绍,当下数据中心主要面临四大挑战:
 
一是如AI工作负载等现代应用程序将持续产生和处理大量数据,这对数据中心的性能和数据的处理能力提出了巨大的挑战。
 
二是现在很多应用对分布式基础设施的需求不断增加,它们的部署并不是运行在数据中心中的某一台服务器,会运行在多台服务器上,甚至分布在不同的物理位置的微服务给客户提供应用。不仅仅部署在数据中心,在网络边缘和多云架构里也是非常普遍的现象。这对数据中心基础设施运营也会有比较大的挑战。
 
三是基础设施服务消耗了大量的CPU容量,使得CPU服务于客户应用的资源减少。
 
四是东西向流量不断增加,安全攻击面成为威胁。所谓东西向流量,主要是很多应用程序会由分布在数据中心甚至不同物理位置上的微服务程序提供,他们之间就会产生相应的数据流的数据交互。由于相互之间的流量增多,就会导致存在跨服务器或者数据中心内部的横向攻击和一些威胁,甚至有的客户会把一个网络上的应用程序下载到数据中心里应用,这些都会有潜在的安全风险带入到数据中心中,如果安全策略或者安全方式模型不能有效的抵御这种攻击, 会造成比较大的威胁和相应的损失。
 
为了解决数据中心的这些挑战,英伟达与VMware近年来一直保持紧密合作,以期借助VMware的软件架构一起重新构想虚拟的基础设施。基于NVIDIA BlueField DPU可以实现如下三大方面的功能:1)简化基础设施和工作负载管理2)提高基础设施运行效率,主要体现在性能和功能增强上3)借助零信任安全模式加强基础设施安全性。
 
Project Monterey重构一个现代的数据中心
 
在今年的VMware Explore大会上,NVIDIA、VMware和戴尔联合发布Project Monterey的平台。Project Monterey将vSphere 8企业工作负载平台、NVIDIA BlueField DPU进行结合,在戴尔Power Edge服务器或VxRail超融合架构一体机上做运行,这样就可以有效的把NVIDIA BlueField DPU、GPU和NVIDIA Enterprise AI软件,针对vSphere 8做负载优化,在运行一些AI软件时,也可以把vSphere 8的一些功能,卸载、加速和隔离到NVIDIA BlueField DPU,Project Monterey为未来的AI和现代应用程序工作负载重新构建一个现代的数据中心。它既有用于GPU的vSphere 8上的新功能来去支持更强大的AI和机器学习的模型,更快的训练速度,同时也能够简化云和边缘环境上的管理。
 
下图是完整的Project Monterey的架构。最底下是VMware Hypervisor整个虚拟化管理软件系统,相当于把vSphere中NSX的网络和安全相关的服务,还有vSAN存储服务、主机管理服务这些原来需要CPU干预介入的基础设施的操作,卸载到NVIDIA BlueField DPU之上。由于DPU的介入会在主机CPU和DPU之间形成一个隔离层,来去保障主机内部的安全性。如果有主机上层被应用程序进行黑客攻击,它不会通过隔离层、通过DPU攻击到其他的服务器。所以,它会对多租户、多虚机环境有很有效的帮助。后续在Linux系统或者Windows系统的裸金属服务器上进行进一步的开发。
 
 图:Project Monterey架构
 
目前该项目还在进行之中,现在只是把vSphere 里面Cloud Foundation的功能卸载到了NVIDIA BlueField DPU上,同时支持VMware NSX下一代防火墙技术,未来可能还会有一些安全策略的功能会在日后的版本中支持。后面还会支持vSAN数据存储功能,这些都正在紧密研发之中。
 
那么,NVIDIA BlueField DPU在vSphere体系中运行的情况。在传统的服务器中,对基础设施管理、存储、安全、网络都是CPU承担工作负载的。当采用了DPU之后,CPU可以零介入基础设施的部分,上述讲的四大功能就卸载到了DPU。这里主要和vSphere配合的是有软件定义的安全、软件定义的网络和整体性能加速的部分,将给上层应用提供更好的基础设施的支撑。因此,CPU资源会更好的支撑客户业务应用,有更多支持虚机和容器的能力。
 
 除了很好的支持vSphere8之外,NVIDIA BlueField DPU在NSX网络和安全的组件上也有很好的支撑,现在已经实现了将NSX下一代防火墙功能卸载到了DPU之上,后续的入侵检测、入侵防御等安全策略功能也会逐渐在DPU上实现,这将和VMware整个多云架构、企业应用有更加紧密的解决方案,能够让企业用户直接采用,享受DPU带来的性能上的回报。
 
 
 
DPU:用的越多,省的越多
 
那么,DPU采用和不采用在收益和效果上有何差异呢?对此,英伟达通过两个案例对NVIDIA BlueField DPU进行了网络基准测试:
 
案例一:下图是在VMware体系上运行NGINX Web服务器的应用,如果传统用标准智能网卡和CPU介入的方式下,需要有8个CPU内核管理跟运营基础设施的相关操作。当采用了DPU之后,这8个内核完全被释放了,不需要CPU的任何介入,DPU就会把这些基础设施管理相关的加速能力直接体现出来。
 
案例二:在NVIDIA BlueField和VMware体系之上跑Redis内存键值存储,是非SQL数据库的基准测试,如果采用CPU和标准智能网卡上跑应用需要12个CPU内核介入,当采用DPU之后这12个内核完全被释放,直接由DPU承担这些工作负载。从吞吐量的角度来看,原来是8.8,当采用DPU后性能得到加速,会变成12,整体有12个内核的减少,相当于减少CPU 20%的内核释放;而且在不使用任何CPU资源的情况下性能将提升36%。对客户而言,既节省了CPU上的资源消耗,可以拿更多CPU资源支撑业务应用,同时在整个网络性能上也得到了提升。
 
 
 所以总体来看,能得出的结论是,在NVIDIA BlueField DPU上运行vSphere,用的越多,省的越多。在整个服务器效率方面会整体提升22%,在3年Roi角度测算带来5倍的投资回报率。780台安装有NVIDIA BlueField DPU的服务器,相当于1000台安装有标准智能网卡的服务器。每台服务器的TCO(总体投入)可节省8,200美元,3年内通过提升效率可节省180万美元。所以,这对于企业用户来讲,虽然可能在DPU采用上做一定投入,但实际上,在CPU资源占用和性能提升上将带来长期稳定的回报。
 
通过 NVIDIA LaunchPad试用在NVIDIA BlueField DPU上运行vSphere现已开放。在NVIDIA托管环境中已可用:介绍和现场演示Introduction & Live Demo;通过 LaunchPad 体验 Monterey。点击申请LaunchPad 试用
 
2022 秋季NVIDIA DPU中国黑客松竞赛即将开幕
 
在人工智能和机器学习的热潮技术驱动下,有很多从业者对人工智能就绪的数据中心基础设施产生了浓厚的兴趣,尤其是学生。NVIDIA DPU黑客松活动从开办以来受到学生和创业者等的欢迎。DPU黑客松活动会介绍NVIDIA BlueField DPU、NVIDIA DOCA软件框架的最新进展和基础开发的知识,介绍跟竞赛有关的用例和应用场景,这些都会让学生和行业的开发者能够尽快的熟悉这些硬件和软件的部分,同时掌握相应的开发技能,通过参加竞赛,他们可以进行实操体验。
 
2022 秋季NVIDIA DPU中国黑客松竞赛将于10月19日开帷幕。此次黑客松和上次不同的是,题目聚焦在“使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速的存储与AI 解决方案”。这是基于InfiniBand上实现的RDMA技术,能够很容易的通过NVIDIA BlueField DPU去访问CPU和GPU的内存,而不需要CPU和操作系统的干预,这会大大提高整个数据移动的效率,能够更好的支撑未来的科学计算、人工智能、机器学习需要大规模数据搬运和计算的工作负载。
 
 在10月19日有赛前训练营。上午有精彩的关于NVIDIA BlueField DPU和NVIDIA  DOCA软件开发套件的介绍和用例的展示。下午将有一些更深入的开发环境和开发方式的介绍,展示几个应用案例,能够让开发者更容易理解DOCA的开发如何进行,用什么样的步骤,用例及运行方式是什么样的。最后会有一个跟开发者的技术答疑。
 
和上一届的安排一样,仍然会有一个开幕式和训练营的活动,之后会进入到24小时的比赛环节,比赛中各个团队将投入到创新应用的开发之中,到第二天10月23日上午,是每个团队现场比赛的演示,他们将对自己做的课题做一个整体展示,后面会有中国的本地评委和国际评委对他们的比赛结果进行评分,将在24日周一公布比赛结果。
 
英伟达会请到本地5位评委,从基础架构、软件开发、行业应用角度来看待这些开发团队所做的项目和呈现的结果。整个结果最后会提交给国际评委,他们从创新角度和其他应用的角度做一个评分,大概是五个方面,训练营参与度(15分)、项目完成度(15分)、项目创新价值(20分)及题目匹配度(30分),最后是现场演示的效果(20分)。
 
NVIDIA网络市场总监孟庆表示,虽然今年对所有半导体行业客户和厂商来说都是不容易的一年,但是去年英伟达DOCA社区发展仍然超出预期。现在全球DOCA开发者中超过一半来自中国,这是我们有底气去办黑客松的原因。
 
结语
 
综上可以看出,无论是Project Monterey还是黑客松竞赛,都是英伟达在DPU领域倾注的心血,也代表着英伟达对DPU的看重。英伟达预期DPU将在数据中心中扮演非常重要的角色,而且越来越重要。
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论