最新MLPerf结果出炉,英伟达的GPU最快!

2021-07-02 15:03:38 来源: 互联网

MLPerf堪称是AI界的“速度测试仪”,各行业的AI用户都认为这些基准测试十分有用。在最新一轮MLPerf基准测试结果中,NVIDIA AI平台在最短的时间内完成了模型训练,在商用提交类别的所有八项基准测试中都创下了性能纪录。NVIDIA在两年半的时间内将性能提高了多达6.5倍,充分证明了包括GPU、系统和软件在内的全栈式NVIDIA平台的实力

 
AI训练速度最快,英伟达是如何做到的?
 
MLPerf是一个成立于2018年5月的行业基准测试组织。MLPerf能够帮助用户做出明智的采购决策。它得到了包括阿里巴巴、Arm、百度、谷歌、英特尔和NVIDIA在内的几十家行业领导者的支持,测试透明且客观。
 
该基准测试基于当今最常用的AI工作负载和场景,涵盖计算机视觉、自然语言处理、推荐系统、强化学习等。且训练基准测试所关注的也是用户最关心的问题,即训练一个全新AI模型所需的时间。
 
 
 
在这一行业基准测试中,七家公司对至少十几款市售系统进行了测试,其中大部分为NVIDIA认证系统。除NVIDIA之外,戴尔、富士通、技嘉、浪潮、联想、宁畅、超微也参与了本轮测试,使用NVIDIA A100 Tensor Core GPU实现了业内领先的神经网络训练结果。对于AI,最艰巨的挑战在于扩展到大型集群的能力,而这正是NVIDIA的核心优势之一。 在芯片对比中,NVIDIA及其合作伙伴在最新商用系统测试的所有八项基准测试中都创造了纪录。
 
 
 
基于 NVIDIA DGX SuperPOD 的Selene在商用系统类别的所有八项测试中均创下纪录。
 
 
在最新一轮的基准测试中,只有NVIDIA及其合作伙伴运行了所有八类工作负载,占所有提交的四分之三以上,而且取得了非常优秀的成绩。
 
这是NVIDIA A100 GPU第二次参与MLPerf测试。速度的提升来自于GPU、系统、网络和AI软件方面的进步,与去年的分数相比,NVIDIA在性能上提高了多达3.5倍。而对于需要最高性能的大规模工作,NVIDIA创纪录地调集了4096个GPU的资源,超越了所有其他参与者。
 
NVIDIA在Selene上进行了大规模测试。根据最新全球TOP 500榜单,Selene是全球最快的商用AI超级计算机。这台超级计算机与榜单上的其他十几台系统均基于NVIDIA DGX SuperPOD架构。
 
 
A100 GPU在商用系统类别的所有八项测试中均创下纪录。
 
 
客户的基础设施投资回报最终取决于其生产力,这就需要在运行各种AI工作负载时都能做到速度与灵活性兼备。因此,用户需要通过灵活、强大的系统,让各种AI模型能够快速投入生产,加速上市时间,并最大程度地提高宝贵的数据科学团队生产力。
 
总体而言,从下图所示的结果能够看出,NVIDIA在两年半的时间内将性能提高了多达6.5倍,充分证明了包括GPU、系统和软件在内的全栈式NVIDIA平台的实力
 
 
NVIDIA AI 通过全栈的改进,持续带动性能提升。
 
那么,英伟达是如何做到的呢?据悉,NVIDIA工程师找到了一种使用CUDA Graphs启动完整神经网络模型的方法。CUDA Graphs是一个涵盖NVIDIA CUDA操作及其依赖项的软件包。它消除了过去的测试中,AI模型由大量独立的内核组成而导致的CPU瓶颈。
 
此外,在大规模测试中使用的是NVIDIA SHARP。该软件能够在网络交换机内整合多项通信工作,从而减少网络流量和等待CPU的时间。CUDA Graphs和SHARP的结合,使数据中心能够使用有史以来最多的GPU进行训练。在诸如自然语言处理等很多领域,随着AI模型参数增加到数十亿的量级,这样的组合恰能提供所需的强大能力。
 
最新A100 GPU上的内存带宽增加了近30%,达到2TB/s以上,这也带来了其他许多方面的提升。
 
20多家厂商已采用NVIDIA A100 GPU
 
这些MLPerf结果展现了众多全新的创新系统上各种基于NVIDIA 技术的 AI平台的性能。这些系统涵盖范围广泛——从入门级边缘服务器,到可容纳数千个GPU的AI超级计算机。
 
包括参与最新基准测试的七家合作伙伴在内,共有二十多家云服务供应商和OEM厂商的产品或采用了NVIDIA A100 GPU,或计划为在线实例、服务器采用NVIDIA A100 GPU,包括近40款NVIDIA认证系统。
 
我们的生态系统为客户提供各种部署模型选择,提供业内最高的性价比——从按分钟出租的实例,到本地服务器和托管服务。
 
MLPerf测试结果显示出NVIDIA的性能在持续提升,而这有赖于成熟且不断完善的软件平台,以助力团队快速采用不断改进的系统。
 
NVIDIA在最新测试中所使用的所有软件都可以从MLPerf资源库中获得,因此任何人都可以重现NVIDIA的基准测试结果。NVIDIA会陆续将这些代码添加到NVIDIA的深度学习框架和容器中,用户可在NVIDIA的GPU应用软件中心NGC上获得这些框架和容器。
 
其作为全栈式AI平台的一部分,已在最新行业基准测试中得到了验证,并可通过多家合作伙伴获取,助力客户应对当今的实际AI工作任务。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论