在ISC2022上英伟达show出多个超级计算武器

2022-05-31 16:38:46 来源: 杜芹

现在高性能计算、机器学习、数字孪生技术和高性能数据分析正在推动我们的未来,在这些领域,英伟达扮演着不可或缺的角色。在今年的ISC2022上,英伟达展示了其多个超级计算的武器,包括DPU、新推出的Grace、在量子计算上的新工具以及超级计算机等。
 
逐渐开花的DPU
 
英伟达的DPU产品推出已有2年之久,DPU也被其称之为是下一代数据计算的关键。包括亚洲、欧洲和美国的超级计算中心正利用 NVIDIA Quantum InfiniBand 网络上的 NVIDIA BlueField DPU 推高加速计算的水平。

 洛斯阿拉莫斯国家实验室(LANL)正与英伟达进行一项为期多年的广泛合作,这项合作旨在将计算多物理应用的性能提高 30 倍。其中包括使用 BlueField 及其 NVIDIA DOCA 软件框架在计算存储、模式匹配等方面实现的创新技术。这些努力还将有助于进一步定义 OpenSNAPI ,这是一个任何人都可用来控制 DPU 的应用接口。
 
LANL的杰出高级科学家Steve Poole 预计,使用在 NVIDIA Quantum InfiniBand 网络上运行的数据处理器(DPU)等加速计算可取得巨大的性能提升。Poole 表示:“DPU 是我们的整体解决方案中不可或缺的一部分,我认为,DOCA 和相似的软件包能够在不久的将来发挥巨大潜力。”
 
将固态存储与 DPU 和 InfiniBand 加速器相结合而成的加速闪存盒(ABoF),可为 Linux 文件系统的关键性能部分提供加速。它的性能高达同类存储系统的 30 倍,并将成为 LANL 基础架构中的关键组件。ABoF 使“取得更多科学发现成为可能。让计算靠近存储可更大限度减少数据移动,提高仿真和数据分析工作流程的效率。” LANL 研究人员 Dominic Manno 在最近的 LANL 博客中这样表示。
 
除了LANL,德克萨斯高级计算中心(TACC)近期也开始在 Dell PowerEdge 服务器中采用 BlueField-2。它将在 InfiniBand 网络上使用 DPU ,使其 Lonestar6 系统成为云原生超级计算的开发平台。TACC 的 Lonestar6 为德州农工大学、德州理工大学和北德克萨斯大学的众多 HPC 开发者,以及一些研究中心和教职人员提供服务。
 
俄亥俄州立大学的研究人员也展示了 DPU 如何将一个 HPC 热门编程模型的运行速度提高 21%。他们通过卸载消息传递接口(MPI)的关键部分,加速了 P3DFFT ,这是一个用于众多大规模 HPC 仿真的数学库。俄亥俄州立大学计算机科学与工程专业的教授 Dhabaleswar K.(DK)Panda 在其带领的 MVAPICH开源软件团队推动 DPU 工作,他表示:“ DPU 就像是为忙碌的高管处理工作的助手,它们将成为主流,因为它们可以加速运行各种工作负载。”
 
对于运行药物研发或飞机设计等 HPC 仿真应用的超级计算机而言,高达两位数的性能加速是惊人的。Panda 表示,云服务可以利用这些加速提高客户的生产力,他已收到多个 HPC 中心的代码请求。Quantum InfiniBand 网络以及 NVIDIA SHARP 特性,助力他高效完成工作。他说:“其他人还在谈论网络计算,而 InfiniBand 已经在为它提供支持。”
 
欧洲的多个研究团队正利用 BlueField DPU 加速 MPI 和其他 HPC 工作负载。例如,英格兰北部的达勒姆大学正在开发一款软件,用于在 16 个节点的 Dell PowerEdge 集群上使用 BlueField DPU 以实现 MPI 作业的负载均衡。该项目的首席调查员 Tobias Weinzierl 表示,该软件将为全球各地的 HPC 设施更高效地处理更好算法铺平道路。
 
剑桥大学、伦敦和慕尼黑的研究人员也在使用 DPU。一篇论文描述了他们目前的工作成果,其中表明,算法可以加速高达 20%,且不会损失模拟的准确性。
 
本月早些时候,日本研究人员宣布将推出一款采用新版 NVIDIA H100 Tensor Core GPU 的系统,该系统将搭载速度更快、更智能的 NVIDIA Quantum-2 InfiniBand 网络平台。NEC 将使用 H100 的为筑波大学计算科学中心构建算力大约为 6 PFLOPS 超级计算机。研究人员将使用该系统实现气候学、天体物理学、大数据、AI 和更多方面的研究。
 
英伟达cuQuantum工具助力量子计算
 
量子计算这几年比较火爆,它被希冀为有望攻破当今面临的一些严峻挑战,推动从药物研发到天气预报等各项工作的发展。简言之,量子计算将在未来的 HPC 中发挥巨大作用。对部分人来说,量子计算可能听上去像是科幻小说,是几十年后的未来情景。而事实上,研究人员每年都在构建数量更多、规模更庞大的量子系统。而NVIDIA正与合作伙伴全力参与这项工作,NVIDIA cuQuantum等工具将打开高性能计算之门。
 
目前,已有数十家量子组织已经在使用 NVIDIA cuQuantum 软件开发套件,在 GPU 上加速其量子电路模拟。
 
最近,AWS宣布在其Braket服务中提供cuQuantum。它还在 Braket 上展示了 cuQuantum 如何在量子机器学习工作负载上实现高达 900 倍的加速。
 
cuQuantum现已能够在主要的量子软件框架上实现加速计算,包括 Google 的 qsim、IBM 的 Qiskit Aer、Xanadu 的 PennyLane 和 Classiq 的 Quantum Algorithm Design 平台。这意味着这些框架的用户可以访问 GPU 加速,而无需再进行任何编码。
 
Menten AI也开始使用cuQuantum 来支持其量子工作。这家湾区药物研发初创公司将使用 cuQuantum 的 Tensor 网络库来模拟蛋白质相互作用并优化新的药物分子。这样做旨在利用量子计算的潜力来加速药物设计,该领域与化学类似,是公认的率先受益于量子加速的领域。
 
具体而言,Menten AI 正在开发一套量子计算算法(包括量子机器学习),以解决治疗设计中需要进行大量计算的问题。Menten AI 的首席科学家 Alexey Galda 表示:“虽然能够运行这些算法的量子计算硬件仍处于开发阶段,但 NVIDIA cuQuantum 等经典计算工具对于推进量子算法的开发至关重要。”
 
随着量子系统的发展,下一个重大飞跃是朝混合系统迈进:量子计算机和经典计算机协同工作。研究人员都希望这些系统级量子处理器(即 QPU)成为功能强大的新型加速器。而摆在面前的一个重要任务就是将传统系统和量子系统桥接到混合量子计算机中。这项任务包括两个主要部分。
 
首先,我们需要在 GPU 和 QPU 之间建立快速、低延迟的连接。这样一来,混合系统可使用 GPU 完成其擅长的传统作业,例如电路优化、校正和纠错。GPU 可以缩短这些步骤的执行时间,并大幅降低经典计算机和量子计算机之间的通信延迟,而这是当今混合量子作业面临的主要瓶颈。
 
其次,该行业需要一个统一的编程模型,其中包含高效易用的工具。在这方面,英伟达 HPC 和 AI 方面的经验能使其和用户了解到了固态软件栈的价值。
 
当前,为了对 QPU 进行编程,研究人员只能使用相当于低级组装代码的量子,不是量子计算专家的科学家无法使用这种代码。此外,开发者缺乏统一的编程模型和编译器工具链,因此无法在任何 QPU 上运行工作。这种现象亟待改变,在 3 月份的一篇博客中,英伟达讨论了为构建更出色的编程模型而开展的一些初步工作。
 
为了高效地找到量子计算机加速工作的方法,科学家需要轻松地将其 HPC 应用的一部分先移植到模拟版 QPU,然后再移植到真正的 QPU。这个过程需要一个编译器,使科学家们能够以熟悉的方式高效工作。将 GPU 加速的模拟工具、编程模型和编译器工具链全部结合在一起后,HPC 研究人员就可以开始构建未来的混合量子数据中心。
 
蓄势待发的Grace
 
英伟达今日宣布,多家全球领先的计算机制造商正在采用全新NVIDIA Grace™超级芯片打造新一代服务器,为超大规模时代的AI和HPC工作负载提速。这些制造商包括源讯、戴尔科技,技嘉科技、慧与、浪潮、联想和超微等。
 
所有这些新系统都得益于刚刚发布的NVIDIA HGXTM平台中的Grace和Grace Hopper设计。制造商根据这些设计所提供的蓝图,能够构建出可以提供最高性能,并且内存带宽和能效两倍于当今领先的数据中心CPU的系统。
 
美国和欧洲的领先超级计算中心都将率先采用这两款超级芯片。
 
洛斯阿拉莫斯国家实验室(LANL)于今日宣布,其新一代系统Venado将成为美国首个采用NVIDIA Grace CPU技术的系统。Venado是使用HPE Cray EX超级计算机构建而成的异构系统,同时将配备Grace CPU超级芯片节点和Grace Hopper超级芯片节点,满足各类新兴应用需求。该系统建成后的AI性能预计将超过10 exaflops。
 
瑞士国家计算中心的新系统Alps同样由慧与基于HPE Cray EX超级计算机而构建。该系统将使用Grace CPU超级芯片,以支持众多领域的开创性研究。Alps将作为一个通用系统,向瑞士及其他国家的研究者开放。
 
NVIDIA超大规模和HPC副总裁Ian Buck表示:“超级计算已进入到超大规模AI时代。NVIDIA正与OEM合作伙伴一道助力研究者攻克此前无法解决的巨大挑战。从气候科学、能源研究、太空探索、数字生物学到量子计算等领域,NVIDIA Grace CPU超级芯片和Grace Hopper超级芯片为全球最先进的HPC和AI平台奠定了基础。”
 
超级计算机加速AI用于医疗健康
 
伦敦国王学院的研究人员使用 NVIDIA Cambridge-1 超级计算机和 MONAI 打造全球最大的的开源合成大脑图像集,加速了 AI 在医疗健康领域的应用。
 
 MONAI 开源联盟的创始成员以及医学影像 AI 领域的研究人员Cardoso 说:“过去许多研究人员不想涉足医疗健康领域,因为他们无法获得良好的数据,但现在可以了,我们希望将 AI 引入医疗健康领域。”它为医疗健康研究人员免费提供了 10 万张合成大脑图像。这是一个宝库,可以加速人类对痴呆症、帕金森症或各类脑部疾病的认知。

 这些图像代表了合成数据在医疗健康领域的一个新兴分支。合成图像此前已经广泛应用于消费者和商业应用的计算机视觉领域,而实际上这些领域本身已有包含数百万张真实图像的开放数据集可供使用。
 
相比之下,医学领域可供使用的真实影像反而稀缺。出于保护患者隐私的需要,医学影像通常仅供与大型医院相关的研究人员使用。即便如此,这些影像往往也只能反映医院所服务的人群,而非范围更广的人群。
 
Cardoso 的 AI 方法的重要特征是,它可以根据需要制作图像。女性大脑、男性大脑、老年人的大脑、年轻人的大脑等等,只需插入所需内容,系统就会进行创建。虽然这些图像是模拟生成的,但非常实用,因为它们基于经过良好测试的算法,所以外观和运作方式与真实大脑高度相似。但这项工作需要可以运行超级软件的超级计算机。
 
于是,用英伟达致力于在医疗健康领域取得突破性 AI 研究的超级计算机Cambridge-1充当引擎。再加上用于医学成像的 AI 框架MONAI,充当软件燃料。
 
其中,NVIDIA DGX SuperPOD Cambridge-1 配备 640 个 NVIDIA A100 Tensor Core GPU,每个 GPU 均具有足够的显存,可以处理团队海量图像中一或两张包含 1600 万个 3D 像素的图像。而MONAI 的基础模组包括特定领域专用的数据加载程序、指标、GPU 加速转换和经过优化的工作流引擎。Cardoso 表示,该软件的智能缓存和多节点扩展最高可将作业加速 10 倍。
 
它们共同创建了用于合成数据的 AI 工厂,让研究人员能够运行数百个实验、选择最优的 AI 模型并运行推理以生成图像。合成图像将帮助研究人员了解疾病如何随时间推移而发展。与此同时,Cardoso的团队仍在探索如何将这项工作应用于大脑以外的身体部位,以及何种合成图像(MRI、CAT、PET)更实用。
 
Cardoso说:“如果没有 Cambridge-1 和 MONAI,我们不可能完成这项工作,一切都不会发生。”
 
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论