HPC将迎来处理器变革新时代

2017-12-17 13:42:08 来源: 官方微信

来源:内容来自CaviumQLogic ,谢谢。


一年一度的国际超级计算大会(SupercomputingConference,以下简称SC)上,每次都有一个非官方的主题出现。过去两年的焦点是机器学习(Machine learning)和深度学习(Deep learning),而在之前则是大规模数据密集计算,以及利用云重塑超级计算未来发展方向的潜力。

所有这些主题都有一个共同点,那就是:它们的重点都不是CPU处理器。实际上,它们都是围绕X86架构下的CPU性能提升或生态系统发展的相关话题。回想一下,近年来我们最后一次看到硬件设备成为大会的核心主题,还是在第一批大规模GPU超级计算机进入500强榜单时,然而它们只是加速器而不是设备的核心。

在今年的SC17上,核心处理器再次成为了非官方主题。基于ARM架构硬件软件生态系统进行了广泛的演示,Cray等超级计算公司还展示了全面的系统集成效果,很多基准测试的结果足以与英特尔的最先进产品相抗衡。

基于ARM处理器的“Isambard”超级计算机将包含10,000个内核(采用Cavium的ThunderX2 ARM处理器),将于明年在英国布里斯托大学面世,负责开发该超级计算机的团队一直致力于基于ARM的HPC系统的研究和开发工作。我们现在看到,在基于大量开发工作铺垫的ARM系统中,最著名的当属巴塞罗那超级计算中心的Mont Blanc(几年前开始采用双Cortex-A15 ARM,现在基于Cavium ThunderX2 ARM处理器)。

Simon McIntosh-Smith是Isambard项目的领导者之一,也曾参加Mont Blanc项目。他说:“很长时间以来,所有人都在等待ARM处理器领域取得突破。在这方面,Mont Blanc项目是重要而又困难的初期发展阶段。现在,我们终于看到硬件登上舞台中心,展示我们过去几年来的工作成果。随着Cray等公司的全力支持,通过将ThunderX2 ARM处理器应用到Cray XC系列产品,而不仅仅是标准集群中,我们真正实现了突破。硬件必须发挥其应有的作用。”

McIntosh-Smith和他的团队日前公布了一些很有意义的基准测试结果。这次基准测试采用了Cray 8节点设备集群和32核ThunderX2 ARM处理器,并与英特尔Skylake和Broadwell解决方案进行了对比。下面列出了在多种HPC应用中进行对比的基准 -


McIntosh-Smith表示,总体而言,以内存带宽密集型的任何应用都能够在ThunderX2上很好地运行,性能显著优于 Skylake。然而对于偏向浮点密集型的应用来说,因为Skylake使用了更宽的向量运算器所以会更胜一筹,但是ThunderX2 能与Broadwell平台旗鼓相当。如果继续增加高带宽内存,测试结果会怎么样?这将会非常有趣。

基准测试结果请参见下图:

内存带宽密集型的优势在OpenFOAM上的HPC应用中体现得最为明显——OpenFOAM是一种开源CFD应用,通常更多地用于商业和科研领域的高性能计算。上图的基准测试报告显示,ThunderX2的OpenFOAM测试结果要好于Skylake 和 Broadwell 。

天气和气候模拟代码也显示内存带宽密集型应用的性能会有同样的提高。上图显示了在ThunderX2上测试英国气象局(Met Office)的生产代码的情况——Nemo是一种海洋模拟代码。

“初步的结果显示,对于GROMACS、CP2K和VASP等计算密集型的应用,不同处理器之间的性能差距很小。而内存带宽密集型的应用则可以显著看出不同处理器之间的差异。这是因为,尽管这些代码可受益于X86处理器的更广泛向量单位,但ThunderX2可以借助更多内核和更高的时钟速度来进行补偿,“McIntosh-Smith说。

随着高端Cray XC50系统的面世,我们将在下一届超级计算大会上看到基于ARM处理器的实际生产环境中的超级计算机的更多测试结果。

Isambard项目架构请参见下图:

直到今天,很多HPC ARM观察家都知道Isambard是Cray的机型;但如果他们知道这家超级计算机生产商选择了一条更加艰难的道路,将ThunderX2 ARM处理器与业内著名的Aries互联芯片相集成,并可以运行全套Cray软件的话,很多人肯定会大吃一惊。相比较而言,如果把ThunderX2添加到CS Storm系列,而不是基于Aries的产品系列中,对Cray来说将简单得多。但在McIntosh-Smith看来,这恰恰彰显了Cray将ARM广泛用于HPC领域的坚定决心。

McIntosh-Smith认为,将来不同的ARM选项可能会采用同一种专用的部署方法。“将来,基于ARM的HPC将增强向量功能,达到与其他CPU厂商不相上下的水平。下一代ARM产品将具有和任何其他厂商产品相当的向量宽度。”

有趣的一点是这些结果基于单纯优化内核数量和基本条件后的编译结果,只进行了几个小时的微调。McIntosh-Smith表示,这些今天实现的突飞猛进,实际上是多年来在基于ARM的HPC系统上坚持不懈的努力结果。在硬件就绪后,ARM在HPC应用中所需的软件也会更快到位,随着面向超级计算机的ARM处理器的正式上市,整个行业将迎来架构改造的新纪元,ARM架构将在HPC领域揭开广泛处理器选择的新篇章。


今天是《半导体行业观察》为您分享的第1489期内容,欢迎关注。

R

eading

推荐阅读(点击文章标题,直接阅读)

功率半导体,大涨价下的国产替代之路

Fan-out 或TSV?先进封装选哪个!

为什么你的芯片不挣钱?


关注微信公众号 半导体行业观察 ,后台回复关键词获取更多内容

回复 科普 ,看更多半导体行业科普类的文章

回复 DRAM ,看更多DRAM的文章

回复 光刻 ,看更多光刻技术相关的文章

回复 三星 ,看更多与三星公司相关的文章

回复 全面屏 ,看更多全面屏相关的文章

回复 双摄 ,看更多关于手机双摄像头的文章

回复 毫米波 ,看更多与毫米波相关的文章

回复 IPO ,看更多与半导体企业IPO相关的文章

回复 展会 ,看《2017最新半导体展会会议日历》

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!


责任编辑:CaviumQLogic

相关文章

半导体行业观察
摩尔芯闻

热门评论