AI训练市场,CPU将扳回一局?

2021-04-11 14:00:16 来源: 半导体行业观察

来源:内容翻译 自tomshardware, 谢谢。


在进行AI深度神经网络(DNN)训练时,GPU以比大多数CPU更好的性能着称,仅因为它们具有更多的执行单元(或内核)。但是据赖斯大学的计算机科学家提出的一种新算法据称实际上可以 flip the tables,并使CPU的运行速度比某些领先的GPU快15倍。

通常使用蛮力方法解决最复杂的计算难题,例如向它们扔更多的硬件或发明可以解决任务的专用硬件。毫无疑问,DNN训练是当今最需要计算的工作负载之一,因此,如果程序员希望获得最佳的训练性能,则可以使用GPU来处理他们的工作负载。之所以会发生这种情况,是因为大多数算法都基于矩阵乘法,因此使用计算GPU更容易实现高性能。

莱斯大学布朗工程学院的计算机科学助理教授Anshumali Shrivastava和他的同事们提出了一种 算法 ,该 算法 可以大大加快现代AVX512和AVX512_BF16的CPU的DNN训练。

Shrivastava在与 TechXplore 的对话中说:“公司每周花费数百万美元用于训练和微调其AI工作负载 。” “整个行业都专注于一种改进-更快的矩阵乘法。每个人都在寻找用于推动矩阵乘法的专用硬件和体系结构。现在,人们甚至都在谈论为特定种类的深度学习使用专用的硬件-软件堆栈。我要说的是:“让我们重新审视该算法。”

为了证明自己的观点,科学家们采用了SLIDE(Sub-LInear深度学习引擎),这是一个基于C ++ OpenMP的引擎,结合了智能哈希随机算法和CPU上适度的多核并行性,并针对Intel的AVX512和AVX512-bfloat16对其进行了优化。

该引擎采用局部敏感哈希(Locality Sensitive Hashing,L SH)来自适应地在每次更新过程中识别神经元,从而优化了计算性能要求。该论文称,即使不做任何修改,就壁钟时间而言,训练2亿参数神经网络的速度也比在Nvidia V100 GPU上优化的TensorFlow实施要快。

研究合著者Shabnam Daghaghi说:“基于哈希表的加速已经超越了GPU,但CPU也在不断发展。”

为了使散列更快,研究人员对算法进行了矢量化和量化,以便可以由英特尔的AVX512和AVX512_BF16引擎更好地处理。他们还实现了一些内存优化。

“我们利用[AVX512和AVX512_BF16] CPU创新技术进一步推动了SLIDE的发展,这表明如果您不拘泥于矩阵乘法,则可以利用现代CPU的强大功能,并以比最佳专业硬件快四到十五倍的速度训练AI模型选择。”

(图片来源:Anshumali Shrivastava / Rice University)

他们使用Amazon-670K,WikiLSHTC-325K和Text8数据集获得的结果对于优化的SLIDE引擎确实非常有希望。英特尔的Cooper Lake(CPX)处理器在Amazon-670K上的性能可以比Nvidia的Tesla V100高出约7.8倍,在WikiLSHTC-325K上可以达到约5.2倍,在Text8上可以达到约15.5倍。实际上,即使是经过优化的Cascade Lake(CLX)处理器也可以比Nvidia的Tesla V100快2.55 – 11.6倍。


(图片来源:Anshumali Shrivastava / Rice University)

毫无疑问,针对启用了AVX512和AVX512_BF16的CPU的优化DNN算法非常有意义,因为处理器在客户端设备,数据中心服务器和HPC计算机中广泛使用。为此,充分利用其所有功能非常重要。

但是,在绝对性能方面可能会有一些困难,因此让我们推测一下。Nvidia的A100 有望 比研究人员用于比较的Nvidia的Tesla V100快3倍-6倍(也许是因为获得A100很难)。不幸的是,对于Amazon-670K,WikiLSHTC-325K和Text8数据集,我们没有任何A100编号。也许,当A100使用优化算法时,它不能击败英特尔的Cooper Lake,但是这些支持AVX512_BF16的CPU并非完全可用(因此,目前A100还不行)。因此,问题是,英伟达的A100与英特尔的Cascade Lake和Ice Lake CPU相比如何?


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2642内容,欢迎关注。

推荐阅读


以色列芯片实力浮出水面

万字长文剖析,全球化才是半导体的答案

5nm芯片江湖要变天?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备|模拟芯片 |射频|博通|美国|台积电

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论