AI新贵Gyrfalcon打造多款机器学习芯片

2018-11-30 14:00:19 来源: 半导体行业观察

30年前,加州大学伯克利分校的博士生杨林(Frank Lin)想研发出一种特制芯片,能够加快人工智能(AI)的运算速度。

这个念头开启了他长达三十多年的研究生涯。

当年一些具有洞察力的想法如今变成了现实,与此同时,杨博士作为首席科学家创立的初创公司GTI野心勃勃,不断发展,专注于打造与众不同的AI芯片,以期在竞争日益激烈的芯片市场独占鳌头。

2017年初建立的GTI总部位于苗必达市,处于硅谷的边缘地带。GTI正在一步步实现杨博士在30年前的绝妙想法:同步运算矩阵乘法的相同电路矩阵,从而加快神经网络的基本运算。

“我们是唯一一家将矩阵乘法作为基本运算元素后取得实质性进展的公司。”接受ZDNet专访的GTI总裁杨林如是说。

杨林清楚地认识到众多初创企业都拥有新型AI半导体设计,比如ZDNet近日报道的Cornami、Flex Logix与Efinix等产品。

“有些芯片制造商正在思考matrix或tensor的新型架构。” 杨林说,而GTI在一月份推出了第一款硅芯片产品。 “谈到真正的芯片,我觉得我们是市场上唯一一家真正的硅芯制造商。”

三星电子、LG电子、富士通等一些大体量客户确信,GTI会提供他们需要的产品。

“刚开始我们只有七个人。”GTI营销总监Marc Naddell补充道。“想象一下,一小撮人在创业最开始的八个月里致力于一款芯片的研发。”Naddell与杨林均强调,Gyrfalcon是三星的独家AI芯片合作伙伴。

“我们的第一款芯片大获成功,因此像我们这样历史短、规模小的公司能够赢得三星等大品牌的青睐。”他说道。

GTI产品致胜的关键在于其具备绝佳的能效,在性能方面胜过英特尔传统中央处理器(CPU)与Nvidia图形处理器(GPU)。“我们就是对抗歌利亚的大卫。” 杨林说。

大卫对抗歌利亚

备注:大卫与巨人哥利亚的决斗是一个著名的西方典故,意为以弱胜强。《圣经》中记载,歌利亚是非利士将军,带兵进攻以色列军队,后被牧童大卫打败。大卫日后统一以色列,成为著名的大卫王。

GTI的产品正在向品牌化方向发展时,“Lightspeeur”以“2801”芯片为起点,在今年国际消费类电子产品展览会(Consumer Electronics Show 简称 CES)上亮相。“Lightspeeur”是一种用于“推理(inference)”的零件,而“推理”是机器学习的组成部分,神经网络利用训练阶段习得的信息为新出现的问题提供解决方案。该零件适用于“边缘”设备,如智能手机、智能扬声器或笔记本电脑。

国际消费电子展(CES)是世界最大的消费类电子产品展会

GTI指出,一种称为“存储计算一体化”(APiM)的方法,让所有相同的运算单元与存储融为一体,可大大降低外存储器的利用率,从而大幅降低AI芯片的功率预算。

“2801”的运算速度可达到每秒9.3万亿次,仅耗能1瓦特,且每一次都是乘法累加运算。如今,这样“万亿次/每秒”(TOPS)的计算单位是AI芯片能耗常见的表示方法。

它“比英特尔Movidius产品的能效高90%”,杨林在谈到英特尔收购同名公司Movidius时获得的推理芯片时如是说。

GTI第一代芯片Lightspeeur®2801S

继“2801”后出现的“2803”于上月面世,旨在处理云服务器更加繁重的推理负载。其性能更佳,能效更好,耗能1瓦特时,计算速度高达24 TOPS。GTI表示,“2803”不仅适用于推理,还可用于训练,利用一种技术优化“马尔科夫链蒙特卡洛”(Markov Chain Monte Carlo)网络,替代更为常见的随机梯度下降(Stochastic gradient descent,SGD)。

“2801”与“2803”都可以在电路板上联结,并且通过外部设备高速扩展总线(PCI-E)作为插件同时运行。两者均拥有嵌入式存储器,“2801”可存储9兆字节。紧邻所有运算单位的存储器,使芯片能够承担几乎所有的推理工作,无需芯片外设DRAM。GTI将其称为“存储计算一体化”或“APiM”。

“我可以一次性地将网络模型、权重与激活单元预加载到这款芯片上。” 杨林说,“无需求助外部系统;这样做能够明显降低能耗,大幅提升芯片的性能。”

本月,GTI透露了下一产品的部分信息。该产品主要用于“物联网Lot”领域,直到下个月才会正式发布。这个最新产品名为“2802”,提供了另一项有趣的技术:非易失性存储器(Non-volatile memory, NVM)。

“2802”以“磁性”随机存储器(MRAM)替代了“2801”与“2803”运用的静态随机存取存储器(SRAM)。与NAND快闪存储器相似,MRAM在能量耗尽时不会丢失数据。这意味着一套神经网络可由客户进行预加载,甚至可以在“2802”出厂前由原厂预加载。

GTI在乘法累加运算(Multiply Accumulate, MAC)的同一套模具上制造MRAM,该方法是GTI正在申请的五十个专利之一。快速搜索美国专利局的申请数据库和授予专利,可迅速了解 GTI技术的具体情况。1992年,伯克利分校凭借杨博士及其导师Leon Chua的芯片发明获得了一项专利。碰巧的是,Chua在该领域的大量研究可应用于多项领域,包括Chua在1998年出版的专著《细胞神经网络:复杂性的典范》(CNN:A Paradigm for Complexity)

当然,困难之处在于软件。与CPU和GPU不同,GTI的专用集成电路(ASIC)难以获得编程栈。

对比:GTI的Lightspeeur与英特尔和Nvidia芯片在AI处理上的差别

因此,刚刚发布了一个开发者软件开发工具包(SDK),为产品打造应用程序。该开发工具可在两个硬件配件上进行测试,即USB加密锁“PLAI Plug”与独立设备“PLAI WiFi”,后者可作为手机的无线加速工具。

GTI按照杨博士在伯克利制定的路线不断发展,已经迈出了似乎有风险的一步:正在卷积神经网络(CNN)上铺设自己的电路。虽然那时杨博士使用的是“细胞神经网络”(“cellular neural networks, CNN”,Gyrfalcon依然在专利申请文件中使用该术语)这样的模型,但其具有独创性的研究工作围绕卷积运算展开。

当然,卷积神经网络在近几年来成为了最重要的神经网络设计之一,但这一做法让芯片不太适用于其他类型的网络,如“长短期记忆”网络。

不过,杨林并未对理论上的局限性忧心忡忡。

“CNN是所有其他AI的基础。”他说。“对此,我们做了研究,发现ResNet和MobileNet在CNN市场中依然占主导地位。”杨林说,其他初创公司正在试图进军每一种网络,“他们试图覆盖所有现存及未来的神经网络,但我还没有发现任何一家公司能够成功地兼顾全面性与能效性。”

如果新型网络出现,占据了大部分的市场份额,“那我们就会针对它推出另外一款芯片。”他说。

一个很有意思的想法是,(如果)按照生产曲线看一看GTI在发展时发生了什么,是什么使其电路更加高效。GTI的初代产品由台湾半导体制造商28纳米制造工艺完成,与英特尔和Nvidia的尖端产品相比,该工艺运用的节点更为陈旧。

“我们正在用28纳米的工艺击败正在使用7纳米或12纳米的同行,比如Nvidia。” 杨林说。“我们是如同以卵击石的反叛者,但我们赢了!”

Marc Naddell,这位GTI的营销总监补充道:“当我们采用12纳米或7纳米的工艺时,其他公司将会做什么呢?”

GTI的另一条发展途径就是将自主研发的芯片授权给其他AI芯片制造商。杨林目前的工作重心并没有放在这上面,但他看到许多潜力。“Graphcore等其他初创公司做的东西与我们极其相似,但如果他们想做大,就必须找我们。”

根据最新数据,Graphcore筹措到的金额超过1亿美元。资金支持对芯片初创企业至关重要,因为一家公司从设计到芯片的初步“流片”,再到开发和维护客户基础,平均需要投入数亿美元。

GTI没有向记者透露公司筹集到的资金数额,但他们表示,他们已经“从美国、日本、韩国、中国的机构与企业投资者手中获得三轮融资”,并补充道:“就目前的员工配置与支出率来说,筹措的资金可供公司运营至少三年时间。

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论