国产云端AI芯片新突破

2021-07-08 20:22:54 来源: 李晨光
如今,人工智能正处于深刻影响世界的大浪潮之下,AI芯片作为人工智能的基础硬件,需求加速释放。据VerifiedMarket数据显示,2020年AI芯片市值为73.7亿美元,预计到2028年将达到1098.3 亿美元。
 
从行业格局看,国际半导体巨头仍是通用市场的主宰者,国内外云计算巨头积极跨界打造专用型芯片,一批国内AI芯片企业也相继秀出创新成果,意欲颠覆市场格局。其中,云端AI芯片是本土玩家入局的火热战场,且正在迎来转机。
 
2021年7月7日,2021世界人工智能大会(WAIC)期间,瀚博半导体(上海)有限公司(下文简称“瀚博半导体”)召开新品发布会,携SV100系列云端通用AI推理芯片和VA1通用AI推理加速卡首次亮相。
 
瀚博半导体创始人兼CEO钱军展示SV102芯片
 
SV100系列芯片:为云端推理而生
 
钱军介绍道,瀚博SV100系列是一款超高性能人工智能与视频处理芯片,具备超高算力、超低延迟,SV102单芯片INT8峰值算力高达200 TOPS,深度学习推理性能指标数倍于现有主流数据中心GPU。
 
SV100基于瀚博自研的针对各种深度学习推理负载而优化的通用DSA(Domain Specific Architecture,领域专用架构)架构,支持计算机视觉、视频处理、自然语言处理和搜索推荐等推理应用场景,同时集成高密度视频解码,广泛适用于云端与边缘解决方案,节省设备投资、降低运营成本。2021年6月,SV100系列芯片测试成功,现与国内外多家头部互联网公司合作,预计将于今年第四季度量产上市。
 
 
从瀚博半导体两位创始人行业历程来看,CEO钱军和CTO张磊都拥有超过20年的芯片设计经验,钱军曾供职于思科和AMD公司,在AMD全面负责GPU的芯片设计和生产;张磊曾任AMD Fellow,深耕视频解编码、视频处理、深度学习、芯片架构设计等领域。两位创始人都深度了解行业客户对吞吐量、延迟、通用性和成本的需求。
 
然而,自带GPU基因的瀚博半导体却并没有沿着GPU的赛道继续深耕,转而研发针对各种深度学习推理负载进行优化的DSA架构。
 
对此,钱军表示:“一方面原因在于,在GPU领域,英伟达和AMD在软硬件方面均已迭代了很多代,已经足够高效,后来者很难在此赛道上实现超越;另一方面,云端推理芯片市场开始逐渐起量,预计到2021年,中国云端推理芯片市场规模将达到189亿元,将超过云端训练市场规模。同时,在推理侧,GPU用于AI推理并没有优势,性能不及DSA架构,DSA的优势在于可为特定的一类应用做出架构优化从而实现更好的能效比。基于上述原因,瀚博半导体选择首先研发基于DSA架构的推理芯片。”
 
 
从近年来国内外厂商在AI芯片上的布局也可以看到,微软和谷歌等国际大厂,地平线、寒武纪、比特大陆等本土AI芯片公司,尽管各家采用了不同的技术路径和芯片架构,但可以看到的是以DSA架构为代表的芯片设计,似乎正在成为AI芯片发展的一大趋势。
 
随着人工智能和深度学习技术的深入发展和广泛应用,中国市场AI服务器的推理负载有望超过训练负载,AI推理芯片正在迎来机遇,但同时也在“视频需求、LTE(延时-latency、吞吐量-Throughput、能效-Energy Efficiency)、算法演进与方向突破”等创新领域存在挑战。
 
 
对此,瀚博半导体通过高并发解码能力与AI算力匹配满足视频需求;在LTE方面,SV100系列芯片具备极低延时、极高吞吐量性能,并保持低功耗;同时还能提供负载分析、硬件通用可扩展以及相应的软件栈。
 
VA1通用AI推理卡,数据中心高密度算力解决之道
 
瀚博半导体本次还同步推出了基于SV100系列芯片的VA1 PCIe推理加速卡,提供高效率深度学习AI推理加速,在同等能耗下能实现2-10倍于GPU的最高AI吞吐率,适合实时应用,同时兼备良好的通用性和可扩展性,支持FP16, BF16和INT8数据类型的众多主流神经网络快速部署——包括检测,分类,识别,分割,视频处理,LSTM/RNN,NLP/BERT,搜索推荐等。
 
 
张磊强调,VA1支持64路以上H264,H265或AVS2 1080p解码,分辨率支持高达8K,实现强大的智能视频处理性能。作为标准半高半长75瓦PCIe 4.0卡,VA1适用于绝大多数服务器,无需额外供电,即可实现高密度部署。
 
瀚博半导体联合创始人、CTO张磊
 
VA1在吞吐率、同等性能下整机TCO、还是高密度视频处理场景,瀚博半导体的方案均出类拔萃,保有领先优势。
 
75W功耗处理两种AI模型时,VA1吞吐率超过英伟达A10和T4云端推理GPU
 
同等推理性能下,VA1比英伟达T4节省60%服务器成本,比A10节省50%的TCO
 
VA1是单宽半高半长PCIe卡,支持64路以上视频解码
 
在高密度视频处理场景中,目前国内大多数云端AI芯片友商没有内置解码功能,而是用多个GPU来做视频解码,因此从适配处理到AI加速要用到多颗芯片。而VA1只用一颗SV102就能兼顾两类功能,支持64路以上H264、H265或AVS2 1080p解码,分辨率支持高达8K且功耗更低、处理能力更强。
 
张磊表示,瀚博半导体目前正将VA1加速卡与联想、浪潮、新华三、超微服务器以及CentOS、Ubuntu、红帽、中标麒麟、银河麒麟等操作系统做适配。后续还会推出15W、150W的产品。

芯片之外,软件同样重要

除了芯片本身,配套的软件、驱动、生态等同样是值得关注的部分。
 
对此,张磊表示:“瀚博半导体的软件栈具有极高灵活性与可扩展性,能够支持未来新兴算法模型和用户自定义算子扩展等。同时提供了符合行业开发者使用习惯的工具,方便使用者以相对较低的成本向公司硬件平台迁移、部署现有算法应用。”
 
 
目前瀚博半导体的VastStream软件平台已支持TensorFlow、PyTorch、Caffe2等主流深度学习框架模型与ONNX格式的模型,通过高度定制的AI编译器充分优化模型在瀚博硬件上的执行效率。
 
结语
 
对于公司的发展规划,钱军强调:“企业应先以自身的技术优势来打造竞争优势,按照研发实力、根据市场的需求来看未来的发展趋势,制定公司的技术、产品和市场等路线图。”
 
在这样的战术路线下,瀚博半导体迈出了重要一步。
 
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论