Arm发布新一代NPU,助力边缘AI腾飞
2024-04-23
11:03:57
来源: 互联网
点击
在云端证实了其实力后,人工智能正在往终端加速普及。
Arm物联网事业部业务拓展副总裁马健(Chloe Ma)在日前的一场演讲中也指出,本世纪初,随着网络和互联网技术的进步,物联网 (IoT) 应运而生,并快速兴起,这极大推动了具备更强处理能力和连接性的边缘计算设备的普及,使得数据处理更加靠近数据源。而随着 ML 和 AI 技术的发展,智能设备不仅能够执行任务,还能够学习和适应。
“近来,伴随着 Transformer 与大模型的发展,AI 模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上低功耗的 AI 加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。”马健接着说。“在后续的发展中,系统变得愈加强大,其复杂度也随之提升。软硬件必须协同工作才能释放 AI 处理的最大潜能。”马健强调。
这也正是Arm在过去几年在AI方面的工作重点。
深耕边缘AI,不止10年
马健表示,边缘 AI 并不是最近才兴起的,五到十年前边缘 AI 就在简单的语音助手等应用中得以实现,以及大家比较熟知的智能视觉系统等应用中出现。这些边缘 AI 的部署大部分都基于 Arm 架构的 AI 计算平台。
过去十年中,Arm 也持续投资边缘 AI。除了对包括 Cortex-M 和Cortex-A在内的CPU 处理器进行优化,加强对 AI 和机器学习 (ML) 在边缘侧的支持外,还通过为 Cortex M 引入 Helium 矢量指令集,为嵌入式设备的数字信号处理 (DSP) 和 ML 带来显著的性能提升。
据透露,目前搭载 Helium 技术的 Arm 处理器包括Cortex-M52、Cortex -M55、Cortex-M85。能助力嵌入式和 IoT 开发者,支持他们设计出更多支持 ML 和AI 的芯片和解决方案。来到Cortex-A应用处理器方面,这种增强是更广泛的。比如 SVE、SVE2 矢量扩展在 AI 方面的增强,以及 SME 对矩阵计算的优化,及通过向量点积 (Dot Product) 等新指令增强 CPU 处理器对边缘 AI 和数据处理的支持。
在马健看来,边缘AI的重要特点就是节省带宽、更具安全性、减少数据传输、提高响应速度和可靠性,但也面临一些设计上的挑战,就是对能效和成本方面有比较严格的限制。而这正是Arm过去多年一直擅长并专注的方向。
据介绍,Arm在过去多年中不断开发边缘 AI 加速器,以满足边缘侧和端侧不断增长的推理工作负载需求。此前两款成功的 NPU 产品——Arm Ethos-U55 和 Ethos-U65就为边缘侧和端侧 AI 应用带来了高性能、高能效的解决方案。
当中,Ethos-U55通常部署在基于Cortex-M 的异构系统中。而 Ethos-U65 则将 Ethos-U 系列的适用性扩展到基于 Cortex-A 的系统中,并为设备上的机器学习 (ML) 能力带来了两倍的性能提升。这两款产品均提供统一的工具链,可简化开发并支持常见的 ML 神经网络运算,包括卷积神经网络 (CNN) 和循环神经网络 (RNN)。
这些领先的解决方案也获得了客户的高度认可。例如恩智浦半导体的 i.MX系列、英飞凌的 PSoC Edge 和 Alif Semiconductor 的 Ensemble 系列等,都搭载了 Ethos-U AI 微加速器。
在备受关注的安全方面,Arm也与时俱进。首先在处理器中引入了TrustZone 技术,以确保处理器更安全,更好的保护用户信息的隐私性。同时,Arm 认为安全还需要整个生态系统的协同努力,于是便在2017年与志同道合的生态合作伙伴们共同创立了 PSA Certified 安全认证体系。
据介绍,PSA 是平台安全架构的缩写 (Platform Security Architecture) ,在过去几年的发展中, PSA Certified 得到了生态系统的认可。迄今为止,经 PSA Certified 认证过的产品已超过两百个之多。展望未来,Arm 会持续在产品中增强安全性,发挥整个生态的力量,凭借更多的产品得到 PSA Certified 的认证,由此助力更多合作伙伴的产品更易通过区域性或全球性的安全标准的合规要求。
此外,Arm 也在与一系列软件算法与工具伙伴合作,以确保为边缘 AI 系统开发者提供其所需的工具和支持。只有 Arm 拥有足够的技术广度和经验,可以强有力地支持整个边缘计算生态系统抓住 AI 机遇。
但Arm并没有满足于此,在近日带来了全新一代的NPU加速器。
新一代NPU,强势亮相
据马健介绍,Arm Ethos 是业界首款 AI 微加速器,它的开发立足于 Arm 长年积累的 IP 设计专业知识,以及高性能、低功耗的产品特性,加上广大的生态系统支持与Arm持续在软件工具链上的投资,让 Ethos 的易用性更高。Arm也不断紧随着市场的需求,为 Ethos 迭代更新,这次推出的 Ethos-U85 就支持了目前主流的 AI 架构,助力合作伙伴掌握新机遇。
从性能来看,与上一代产品相比,Ethos-U85 性能提升四倍,能效提高 20%,同时,其 MAC 单元可从 128 个扩展到 2048 个(在 1GHz 时,算力实现 4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。Ethos-U85还提供了相同的一致工具链,因此合作伙伴能够利用现有的投资,达到无缝的开发者体验。更重要的是,全新 Ethos-U85 NPU 支持了 TensorFlow Lite 和 PyTorch 等 AI 框架。
在支持模型方面,Ethos-U85 支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。当中Transformer 架构将推动新的应用,特别是面向视觉和生成式 AI 用例中,对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。
来到对处理器支持方面,Ethos-U85 不仅支持低功耗 MCU 系统中的 AI 加速。还针对对高性能应用处理器需求的趋势,增加了对 Armv9 Cortex-A CPU的支持,为基于应用处理器的智能物联网平台上运行的 AI 任务实现加速,这也让 Ethos-U85 能够给工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用带来高效能的边缘推理能力。
为了帮助合作伙伴简化系统开发,加快上市时间,Arm同时还推出了最新的具备 Ethos-U85 的边缘 AI 参考设计平台。顺应无处不在的 MCU 和嵌入式系统对性能和 AI 加速需求与日俱增的趋势,Arm 同步推出了全新的智能物联参考设计平台—— 集成了 Arm 领先的Cortex-M85 MCU、Ethos-U85 NPU、Mali-C55 ISP以及CoreLink DMA-350的Arm Corstone-320。
作为Arm新推出的全新物联网参考设计平台,Corstone-320结合了领先的嵌入式 IP、软件、工具和支持,其中包含了Arm虚拟硬件。该平台不仅能加快语音、音频和视觉系统的部署,还能够降低系统级芯片 (SoC) 设计人员和软件开发者所面临的复杂性,助力生态伙伴掌握物联网市场激动人心的新机遇。
Arm总结说,除了降低复杂性和加快产品上市进程,Corstone-320拥有包括提高性能、改善内存带宽、提高能效、提供一系列电源模式、降低设计成本并缩短工程时间、更多的安全功能、可观察性、改进的灵活性以及一系列的软件支持等优势。
在Arm看来,语音、音频和视觉与物联网设备的持续集成带来了巨大的创新机遇。通过赋能这些设备以更加复杂的方式与其周围环境交互、解读和感知,从前难以想象的广泛新应用和功能正逐步被发掘。而这将推动物联网设备和技术实现重大的创新与变革。
Corstone-320 正处于这个变革的前沿,为物联网市场提供低成本、低功耗、高性能的智能参考设计平台。通过集成式软件与硬件相结合,该平台将在各个用例和场景中显著加快产品上市进程,并降低 SoC 设计与软件开发的复杂性。这将有助于生态系统以前所未有的速度扩展物联网应用。
写在最后
其实在很早以前,我们就讨论过一个行业趋势,那就是除了有Arm这些IP厂商提供AI 加速器IP以帮助当前的嵌入式处理器厂商进入边缘AI市场以外,还有一些做自有加速器的厂商,通过集成一些CPU,在这个市场掘金。
针对这个现状,马健表示,一个新技术的演进,通常会经历一个百花齐放的阶段,这时候,很多厂商都希望通过自己的硬件实现差异化,但这样的状况对应用开发者、算法开发者、软件开发者等群体来说,并不友好,因为他们必需学习不同的平台,且无法从中复用自己的开发工作。
而未来当边缘AI在市场中的发展趋于稳定的时候,会出现几家主流的头部 NPU 提供者, 这些厂商不仅要有很好的技术实现市场积累和长期投资,使得 NPU 的质量、性能、能耗以及对算子的支持都能够满足市场上大多数客户和用例的需求;其次它们提供的平台一定能够应用于多种场景,这就需要一个非常强大且一致性高的工具链,以及主流 AI 框架等对市场强有力的支持,这都是 Arm 持续积极布局的努力方向。
在马健看来,智能必须无处不在,云边端缺一不可。而边缘侧 Arm 架构芯片的支持,关系到各行各业智能化的成败。
“目前,全球约有 90% 的 AI 都运行在基于 Arm 架构的 CPU 上,这些持续投入使 Arm 成为全球最普遍的 AI 计算平台之一,吸引了越来越多的开发者加入,而 Arm 也将与我们的生态伙伴们砥砺奋进,释放前所未有的 AI 潜力。”马健最后说。
Arm物联网事业部业务拓展副总裁马健(Chloe Ma)在日前的一场演讲中也指出,本世纪初,随着网络和互联网技术的进步,物联网 (IoT) 应运而生,并快速兴起,这极大推动了具备更强处理能力和连接性的边缘计算设备的普及,使得数据处理更加靠近数据源。而随着 ML 和 AI 技术的发展,智能设备不仅能够执行任务,还能够学习和适应。
“近来,伴随着 Transformer 与大模型的发展,AI 模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上低功耗的 AI 加速器和专用芯片被集成到终端设备中,边缘智能正变得越来越自主和强大。”马健接着说。“在后续的发展中,系统变得愈加强大,其复杂度也随之提升。软硬件必须协同工作才能释放 AI 处理的最大潜能。”马健强调。
这也正是Arm在过去几年在AI方面的工作重点。
深耕边缘AI,不止10年
马健表示,边缘 AI 并不是最近才兴起的,五到十年前边缘 AI 就在简单的语音助手等应用中得以实现,以及大家比较熟知的智能视觉系统等应用中出现。这些边缘 AI 的部署大部分都基于 Arm 架构的 AI 计算平台。
过去十年中,Arm 也持续投资边缘 AI。除了对包括 Cortex-M 和Cortex-A在内的CPU 处理器进行优化,加强对 AI 和机器学习 (ML) 在边缘侧的支持外,还通过为 Cortex M 引入 Helium 矢量指令集,为嵌入式设备的数字信号处理 (DSP) 和 ML 带来显著的性能提升。
据透露,目前搭载 Helium 技术的 Arm 处理器包括Cortex-M52、Cortex -M55、Cortex-M85。能助力嵌入式和 IoT 开发者,支持他们设计出更多支持 ML 和AI 的芯片和解决方案。来到Cortex-A应用处理器方面,这种增强是更广泛的。比如 SVE、SVE2 矢量扩展在 AI 方面的增强,以及 SME 对矩阵计算的优化,及通过向量点积 (Dot Product) 等新指令增强 CPU 处理器对边缘 AI 和数据处理的支持。
在马健看来,边缘AI的重要特点就是节省带宽、更具安全性、减少数据传输、提高响应速度和可靠性,但也面临一些设计上的挑战,就是对能效和成本方面有比较严格的限制。而这正是Arm过去多年一直擅长并专注的方向。
据介绍,Arm在过去多年中不断开发边缘 AI 加速器,以满足边缘侧和端侧不断增长的推理工作负载需求。此前两款成功的 NPU 产品——Arm Ethos-U55 和 Ethos-U65就为边缘侧和端侧 AI 应用带来了高性能、高能效的解决方案。
当中,Ethos-U55通常部署在基于Cortex-M 的异构系统中。而 Ethos-U65 则将 Ethos-U 系列的适用性扩展到基于 Cortex-A 的系统中,并为设备上的机器学习 (ML) 能力带来了两倍的性能提升。这两款产品均提供统一的工具链,可简化开发并支持常见的 ML 神经网络运算,包括卷积神经网络 (CNN) 和循环神经网络 (RNN)。
这些领先的解决方案也获得了客户的高度认可。例如恩智浦半导体的 i.MX系列、英飞凌的 PSoC Edge 和 Alif Semiconductor 的 Ensemble 系列等,都搭载了 Ethos-U AI 微加速器。
在备受关注的安全方面,Arm也与时俱进。首先在处理器中引入了TrustZone 技术,以确保处理器更安全,更好的保护用户信息的隐私性。同时,Arm 认为安全还需要整个生态系统的协同努力,于是便在2017年与志同道合的生态合作伙伴们共同创立了 PSA Certified 安全认证体系。
据介绍,PSA 是平台安全架构的缩写 (Platform Security Architecture) ,在过去几年的发展中, PSA Certified 得到了生态系统的认可。迄今为止,经 PSA Certified 认证过的产品已超过两百个之多。展望未来,Arm 会持续在产品中增强安全性,发挥整个生态的力量,凭借更多的产品得到 PSA Certified 的认证,由此助力更多合作伙伴的产品更易通过区域性或全球性的安全标准的合规要求。
此外,Arm 也在与一系列软件算法与工具伙伴合作,以确保为边缘 AI 系统开发者提供其所需的工具和支持。只有 Arm 拥有足够的技术广度和经验,可以强有力地支持整个边缘计算生态系统抓住 AI 机遇。
但Arm并没有满足于此,在近日带来了全新一代的NPU加速器。
新一代NPU,强势亮相
据马健介绍,Arm Ethos 是业界首款 AI 微加速器,它的开发立足于 Arm 长年积累的 IP 设计专业知识,以及高性能、低功耗的产品特性,加上广大的生态系统支持与Arm持续在软件工具链上的投资,让 Ethos 的易用性更高。Arm也不断紧随着市场的需求,为 Ethos 迭代更新,这次推出的 Ethos-U85 就支持了目前主流的 AI 架构,助力合作伙伴掌握新机遇。
从性能来看,与上一代产品相比,Ethos-U85 性能提升四倍,能效提高 20%,同时,其 MAC 单元可从 128 个扩展到 2048 个(在 1GHz 时,算力实现 4 TOPs),能够为诸如工厂自动化和商用或智能家居摄像头等需要更高性能的应用提供有力的支持。Ethos-U85还提供了相同的一致工具链,因此合作伙伴能够利用现有的投资,达到无缝的开发者体验。更重要的是,全新 Ethos-U85 NPU 支持了 TensorFlow Lite 和 PyTorch 等 AI 框架。
在支持模型方面,Ethos-U85 支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。当中Transformer 架构将推动新的应用,特别是面向视觉和生成式 AI 用例中,对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。
来到对处理器支持方面,Ethos-U85 不仅支持低功耗 MCU 系统中的 AI 加速。还针对对高性能应用处理器需求的趋势,增加了对 Armv9 Cortex-A CPU的支持,为基于应用处理器的智能物联网平台上运行的 AI 任务实现加速,这也让 Ethos-U85 能够给工业机器视觉、边缘网关、可穿戴设备和消费类机器人等应用带来高效能的边缘推理能力。
为了帮助合作伙伴简化系统开发,加快上市时间,Arm同时还推出了最新的具备 Ethos-U85 的边缘 AI 参考设计平台。顺应无处不在的 MCU 和嵌入式系统对性能和 AI 加速需求与日俱增的趋势,Arm 同步推出了全新的智能物联参考设计平台—— 集成了 Arm 领先的Cortex-M85 MCU、Ethos-U85 NPU、Mali-C55 ISP以及CoreLink DMA-350的Arm Corstone-320。
作为Arm新推出的全新物联网参考设计平台,Corstone-320结合了领先的嵌入式 IP、软件、工具和支持,其中包含了Arm虚拟硬件。该平台不仅能加快语音、音频和视觉系统的部署,还能够降低系统级芯片 (SoC) 设计人员和软件开发者所面临的复杂性,助力生态伙伴掌握物联网市场激动人心的新机遇。
Arm总结说,除了降低复杂性和加快产品上市进程,Corstone-320拥有包括提高性能、改善内存带宽、提高能效、提供一系列电源模式、降低设计成本并缩短工程时间、更多的安全功能、可观察性、改进的灵活性以及一系列的软件支持等优势。
在Arm看来,语音、音频和视觉与物联网设备的持续集成带来了巨大的创新机遇。通过赋能这些设备以更加复杂的方式与其周围环境交互、解读和感知,从前难以想象的广泛新应用和功能正逐步被发掘。而这将推动物联网设备和技术实现重大的创新与变革。
Corstone-320 正处于这个变革的前沿,为物联网市场提供低成本、低功耗、高性能的智能参考设计平台。通过集成式软件与硬件相结合,该平台将在各个用例和场景中显著加快产品上市进程,并降低 SoC 设计与软件开发的复杂性。这将有助于生态系统以前所未有的速度扩展物联网应用。
写在最后
其实在很早以前,我们就讨论过一个行业趋势,那就是除了有Arm这些IP厂商提供AI 加速器IP以帮助当前的嵌入式处理器厂商进入边缘AI市场以外,还有一些做自有加速器的厂商,通过集成一些CPU,在这个市场掘金。
针对这个现状,马健表示,一个新技术的演进,通常会经历一个百花齐放的阶段,这时候,很多厂商都希望通过自己的硬件实现差异化,但这样的状况对应用开发者、算法开发者、软件开发者等群体来说,并不友好,因为他们必需学习不同的平台,且无法从中复用自己的开发工作。
而未来当边缘AI在市场中的发展趋于稳定的时候,会出现几家主流的头部 NPU 提供者, 这些厂商不仅要有很好的技术实现市场积累和长期投资,使得 NPU 的质量、性能、能耗以及对算子的支持都能够满足市场上大多数客户和用例的需求;其次它们提供的平台一定能够应用于多种场景,这就需要一个非常强大且一致性高的工具链,以及主流 AI 框架等对市场强有力的支持,这都是 Arm 持续积极布局的努力方向。
在马健看来,智能必须无处不在,云边端缺一不可。而边缘侧 Arm 架构芯片的支持,关系到各行各业智能化的成败。
“目前,全球约有 90% 的 AI 都运行在基于 Arm 架构的 CPU 上,这些持续投入使 Arm 成为全球最普遍的 AI 计算平台之一,吸引了越来越多的开发者加入,而 Arm 也将与我们的生态伙伴们砥砺奋进,释放前所未有的 AI 潜力。”马健最后说。
责任编辑:sophie
相关文章
- 半导体行业观察
- 摩尔芯闻