英伟达再出招，加速AI普及

2021-06-25 10:00:17 来源: 李寿鹏

点击

最近这些年，在英伟达等芯片厂商、方案商以及应用厂商的推动下，人工智能正在以迅雷不及掩耳之势在千行百业普及。据德勤德勤此前发布的《全球人工智能发展白皮书》预测，到2025年世界人工智能市场规模将超过6万亿美元，2017年至2025年复合增长率达30%。

虽然人工智能的普及是不可逆的趋势，但对于开发者来说，他们还是需要面对各种各样的挑战。例如如何将AI应用到不同的场景中？又如何提高开发效率？以上问题就成为了开发者关注的重中之重。

作为行业内领先的AI芯片供应商，英伟达正在通过其各种利器，推动AI来改变人们的生活。

全新的迁移学习工具包

所谓迁移学习，是指将已经在相关任务中训练过的模型的一部分复用到新模型中，从而很大程度地降低对大量计算资源的需要。具体而言就是可以从现有神经网络中提取已学习特征，并通过从现有神经网络转移权重来迁移这些已学习特征。据英伟达方面介绍，公司的迁移式学习工具包是一个基于Python的工具包，它提供了大量预先训练的模型，并提供一系列的工具，使流行的网络架构适应开发者自己的数据，并且能够训练、调整、修剪和导出模型，以进行部署。

在发布第一代工具包的时候，英伟达方面也表示，这套方案拥有许多预训练的优化过的领域特定DNN，预先打包在里面；有计算机视觉中，物体分类、检测的应用示例；在异构的多GPU环境中，易于做模型适应 (Model Adaptation) ，易于重新训练；可以轻松修改配置文件，增加新类别、新特征，压缩模型大小；Model Export API可以把模型轻松部署在英伟达的DeepStream SDK 3.0上，做智能视频分析 (IVA) 应用；Model Export API在可以把模型部署到Clara平台上，来做医学影像相关应用。

自2018年发布以来，英伟达迁移学习工具包受到了客户的高度认可。到了今年二月，他们又带来了迁移学习工具包 3.0 版本（开发者测试版）。据介绍，借助这个全新工具，开发者可以通过 NVIDIA 为常见 AI 任务开发的多用途生产级模型或者 ResNet、VGG、FasterRCNN、RetinaNet 和 YOLOv3/v4 等 100 多种神经网络架构组合，使用自己的数据对特定用例的模型进行微调。所有模型均可从 NGC 获得。

今日，英伟达再带来了新的好消息，那就是发布全新预训练模型并宣布迁移学习工具包（TLT）3.0全面公开可用。

英伟达方面表示，迁移学习工具包在NVIDIA TAO平台指导工作流程以创建AI的过程中起到核心作用。新版本包括各种高精度和高性能计算机视觉和对话式AI预训练模型，以及一套强大的生产级功能，可将AI开发能力提升10倍。

他们进一步指出，新版本包括以下多个亮点：

一个支持边缘实时推理的姿态估计模型，其推理性能比OpenPose模型快9倍。

PeopleSemSegNet，一个用于人物检测的语义分割网络。

各种行业用例中的计算机视觉预训练模型，如车牌检测和识别、心率监测、情绪识别、面部特征点等。

CitriNet，一个使用各种专有特定域和开源数据集进行训练的新语音识别模型。

一个用于问题回答的新Megatron Uncased模型以及许多其他支持语音文本转换、命名实体识别、标点符号和文本分类的预训练模型。

AWS、GCP和Azure上的训练支持

在用于视觉AI的NVIDIA Triton™和DeepStream SDK上以及用于对话式AI的Jarvis上的开箱即用部署。

而从他们的介绍我们也得知，TLT 3.0现在还与数家领先合作伙伴的平台集成，这些合作伙伴提供大量多样化的高质量标签数据，使端到端AI/机器学习工作流程变得更快。换而言之，现在您可以使用这些合作伙伴的服务来生成和注释数据、通过与TLT无缝集成进行模型训练和优化并使用DeepStream SDK或Jarvis部署模型以创建可靠的计算机视觉和对话式AI应用。

在英伟达方面看来，随着企业竞相推出AI解决方案，企业竞争力将有赖于是否能够获得最佳开发工具。对于许多尝试使用开源AI产品创建模型进行训练的工程和研究团队来说，在生产中部署自定义、高精度、高性能AI模型可能是一段十分艰难的开发历程。

“NVIDIA提供高质量的预训练模型和TLT以帮助降低大规模数据采集和标注成本，同时告别从头开始训练AI/机器学习模型的负担。初入计算机视觉和语音服务市场的企业现在也可以在不具备大规模AI开发团队的情况下部署生产级AI。”英伟达方面强调。

GAN 研究如何重塑视频会议

除了提供工具帮助开发者进行应用开发外，英伟达还在CVPR 2021 上带来了基于 GAN 研究的NVIDIA Maxine 云 AI 视频流 SDK。按照他们的说法，这个全新的SDK将能够帮助重塑视频会议，是的每个人在参与视频通话的过程中都能完美展现自己。而背后倚仗的就是类似Vid2Vid Cameo 这样的深度学习模型。

据介绍，Vid2Vid Cameo 模型基于 NVIDIA DGX 系统开发，使用包含 18 万个高质量人脸说话视频的数据集进行训练。相应网络学会了识别 20 个关键点，这些关键点可用于在没有人工标注的情况下对面部动作进行建模。这些点对特征（包括眼睛、嘴和鼻子）的位置进行编码。

然后，它会从通话主导者的参照图像中提取这些关键点，这些关键点可以提前发送给其他的视频会议参与者，也可以重新用于之前的会议。这样一来，视频会议平台只需发送演讲者面部关键点的移动情况数据，无需将某参与者的大量直播视频流推送给其他人。

通过仅来回压缩及发送头部位置和关键点，而不是完整的视频流，此技术将视频会议所需的带宽降低 10 倍，从而提供更流畅的用户体验。该模型可以进行调整，传输不同数量的关键点，以实现在不影响视觉质量的条件下，适应不同的带宽环境。

此外，还可以自由调整所生成的人脸说话视频的视角，可以从侧边轮廓或笔直角度，也可以从较低或较高的摄像头角度来显示用户。处理静态图像的照片编辑者也可以使用此功能。

英伟达方面指出，Vid2Vid Cameo 模型本周将在著名的CVPR大会上发表，这是 NVIDIA 在本次虚拟会议上发表的 28 篇论文之一。此外，它还在 AI Playground 上推出，在此所有人均可亲身体验我们的研究演示。

按照英伟达的说法，Vid2Vid Cameo 只需两个元素，即可为视频会议打造逼真的 AI 人脸说话动态，这两个元素分别是一张人物外貌照片和一段视频流，它们决定了如何对图像进行动画处理。

换而言之，借助这个技术，使用者上传一张穿着正装的照片之后，即使头发凌乱、穿着睡衣，也能在通话中以穿着得体工作服装的形象出现，因为 AI 可以将用户的面部动作映射到参照照片上。如果主体向左转，则技术可以调整视角，以便参与者看上去是直接面对摄像头的。

除了可以帮助与会者展现出色状态外，这项 AI 技术还可将视频会议所需的带宽降低 10 倍，从而避免抖动和延迟。它很快将在 NVIDIA Video Codec SDK 中作为 AI Face Codec 推出。

NVIDIA 研究人员兼项目的联合创作者 Ming-Yu Liu 表示:”许多人的互联网带宽有限，但仍然希望与朋友和家人进行流畅的视频通话。这项基础技术除了可以为他们提供帮助外，还可用于协助动画师、照片编辑师和游戏开发者的工作。”

得益于英伟达这些先进的工具和模型，一个全新的科技新世界正在缓缓向我们走来。

责任编辑：sophie

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

英伟达再出招，加速AI普及

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

英伟达再出招，加速AI普及

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月