亚马逊云科技瞄准生成式AI，再造云计算新格局

2023-12-25 12:23:00 来源: 杜芹

点击

十年前，亚马逊云科技（AWS）就意识到，要实现极致的性价比，必须考虑设计自有的服务器芯片。这在当时看来多少有点疯狂，但是2018年，公司成功推出业界首款自研通用芯片Amazon Graviton，首代产品就实现了显著的成本节约。Amazon Graviton2的性能提升了7倍。Amazon Graviton3在此基础上，计算性能再提升25%，能效大幅增加60%。最新发布的Graviton4芯片相较于前代Graviton3，在性能上提升了30%，内存带宽增加75%以上。

“短短五年时间，从2018年到现在，AWS已经推出了整整四代通用计算芯片，这在业界是独一无二的。”亚马逊云科技大中华区产品部总经理陈晓建在2023亚马逊云科技re:Invent中国行北京站中讲到。目前，使用Amazon EC2资源的前100家亚马逊云科技客户都在运用Amazon Graviton来降低成本并提高效率。Amazon Graviton的客户数量已超过5万。以SAP为例，他们在SAP HANA云上使用Amazon Graviton后，分析工作负载的性价比提升了35%，碳排放量减少了45%。

正是出于对通用计算芯片的重塑，亚马逊云科技在自研芯片之路一路稳扎稳打，为其奠定了在云计算服务领域的主导地位。根据PitchBook的数据，目前全球有超过1000家独角兽公司，其中超过80%选择将其工作负载运行在亚马逊云科技上。

在巩固云计算主导地位的同时，亚马逊云科技现在正将目光投向生成式AI领域，在生成式 AI 领域又下了一盘大棋。

生成式AI三步走

在亚马逊云科技眼中，生成式AI可分为三层架构：底层是用于基础模型训练和推理的基础设施；中间层是使用基础模型进行构建的工具；最上层是利用基础模型构建的应用程序。亚马逊云科技的战略布局正是围绕这三个层次展开的。

（一）底层芯片

首先，在最关注于性能、成本和最终经济效益的基础设施层方面，早在2013年前，亚马逊云科技率先认识到GPU加速计算芯片的潜力，并成为首个将GPU引入云服务的供应商。现在，GPU服务器广泛应用于HPC、视频处理、AI等多种工作负载。亚马逊云科技在Amazon EC2 P3的实例中率先提供了NVIDIA V100 GPU。而且是全球第一家将NVIDIA最新的芯片H100 GPU和Amazon EC2 P5实例推出市场的主要云提供商，这些Amazon EC2 P5实例提供了惊人的性能，在训练上比Amazon EC2 P4实例要快4倍，而成本只是P4的60%。

但这只是第一步，要支持生成式AI的基础训练，除了飞快的GPU芯片之外，还需要一个真正高性能的服务器集群来训练所需的基础模型。为此，亚马逊云科技和英伟达两家公司共同开展“Project Ceiba”合作项目，将全球最快的GPU驱动AI超级计算机和NVIDIA DGX云超级计算机用于NVIDIA AI的训练、研发、定制化模型的开发，它将拥有1.6万个最新的GH200超级芯片，提供高达65 ExaFLOPS的惊人算力。

同样为了追求极致的性价比，亚马逊云科技也推出了专用于生成式AI领域的芯片：Amazon Trainium和Amazon Inferentia。其中，Amazon Trainium是用于机器学习的训练芯片，而Amazon Inferentia是在这些模型上进行推理和优化的芯片。

今年亚马逊云科技对这两款芯片都进行了升级迭代，针对于大模型推理的第二代芯片Amazon Inferentia2，性能比前一代提升了4倍，延迟仅为1/10；Trainium2芯片则在训练速度上实现了4倍的提升，并能在EC2 UltraClusters中部署高达100,000个芯片，大幅提升了AI模型训练的效率。

光有硬件还不够，还需要有软件和硬件的配合。亚马逊云科技推出了Amazon Neuron软件开发工具包，以便用户更高效地使用训练和推理芯片。Amazon Neuron支持Tensorflow、PyTorch等主流ML框架，客户仅需简单代码即可将其应用于新硬件。目前，Amazon Neuron已支持业界头部100个大模型中的93种，并且这个数字仍在增长。

此外，亚马逊云科技还推出了Amazon SageMaker HyperPod工具，它可以缩短训练时间高达40%，自动管理、检测故障、更换实例、更改配置，并自动备份和恢复训练，极大简化了分布式训练过程。

（二）中间层：生成式AI工具Amazon Bedrock

对于生成式AI，并非所有客户都希望从底层开始训练。陈晓建指出，许多客户虽具备一定的AI和机器学习能力，但他们更倾向于快速尝试不同模型。面对众多模型的选择，客户往往困惑于如何确定最适合自己应用的模型，快速部署，以及如何将自己的数据与模型结合以定制化应用，并确保数据训练过程中的隐私和安全性。

为此，亚马逊云科技推出了三层架构当中的中间层，提供专为生成式AI应用构建者设计的工具——Amazon Bedrock。这是亚马逊云科技今年推出的新平台。Amazon Bedrock通过简化API的方式帮助客户选择合适的模型，并支持使用企业自有数据定制化模型。此外，亚马逊云科技采用了成熟的云安全措施，如TLS加密和IAM身份认证，以保护用户和业务数据的隐私。

Amazon Bedrock提供广泛的模型选择，包括业界领先的开源模型和亚马逊云科技自研的Amazon Titan模型。在本次re:Invent大会上，亚马逊云科技还宣布支持Anthropic的最新Claude2.1模型，该模型在提升准确性的同时，将开放式对话的幻觉降低了50%，虚假陈述减少了两倍。在其他模型的支持方面，Amazon Bedrock还支持Meta提出的Llama 2 70B模型，适用于大规模任务如语言建模和对话系统。Amazon Bedrock使客户能够轻松地将生成式AI融入其业务中，重塑用户体验、产品和流程。

（三）最上层：Amazon Titan模型

凭借25年以上在机器学习和人工智能领域的经验，亚马逊云科技开发了Amazon Titan基础模型，以用户需求为导向，构建出功能强大且经济实惠的模型，并将负责任的模型构建作为首要原则。

Amazon Titan提供的模型之一是Text Embedding，它将文本转换为向量。陈晓建在会上指出：向量对定制生成式AI应用至关重要。这些向量能够通过数学计算来确定单词之间的相似性。例如，“Puppy”和“Dog”或“Kitten”和“Cat”虽然是不同单词，但它们的含义相近。利用向量可以计算出这些单词间的相似度，这对于需要语义搜索的场景非常有用。以电商搜索为例。传统搜索可能会混淆“高尔夫球鞋”中的两个词，而Amazon Titan的向量搜索可以更准确地找到相关产品。

除了Text Embedding，Amazon Titan还提供了Text Lite和Text Express两个文本生成模型。Text Express是一个较大的模型，适用于复杂环境，而Text Lite则更适用于轻量级场景。

亚马逊云科技还探索了多模态应用，即同时支持不同类型输入的能力，例如结合文本和图像。例如，家具零售中，顾客可能通过图片和文字描述来寻找与新床匹配的床头柜。Amazon Titan Multimodal Embeddings可以处理这种复合输入，为用户提供丰富的搜索体验。

此外，还有Amazon Titan Image Generator，这是一个图像生成模型，主要用于营销广告场景。亚马逊云科技的高质量数据集有助于减少有害或有偏见内容的风险。所有Amazon Titan生成的图像都带有隐形水印，以保持图片质量的同时确保安全性。

总体而言，Amazon Titan的五个模型涵盖了不同的功能和性能，它们在功能、价格、性能各个方面都有自己独特的优势和特点，可适应各种业务场景。例如，一个电商网站可以使用Text Embedding来提高产品描述的向量化，使用Text Express来生成详细的产品描述，使用Text Lite生成搜索关键词，通过Multimodal Embeddings结合图片和文字进行搜索，以及使用Image Generator制作定制化的营销图片。

总结

可以看出，亚马逊云科技对生成式AI进行了全面投入，从底层基础设施、工具层以及应用层三个方面均有所布局。亚马逊云科技通过这些创新和服务，不仅为千行百业的AI应用降低了门槛，还在重塑每个产业、改变每个人的生活方面发挥着重要作用。凭借在云计算领域的优势，亚马逊云科技有望在生成式AI领域再造新格局。

责任编辑：sophie

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

亚马逊云科技瞄准生成式AI，再造云计算新格局

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

亚马逊云科技瞄准生成式AI，再造云计算新格局

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月