Tachyum宣布推出全球第一个通用处理器:128核,5.7Ghz

2022-05-12 14:00:25 来源: 半导体行业观察

来源:内容来自半导体行业观察(ID:icbank) 综合 谢谢。


据报道,初创公司Tachyum 创造了世界上最强大的处理器之一:Prodigy T16128 通用处理器。

Prodigy T16128拥有128 个 64 位 CPU 内核,运行频率高达 5.7GHz,16 个 DDR5 内存控制器和 64 个 PCIe 5.0 通道,可以处理通用计算、高性能计算 (HPC) 和 AI 工作负载 ,这全部在单个芯片上实现。

Tachyum 将 Prodigy 称为世界上第一个“通用处理器”,并表示它从一开始就被设计为能够运行众多世界上最密集的计算应用程序的多用途 CPU。Prodigy 不仅在单个芯片上处理所有这些不同的任务,而且它的功耗预算比传统硬件低10 倍,成本只有三分之一。

Tachyum 大胆宣称 Prodigy 超级计算机芯片的性能是市场上英特尔最快的 Xeon芯片的四倍,在高性能计算应用中的原始性能是Nvidia 的 H100的三倍。同时,能效提高 10 倍。

Tachyum 表示,为了在单核架构中创造如此令人印象深刻的性能,它从头开始构建了具有矩阵和矢量处理能力的 Prodigy,而不是事后才考虑它们。Prodigy 支持一系列数据类型,包括 FP64、FP32、TF32、BF16、Int8、FP8 和 TAI,所有这些都来自各个 CPU 内核本身。

Prodigy 处理器在 2023 年问世时可能会改变游戏规则。AMD、英特尔和 Nvidia 的最新服务器硬件都依赖于单个硬件——即使在单个 CPU 或 GPU 中——来执行这些不同的工作负载。这方面的一个例子是 Nvidia 的 RTX 系列 GPU ,它需要专用的机器学习 Tensor 核心才能让 AI 工作,而专用的 RT 核心则需要用于光线追踪应用程序。

另一方面,Prodigy 将能够在单个内核上运行 光线追踪 和 AI 应用程序,并且不需要将数据转移到微处理器内部的另一个芯片上。

在单个芯片内运行所有这些不同的 HPC 工作负载可能会极大地改变服务器格局:公司将能够将更多芯片打包到服务器场中,同时降低功耗和冷却。

Prodigy T16128 采用未知来源的 5nm 工艺技术运行,并在非常小的(就其提供的功率而言)64 mm x 84mm FCLGA 封装内运行。

Tachyum 表示,在 HPC 工作负载方面,该芯片能够执行12 AI PetaFLOPS 和 90 TeraFLOPS。Prodigy芯片还可以运行适用于 x86、ARM、RISC-V 和 ISA 的二进制文件。从某种角度来看,单个 Nvidia A100 只能实现 5 AI PetaFLOPS。

每个内核特别能够执行 2 个 1024 位向量单元、4096 位矩阵运算和每个时钟 4 个乱序指令。还支持虚拟化和高级 RAS。该芯片还包括超过 128MB 的具有纠错功能的 L2+L3 高速缓存。为了满足其所有内核的需求,该芯片配备了 16 个 DDR5 内存控制器,额定速度高达 7200MT/s,每个插槽的最大容量为 8TB。

T16128 是 Tachyum Prodigy 系列中的旗舰型号,产品堆栈中的中端和入门级插槽分别由 64 核 T864 32 核 T832填充。 生产将于2023 年开始,因此我们应该会在明年某个时候看到这些芯片的实际基准。

附:Prodigy 通用处理器更多介绍


Tachyum 今天推出了世界上第一个通用处理器 Prodigy,它将 CPU、GPU 和 TPU 的功能统一在一个处理器中,创建了一个同构架构,同时以多次成本提供了巨大的性能改进低于竞争产品。

在公司承担了征服纳米级芯片及其驱动系统的处理器性能平台的使命之后,Tachyum 成功推出了其第一款商业产品。Prodigy Cloud/AI/HPC 超级计算机处理器芯片的性能是最快的 Xeon 的 4 倍,在 HPC 上的原始性能是NVIDIA 的 H100 的 3 倍,在 AI 训练和推理工作负载上的原始性能是 6 倍,同时性能高达 10 倍力量。Prodigy 已准备好克服数据中心功耗增加、服务器利用率低和性能扩展停滞等挑战。

新推出的 Prodigy 处理器的亮点包括:

  • 128 个高性能统一 64 位内核,运行频率高达 5.7 GHz

  • 16 个 DDR5 内存控制器

  • 64 个 PCIe 5.0 通道

  • 多处理器支持4-socket 和 2-socket 平台

  • 适用于风冷和液冷数据中心的机架解决方案

  • SPECrate 2017 整数性能大约是英特尔 8380 的 4 倍和 AMD7763HPC 的大约 3 倍

  • 双精度浮点性能是NVIDIA H100 的 3 倍

  • AI FP8 性能是 NVIDIAH100 的 6 倍


与其他 CPU 和 GPU 解决方案不同,Tachyum 的 Prodigy 旨在从头开始处理矩阵和矢量处理,而不是事后才考虑。Prodigy 的向量和矩阵特性包括对一系列数据类型(FP64、FP32、TF32、BF16、Int8、FP8 和 TAI)的支持;每个内核 2×1024 位向量单元;AI稀疏和超稀疏支持;并且在跨越缓存行时不会对未对齐的向量加载或存储进行惩罚。这种内置支持为 AI 训练和推理工作负载提供高性能,提高性能并降低内存利用率。

Prodigy 明显优于目前超大规模、HPC和 AI 市场中性能最好的处理器。

Prodigy 为云工作负载提供最高性能的x86 处理器的 3 倍,与用于 HPC 的最高性能 GPU 相比最高 3 倍,为 AI 应用程序提供最高 6 倍的性能。
通过在使用更少电力的同时提高性能,Prodigy 通过提供无与伦比的碳足迹减少解决了可持续数据中心增长的问题。随着人工智能的普遍性继续受到关注,这一点尤其重要:Prodigy 将在这个新世界市场中实现前所未有的数据中心 TCO 节省。
“长期以来,我们一直相信我们有能力克服摩尔定律,将超大规模数据中心转变为真正的通用计算中心。随着 Prodigy 的推出,我们开始了这场革命,”Tachyum 创始人兼首席执行官 Radoslav Danilak 博士说。“Prodigy 能够实现人脑级人工智能,同时降低数据中心功耗并降低超大规模数据中心和超级计算机系统的 TCO,对于预计价值 1000 亿美元的行业来说是一个突破。通过推出 Prodigy,我们不仅在推动技术进步,也在让世界变得更加绿色。”

Prodigy 的样品将于今年晚些时候开始,并于 2023 年上半年开始量产。Tachyum 的 Prodigy 系列包括八种产品,从高端的 128 核 HPC/AI 到 32 核的最低功耗版本,以应对广泛的市场,包括云计算、超级计算、大人工智能和边缘计算。


原文链接: https://www.hpcwire.com/off-the-wire/tachyum-launches-prodigy-universal-processor/


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3038内容,欢迎关注。

推荐阅读


联电沉浮42年

台积电,转战1.4nm

半导体巨头,预测芯片未来


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论