华为推出了全新的昇腾 950 系列芯片及产品

华为推出了全新的昇腾 950 系列芯片及产品

  AI 时代的到来为全球计算领域带来跨越式变革。算力需求在大模型爆发式演进下呈指

数级增长,大幅超越摩尔定律揭示的硬件迭代速度。数据规模持续激增,过去五年全

球年新增数据量从 64ZB 飙升至近 500ZB,以前所未有的体量冲击着传统计算架构。

在 LLM 大模型预训练和后训练场景中,大量 All-to-All 数据交换使得单次芯片间通信

数据达到数十 MB,一次迭代的总通信数据量相比小模型提升近百倍,达到数百 GB,

传统的互联带宽难以支撑如此密集的通信。LLM 大模型推理对算力需求的增长速度远

大于硬件迭代速度,有必要引入低精度数据格式以提升有效算力。同时多模态生成和

多模态理解计算任务的算存比相差巨大,单一类型硬件难以达到最佳性价比。AI Agent

应用需要超长上下文记忆、多轮复杂交互以及长时间的任务规划,导致 KV Cache 存储

需求呈指数级增长,单靠 AI 芯片内存存储已无法支撑业务的快速发展。为了应对上述

挑战,华为推出了全新的昇腾 950 系列芯片及产品。

  昇腾 950 系列是华为面向下一代人工智能应用打造的旗舰级计算芯片,涵盖昇腾

950PR 与昇腾 950DT 两款核心产品。该系列基于全栈自主可控的制造工艺,搭载华为

自研的第三代达芬奇(DaVinci)架构,在算力密度、存储带宽及互联拓扑三大维度实

现了跨越式升级,能够全面赋能从大模型预训练、微调到推理部署的全生命周期,以

及 AIGC、智能推荐、多模态处理等多元化场景。

在计算架构上,昇腾 950 系列通过引入 N 维直接内存访问引擎(NDDMA)、

SIMD/SIMT 混合编程模式以及丰富的低精度格式支持(原生支持 MXFP4/MXFP8 和

HiF8),显著提升了 Transformer 类模型的训练与推理效率;同时集成自研 Linx816

CPU、DVPP 媒体处理子系统及安全引擎,构建了“AI+通用+安全”的多元异构计算

体系。

在系统效能上,该系列针对不同场景进行了定制化优化:昇腾 950PR 侧重高性能推荐

与大模型 Prefill 阶段,配备 128GB、1.6TB/s 高速片上内存,打造极致吞吐能力;昇腾

950DT 则聚焦大模型全量训练与复杂推理,配备 144GB、4TB/s 高速片上内存,突破

内存墙瓶颈。配合创新的灵衢(Unified Bus)互联总线与灵活组网技术,昇腾 950 系

列可支持超 128K 卡的大规模集群,以高联算比和低时延特性,为万亿及以上参数大模

型的规模化落地提供强劲动力。

  在软件方面,华为推出了异构计算架构 CANN(Compute Architecture for Neural

Networks),以释放昇腾 AI 处理器的澎湃算力,并提供多层次编程 API、支持开发者

快速构建 AI 算法和应用。

订阅快讯

通过快讯订阅,您将及时收到我们的信息更新通知。