AI 时代的到来为全球计算领域带来跨越式变革。算力需求在大模型爆发式演进下呈指
数级增长,大幅超越摩尔定律揭示的硬件迭代速度。数据规模持续激增,过去五年全
球年新增数据量从 64ZB 飙升至近 500ZB,以前所未有的体量冲击着传统计算架构。
在 LLM 大模型预训练和后训练场景中,大量 All-to-All 数据交换使得单次芯片间通信
数据达到数十 MB,一次迭代的总通信数据量相比小模型提升近百倍,达到数百 GB,
传统的互联带宽难以支撑如此密集的通信。LLM 大模型推理对算力需求的增长速度远
大于硬件迭代速度,有必要引入低精度数据格式以提升有效算力。同时多模态生成和
多模态理解计算任务的算存比相差巨大,单一类型硬件难以达到最佳性价比。AI Agent
应用需要超长上下文记忆、多轮复杂交互以及长时间的任务规划,导致 KV Cache 存储
需求呈指数级增长,单靠 AI 芯片内存存储已无法支撑业务的快速发展。为了应对上述
挑战,华为推出了全新的昇腾 950 系列芯片及产品。
昇腾 950 系列是华为面向下一代人工智能应用打造的旗舰级计算芯片,涵盖昇腾
950PR 与昇腾 950DT 两款核心产品。该系列基于全栈自主可控的制造工艺,搭载华为
自研的第三代达芬奇(DaVinci)架构,在算力密度、存储带宽及互联拓扑三大维度实
现了跨越式升级,能够全面赋能从大模型预训练、微调到推理部署的全生命周期,以
及 AIGC、智能推荐、多模态处理等多元化场景。
在计算架构上,昇腾 950 系列通过引入 N 维直接内存访问引擎(NDDMA)、
SIMD/SIMT 混合编程模式以及丰富的低精度格式支持(原生支持 MXFP4/MXFP8 和
HiF8),显著提升了 Transformer 类模型的训练与推理效率;同时集成自研 Linx816
CPU、DVPP 媒体处理子系统及安全引擎,构建了“AI+通用+安全”的多元异构计算
体系。
在系统效能上,该系列针对不同场景进行了定制化优化:昇腾 950PR 侧重高性能推荐
与大模型 Prefill 阶段,配备 128GB、1.6TB/s 高速片上内存,打造极致吞吐能力;昇腾
950DT 则聚焦大模型全量训练与复杂推理,配备 144GB、4TB/s 高速片上内存,突破
内存墙瓶颈。配合创新的灵衢(Unified Bus)互联总线与灵活组网技术,昇腾 950 系
列可支持超 128K 卡的大规模集群,以高联算比和低时延特性,为万亿及以上参数大模
型的规模化落地提供强劲动力。
在软件方面,华为推出了异构计算架构 CANN(Compute Architecture for Neural
Networks),以释放昇腾 AI 处理器的澎湃算力,并提供多层次编程 API、支持开发者
快速构建 AI 算法和应用。