体育游戏app平台联想了最优搀杂并行架构-开云 (集团) 官方网站 Kaiyun- 登录入口

发布日期：2026-06-12 06:33 点击次数：100

目下，请大家全部数一下" 1 "、" 2 "。

OK，短短 2 秒钟时分，一个准万亿 MoE 大模子就还是吃透如何解一谈高级数学大题了！

况且啊，这个大模子如故无须 GPU来检会，全经过齐是大写的"国产"的那种。

这，就是华为通过"昇腾 +Pangu Ultra MoE "这套组合拳解锁的成果——

不仅结束了国产算力与国产模子全经过自主可控的检会闭环，更是在集群检会系统性能方面达到行业开始水平。

有多开始？来看一组数据：

预检会阶段：昇腾 Atlas 800T A2 万卡集群 MFU 普及至 41%

后检会阶段：单 CloudMatrix 384 超节点糊涂达 35K Tokens/s

值得一提的是，华为还初度把背后的一大秘密给亮了出来。

具体来说，华为在此次发布的时期论说中，露出了在昇腾 CloudMatrix 384 超节点上，高效买通大寥落比 MoE 强化学习后检会框架的关键时期。

此举不错说是让以强化学习（RL）为核神思制的后检会，插足到了超节点集群时期。

无须 GPU 的"真金不怕火"出准万亿大模子步骤

在深切华为 Pangu Ultra MoE 检会系统全经过之前，老章程，咱们如故先来了解一下此前的时期痛点。

举座来看，在当前的 MoE 预检会和强化学习后检会过程中所存在的挑战不错归结为六点：

并行战术成就贫窭

濒临数据并行、张量并行、巨匠并行、活水线并行和序列并行等多种战术的组合采选，加上寥落激活导致的负载不屈衡成分，很难通过东谈主工教会找到最优的并行成就决策。

All-to-All 通讯瓶颈

巨匠并行架构需要进行大规模的 token 路由交换，这不仅占用大宗蚁合带宽资源，还会形成盘算推算资源永劫分舒畅恭候，严重影响举座检会效用。

系统负载分散不均

从属眼力机制中序列长度的各异，到巨匠激活频率的不屈衡，再到活水线并行中各阶段的负载分派问题，这些多档次的不平衡风物牵扯了总计集群的性能阐扬。

算子调度支拨过大

动态路由机制引入了大宗高频率的小规模算子操作，增多了系统调度包袱，镌汰了中枢矩阵盘算推算的比重，从而显赫影响 NPU 的有用诈欺率。

检会经过贬责复杂

强化学习后检会触及多个模子实例和多种检会任务，包括 MoE 大模子的检会和推理阶段，总计经过的复杂性给资源分派和系统调度带来雄壮挑战。

大规模膨胀受限

强化学习过程中，检会与推理阶段的参数再行映射机制，以及各盘算推算任务间复杂的数据通讯经过，成为制约后检会大规模部署的主要瓶颈。

即使挑战如斯之多，华为在这段时期论说中依旧是给出了一套竣工的端到端全经过解法。

第一招：普及检会集群诈欺率

超大规模检会集群的高效部署是普及预检会系统性能的关键地方。

为此，华为团队通过并行战术智能采选、盘算推算通讯深度交融、全局动态负载平衡等时期立异，显赫普及了集群举座检会效用。

开始是建效法真运转的智能并行优化。

华为团队采选如下图所示的系统建效法真框架，将原来需要大宗东谈主工试错的并行战术采选问题泛动为精确的自动化搜索过程。

基于昇腾 800T A2 检会集群的硬件脾气和不休条目，为 Pangu Ultra MoE 718B 模子细目了最优部署成就：

16 路活水线并行（Pipeline Parallelism）进行模子层间切分

8 路张量并行（Tensor Parallelism）特意处理属眼力盘算推算

32 路巨匠并行（Expert Parallelism）结束巨匠模块分散式盘算推算

2 路臆造活水线并行（Virtual Pipeline Parallelism）普及活水线效用

最终结束了与昇腾架构深度适配的最优化部署决策。

△检会系统建效法真经过

其次是 Adaptive Pipe 前反向通算闪避。

为了大肆并行膨胀中的通讯瓶颈问题，华为团队立异联想了昇腾蚁合拓扑适配的分层 All-to-All 通讯去冗余机制，聚拢细粒度前反向盘算推算叠加编排，得手将大规模 MoE 检会中的巨匠并行通讯支拨降至接近零显现（：

档次化巨匠并行通讯：华为给出了与昇腾检会集群拓扑深度适配的多级通讯战术。开始在节点间进行去冗余的 token 采集操作，幸免换取 token 在低带宽的跨节点链路上重复传输；随后诈欺节点内高带宽上风，通过 All-to-All 通讯结束 token 的冗余分发。这一分层联想显赫普及了巨匠并行的举座通讯效用。

自合乎细粒度前反向闪避：针对分层巨匠并行通讯特色，联想了基于臆造活水线并行（VPP）的细粒度前反向叠加闪避战术。比拟业界 DualPipe 闪避决策，该战术将权重内存占用减少一半。通过进一步拆解 MLP 模块盘算推算经过，充分诈欺分层巨匠并行通讯中各级带宽相对安稳的脾气，结束算子扩充司法的自合乎调优，最终将巨匠并行通讯确凿全齐荫藏（未闪避比例仅为 2%）。

临了是EDP Balance 全局动态负载平衡。

关于 MoE 模子，模子规模和集群规模的增长会导致巨匠盘算推算、属眼力盘算推算以及各层间的负载不平衡问题相互叠加并被显赫放大。当多种性能瓶颈同期出当前，通讯同步恭候会在系统中传播扩散，形成举座性能的严重恶化。

华为团队采选系统性的分析步骤，深切理会巨匠并行（EP）、数据并行（DP）、活水线并行（PP）各通讯域中潜在的负载平衡挑战，提倡了 EDP 全局负载平衡优化战术。

这个战术不仅通过巨匠负载预测和动态调遣机制（如下图）结束确立间盘算推算负载的精确平衡，还通过属眼力数据重排时期进一步优化了数据并行域间的负载分散成果。

此外，团队将臆造活水线并行（VPP）机制与硬件规格特色相聚拢，联想了最优搀杂并行架构，有用缓解了模子各层间盘算推算负载分散不均的问题，大幅普及了举座检会效用。

△基于巨匠动态移动的 EP 间负载平衡举座框架图第二招：开释昇腾单节点算力

在昇腾超大规模集群优化结束大肆性进展后，华为团队将优化焦点转向底层算子盘算推算效用的深度挖掘。

这个阶段的中枢使命围绕昇腾架构深度适配的检会算子加快伸开，通过缓解 Host 资源瓶颈以及内存优化战术双重技能，得手将微批处理规模（MBS）普及至原来的两倍。

同期团队还对算子调度下发链路进行协同优化，最终结束了昇腾单节点算力的全面开释。

华为团队的"第二招"，通常包含三个细天职容；开始就是昇腾亲和的检会算子加快。

在大模子检会盘算推算过程中，FlashAttention、MatMul 以及 Permute/Unpermute 等向量操作算子的扩充时分占据了算子共盘算推算耗时的四分之三以上。

针对这些关键算子类型，华为团队充分诈欺昇腾微架构脾气，通过算子活水线排布优化和数学等价冗余盘算推算排斥等中枢时期技能，结束了检会算子性能的显赫跃升。

其次是Host-Device 协同的算子下发优化。

针对同步型间歇性 Host-Bound 和系统性执续性 Host-Bound 问题，华为团队充分阐扬昇腾 + 鲲鹏异构系统协同上风，构建了分层优化体系来结束高效算子调度：

关于同步型 Host-Bound 问题，不仅有用排斥了同步操作激发的 Host 资源瓶颈，在无法全齐回避同步的场景下，还通过优化鲲鹏处理器的算子下发与调度战术，显赫镌汰了同步后的 Host-Bound 支拨。

关于系统性 Host-Bound 问题，则采选增大微批处理规模（MBS）、鲲鹏 CPU NUMA 亲和性优化等多维度协同技能，大幅普及算子下发效用。

通过算法与系统的深度协同优化，华为团队得手将 MoE 模子检会中的 Host-Bound 占比罢休在 2% 以下，为超大规模模子检会探索出了全新的时期范式。

临了是Selective R/S- 精确的内存手术决策。

华为团队构建了一个精密的内存优化框架：以丰富各样的通用化重盘算推算战术和 Swap 机制看成"精密器具库"，涵盖从模块级到张量级的细粒度优化选项；协作尽心联想的自合乎内存贬责机制看成"智能调度平台"。

这个框架针对 Pangu Ultra MoE 718B 模子检会需求，结束了多维度、定制化的内存资源精确调配。

通过构建最优内存优化战术组合，以精确的资源贬责技能最大化开释内存空间，得手结束了跨越 70% 的激活值内存思圣。

即使在微批处理规模（MBS）翻倍带来的内存压力挑战下，这个决策依然为模子的长久踏实检会提供了可靠保险。

第三招：初度露出高性能可膨胀 RL 后检会关键时期

华为团队针对强化学习检会中异构模子和多任务场景导致的资源诈欺率偏低问题，通过深切的系统分析和立异联想，提倡了RL Fusion 训推共卡时期。

这一时期支执检会推理共卡、全共卡等多种天真部署步地（如下图），结束推理阶段资源调度的细腻化可控贬责，支执张量并行（TP）、数据并行（DP）、巨匠并行（EP）、活水线并行（PP）等多维并行战术的动态无缝切换。

可在秒级时天职完成训推气象转机，最终结束了RL 后检会集群诈欺率翻倍的显赫普及。

△分辨部署、训推共卡部署、全共卡部署资源诈欺率暗示图

除此除外，华为团队还展示了面向大规模集群高效可膨胀的后检会框架：

摒弃全同步迭代形势，联想容忍梯度"败北性"的准异步机制 StaleSync（如下图），让不同 RL 阶段的不同任务在"败北度阈值"内并行扩充。在保证模子精度的前提下，系统举座检会糊涂普及 50%。

针对 RL 阶段多任务的处理需求，联想了分散式数据队伍 DistQueue，结束不同盘算推算任务之间数据的拆分、缓存与动态读取。DistQueue 对总计后检会过程中的数据进行贬责，有用缓解不同盘算推算任务之间的数据拦截，为后检会任务高效调度提供数据支执。

2 秒就能让大模子吃透一谈高数大题

通过预检会和 RL 后检会加快时期，华为团队基于 MindSpeed、Megatron 以及 vLLM 框架，打造了昇腾全经过高效检会系统。

这个系统可支执超大规模集群和超大规模 MoE 模子，并在 Pangu Ultra MoE 模子检会中结束了端到端的畅通检会。

Pangu Ultra MoE 模子领有 7180 亿参数目，具有大寥落比和高概括性能的显赫特色。

其架构包含 61 层 Transformer，前 3 层为稠密层，后 58 层为 MoE 层。模子隐层维度达 7680，配备 256 个路由巨匠和 1 个分享巨匠，巨匠隐层维度为 2048。

在预检会阶段，华为团队使用 6K - 10K 卡的昇腾 800T A2 集群对 Pangu Ultra MoE 进行检会。在序列长度为 8K、万卡检会集群的条目下，模子算力诈欺率（MFU）创下新高，达到了 41%。上述检会系统具有很强的泛化性，可高效膨胀至更大规模参数模子和更大规模卡数集群，同期若是协作昇腾 CloudMatrix 384 超节点的高速互联脾气，预测可相沿检会集群 MFU > 50%，联系时期迭代践诺落幕也将在日后时期论说中发布。

而在 RL 后检会阶段，于 Pangu Ultra MoE 昇腾 CloudMatrix 384 超节点集群的后检会中，采选检会推理搀杂并行战术（检会：PP16/VPP2/EP32/TP8，推理：PP1/EP64/TP1），并聚拢异步 RL 算法与检会框架系统的协同立异，结束了每超节点 35K Tokens/s 的高糊涂能力。

同期支执高效膨胀跨越 4K 卡的集群，这一效用相称于每 2 秒就能吃透一谈高级数学大题，结束了昇腾超节点糊涂的新大肆。

以上就是华为 Pangu Ultra MoE 检会系统全经过的深度揭秘了。

感风趣的小伙伴不错再通过竣工的时期论说深切了解：

https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/昇腾超大规模Pangu MoE模型全流程高效训练实践.pdf

时期博客地址：

https://gitcode.com/ascend-tribe/ascend-training-system/blob/main/Overview/ascend-training-system-overview.md

一键三连「点赞」「转发」「预防心」

迎接在讨论区留住你的思法！

— 完 —

� � 点亮星标 � �

科技前沿进展逐日见体育游戏app平台

体育游戏app平台联想了最优搀杂并行架构-开云 (集团) 官方网站 Kaiyun- 登录入口

热点资讯

相关资讯