性能再翻倍：科大訊飛宣布聯(lián)合華為在“飛星一號”上實現(xiàn) MoE 模型大規(guī)模專家并行集群推理性能飛躍

2025/4/18 16:00:57 來源：IT之家作者：問舟責編：問舟

評論：

IT之家 4 月 18 日消息，科大訊飛研究院今日宣布，科大訊飛與華為昇騰聯(lián)合團隊通過多種優(yōu)化手段提升“飛星一號”平臺上 MoE 模型集群推理的性能上限，并在近期實現(xiàn)大規(guī)模專家并行集群推理性能翻番。

據(jù)介紹，科大訊飛不久前率先突破國產算力集群上 MoE 模型的大規(guī)?？绻?jié)點專家并行集群推理，公布業(yè)界首個基于國產算力的 MoE 模型訓練推理方案。

在上一個版本算子和通信優(yōu)化的基礎之上，聯(lián)合團隊升級了適配 MOE 模型的 PD 分離 + 大規(guī)模專家并行系統(tǒng)解決方案，進行了多種技術創(chuàng)新工作，IT之家總結如下：

適配 MoE 的 PD 分離部署，通過定制集合通信協(xié)議，消除集合通信流量沖突，解決推理過程中 Prefill 階段和 Decode 階段的相互干擾，使得 P 實例和 D 實例均達到系統(tǒng)最優(yōu)，性能提升 20%+；
實現(xiàn)國產算力上 MTP 多 token 預測技術，降低 MTP 層計算耗時，整體性能提升 30%+；
專家負載均衡算法再升級，多 DP 負載均衡，實現(xiàn)卡間負載均衡差異小于 8%，集群推理吞吐性能提升 30%+；
創(chuàng)新性實現(xiàn)異步雙發(fā)射技術，解決高并發(fā)下的高 CPU 負載問題，實現(xiàn) CPU 和 NPU 的高效協(xié)同，降低服務請求調度耗時，系統(tǒng)性能提升 10%。

基于上述解決方案的迭代與升級，聯(lián)合團隊通過在“飛星一號”平臺上對星火 MoE 模型、DeepSeekV3 / R1 進行實測，實現(xiàn)了推理性能比上一個版本提升 1 倍，已逼近國產算力上 MoE 集群推理的性能上限。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

相關文章