芯東西(公眾號:aichip001)
作者 | ZeR0
編輯 | 漠影
芯東西7月26日報道,在世界人工智能大會開幕前夕,國內GPU企業摩爾線程重磅披露其完整AI技術布局。
面對生成式AI爆發下的大模型訓練效率瓶頸,摩爾線程正通過系統級工程創新,構建新一代AI訓練基礎設施,為AGI時代打造生產先進模型的“超級工廠”。
這座“AI工廠”的產能,由五大核心要素的公式:
AI工廠生產效率 = 加速計算通用性 × 單芯片有效算力 × 單節點效率 × 集群效率 × 集群穩定性

摩爾線程創始人兼CEO張建中表示,摩爾線程是國內極少數原生支持FP8的GPU廠商,也是國內極少數具備FP8大模型訓練的平臺。
這座“AI工廠”不僅有高效的模型訓練,還具備極致的推理驗證能力。基于自研MUSA技術棧,摩爾線程構建覆蓋大語言模型、視覺、生成類模型的全流程推理解決方案,打造實現“訓練-驗證-部署”的無縫銜接。
根據現場演示,其旗艦產品MTT S5000滿血跑DeepSeek R1模型推理,速度達到100 tokens/s,非常快,已經達到行業領先。

摩爾線程還重磅預熱:將于今年10月舉辦首屆MUSA開發者大會,邀全球開發者共建生態。
一、打造先進AI工廠,摩爾線程解密五大核心要素
前沿AI模型正以驚人的速度迭代,從GPT系列、Gemini到DeepSeek、Qwen的快速更新,模型訓練迭代時間已縮短至不足3個月。豐富的模型,快速的更新,對新一代高性能AI計算基礎設施提出迫切要求。
對此,摩爾線程提出“AI工廠”,要實現從底層芯片架構創新、集群整體架構的優化到軟件算法調優和資源調度系統的全面升級,以推動AI訓練從千卡級向萬卡級乃至十萬卡級規模演進。

摩爾線程以全功能GPU通用算力為基石,通過先進架構、芯片算力、單節點效率、集群效率優化、可靠性等協同躍升的深度技術創新,旨在將全功能GPU加速計算平臺的強大潛能,轉化為工程級的訓練效率與可靠性保障。
1、全功能GPU,實現加速計算通用性
計算功能的完備性與精度完整性是支撐多元場景的核心基石。
摩爾線程以自主研發的全功能GPU為核心,構建了“功能完備”與“精度完整”的通用性底座,全面覆蓋從AI訓練、推理到科學計算的全場景需求。
(1)單芯片覆蓋多場景:基于MUSA架構的突破性設計,GPU單芯片即可集成AI計算加速(訓推一體)、圖形渲染(2D+3D)、物理仿真和科學計算、超高清視頻編解碼能力,充分適配AI訓推、具身智能、AIGC等多樣化應用場景。

(2)精度樹立行業標桿:支持從FP64至INT8的完整精度譜系,原生支持FP8大模型訓練及推理,并通過FP8混合精度技術,在主流前沿大模型訓練中實現20%~30%的性能躍升,為國產GPU的算力效率樹立行業標桿。

(3)前瞻支持模型演進:技術體系不僅滿足大模型時代的高效計算需求,更為世界模型和新興AI架構的演化提供前瞻性支撐。
2、自研MUSA架構,提升單芯片有效算力
摩爾線程基于自研MUSA架構,通過計算、內存、通信三重突破,顯著提升單GPU運算效率。
(1)創新架構突破傳統限制:采用創新的全功能、多引擎、可配置、可伸縮GPU架構,通過硬件資源池化及動態資源調度技術,構建了全局共享的計算、內存與通信資源池,允許面向目標市場快速裁剪出優化的芯片配置,大幅降低了新品芯片的開發成本,在保障通用性的同時顯著提升了資源利用率。

(2)計算性能顯著提升:AI加速系統(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。其中FP8技術通過快速格式轉換、動態范圍智能適配、高精度累加器等創新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。


(3)內存優化:通過多精度近存規約引擎、低延遲Scale-Up、通算并行資源隔離等技術,內存系統實現了50%的帶寬節省和60%的延遲降低,有效提升數據傳輸能力。

(4)通信效率優化:獨創的ACE異步通信引擎減少了15%的計算資源損耗;MTLink2.0互連技術提供了高出國內行業平均水平60%的帶寬,為大規模集群部署奠定了堅實基礎。


3、MUSA全棧系統軟件,提升單節點計算效率
摩爾線程通過MUSA全棧系統軟件實現關鍵技術突破,推動AI工廠從單點創新轉向系統級效能提升。其核心創新包括:
(1)任務調度優化:核函數啟動(Kernel Launch)時間縮短50%。

(2)極致性能算子庫:GEMM算子算力利用率達98%,Flash Attention算子算力利用率突破95%。

(3)通信效能提升:MCCL通信庫實現RDMA網絡97%帶寬利用率;基于異步通信引擎優化計算通信并行,集群性能提升10%。

(4)低精度計算效率革新:FP8優化與行業首創細粒度重計算技術,顯著降低訓練開銷。

(5)開發生態完善:基于Triton-MUSA編譯器 + MUSA Graph實現DeepSeek-R1推理加速1.5倍,全面兼容Triton等主流框架。


4、自研KUAE計算集群,優化集群效率
單節點效率達到新高度后,下一個挑戰是如何實現大規模集群的高效協作。
摩爾線程自研KUAE計算集群通過5D大規模分布式并行計算技術,實現上千節點的高效協作,推動AI基礎設施從單點優化邁向系統工程級突破。
(1)創新5D并行訓練:整合數據、模型、張量、流水線和專家并行技術,全面支持Transformer等主流架構,顯著提升大規模集群訓練效率。

(2)性能仿真與優化:自研Simumax工具面向超大規模集群自動搜索最優并行策略,精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據。

(3)秒級備份恢復:針對大模型穩定性難題,創新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,提升GPU有效算力利用率。


基于平湖架構KUAE2智算集群,無論千卡或更大規模,在每個應用場景都能做到比國外主流產品更高的性能和效率,達到行業領先水平。
5、零中斷容錯技術,提升集群的穩定性和可靠性
在構建高效集群的基礎上,穩定可靠的運行環境是“AI工廠”持續產出的保障。特別在萬卡級AI集群中,硬件故障導致的訓練中斷會嚴重浪費算力。
摩爾線程創新推出零中斷容錯技術,故障發生時僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓練時間占比超99%,大幅降低恢復開銷。

同時,KUAE集群通過多維度訓練洞察體系實現動態監測與智能診斷,異常處理效率提升50%,讓用戶看得見和管理得到每一個訓練集群的每一片GPU;結合集群巡檢與起飛檢查,訓練成功率提高10%,為大規模AI訓練提供穩定保障。

二、MUSA軟件棧如何助力KUAE集群?三大亮點技術詳解
摩爾線程GPU計算軟件開發總監吳慶分享了MUSA軟件棧的主要亮點技術。

1、MUSA驅動和運行時庫,KUAE集群堅實底座
推理場景對Kernel延時非常敏感。極致高效的MUSA驅動和運行時庫,具有高效率的任務調度能力,使用戶的Kernel launch開銷極致縮減。
(1)即時任務下發:通過軟硬協同,將核函數啟動延遲降低到業界平均水平的1/2。
(2)批量任務下發:批量下發計算和通信任務,將近千次下發開銷優化為單次,減少GPU等待時間。
(3)引擎間依賴解析:GPU是多引擎可配置的,不同引擎之間要做依賴解析、交互同步,平湖支持硬件解析引擎間的依賴做同步,不再回到host,任務流之間的依賴解析延時可以大幅降低至1.5μs,優于業界頭部算力卡。
(4)調優工具接口MUPTI:專門用于性能分析和事件追蹤,幫助開發者優化MUSA應用程序,可基于MUPTI開發第三方的各種豐富工具。
(5)GPU錯誤轉存功能(GPU Core Dump,GCD):高效定位疑難Bug,不需要去調度大量的集群和人力反復去復現“曇花一現”的錯誤,用于在GPU程序崩潰或發生錯誤時生成詳細的信息(類似CPU程序Core Dump),精確保存錯誤,提供一個log,極大提升MUSA核函數崩潰、非法顯存地址訪問、硬件錯誤等問題定位的效率。

2、MUSA算子庫生態日趨完善,性能與廣度兼備
算子庫的效率直接關乎分布式集群的訓練效率。MUSA算子庫不僅追求極致性能,還兼容覆蓋廣度和兼容性。
MUSA算子庫生態會提供三大算子庫:極致性能muDNN、易用MUTLASS、MUSA AI Tensor Engine開源推理算子庫。

muDNN,是一款極致性能的開箱即用標準算子庫,完整覆蓋常見的前向和反向算子。其中最主要的特性是支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神經網絡算子操作。
一般來說,矩陣乘的效率大部分可以做到90%以上,摩爾線程muDNN矩陣乘算子效率可以做到98%。Flash Attention算子因為多了softmax等操作,基于國際一流水平廠商的Flash Attention 3論文里提到的效率大約是75%,muDNN的Flash Attention可以做到95%。
影響FP8 GEMM算子效率的重要因素是scale模式,scale是為了避免精度損失做的一個精細化的縮放因子,常見的有Per-Tensor、Per-Block,DeepSeek V3用的是Per-Block。
吳慶打了個比方,Per-Tensor scale是整個張量共用一個縮放因子,相當于一面墻刷一個顏色,很好刷;Per-Block scale則是每個小的矩陣塊共用一個縮放因子,相當于一面墻有很多小方塊,每個方塊單獨一個顏色,刷墻的復雜度要高很多,會比一個顏色刷一面墻效率低10%-20%。
摩爾線程通過軟硬協同的深度算法優化、指令編排,做到了Per-Block跟Per-Tensor? FP8 GEMM計算效率幾乎相當,差距不到2%。

MUTLASS,是一個高性能的線性代數模板庫,可極大降低在MUSA環境中自定義算子的開發工作量,相當于提供了一個可供二次開發的模板。
MUTLASS已在Github上開源,支持平湖架構所有特性,包括Warp-level MMA、WarpSquad-level MMA、TensorMemoryEngine、AsyncBarrier等原語全面支持,同時提供高性能矩陣乘、卷積算子實現,可在Kernel里調用模板庫就可以進行二次開發,摩爾線程也提供Attention最優化的示例,給用戶打樣,可以參考提供的最佳實踐,去開發自定義的各種Attention的變種。
MUSA AI Tensor Engine,是摩爾線程即將發布的面向大語言模型的開源推理算子庫,可幫助開發者快速搭建自定義推理引擎。
MUSA AI Tensor Engine,是摩爾線程即將發布的面向大語言模型的開源推理算子庫,可幫助開發者快速搭建自定義推理引擎。 該算子庫提供用戶友好的Python API,進一步降低開發者使用門檻,無需花太多時間學習MUSA C,只要會Python就可以把MTX這個庫用起來;未來會支持豐富的后端,包括模板庫,對標PTX虛擬指令集去開發的極致算子庫,也支持類Triton的DSL。
3、高性能集合通信庫及通算并行,避免通信搶占計算核心資源
大模型分布式訓練的主要瓶頸是通信。摩爾線程在MTT S5000上支持MTLINK 2.0,配備GPU異步通信引擎,實現了高性能通信技術與計算高度并行。
最近十幾年,隨著模型規模增加,分布式集群規模也在增加,通信瓶頸會越來越明顯。DeepSeek V3報告中呼吁硬件廠商提供的芯片能不能做一個單獨的通信硬件來卸載通信,避免通信跟計算去搶SM計算單元。
平湖設計階段遠早于DeepSeek V3發布的時間,彼時摩爾線程已洞察到行業痛點,并提供了解決方案——在GPU上增加了一個異步通信引擎。

MTT S5000服務器拓撲每節點有8張GPU,通過MTLINK 2.0全互連,每張GPU與其他7張GPU都有直連總線。
每個GPU上配置的異步通信引擎是原生支持豐富的reduce操作,支持常用的reduce操作有ADD、MIN、MAX(累加、最小值、最大值)等操作,支持Float、FP16、BF16等數據類型,可直接通過MTLink進行C2C跨系統的數據通信。
其ACE通過Zero Copy技術進一步提升性能。一般的集合通信會把數據buffer拷貝到通信buffer里,再去進行C2C通信。Zero Copy則避免了在本地上的D2D的拷貝,直接把數據buffer做跨卡通信。
摩爾線程在衡量集合通信庫性能的時候主要是兩大核心指標:通信延遲、通信帶寬。
基于全互聯(FC8)拓撲的高效通信算法,可大幅降低通信延遲。全互聯拓撲中GPU兩兩互連,在All Reduce場景中可以把其他GPU的數據一次性拿過來,理論上FC8算法相比Ring算法,7步通信可變成1步完成。在單機8卡All Reduce延遲場景的實測也差不多,Ring算法大概是53us,用FC8算法可降低至7.8us,將近縮減至1/7,顯著提升了模型推理性能。
帶寬方面,Ring算法與FC8算法效率相當,以Ring算法為例,摩爾線程把FC8拆成了7個通信環,每個通信環結合通信Kernel的優化,基于MTLink2.0 + FC8拓撲,節點內充分利用全互聯的拓撲優勢,可做到單機8卡All Reduce帶寬利用率接近85%,與國際第一的廠商在軟件效率上對齊,實現高效的Scale-up通信。

高效Scale-out跨節點通信方面,摩爾線程結合通信庫做了網卡拓撲感知與自適應優化,每個GPU都能在PCIe拓撲上找到延遲和帶寬效率最高的網卡端口進行RDMA通信,還額外開發了一個插件Smart NIC Adaptor,在配置4張雙口網卡時,可實現和8張單口網卡一樣的RDMA通信效率。
經測試,其All Reduce帶寬可以做到194GB/s,RDMA通信帶寬利用率達到97%,而一般RDMA通信帶寬利用率約在80%-85%。

除了延遲和帶寬之外,摩爾線程還做了異步通信引擎的通信優化。
MPC是計算核心。傳統做法是通信也走MPC,就要分走一部分的計算單元。ACE則可以把通信部分卸載到單獨的通信引擎上,不跟MPC搶計算資源,同時在無數據依賴時完全做到overlap,通過優化,結合MT Transformer Engine,在Llama模型上端到端計算通信性能可提升10%左右。

三、基于FP8的國產萬卡訓練,摩爾線程軟硬件如何撐起行業需求?
摩爾線程副總裁王華給基于FP8的國產萬卡訓練劃了3個重點:
1、大模型訓練需要更強大的智算集群;2、低精度可有效提升訓練效率;3、可靠性對大規模訓練至關重要。
大模型需要大集群已是行業共識,不必贅述。
用更低精度的數據類型進行訓練,相當于實現了算力翻倍。精度降低一半,能帶來的優勢是算力翻倍,顯存占用、顯存帶寬、傳輸帶寬消耗減半。
但低精度替換只能部分進行,無法完全替代。一些精度敏感環節,如非線性函數/歸一化操作,仍需保留高精度計算。

從技術演進來看,精度格式正沿著FP32→TF32→FP16/BF16→FP8的路徑發展。近兩年,FP8訓練技術取得多項進展。
DeepSeek-V3使用了FP8混合精度訓練,主要策略有:前向和后向傳播的3次GEMM使用FP8,激活值的緩存和傳輸使用FP8,Embedding、激活函數等模塊使用高精度浮點數,主權重、權重梯度、優化器狀態使用高精度浮點數。
摩爾線程的全功能GPU,是率先支持FP8的國產GPU,對FP8的訓練提供了軟硬件支持,基于摩爾線程軟件棧,成功復現了DeepSeek-V3滿血版訓練。

其軟件棧開源了3個組件:
(1)提供MUSA后端加速支持的Torch-MUSA:PyTorch的MUSA插件,最新版本率先在國產GPU上實現了對FP8數據類型的完整支持。
(2)混合并行訓練框架MT-MegatronLM:支持FP8混合精度訓練、高性能muDNN庫和MCCL通信庫。
(3)MT-TransformerEngine:主要用于Transformer的高效訓練和推理優化,支持FP8混合精度訓練,通過算子融合、并行加速等技術提升訓推效率。
經實驗,基于摩爾線程KUAE集群,在Llama3 8B、Qwen、DeepSeek-V2 16B、DeepSeek-V3 30B上,采用FP8混合訓練可以帶來20%~30%的性能提升,且引入FP8前后loss曲線基本一致。在采用FP8訓練方面,摩爾線程GPU計算卡與國際主流計算卡的精度對比基本吻合。
在Scaling Factor的選擇上,摩爾線程也做了許多探索,例如:amax的統計信息表明,Per-Tensor的Scaling Factor適合采用Delayed Scaling策略,而Per-Block則適合采用JIT Scaling策略。
摩爾線程還用自家GPU計算卡做了Smooth SwiGLU論文的復現,發現通過Smooth SwiGLU可以有效降低outlier的影響。

此外,摩爾線程開源的模擬仿真器Simumax可用于大規模集群訓練,支持多種并行策略、多種模型架構、各種優化策略以及并行策略、超參、優化策略的自動掃描。

最后,大規模集群訓練的可靠性非常重要。
摩爾線程做了很多相關工作,進行全生命周期管理監控:
(1)訓練檢查(起飛、飛行、落地):起飛檢查是在訓練開始前,對硬軟件和通信的檢查,自動替換故障節點;飛行檢查中,發現訓練亞健康問題;落地檢查是停掉訓練后,定位故障節點,提取故障上下文。
(2)慢節點探測:分布式訓練中慢節點會拖慢整個訓練的速度;起飛檢查階段節點兩兩配對,檢查小負載的執行時間;訓練階段統計每個節點計算和通信執行的時間。
(3)容錯訓練:大規模訓練場景使用大量節點,會導致訓練故障率指數級升高;同步模式轉成異步模式,單節點故障就不會影響整體訓練;還有高效的故障發現與恢復機制。
結語:國產AI計算基礎設施,已具備規模化、高效率、高可靠模型生產能力
摩爾線程以打造先進的“AI工廠”為目標,憑借全功能GPU的通用計算能力、創新的MUSA架構、優化的MUSA軟件棧、自研的KUAE集群、零中斷容錯技術五大核心要素,構建起高效的“AI工廠”,為AI大模型訓練提供了強大而可靠的基礎設施支持。
“只有這樣的組合,才能確保每一個環節都做到最好,100%? X? 100%? X? 100%,才能確保100%的成功率,也是業界最好的效率。”張建中說。
依托AI工廠,摩爾線程成功構建起覆蓋”訓練-推理-部署”全流程的高效體系。這標志著國產計算基礎設施,已具備支撐AGI時代規模化、高效率、高可靠模型生產的關鍵能力。
從圖形渲染基石到AI算力引擎,摩爾線程正以“KUAE+MUSA”為智算業務核心,推動全功能GPU驅動的AI技術在物理仿真、AIGC、科學計算、具身智能、智能體、醫療影像分析、工業大模型等關鍵領域的應用與部署。

二、MUSA軟件棧如何助力KUAE集群?三大亮點技術詳解