智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影
大模型正引發一波新的AI算力荒,從此前的芯片緊缺,上升為AI算力集群級的饑渴癥。
根據產業鏈消息,參數可能僅30億的Sora用4200-10500塊H100訓練了1個月;最新出爐的Llama 3 8B和70B的訓練需要24000多塊H100組成的集群;據稱有1.8萬億參數的GPT-4是在10000-25000張A100上完成了訓練……
OpenAI、Meta等都在用數千卡、甚至萬卡串聯,滿足不斷攀升的大模型訓練需求,也給了我國大模型企業一本可參考的算力賬。
然而,多位GPU算力集群業內人士告訴智東西,當下我國智能算力處于嚴重的供不應求狀態。在GPU全球稀缺背景下,單卡性能已相對沒那么重要,通過集群互聯實現整體算力的最大化,成為解決AI算力荒的必要路徑。
政策也已經緊鑼密鼓地下發。4月24日,北京市經濟和信息化局、北京市通信管理局印發《北京市算力基礎設施建設實施方案(2024—2027年)》,方案提出,規劃建設支撐萬億級參數大模型訓練需求的超大規模智算集群,并對采購自主可控GPU芯片開展智能算力服務的企業予以支持。
產業這邊的動作也沒有落后。國內的頭部算力廠商都已加速布局大規模智算集群,比如云服務巨頭華為云打造了貴安、烏蘭察布、蕪湖3大AI云算力中心,頭部AI芯片公司摩爾線程過去四個月也已在南京、北京亦莊和北京密云完成3座全國產千卡智算中心的落地,助國產大模型產業發展提速。
大模型產業發展對智算中心提出什么新要求?國內大規模智算中心建設的真實情況如何?如何讓拔地而起的千卡甚至萬卡集群實現從“建起來”到“用起來”的跨越?本文試圖從摩爾線程等公司的實踐,對這些問題進行探討。
一、從Sora到Llama 3,千卡集群成百模大戰標配
自2024年Sora、Claude 3、Llama 3等爆火模型推出以來,大模型的智能涌現態勢不減反增,推動國內大模型廠家加速追趕,對AI算力的需求也持續升級。
國產大模型玩家無論是要持續攀登Scaling Law(規模定律)高峰,還是走行業大模型的捷徑,都迫切需要更大規模算力;同時大模型向多模態方向發展,需要處理包括文本、圖像、聲音等多種類型的數據,亟需全功能的GPU;而行業大模型甚至需要算力廠商充當起“全棧式生態服務平臺”角色,服務大模型落地的“最后一公里”。
在這些多樣化新需求驅動下,將芯片系統組合起來的新型千卡智算中心,成為滿足大模型產業落地的重要抓手,也成為大國AI較量的標配新基建。
產業先鋒已經紛紛展開行動,國內頭部AI芯片公司摩爾線程在過去四個月里加速布局了三座千卡算力集群,通過自家夸娥(KUAE)智算中心解決方案為大模型打造智算底座,開箱即用,助大模型企業解決大規模GPU算力的建設和運營管理問題。
基于夸娥打造的智算中心已經初見落地成效。目前,摩爾線程支持包括Llama、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調。基于摩爾線程夸娥千卡集群,70B到130B參數的大模型訓練,線性加速比均可達到91%,算力利用率基本保持不變。
以2000億訓練數據量為例,智源研究院700億參數Aquila2可在33天完成訓練;1300億參數規模的模型可在56天完成訓練。此外,摩爾線程夸娥千卡集群支持長時間連續穩定運行,支持斷點續訓,異步Checkpoint少于2分鐘。
從傳統的“重硬輕軟”走向“軟硬一體化”,成為這批新智算集群的普遍特點。摩爾線程夸娥就是一個軟硬一體化的全棧解決方案,包括基礎設施、集群管理平臺及模型服務,據稱可全方位降低傳統算力建設、應用開發和運維運營平臺搭建的時間成本。

▲夸娥(KUAE)智算中心解決方案架構
基礎設施:包含夸娥計算集群、RDMA網絡與分布式存儲。摩爾線程夸娥千卡模型訓練平臺,建設周期只需30天,支持千億參數模型的預訓練、微調和推理,可實現高達91%的千卡集群性能擴展系數。基于MTT S4000和雙路8卡GPU服務器MCCX D800,摩爾線程夸娥集群支持從單機多卡到多機多卡,從單卡到千卡集群的無縫擴展,未來將推出更大規模的集群,以滿足更大規模的大模型訓練需求。
KUAE Platform集群管理平臺:用于AI大模型訓練、分布式圖形渲染、流媒體處理和科學計算的軟硬件一體化平臺,深度集成全功能GPU計算、網絡和存儲,提供高可靠、高算力服務。通過該平臺,用戶可靈活管理多數據中心、多集群算力資源,集成多維度運維監控、告警和日志系統,幫助智算中心實現運維自動化。
KUAE ModelStudio模型服務:覆蓋大模型預訓練、微調和推理全流程,支持所有主流開源大模型。通過摩爾線程MUSIFY開發工具,可以輕松復用CUDA應用生態,內置的容器化解決方案,則可實現API一鍵部署。該平臺意在提供大模型生命周期管理,通過簡潔、易操作的交互界面,用戶可按需組織工作流,大幅降低大模型的使用門檻。

▲夸娥(KUAE)智算中心解決方案支持端到端一體化交付
二、從“建起來”到“用起來”,夸娥突破4道難關
過去一年,我國千P級智算中心的智算基建布局集中爆發,根據工信部發布數據,截至2023年10月我國算力規模超300EFLOPS,智能算力占比高達35%。然而,國內的千卡智算中心仍處于發展初期,面臨嚴峻挑戰。
多位智算業內人士告訴智東西,我國智算中心建設既面臨算力供應鏈問題,同時大規模內網互聯、存儲高速吞吐、模型優化服務、平臺生態服務等技術因素也造成智算平臺建設的技術瓶頸。
摩爾線程相關負責人談道,集群建設是一個系統性復雜工程,從GPU顯卡到服務器,最后把它組成集群,這里面包括了硬件的網絡、存儲、軟件,再到大模型調度,是一個全棧式的工程,要真正把它做好,需要一個端到端的交鑰匙方案。
從客戶角度來講,他們對千卡集群的算力利用率、穩定性、可擴展性和兼容性的需求最為突出。這也成為千卡集群建設要邁過的四道難關,摩爾線程為此做足了準備。
1、軟硬協同,算力利用率提升超50%
算力利用率(MFU)是衡量智算中心能力的一個核心指標。即便是OpenAI在早期也面臨MFU瓶頸,根據公開資料,其MFU在GPT-3訓練階段僅為21.3%,近79%的算力都被浪費了。
摩爾線程采用軟硬協同設計、端到端的并行策略,使得綜合調優下算力利用率(MFU)提升幅度超過50%。夸娥通過集群通訊庫算法、網絡拓撲、硬件規格合理設計和配置,優化集群匹配度;技術上,夸娥集群通訊算法網絡拓撲綜合利用了MTLink和PCIe,使得通訊性能提升一倍。
2、從芯片出廠開始,保證穩定可靠性
對于分布式訓練而言,一張卡壞了,整個訓練都會停掉。對于一個大規模集群來說,例如千卡甚至更大的集群,卡壞的概率會更高。所以,在做千卡集群或者更大規模集群時,它對整個集群的可靠性要求會更高。
摩爾線程從卡的出廠開始保證算力質量,做了很多嚴格的測試;開發了集群系統監控和診斷工具,幫助篩選和快速定位到有問題的卡和服務器,可以自動恢復和硬件替換;做了checkpoint加速,寫的時間從10分鐘降到秒級,讀的速度從40分鐘降到2分鐘;判斷訓練異常,系統自動重新拉起。
3、提高可擴展性,線性加速比達91%
算力集群規模達到千卡,更是一個可擴展性的挑戰。夸娥支持包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業界主流分布式框架,并融合了多種并行算法策略,包括數據并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優化。
同時,夸娥結合了摩爾線程顯卡硬件能力,以軟硬一體的方式,做了系統級優化,包括從硬件、軟件再到集群,外加云的全棧,不是單點突破,是一種全局綜合方案,從而使得線性加速比達到91%。
4、零成本CUDA代碼移植,兼容多個主流大模型
基于摩爾線程代碼移植Musify工具,可快速將現有的主流遷移至MUSA,零成本完成CUDA代碼自動移植,之后用戶短時間內即可完成熱點分析和針對性優化,大大縮短遷移優化的周期。此外,借助摩爾線程元計算統一系統架構MUSA,用戶可以復用PyTorch開源社區的大量模型算子,降低開發成本。
與此同時,摩爾線程開源的MT Pytorch可以支持多種模型的推理,覆蓋CV、NLP、語音等多個領域,能夠運行典型的大模型分布式多卡推理,也可以支持單機多卡與多機多卡的分布式訓練。利用數據并行、模型并行以及ZERO等分布式訓練技術,MT PyTorch還可以完成簡單基礎模型以及典型Transformer結構的NLP語言模型的訓練。

▲夸娥(KUAE)智算中心解決方案八大優勢
總的來說,傳統的計算模式在大模型時代面臨著多重難點,只有長期投入并加強架構創新、軟硬結合、場景結合、兼容協同等舉措,才能夠讓智算集群完成從“建起來”到“用起來”的跨越。
三、國產大模型的超車時刻,“中國英偉達”交卷
打破英偉達對AI的壟斷,國內外玩家都進入了一個“交卷”時刻。
在國外,我們看到亞馬遜、微軟、谷歌都已推出了面向大模型的AI定制芯片,對英偉達芯片進行部分替代,從而保證自家大模型持續可迭代和落地。
在國內,華為、摩爾線程、寒武紀、海光等頭部AI芯片廠商,軟硬件生態也已初具規模,技術架構自成一體,且已擁有集群能力和落地場景;同時多家AI芯片創企也在推動產品落地和量產,搶占大模型市場。
在備受關注的國產GPU領域,摩爾線程作為“中國英偉達”的主力選手,也已經打造了全棧AI方面的護城河。以全功能GPU為算力底座,摩爾線程夸娥提供從卡(MTT S4000)、服務器(MCCX D800)到千卡集群(K1、K2、K3)的完整智算產品組合,通過軟硬一體化的服務,將成為大模型企業的最佳選擇之一。
近日,摩爾線程正與無問芯穹聯合推進基于夸娥千卡集群的“MT-infini-3B”合作大模型實訓,目前性能已在同規模模型中躋身前列。無問芯穹聯合創始人兼CEO夏立雪表示:“經無問芯穹Infini-AI平臺實訓與聯合優化工作驗證,摩爾線程夸娥千卡智算集群在精度、性能、易用性和算力利用率上均有優異表現,且在實訓中實現了長時間穩定訓練不中斷,已可以為千億參數級別大模型訓練提供持續高效的高性能算力支持。之后我們會把這一合作模型在Infini-AI上開放給大家使用。”
隨著今年“AI+”首次被寫入兩會工作報告,AI算力成為新質生產力的重要引擎,國產大模型進入關鍵的超車時刻。業內人士告訴智東西,今年大模型會出現一個拐點,同時也是國產AI芯片的分水嶺,強者越強,弱者愈弱。
摩爾線程自2022年起就成立云計算團隊,設定了建設千卡集群的大方向。在當時A100等算力緊張的背景下,摩爾線程作為在功能上唯一對標英偉達的國產GPU企業,在具備云的全棧能力后,構建基于全功能GPU的國產千卡智算集群,成為了國內賽道“第一批吃螃蟹的人”。隨著大模型的爆發,摩爾線程夸娥智算中心解決方案已經完成從0到1的建設,有望成為國產大模型發展的重要引擎助力。
結語:國產大模型跨越時,千卡集群打造加速度
從ChatGPT到Sora,大模型之戰已經愈演愈烈,國產大模型迫切需要加速追趕跨甚至超越,這催生了市場對更大規模、更高性能的計算資源的迫切需求,也推動計算中心的架構及運營模式進行更新換代。
千卡集群、萬卡集群是滿足AI算力需求的抓手,這一理念已逐漸深入人心。然而這種大規模智算集群的隱形壁壘越來越高,要求算力廠家在芯片、調優、通信及系統性開發和管理等多方面下功夫,從而真正跑出大模型產業發展的加速度。