智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

AI主戰場,萬卡是最低標配!

在2024世界人工智能大會開幕前夕,摩爾線程創始人兼CEO張建中拋出一句擲地有聲的斷言。

為什么必須是萬卡?大模型行業變化很快,客戶希望兩周內結束戰斗,最遲也得在1個月內訓練完。假設訓練一個5000億參數模型,有15TB數據,如果只有1000P算力,3年都訓不完;如果將時間鎖到兩周或1個月,10000P是最低保障。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

在海外,擁有1.8萬億參數的GPT-4大模型需要用25000張A100 GPU訓100天,折算成H100則需要1000張;Meta今年推出2個24576張H100集群,用于訓練Llama 3等新模型;本周馬斯克自曝新版Grok 3訓練用了10萬張H100 GPU。

在國內,萬卡集群建設高歌猛進。去年7月,華為昇騰AI集群規模擴展至16000卡;10月,科大訊飛宣布啟動萬卡集群算力平臺“飛星一號”;今年3月,天翼云上海臨港國產萬卡算力池啟用;4月,中國移動宣布今年將商用3個自主可控萬卡集群……一眾云大廠更是囤卡攢算力專業戶,將大模型訓練集群規模卷向10萬卡量級。

基于國產GPU的萬卡方案,還是剛新鮮出爐

就在昨日,國產GPU公司摩爾線程宣布其人工智能(AI)旗艦產品夸娥(KUAE)智算集群解決方案實現重大升級——從千卡擴展至萬卡規模

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

這是其首個萬卡萬P萬億國產全功能GPU大模型預訓練平臺,樹立了國產GPU技術的新標桿:

總算力超過10EFLOPS,目標是做到有效計算效率超過60%、穩定性達99%,能支撐萬億參數級大模型訓練

3個萬卡集群項目(青海零碳產業園萬卡集群、青海高原夸娥萬卡集群、廣西東盟萬卡集群)在現場進行了戰略簽約。

兩家清華系AI Infra合作伙伴(無問芯穹、清程極智)、兩家大模型大廠合作伙伴(360、京東云)、一家具身智能合作伙伴(智平方科技)的代表先后登臺,對夸娥智算集群助力其在大模型訓練、推理及具身智能的創新贊譽有加。

加速一切大模型,只是第一步。

張建中說,夸娥萬卡集群不僅是加速AI,而是想要為美好世界加速。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

一、大模型訓練呼喚萬卡集群,國產GPU企業坐上牌桌

大模型競賽轟轟烈烈,從研發到應用,從訓練到推理,一切都在瘋狂消耗著算力。

智算中心是大模型訓練的“超級加工廠”,數據量夠多、參數量夠大,訓練出的大模型才有市場競爭力。對此,張建中總結出三大算力核心需求:

一是Scaling Law持續奏效,假設按線性比例成長,參數規模從百億到萬億有100倍增長,處理數據量從TB到10+TB有10倍提升,兩者相乘,那么所需算力至少增長1000+倍,需要建立一個單節點超大規模算力集群來做訓練。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

二是算法持續迭代,Transformer架構不能實現大一統,從稠密到稀疏模型,再到多模態模型的融合,多元架構持續演進并共存,面向特定領域設計的專用芯片難以適應未來算法,通用型算力才具備更強的抗風險能力。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

三是AI、3D、高性能計算(HPC)跨技術與跨領域融合加速,推動空間智能物理AI和AI for Science、世界模型等領域的邊界拓展,使得大模型的訓練和應用環境更加復雜多元。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

這些趨勢對智算集群提出了多重要求:既要規模夠大,又要通用性強,前者負責支持頂尖大模型巔峰對決,后者順應多元計算融合發展的趨勢,進而催生出對萬卡GPU集群的迫切渴求

大模型訓練,唯快不破。

海外頭部AI大廠都步調激進,OpenAI單點集群有超5萬張H100,谷歌打造了2.6萬張H100組成的AI超算,Meta到今年年底將囤35萬張H100。國內大廠固然也愿意豪擲巨資,但被美國一紙限令推入“有錢買不到新算力”的僵局。

而如果沒有萬卡集群做訓練,好比國產大模型拼命蹬著樸素的三輪,想跟開跑車的海外龍頭同場飆車,逆襲的幾率不能說沒有,只能說極低。

甲之砒霜,乙之蜜糖。英偉達入華受阻,給了國產AI芯片備胎轉正的機會。擺在前方的是一座名為智算需求的金礦,算力供應商們在摩拳擦掌,期待英偉達騰出的大單能落到自己頭上。

摩爾線程則以一家國產GPU企業的身份,率先坐上了建設萬卡集群的牌桌。

“這是一件難而正確的事情。”張建中說,“我們不能只是一家GPU的公司,一定要成為一家系統平臺公司。”

創辦于2020年10月的摩爾線程,甫一成立就組建云計算團隊,設定了建集群的大方向和策略,并構建了MUSA體系架構,花了大量時間去研究集群建設中的各種問題,攻堅克難。在大模型潮起后,這一路線更加明確與堅定。

從千卡到萬卡,集群建設的復雜度指數級增加,是一項超級系統工程。大集群≠大算力,多卡互聯也絕非簡單的“1+1=2”算術題,非常考驗算網存系統級優化的功力。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

暴力堆卡雖然能帶來理論算力總和的暴漲,但如果不能解決技術及工程挑戰,即便手握10000張卡,實際能發揮的算力可能還不及2000卡。而且卡連的越多,出故障的概率也會越大,從硬件設計到集群研究都要解決穩定性難題。

這就好比帶兵打仗,單人武力值高不等于團隊戰斗力強,勝敗關鍵看排兵布陣的策略和高效無縫的配合。每位士兵要驍勇善戰,調兵遣將時需確保通信無阻,后備糧倉和醫藥資源也都得跟上。

對應到萬卡GPU集群,則是算網存管每一環節都不能有短板,單卡算力要強,組網拓撲結構要設計得效率足夠高,即能有效提升單位功耗的算力,還要有敏捷的故障排查和及時恢復能力,才能確保訓得多、算得快、用得方便,跑得夠穩。

因此,這項系統工程必須翻越六座大山:超大規模組網互聯、集群有效計算效率、訓練高穩定性與可用性、故障快速定位與可診斷工具、生態Day0級快速遷移、未來場景通用計算

萬卡集群造價極高。據張建中分享,幾萬P的智算中心成本高達幾十億,更大算力規模則需投資上百億。如此大的投資,要求集群不僅擁有強大算力,而且必須具備多年持續服務的能力。設計智算中心時至少要考慮到兩三年后的擴容程度,否則一旦空間和能源受限,規模就很難擴展

在接受采訪期間,張建中分享到目前智算中心投資回報率是5年左右,而國內芯片研發費用大致相當于美國公司的1/10,在國內可以得到更好的回報,他相信在國內的發展潛力非常巨大。

那么要打造“國產萬卡萬P萬億大模型訓練平臺”的摩爾線程,具體是怎么做的?

二、千人團隊耗時四年,構筑夸娥萬卡集群的三道護城河

計算效率、高度穩定、生態兼容,構成了摩爾線程夸娥萬卡智算集群的三道護城河。

摩爾線程之所以將智算中心全棧方案命名為“夸娥(KUAE)”,是希望它像傳世典故《愚公移山》中的夸娥氏二子那般不畏艱難,持之以恒,將一塊塊GPU加速卡壘成一個強大的計算集群。

這是一套以全功能GPU為底座,軟硬一體化、完整的系統級算力解決方案,包括以夸娥計算集群為核心的基礎設施、夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

張建中將夸娥萬卡集群稱作“新超級工程”。摩爾線程有1000多人、耗時近4年完成了這項工作,希望能夠搭建首個中國本土通用型的萬卡集群。

首先有自研全功能GPU,基于GPU做出計算加速卡,再組建成服務器,放進超融合一體機,然后將這樣的4臺機器整合到一個機柜里,形成一個小集群,小集群連成大集群,大集群的線性加速比高于91%。有了這樣一個靈活組合的集群,客戶就能根據自身建設規劃去擴容每個計算集群。

軟件也是關鍵落子。把萬卡集群管理、調試、使用好,做到高效的訓練和推理,需要一個全棧AI軟件。摩爾線程夸娥智算集群的軟件棧提供了一系列的加速引擎和便捷的管理平臺,并支持用戶進行7×24小時的隨時遠程監控。

“我們建議客戶不要太多DIY,而是采用整體解決方案,這樣可以避免風險,集群買回去之后馬上就可以用起來。”張建中在接受采訪時談道,自建集群很有挑戰性,如果專業性不足,從建設到穩定運行都會受影響,而KUAE夸娥是一個“交鑰匙”工程,用戶拿到就能開箱即用

KUAE夸娥萬卡集群有五個核心優勢:

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

1、超大算力,萬卡萬P:單集群超萬卡,浮點運算能力達到10Exa-Flops,顯存總容量、卡間互聯總帶寬、節點互聯總帶寬均達到PB級,實現算力、顯存和帶寬的系統性協同優化,從而支持萬億參數級大模型的訓練。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

2、超高穩定,月級長穩訓練:平均無故障運行時間超過15天,最長穩定訓練30天以上;目標周均訓練有效率逾99%

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

穩定無故障,意味著每一位用戶在集群中的每一秒沒有被浪費,有助于降低計算中心運營成本,并滿足大模型訓練長期迭代的需求。實現軟硬件故障自動檢測,無需人工干預,則有助于實現大型智算中心的無人職守,降本增效。

這得益于摩爾線程自研的一系列可預測、可診斷的多級可靠機制:軟硬件故障的自動定位與診斷預測功能可實現分鐘級故障定位,Checkpoint多級存儲機制可實現內存秒級存儲和訓練任務分鐘級恢復,高容錯高效能的萬卡集群管理平臺能實現秒級納管分配與作業調度。

3、極致優化,超高MFU:在系統軟件、框架、算法等層面進行一系列優化,希望MFU(集群有效計算效率,評估大模型訓練效率的通用指標)最高可以達到60%,讓用戶買到的算力能真正發揮效力,而不只是買了一堆硬件。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

摩爾線程在系統軟件層面采用計算和通訊效率優化等技術手段,大幅提升集群的執行效率和性能表現。其自研卡間互連技術MTLink已經到2.0版本,目前用行業里的交換機芯片來搭建集群,后期也會考慮與合作伙伴共同研發下一代大規模交換機,持續發展卡間通信。

在框架和算法層面,夸娥萬卡集群支持多種自適應混合并行策略與高效顯存優化,可根據應用負載選擇并自動配置最優的并行策略,大幅提升訓練效率和顯存利用;針對超長序列大模型,通過CP并行、RingAttention等優化技術,能有效縮減計算時間和顯存占用,大幅提升訓練效率。

4、計算通用:為通用場景設計,可加速LLM、MoE、多模態、Mamba等不同架構、不同模態的大模型,能夠緊跟技術演進。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

5、生態兼容:過去大部分軟件都是在CUDA平臺上開發,換到新平臺,如何實現來了就能用?這意味著不僅要與國際主流生態兼容,還要擴展中國本土生態,兩條腿一起走路。

因此夸娥智算集群提供了摩爾線程自研MUSA編程語言,完整兼容CUDA,開源社區和官方網站均可下載Torch MUSA源代碼,并提供自動化遷移工具Musify,以便用戶能在短期內迅速將模型和遷移到MUSA平臺

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

對于目前國內的大模型用戶來看,我們最大的優勢就是生態兼容性很好,基本上當天或者是第二天就可以完成生態遷移并應用起來,對客戶就非常方便,從投入成本來講大大節約了用戶的資源,同時也節約了我們的資源。”張建中說。

據摩爾線程CTO張鈺勃分享,開發者移植到夸娥集群上,幾乎不需要修改代碼,遷移成本接近0,幾小時之內就能完成遷移工作,調優性能可能花費數天。

除了自研全功能GPU外,摩爾線程也在與國產CPU、操作系統合作,并聯合打造了一個基于中國自主創新技術的PES完美體驗系統聯盟。在張建中看來,這是國外GPU公司無法做到的產品兼容性。

目前幾乎所有的CPU企業都和我們的GPU完成了適配,我們一個驅動可以支持幾乎所有的CPU,”他談道,“我們希望完美體驗系統讓國內的CPU、操作系統和我們的GPU工作在一起的時候,可以為客戶提供一個完整且很好的體驗。”

三、AI Infra、大模型、具身智能代表站臺,認證夸娥智算集群性能高、穩定好用

從實戰經驗來看,摩爾線程也的確賺得了口碑。無問芯穹、清程極智、360、京東云、智平方等五家合作伙伴登臺,分享摩爾線程夸娥智算集群如何助力其在大模型訓練、大模型推理、具身智能等不同場景和領域的創新。

今年5月,無問芯穹和摩爾線程完成基于國產全功能GPU千卡集群,合作訓練出的MT-infini-3B是行業內基于國產GPU從0到1預訓練并開源的第一個大模型,訓練總用時13.2天,在同等參數規模模型中性能躋身前列。這也是雙方合作的起點。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

在合作初始階段,無問芯穹還主動設置了一些“為難”摩爾線程的門檻,故意做了很多在算子或模型結構上的特殊修改。結果,摩爾線程的底層生態兼容性能夠非常快而好地支持這些修改,最終全程穩定訓練不中斷地完成了模型訓練。

無問芯穹正在打造大規模異構混訓系統,實現多元芯片異構混合訓練。摩爾線程是第一家接入并已支持千卡混訓的的國產GPU公司。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

清程極智創始人、董事長兼CEO湯雄超提到萬卡大模型訓練集群面臨三大系統級挑戰:1)算子性能優化,充分發揮單卡計算性能;2)大規模集群訓練,高效協調多機分布式計算;3)新興模型架構,靈活應對模型動態需求。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

針對這些挑戰,清程極智智能編譯器IntelliGen和高效并行訓練系統FastMoE均已適配MUSA,取得大幅訓練加速,并實現0代碼改動。湯雄超稱贊摩爾線程的GPU硬件架構、指令集、編譯器、MUSA軟件棧等設計都非常優秀,清程極智有信心與摩爾線程一起攻克中國AI超大規模訓練集群的難題,共同建設世界水平的訓練集群。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

360集團早在2021年就與摩爾線程產品進行技術合作驗證,并啟動360與GPU相關產品的適配。繼去年與摩爾線程實現一體機合作、適配及技術驗證后,360企業大模型產品在今年與摩爾線程擴大合作,希望共同打造一個基于國產算力加國產大模型的聯合解決方案。

在摩爾線程夸娥千卡集群上,360分別部署70億、700億參數大語言模型,全程軟硬件即插即用,工作有效訓練時間占比100%;全程穩定無軟硬件故障,集群有效訓練時間占比100%。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

京東基于摩爾線程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理測試,性能超過一些國際主流計算卡。

在Chatglm2-6B推理測試中,S4000的單卡推理性能是RTX 4090D性能的1.26倍,其他兩個模型中,基于S4000性能均能達到RTX 4090D性能的90%左右。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

智平方科技是一家機器服務公司,致力于將多模態模型的能力賦能給不同類型的智能終端與智能機器人。這家通用智能代表企業與摩爾線程共同探索了基于國產算力的多模態大模型高效訓練,并合作研發了一些特定的算子和優化卡間通信、彈性調度的方案。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

國產萬卡集群的落地有望對AI行業產生許多積極影響,從縮短模型訓練周期、加快商業落地到降低創業門檻,最終催化整個生態的繁榮。

在張建中看來,要挑戰英偉達,難點主要在市場的推廣、用戶的生態適配和生態發展,需要全行業生態合作伙伴的共同努力,包括算力供應商、建設方、軟件服務以及做增值服務的合作伙伴。但他相信,給客戶極致性價比、先進的技術、最優質的服務,一定會讓客戶滿意。

國產GPU萬卡集群終于來了!摩爾線程CEO張建中:做難而正確的事

結語:GPU成為加速新技術浪潮的創新引擎

在加快形成新質生產力、開展“人工智能+”行動等戰略指引下,我國AI落地進程正在提速,推動更多行業邁向數字化、智能化轉型升級,并帶動以GPU為核心的智算中心的建設與發展。

張建中坦言,GPU在整個計算服務器中的占比依然很低,不到10%,但未來這一占比將會提升。今年很多統計報告都顯示新增加的算力來自于GPU,足見GPU算力的需求量非常強勁。

“我們正處在生成式AI的黃金時代,技術交織催動智能涌現,GPU成為加速新技術浪潮來臨的創新引擎。”在他看來,此刻正是歷史性的創造進程,而摩爾線程矢志投身,為融合AI和數字孿生的數智世界打造先進的加速計算平臺。

據他分享,摩爾線程是國內唯一一家用全功能GPU去實現各方面通用加速計算能力的公司,用4年時間將GPU的3D/2D圖形圖像、視頻編解碼、科學計算、物理仿真、數字孿生、AI訓練及推理能力都做了提升,能為客戶提供一個更好的、可選擇的國產化工具,并使得智算中心能支持更廣泛的應用場景,提高長期抗風險能力。

隨著夸娥智算集群從千卡向萬卡無縫擴展,摩爾線程的全棧AI戰略正在填上一塊重要拼圖。

“一旦我們把Scaling的問題解決了,這個對行業來說就解決了最難做的事情。”張建中說,在建好萬卡集群后,摩爾線程將建設更大規模的集群,希望通過全功能通用加速計算平臺,給行業提供更多的選擇,催生開發者更多的想象力和創意。