芯東西(公眾號:aichip001)
編輯 |? GACS 2024
2024全球AI芯片峰會(GACS 2024)于9月6日~7日在北京舉行,大會由智一科技旗下芯片行業媒體芯東西和硬科技知識分享社區智猩猩發起舉辦。在9月6日的主會場數據中心AI芯片專場上,浪潮信息開放加速計算產品負責人Stephen Feng以《多元開放系統激發生成式AI創新活力》為題發表演講。
Stephen Feng分享道,大模型發展和AIGC應用的創新離不開開源模型和硬件開放。且隨著大模型參數規模增加,生成式AI的發展面臨四大挑戰:集群擴展性不足、芯片功耗高、集群部署難、系統可靠性低四大挑戰。
針對生成式AI面臨的幾大挑戰,Stephen Feng提出了他的解決思路,即:
1、單機維度考慮更大的超節點互聯,集群維度采用更強、更開放的網絡交換機,解決集群擴展性不足。
2、整機維度做到極致的能效設計,提前布局液冷,解決芯片功耗高的問題。
3、進行算力的統一池化管理加快硬件部署,通過端到端的開發平臺實現應用的快速部署。
4、建立標準監控管理規范,加速先進算力的上線部署,實現GPU快速迭代和部署;具備自適應分布式訓練系統實現故障時的快速定位和斷點續訓。
▲浪潮信息開放加速計算產品負責人Stephen Feng
以下是Stephen Feng演講內容的完整整理:
一、開源模型成創新動力,硬件開放推動完善AI算力生態
激發創新活力的核心就是開源開放。
我們首先來回顧大模型的發展歷程,在過去的幾年間不管是基于上層的應用還是底層技術的進步,開源模型的能力可以與閉源模型能力相媲美。
在今年Meta發布了Llama 3,是一個405B的大模型,而它的能力達到了世界領先的水平。在國內,像通義千問、百川和浪潮信息的“源2.0-M32”也是開源模型。
在去年全球發布的大模型中,2/3以上的大模型都是開源模型,而且80%以上的大模型都選擇了開源的框架做相應的開發。開源模型的總下載量已經超過3億次,并且已經衍生了超過3萬多個新模型。
綜上所述,開源模型成為創新的動力。
除了大模型,在硬件層面,硬件開放也是完善AI算力生態非常重要的特征。在應用的發展可以看到,大模型的發展也為AI芯片產業帶來了多樣化的需求特征。在最初,高端AI芯片存在硬件接口、互聯規范不統一等問題,導致其在整機適配兼容時容易出現很多問題,投入非常大。
2019年浪潮信息在OCP峰會上展示了全球第一塊UBB,由此拉開了OAM整體序幕;2020年,我們發布了第一款參考系統MX1,基于此系統,推動相應的上游芯片廠商在大模型芯片上的開發和落地;2021年和2022年,基于OAM1.0規范做了基于Gen4液冷和風冷服務器。在此服務器上推動完善整個OAM的產品生態。在去年,所發布的《開放加速規范AI服務器設計指南》,給新興的AI芯片創新提供堅實的系統平臺支撐,加速多元算力產業發展。
去年基于Gen4 1.5的規范發布了全新Gen5 OAM服務器,并在這個產品上跟業界20多款高端AI芯片得到相關的適配。明年我們會基于OAM2.0繼續發布相關的參考設計,持續引領高端AI芯片的設計以及其與我們的整機系統兼容。
整體來看,OAM的開放標準在硬件層面正加速推動硬件設計與先進算力的部署。這一標準可以幫助AI芯片大幅縮短OAM加速卡研發和系統適配周期,節省超過6個月以上的研發時間與上千萬的投入成本,有效縮短硬件開發和產業賦能周期。
從以上兩個角度來看,不管在模型的開源,還是硬件的開放上,大模型的發展和AIGC的應用,其整體的迭代離不開開源和開放。今天重點基于開放來分享這個主題。
二、大模型參數量和所需算力大幅增加,生成式AI發展面臨四大挑戰
回顧大模型的發展歷程,深度學習大模型起源于二十世紀八九十年代,最初大模型整體的發展速度以及迭代速度是較慢的。
2017年Google發布了一篇文章《Attention Is All You Need》,提出了Transformer架構。Transformer架構發展之后,加速了大模型迭代的速度。尤其在2022年ChatGPT發布,把大模型應用推上頂峰。國內外大模型層出不窮,Sora大模型再次出現,又讓多模態大模型得到了激烈討論。
大模型從簡單的深度學習模型到現在大語言模型或者多模態大模型,還有今年火熱的混合專家模型。最近幾年因為大模型的迭代速度在飛速提升。我們觀察到,當前大模型的參數量和所需算力的增長速度已經遠遠超過了摩爾定律的發展速度。
大模型未來的發展趨勢:參數量更大,往混合專家、長訓練模型以及多模態大模型去發展,并行訓練會引入新的范式。
傳統的大語言模型就是Tensor并行、數據并行和流水線并行,到混合專家模型之后引入了專家并行,長訓練模型引入序列并行。引入新的并行模式,像專家并行和序列并行,所需要的通信量會大幅度增加。
在大模型訓練過程中,對于通信速度要求是比較高的。引入新的訓練范式之后,對整機的需求是什么?一方面需要更大的GPU Domain,不能局限于單機8卡的整機系統,需要更大GPU Domain滿足大模型發展所需要互聯的速度。另外,需要更大的互聯帶寬,大模型的發展遵循Scaling Law,參數量大幅度增加,所需要的算力也在大幅度增加。此前訓練一個模型需要的可能是百卡、千卡集群就可以了。
而當前以及未來大模型的發展,需要的集群即是萬卡起步甚至十萬卡的level。
再到服務端也就是推理側。我們總結來看的話,大模型在推理的過程中首先會有first token,整體是一個算力敏感型,再往后的token都是一些顯存敏感型。隨著模型的參數量大幅度增加,像Llama 3總體的參數量達到4050億,未來的推理其實從單卡推理向多卡推理演進,還有向量數據庫等推理模型新范式,所引發的對CPU、互聯、整體的顯存帶寬都有了更高的挑戰。
基于上述特征,總結未來生成式AI發展所面臨的巨大挑戰。
大模型的發展在遵循Scaling Law,模型的參數量、訓練的時長和訓練的數據集都在持續增加。未來訓練一個全新的基礎大模型,萬卡已經成為新起點,對于整機的擴展性提出新的要求。
另外,AI芯片功耗在大幅度提升,從兩年前的400W到現在的700W,明年更會達到1200W。短短三年間,GPU芯片的功耗已經提升了三倍左右。一些新的產品形態,像英偉達推出的Oberon架構單機功耗超過120kW。因為芯片算力的提升以及單機柜功耗的提升,會給整體基礎設施帶來新的變革。在單機維度上需要解掉這么多GPU功耗的散熱,投入是非常大的。
另外,未來數據中心基礎設施的建設上,我們也要考慮一些新的部署模式,如何快速部署單機柜還能滿足這么大功率十分重要。
基于GPU發展的功耗提升現狀下,總結未來大模型的發展,到最后都是能源的爭奪。我們如何在單機維度、集群維度能夠實現更高、更優的能耗是十分重要的。
集群部署難。在大模型集群的部署上除了硬件上包含CPU、GPU、網絡、存儲等設備,還涉及上層軟件和硬件設備的問題。我們如何快速地將這些基礎設施進行部署,再到業務層將這些相關的算力能夠轉化成應用,這是十分重要的。
Llama 3在60多天的訓練過程中,故障400多次,平均1天有7次的故障。80%的故障都是發生在硬件的故障,60%是GPU的故障,剩下是軟件適配的故障。如何在模型的訓練當中保證它的可靠性、穩定性,是大模型能夠迅速迭代的一個重要因素。
三、考慮更大Domain解決集群擴展性不足,監控管理標準化提高模型穩定性
基于以上的挑戰之下,可以有以應用為導向,以系統為核心的應用之道,具體為以下四個方面:
1、針對集群擴展性不足,我們在單機維度要考慮更大的超節點互聯,要做到超級互聯方案去實現千卡集群的Scale-up。在集群維度還要考慮采用更強的網絡交換機去做到更多的萬卡甚至十萬卡的GPU Scale-out。
在單機維度,我們會推出創新的OAM互聯方案來滿足萬億模型通信需求。一方面會推出基于OAM2.0的多機互聯方案標準,相比此前直聯的拓撲OAM,P2P帶寬提升7倍左右,實現更大OAM的Domain,支持八千張以上的加速卡超級互聯。我們也會基于交換拓撲推出OAM的超節點互聯方案,是一個完全解耦的整機柜形態;并基于此拓撲形成OAM整機柜標準,解決擴展性不足并加速OAM的算力迭代。
在集群層面,浪潮信息推出X400超級AI以太網交換機,也是完全開放的產品。專門為AI大模型設計,是國內首款基于Spectrum-4打造的產品,最高吞吐達到51.2T,超級AI以太網交換機與傳統的以太網交換機最大的不同就是采用交換機和智能網卡整體的調度解決方案,在交換機上實現對網絡包細粒度的路由調度,在網卡側提供保序服務,實現交換機和網卡更加緊密耦合的配合。基于此方案,我們能夠實現16K計算節點,10萬+以上的加速卡互聯,滿足GPU之間的互聯通信需求。同時,帶寬的利用率高達95%以上。
2、針對計算芯片,一方面在整機維度做到極致的能效設計,把整機的能效做到最優,把性能發揮到極致。另外,提前布局液冷,浪潮信息一直是ALL IN液冷的策略,單機柜成本非常高,整機柜交付的模式,基于開放、快速交付的液冷整機柜交付形態去滿足計算芯片功耗高帶來的挑戰。
針對GPU功耗的飛速發展,在單機維度采用極限的設計,去實現極致的效能。我們在面向全球最大的AI服務器用戶的工程實踐當中總結了設計方案,不斷突破單機算力密度和單機的性能。NVLink服務器我們已經做了四代,OAM服務器已經做了三代的產品,整體服務器上通過全鏈路仿真、分區的散熱調控去實現了極致的散熱和最佳的性能。在保障產品極致性能的同時,把整體的能效發揮到最優。
另外一方面,首創像風扇的智能聽音診斷技術,通過相關的智能診斷去保障大模型訓練過程中總體的功耗和噪音的極致優化。在液冷方面,剛才提到我們ALL IN液冷戰略,很早布局液冷,包含冷板式散熱、浸沒式等液冷方面的技術。
在基礎設施層面,通過開放液冷技術標準推動液冷加速普及。一方面制定相關的液冷技術標準,推動液冷的加速普及。打造標準接口的液冷組件,滿足單機的Scale-up。基于以往的數據風冷機房改造,通過風液式CDU,實現一天零改造快速落地和部署。基于冷鏈的架構革新推出單機柜120千瓦的整機柜形態,滿足未來更大的超節點互聯方案,實現快速落地部署。基礎設施維度,通過開放的生態,建立預制化可擴展、可生長的數據中心交付形態,來加快算力的部署。
3、在整機維度,把GPU的監控管理標準化加速迭代。并在訓練過程中基于自適應的分布式訓練系統,保障訓練的穩定。
穩定性是高效完成大模型發展的必備條件。
一方面我們對整體的監控管理標準化,從OAM的固件管理規范,定義了管理的標準,包括從數據的更新頻率、異常數據處理,還有等級的數據處理機制以及整機預告警、分區分層診斷機制,我們都去定義了相應的標準,加速不同GPU芯片在整機系統的兼容。另外,我們基于OpenBMC開放了管理平臺,原生架構兼容了像AI服務器、通用服務器、專業服務器、存儲服務器等多元異構的計算平臺。通過模塊化的解耦實現Arm、x86、CPU等以及GPU、ASIC等加速卡的兼容,能夠實現快速迭代。
另一方面,在模型訓練過程中,如何在監控層面,有效應對訓練中出現的故障等突發情況?我們通過AIStation人工智能開發平臺,構建自適應分布式訓練系統。一方面可以實現多租戶資源的管理,去提高集群資源的利用率和降低集群管理的復雜度。另外一方面,當出現斷點的時候,能夠通過在訓練池中快速地拉通備機,實現快速恢復訓練和訓練的自愈,保障大模型在訓練過程中長時間、高效的穩定運行。通過AIStation能夠將故障的處理時間縮短90%以上。
4、最后,在模型的部署落地上,通過“元腦企智”EPAI加速大模型業務部署和應用創新,為企業AI大模型的落地應用提供高可用,以及安全端到端的開發平臺,提供相應的像數據準備、知識檢索、模型微調和訓練,以及應用框架的系列工具支持調度多元算力和多模算法,幫助企業高效地部署生成式AI應用。
綜上所述,浪潮信息始終堅持以應用為導向,以系統為核心,通過開源開放的系統激發生成式AI創新活力。在硬件開放方面,通過建立OAM(開放加速模塊)規范,加速先進算力的上線部署,支撐大模型及AI應用的迭代加速。在軟件開放方面,通過大模型開發平臺“元腦企智”EPAI,為企業打造全流程應用開發支撐平臺;通過AIStation人工智能開發平臺,提供穩定的保障系統,實現從模型開發、訓練、部署、測試、發布、服務的全流程一站式高效交付。我們始終秉承開放包容的生態,加速生成式AI的快速發展。