智算集群已成為大模型基建軍備競賽的標配。

在大模型訓練場景下,隨著模型參數規模從千億向萬億邁進,算力需求激增。同時,隨著大模型在不同領域的應用落地,推理算力需求也迎來爆發式增長。據中信建設證券數據顯示,2024年至2027年全球大模型推理的峰值算力需求量的年復合增長率為113%,遠高于訓練的78%。

為了應對不斷增長的算力需求,全球各地智算集群建設正在如火如荼地進行之中,且規模也從早期的千卡、萬卡快速增長到十萬卡,甚至向百萬卡級別發展。但是,集群規模的線性擴展并不直接等同于算力的線性提升。智算集群要發揮出極致有效的算力,需要從卡間和節點間的互聯網絡、軟硬件適配、海量數據處理策略、運維保障等多個方面進行協同優化。

12月13日19:30智猩猩智算集群公開課第6期將開講,由阿里云智能集團智算集群產品專家陳祎主講,主題為《大模型時代的智算GPU集群》。

本次公開課,陳祎老師將從產業一線的角度,分享AI技術演進下的GPU集群需求變化,并從Scale Up、Scale Out兩個層面,闡述集群算力的擴展路徑。之后,陳祎老師還將重點講解大規模GPU集群的性能優化方法,以及穩定性挑戰和優化實現,并對AI基礎設施2025年的發展趨勢進行展望。

公開課預告:大模型時代的智算GPU集群|阿里云智能集團智算集群產品專家陳祎主講

公開課內容

主題:大模型時代的智算GPU集群
提綱:
1、AI技術演進催生GPU集群的需求
2、集群算力擴展:Scale Up vs. Scale Out
3、大規模GPU集群性能優化
4、集群的穩定性挑戰與優化實現
5、AI基礎設施的2025展望

主講人

陳祎,阿里云智能集團智算集群產品專家,負責阿里云AI智算場景的異構計算集群產品規劃及設計。

直播時間

12月13日19:30-20:30