芯東西(公眾號:aichip001)
作者 | ?GACS
芯東西9月6日報道,一年一度的全球AI芯片峰會(GACS 2024)今日在北京火爆開幕。現場座無虛席,云直播全網觀看人數達到120萬人次。
大會由智一科技旗下芯東西聯合智猩猩發起主辦,以「智算紀元 共筑芯路」為主題,邀請50+位嘉賓來自AI芯片、Chiplet、RISC-V、智算集群、AI Infra等領域的嘉賓與會作干貨分享。
正值國產GPGPU獨角獸壁仞科技成立五周年,會上,壁仞科技宣布取得多芯混訓核心技術突破,打造出異構GPU協同訓練方案HGCT,業界首次能夠支持3種及以上異構GPU訓練同一個大模型。
▲壁仞科技推出國產異構GPU協同訓練方案HGCT
智一科技聯合創始人、CEO龔倫常作為主辦方發表致辭,今年是全球AI芯片峰會舉辦的第七年,峰會已成為國內在該領域里最有影響力的行業會議,是了解國內外AI芯片發展動態的重要窗口。
全球AI芯片峰會為期兩日,主會場包括開幕式和三大專場(AI芯片架構、數據中心AI芯片、邊緣端AI芯片),分會場包括Chiplet技術論壇、智算集群技術論壇和RISC-V創新論壇。
在開幕式上,清華大學教授、集成電路學院副院長尹首一以《高算力芯片發展路徑探討:從計算架構到集成架構》為題進行主題報告,系統性復盤了高算力芯片存在的技術挑戰,并全面分析五條創新技術路徑:數據流芯片、存算一體芯片、可重構芯片、三維集成芯片、晶圓級芯片。
今日有21位來自頂尖高校及科研院所、AI芯片企業的專家、創業者及高管進行分享。其中,高端對話環節邀請了三家AI芯片創企代表激情交辯,分別是國產大算力芯片獨角獸壁仞科技、端側與邊緣側AI芯片獨角獸愛芯元智,還有一家僅創立半年的年輕AI芯片創企凌川科技。他們集中探討了AI芯片產業現狀、最新實踐與進階方向。
一、破解大模型算力供需挑戰,架構創新突圍性能瓶頸
清華大學教授、集成電路學院副院長尹首一解讀了大模型時代算力供需間的困難:芯片工藝面臨Scaling-down極限,致使工藝紅利帶來的算力提升難以為繼;系統面臨Scaling-out瓶頸,通信帶寬不足導致系統性能損失。
破解這兩大難題的機會在于算力芯片計算架構和集成架構的聯合創新:計算架構創新使每個晶體管都被充分利用、發揮更強算力;集成架構創新使芯片規模能夠突破極限。
當前高算力芯片發展有五條新技術路徑:數據流芯片、可重構芯片、存算一體芯片、三維集成芯片、晶圓級芯片。這些路徑都不完全依賴于最先進的制造工藝,有助于為國內芯片產業開辟算力提升新空間。
AMD在端到端的AI基礎設施領域打造了全面的產品線,覆蓋從數據中心服務器、AI PC到智能嵌入式和邊緣設備,并提供領先的AI開源軟件及開放的生態系統。AMD基于先進ZEN4架構設計的CPU處理器平臺、基于CDNA3架構面向AI推理&訓練的MI系列加速器,已被微軟等巨頭采用。
據AMD人工智能事業部高級總監王宏強分享,AMD還在推動數據中心高性能網絡基礎設施(UALink,Ultra Ethernet),這對AI網絡結構需要支持快速切換和極低延遲、擴展AI數據中心性能至關重要。
AMD即將發布下一代高性能AI PC,其基于第二代XDNA架構的Ryzen AI NPU,可提供50TOPS算力,將能效比提高至通用架構的35倍。在AI PC對隱私、安全和數據自主性的推動下,重要的AI工作負載開始部署在PC上。作為全球領先的AI基礎設施提供商之一,AMD愿意攜手廣大客戶與開發者共建變革性未來。
自2015年以來,高通一直在根據AI應用用例的變化,不斷革新NPU硬件設計。以第三代驍龍8為代表,高通AI引擎采用集成CPU、GPU、NPU等多種處理器的異構計算架構。其中,高通Hexagon NPU通過大片上內存、加速器專用電源、微架構升級等設計來優化性能和能效。AI的用例豐富,算力要求不一,因此異構計算和處理器集成的需求會長期存在,這也將帶來峰值性能、能效、成本等方面的一系列提升。
高通的產品線覆蓋手機、PC、XR、汽車、IoT等豐富的邊緣側應用場景,能夠支持開發者在不同產品形態中利用高通的AI軟硬件解決方案進行算法加速,為消費者帶來豐富的終端側AI體驗和用例。最后,高通AI產品技術中國區負責人萬衛星還預告,搭載最新的高通Oryon CPU的下一代驍龍移動平臺,即將在今年10月21-23日舉行的驍龍峰會上發布。
蘋芯科技聯合創始人兼CEO楊越拆解了存算一體技術的進階過程。產業界主流芯片的出現和成長與當下計算需求的特點緊密相關,2015年前后,計算體系結構中的計算瓶頸從處理器端向存儲端遷移,尤其是神經網絡的出現,加快了AI芯片計算效率的提升節奏,存算技術因此受到關注。
楊越認為,在大模型時代,存算一體技術的機會是能夠在有數據存儲的地方都加入計算。隨著軟件不斷發展,基于存算的端側芯片今年已經逐步成熟。未來,在云端解決數據帶寬瓶頸,或將成為存算芯片下一個殺手級應用。
北極雄芯CTO譚展宏談道,在高性能計算領域,服務器設計有兩種不同的范式:標準服務器形態和定制服務器架構。在標準服務器形態下,北極雄芯關注于在標準約束的面積下,通過合適的芯粒拆分與封裝方案,實現更高的性價比;在非標準服務器形態下,提供了晶圓級集成的機會,關注于芯片與系統設計一體化,對服務器與芯片進行協同設計,旨在達到“服務器即芯片”的目標。
特別地,譚展宏強調了不同芯片的設計有不同的帶寬需求,例如在7nm以上工藝下,結合部署通信優化,往往不需要很高的互連帶寬密度,因此先進封裝并不是必需的,基于2D的封裝即可滿足性能需求并實現高性價比方案。北極雄芯基于《芯粒互聯接口標準》的PB-Link IP,正式實現了低封裝成本的互連實現,目前已開始對外授權。
二、高端對話:國產AI芯片造血能力增強,最年輕創企產品已落地快手
智一科技聯合創始人、總編輯張國仁,與壁仞科技副總裁兼AI軟件首席架構師丁云帆,凌川科技聯合創始人、副總裁劉理,愛芯元智聯合創始人、副總裁劉建偉,展開了一場以“國產AI芯片落地的共識、共創與共贏”為主題的圓桌對話。
張國仁在圓桌對話開始時稱,由智東西、芯東西、智猩猩發起舉辦六屆的AI芯片峰會,是國內該領域持續時間最長的專業會議,這幾年見證了AI芯片和大模型的蓬勃發展,也見證了一批國內造芯“新勢力”的崛起。
丁云帆談道,大算力芯片是技術密集、人才密集、資金密集的行業。作為市場中已公開融資規模最大的芯片獨角獸,壁仞科技擁有頂級人才,第一代產品已量產落地,多個國產GPU千卡集群已經落地,能獨立造血。但國產芯片行業整體情況仍然不易,生態方面和國外仍有差距。
很多國產AI芯片已經開始落地于數據中心、智算中心。在丁云帆看來,英偉達面向國內的產品性價比并不高,國產芯片只要能做出性能、做出性價比,就會有市場。目前國內芯片產業落地消息越來越多、造血能力增強,與英偉達之間的差距會逐漸縮小。
劉建偉認為,低成本是很重要的部分,企業最終還是要算賬,企業對基礎設施的投資一定要賺回來。劉理相信后期在具身智能、智能視頻等細分賽道,更多企業的進入,將帶來比通用產品更高的價值,會壓縮英偉達的營收和利潤。
凌川科技是最年輕的國內AI芯片創企之一,今年3月剛成立,已完成一輪融資,目前在售的智能視頻處理芯片已落地快手,占快手視頻處理領域用量的99%,大算力推理芯片預計明年初流片。
在劉理看來,距離AI芯片市場窗口關閉還很遠,面對巨頭在資源、資金、生態上的優勢,創企需要在垂直、細分領域發力。凌川科技將智能視頻處理、AI推理算力結合,目標是將其每Token推理成本降到英偉達H800的10%。
面向端側、邊緣側的愛芯元智,市占率均取得了矚目的成績。劉建偉認為這兩個領域實現商業閉環的速度會更快。他補充說,做AI芯片最終一定會賺錢,但實際盈利的時間表會受到AI部署成本等因素的影響,企業應盡快實現自我造血和閉環。未來,愛芯元智將在端側和邊緣側大模型落地場景進行探索。
愛芯元智在汽車領域的產品出貨量十分可觀,劉建偉談道,這是因為智慧城市和汽車的底層芯片技術類似,愛芯元智在智慧城市上積累了成熟技術再進入智能駕駛可以較快實現量產。同時,汽車領域價格戰將推動產業分工是機遇期。
對于國產AI芯片如何快速找到生態位,劉建偉以愛芯元智的深耕場景為例,智慧城市基本沒有國外公司,在智能駕駛領域英偉達開拓0到1階段,1到100更關注成本的階段就是國內企業的機會。丁云帆提到四個要素:穩定可靠的供應保障、性價比、針對客戶需求提供高效支持服務、高效易用。劉理認為應該在垂直領域深耕,做出比通用芯片更高效、優化的解決方案。
展望未來,劉建偉預測未來4-5年,端側和云側都將出現很大的發展機遇,產業界落地成本降低后,數據可以實現更大的價值。劉理認為隨著AI應用迎來爆發期,云側將產生大量推理需求。丁云帆談到國內的高端算力仍然稀缺,但產業鏈的協同可以實現穩健的發展。
三、智算中心建設潮起:壁仞GPU新突破,國產TPU拼落地,Chiplet贏麻了
在下午舉行的數據中心AI芯片專場,Habana中國區負責人于明揚談道,近三年有大約50+政府主導的智算中心陸續建成、60+在規劃和建設中,智算中心建設逐漸從一線城市向二三線城市下沉,從政府主導逐漸轉向企業主導,對成本壓縮、投資回報周期的要求也逐漸提升。
據他觀察,當前大模型開發日趨成熟,推理需求持續增長,頭部CSP自研推理芯片的增速將提高,未來推理側可能培育出多家異構芯片企業。
國外大模型訓練需求仍將旺盛,國內模型訓練對算力的需求基本飽和,主要來自微調業務。要支撐未來AI發展,Chiplet、高速大容量內存、私有/通用高速互聯技術的融合將起關鍵作用。
為了打破大模型異構算力孤島難題,壁仞科技副總裁兼AI軟件首席架構師丁云帆宣布推出壁仞自主原創的異構GPU協同訓練方案HGCT。這是業界首次實現支持3種及以上異構GPU協同訓練同一個大模型,即支持用「英偉達+壁仞+其他品牌GPU」混訓,通信效率大于98%,端到端訓練效率達到90~95%。
壁仞正在聯合客戶、合作伙伴等共同推動異構GPU協同訓練生態,包括中國電信、中興通訊、商湯科技、國網智研院、上海智能算力科技有限公司、上海人工智能實驗室、中國信通院等。
其產品已在多個千卡GPU集群開始商用落地。壁仞研發了軟硬一體、全棧優化、異構協同、開源開放的大模型整體解決方案。壁仞首次實現大模型3D并行任務自動彈性擴縮容,保持集群利用率近100%;已實現千卡集群千億參數模型10分鐘自動恢復、4天無故障、15天不中斷的效果。
中昊芯英聯合創始人、CTO鄭瀚尋談道,如今的AI大模型遠超計算歷史任一時刻的計算復雜度和算力需求量,需要更擅長AI計算的專用芯片。相較于GPU最初主要設計用于實時渲染和圖像處理,TPU的設計則主要用于機器學習、深度學習模型和神經網絡計算,針對張量運算進行了高度優化,單個的脈動陣列架構吞吐量和處理效率相較GPU有了更大提升。
中昊芯英自研的“剎那”芯片是中國首枚已量產的高性能TPU架構AI芯片,綜合測算算力性能、成本、能耗后,單位算力成本僅為海外領先GPU的50%。鄭瀚尋認為,大模型發展后期,千卡、萬卡集群的最佳費效比將至關重要,剎那芯片多達1024片芯片間的直接高速互聯,在構建大規模計算集群時的系統集群性性能可遠超傳統GPU數倍。
據浪潮信息開放加速計算產品負責人Stephen Feng分享,隨著大模型參數規模增加,生成式AI的發展面臨四大挑戰:集群擴展性不足、芯片功耗高、集群部署難、系統可靠性低四大挑戰。浪潮信息始終堅持以應用為導向,以系統為核心,通過開元開放的系統激發生成式 AI 創新活力。
在硬件開放方面,通過建立OAM(開放加速模塊)規范,加速先進算力的上線部署,支撐大模型及AI應用的迭代加速。在軟件開放方面,通過大模型開發平臺“元腦企智”EPAI ,為企業打造全流程應用開發支撐平臺,通過端到端的解決方案,解決基礎大模型落地到領域存在的幻覺問題,解決應用開發流程復雜、門檻高,多元多模適配難、成本高等落地難題,加速企業大模型應用創新與落地。
清程極智成立于2023年,聚焦AI Infra賽道,團隊孵化于清華大學計算機系,在智能算力優化方面,已經積累了十幾年的經驗。
清程極智聯合創始人師天麾分享道,國產高性能算力系統正面臨著故障恢復難、性能亞健康等方面的挑戰,需要10大核心基礎軟件系統配合,清程極智已在其中過半數領域擁有自研產品。
目前,清程極智已掌握了從底層編譯器到上層并行計算系統的全棧技術積累,實現大模型行業生態的全棧式覆蓋,完成多個在國產芯片的高吞吐量推理優化和主流大模型的快速移植和優化,計算效果提升明顯。其中,面向超大規模國產算力集群研制的大模型訓練系統“八卦爐”,可擴展到全機10萬臺服務器規模,用于訓練174萬億參數量的模型。
芯和半導體技術市場總監黃曉波談道,算力需求過去20年增長6萬倍,未來10年可能達10萬倍,存儲、互聯帶寬成為主要發展瓶頸。Chiplet集成系統成為后摩爾時代先進工藝制程限制和高性能算力提升突破的重要方向,已經廣泛應用于AI大算力芯片和AI算力集群網絡交換芯片。
對此,芯和半導體為Chiplet集成系統的設計開發提供了一站式多物理場仿真EDA平臺。該平臺支持主流工藝設計互連結構參數化建模,求解仿真能力比其他平臺快10倍,內存僅占1/20,并內置HBM/UCIe協議分析以提升仿真效率,獲國內外多家頭部AI算力芯片設計廠商使用,幫助大算力Chiplet集成系統產品的加速落地。
在大模型訓練過程中,網絡基礎設施的開銷占比達到30%,凸顯了網絡性能的重要性。據奇異摩爾聯合創始人、產品及解決方案副總裁祝俊東分享,網絡已成為智算性能瓶頸,構建AI網絡需要三網融合,即集群網間互連、機柜內互連,芯片內的互聯。
大智算集群需要高性能互連,Modernize RDMA與Chiplet成為關鍵技術。為了優化RDMA,奇異摩爾的NDSA網絡加速芯粒系列基于可編程眾核流式架構,通過高性能的數據引擎,實現高性能數據流及靈活數據加速。奇異摩爾首創的GPU Link Chiplet “NDSA-G2G”,基于以太基礎設施 ,通過高性能數據引擎和D2D接口技術,可實現Scale-Up網絡TB級高帶寬,性能媲美全球互連技術的標桿。
Alphawave是一家針對HPC、AI和高速網絡應用提供IP、Chiplet和ASIC設計解決方案的企業。其亞太地區高級業務總監郭大瑋分享說,針對數據在傳輸過程中面臨的問題,Alphawave IP產品的誤碼率比競品低2個數量級,還可輔助進行集成和驗證,并與Arm生態深度融合。他們還能為客戶的SoC提供全生命周期的支持。
Chiplet方面,Alphawave幫助客戶縮短周期,降低成本,提升了良率和迭代速度,目前已做出行業內第一款多協議IO連接Chiplet,今年已經流片。定制芯片方面,Alphawave主要專注于7nm以下的工藝,可根據客戶需求完成從規格到流片的全流程,目前已實現超375次成功流片,DPPM小于25。
結語:下游智能化風起云涌,AI芯片迎歷史機遇
在邁向通用人工智能終極議題的道路上,AI算法的形態不斷變化,AI芯片也與之相隨。當古老的沙礫邂逅未來的機器智能,技術與工程智慧交融碰撞,一顆顆凝集了精微設計的AI芯片走進計算集群,步入千家萬戶,托載起硅基生命的進化。
從智算中心、智能駕駛到AI PC、AI手機、新型AI硬件,下游智能化風潮為錨定不同場景的AI芯片都帶來了新一波歷史機遇。快速發展的生成式AI算法及應用不斷解鎖新的算力挑戰。技術創新和市場需求正雙重推動AI芯片市場規模擴大,并推動AI芯片的競爭格局趨于多元。
9月7日,2024全球AI芯片峰會將繼續密集輸送干貨:主會場將舉行AI芯片架構創新專場、邊緣/端側AI芯片專場,公布「2024中國智算集群解決方案企業TOP 20」、「2024中國AI芯片新銳企業TOP 10」兩大榜單;分會場將舉行智算集群技術論壇、中國RISC-V計算芯片創新論壇。




















