智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西圣何塞6月12日報道,今日,年度AI盛會AMD Advancing AI大會火熱開幕。作為全球第二大AI芯片供應商,AMD今日發布其迄今最強AI產品陣容——旗艦數據中心GPU新一代AI軟件棧全新AI機架級基礎設施AI網絡,全面(mian)展露與(yu)英偉達掰手(shou)腕的雄心(xin)宏圖(tu)。智東西從大(da)會(hui)前排發來一手(shou)報道。

xAI技術團隊成員Xiao Sun、Meta工程副總裁Yee Jiun Song、甲骨文云基礎設施執行副總裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相繼登臺,與AMD董事會主席及首(shou)席執行官(guan)蘇姿豐(Lisa Su)博士對談。

OpenAI聯合(he)創始人兼CEO Sam Altman作(zuo)為(wei)驚喜嘉(jia)賓(bin)壓(ya)軸登場,透露OpenAI團隊在MI300X和MI450上開展了(le)一些工作(zuo)。他評價說,MI450的內存架(jia)構已為(wei)推理做好準備,相信它也會成(cheng)為(wei)出色的訓練(lian)選擇(ze)。

此次AMD最新發布或預覽的重點產品(pin)包括:

1、數據中心AI芯片AMD Instinct MI350系列:采用3nm制程,集成了1850億顆晶體管,基于AMD CDNA 4架構,搭載288GB HBM3e內存,內存帶寬達到8TB/s,單GPU可運行5200億個參數的大模型,FP4/FP6精度下峰值算力達到20PFLOPS,達到上一代MI300X的4倍,推理性能達到上一代的35倍;跑(pao)DeepSeek R1模(mo)型時,推理吞吐量超過英偉達B200。

2、數據中心AI芯片AMD Instinct MI400系列(明年推出):專為大規模訓練和分布式推理而設計,將FP4精度下峰值算力翻倍提升至40PFLOPS,FP8峰值性能達到20PFLOPS,搭載432GB HBM4內存,內存帶寬達到19.6TB/s,每GPU橫向擴展帶寬達到300GB/s,可實現跨機架和集群的高帶寬互連,旨在訓練和運行擁有數千億和萬億級參數的大模型。

相比MI355X,MI400系列的性能提升高達10倍


▲相(xiang)比(bi)MI355X,MI400系(xi)列的(de)AI計算(suan)性(xing)能(neng)猛躥新高

3、全新AI軟件棧ROCm 7.0:相比上一代,推理性能提升至4倍以上,訓練性能可提升至3倍,實現對GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等許多主流模型的Day 0級支持,可在筆記本電腦和工作站上開發,首度支持Windows系統。AMD還首次推出開發者云

4、下一代“Helios”AI機架級基礎設施(明年推出):AMD首個AI機架級解決方案,進一步提升AI計算密度和可擴展性,支持多達72塊MI400系列GPU緊密耦合,支持260TB/s的擴展帶寬,支持UALink,FP4峰值算力達2.9EFLOPS

蘇姿豐博士稱Helios是“世界上最好的AI機架級解決方案”。

與采用英偉達下一代Vera Rubin芯片的Oberon機架相比,Helios AI機架擁有同等的GPU域、縱向擴展帶寬,FP4和FP8精度下的性能也大致相同,HBM4內存容量、內存帶寬、橫向擴展帶寬分別提升50%

Helios集成了(le)AMD EPYC “Venice” CPU、MI400系(xi)列(lie)GPU和Pensando “Vulcano” NIC網卡。

其中AMD EPYC “Venice”服務器CPU將采用2nm制程,基于Zen 6架構,最多256,CPU-to-GPU帶寬翻倍,代際性能提升70%,內存帶寬達到1.6TB/s

蘇姿豐博士(shi)還劇透了將(jiang)于2027年推(tui)出(chu)的(de)AMD下一(yi)代機架級解決方(fang)案。該方(fang)案將(jiang)集(ji)成EPYC “Verano” CPU、MI500系(xi)列GPU、Pensando “Vulcano” NIC。

AMD有三大AI戰(zhan)略支柱:領先(xian)的(de)計(ji)算引擎,開放(fang)的(de)生態(tai)系統,全棧解決方案。現場(chang),蘇姿豐博(bo)士展(zhan)示了AMD端到(dao)端AI計(ji)算硬件產品組(zu)合。

全新Instinct MI350系列、ROCm 7軟件、AMD開(kai)發云、AMD Threadripper和Radeon AI解決(jue)方案,都(dou)將在今年問世。

蘇姿(zi)豐博士談(tan)道,AMD相信(xin)開放的(de)生態(tai)系(xi)統對(dui)AI未來至關重(zhong)要,并且(qie)是唯一(yi)一(yi)家(jia)致力于(yu)硬件、軟(ruan)件和解決方案開放的(de)公司。

一、MI350系列:內存容量比B200多60%,8卡峰值AI算力達161PFLOPS

據蘇姿(zi)豐博士分享,數據中心AI加速器TAM市場將每年(nian)增長60%以上(shang),到2028年(nian)達到5000億美元,預計推(tui)理將在未來(lai)幾年(nian)內(nei)每年(nian)增長80%以上(shang),成(cheng)為AI計算的最大驅動力。

AMD履行Instinct GPU路線圖承諾,繼2023年(nian)(nian)發布MI300A/X、2024年(nian)(nian)推出MI325后,MI350系列今(jin)年(nian)(nian)第三季度上(shang)市,下一代MI400系列將(jiang)在明(ming)年(nian)(nian)推出。

目前全球10大AI公司中,有7家正大規模部署AMD Instinct GPU。

MI350系(xi)列GPU是(shi)AMD當(dang)前最先(xian)進(jin)的(de)(de)生(sheng)成(cheng)式AI平臺。MI350X和(he)MI355X采用相同的(de)(de)計算機體系(xi)結構(gou)和(he)內存,MI350X更(geng)適用于(yu)(yu)典型板卡功耗(hao)(TBP)較低的(de)(de)風冷,MI355X的(de)(de)訓練吞吐量、效率、功耗(hao)更(geng)高(gao),更(geng)適用于(yu)(yu)液冷。

和英偉達B200/GB200相比,MI355X的紙面性能同樣能打,內存容量多出60%,FP64/FP32、FP6精度下的峰值性能翻倍提升,FP16、FP8、FP4精度下峰值性能相當

相比上一代(dai)MI300系列,MI355X重點對(dui)低精度數(shu)據類型進行(xing)了優化。FP16/BF16數(shu)據類型吞(tun)(tun)吐(tu)量提高(gao)到4k FLOPs/clock/CU,FP8數(shu)據類型吞(tun)(tun)吐(tu)量增加到8k FLOPs/clock/CU,FP6/FP4數(shu)值格式支(zhi)持2倍(bei)的(de)每(mei)CPU FP8速率。

從表格中可以(yi)看(kan)到,MI355X的向量FP64峰值性(xing)能會比MI300X略低(di),矩陣FP64峰值性(xing)能幾(ji)乎只有MI300X的一(yi)半(ban)。

8卡MI355X總共有2.3TB HBM3e內存、64TB/s內存帶寬,FP4/FP6精度下峰值算力可達到161PFLOPS

MI350系列GPU采用UBB8版型。每個節點搭(da)載8塊(kuai)GPU,通過153.6GB/s的Infinity Fabric雙(shuang)向鏈路進行(xing)通信。

風冷機架最多可配備64個MI350系列GPU、18TB HBM3e。直接液冷機架最多可配備128個MI350系列GPU、36TB HBM3E,可提供高達2.6EFLOPS的FP4性能。

二、1850億顆晶體管,多種先進封裝混搭

MI350系列采用增強的模塊化Chiplet封裝,晶體管數量從上一代的1530億顆增加到1850億顆,但核心總數減少。

和(he)前代相似,MI350系列GPU采用了多種3D和(he)2.5D先(xian)進封裝技術。

采用臺積電N3P工藝的8個(ge)(ge)加(jia)速器Complex die(XCD)堆疊在(zai)2個(ge)(ge)采用N6工藝的I/O base die(IOD)上。每(mei)個(ge)(ge)XCD有32個(ge)(ge)CU(計算單元)、4MB L2緩存。AMD還給每(mei)個(ge)(ge)XCD預留(liu)了(le)4個(ge)(ge)CU,這(zhe)些CU會(hui)根據需要被禁(jin)用。IOD包含128個(ge)(ge)HBM3e通道(dao)、256MB Infinity Cache、第四代(dai)Infinity Fabric Link。

中(zhong)間Infinity Fabric先(xian)進封裝對分帶寬(kuan)提升(sheng)到5.5TB/s,通(tong)過(guo)Chiplet集成(cheng)和統(tong)一內存(cun)架(jia)構(gou)實現更高的靈活性和擴展(zhan)性,并通(tong)過(guo)降(jiang)低總(zong)線頻率(lv)和電壓(ya)來降(jiang)低非核心功耗。GPU與其它芯(xin)片(pian)通(tong)信用的4代Infinity Fabric總(zong)線帶寬(kuan)達到1075GB/s。

相比上一代(dai),MI350系(xi)列增加了更多內存(cun)容量和內存(cun)帶(dai)寬。

通過矩陣核心增強和靈活的量化控制,與MI300X相比,MI350X的每CU峰值HBM讀帶寬提升多達50%

三、跑DeepSeek R1提速高達3倍,推理成本遠低于B200

推理方面,當運行Llama 3.1 405B大模型,執行AI Agent與聊天機器人、內容生成、摘要總結、對話式AI等廣泛AI用例時,相比上一代MI300X,MI355X能實現2.6倍~4.2倍的推理性能提升。

無論是運行DeepSeek R1、Llama 3 70B還是Llama 4 Maverick,MI355X都能實現3倍于MI300X的推理(li)性能。

在采用相同GPU數量、以FP4精度運行DeepSeek R1和Llama 3.1 405B模型時,相比英偉達B200使用自研TensorRT-LLM推理引擎,MI355X使用SGLang、vLLM等開源推理框架的推理性能可提升20%~30%

運行Llama 3.1 405B模型時,MI355X使用vLLM的推理性能,與GB200使用TensorRT-LLM的性能相媲美

與B200相比,MI355X每美元可提供多出40%的token,相應也(ye)就能提供更低的推理成本。

訓練方面,與上一代MI300X相比,在FP8精度下進行Llama 3 70B模型預(yu)訓練,MI355X可提供3.5倍的吞吐量;在微調Llama 2 70B時,MI355X可實現多達2.9倍的加速。

與英偉達B200、GB200相比,MI355X也能取得同等甚至更高的預訓練或微調性能。

這意味著理論(lun)上MI355X能實現更快(kuai)的訓練和(he)推理,縮短從(cong)模(mo)型開發到(dao)部署(shu)的時間。

四、ROCm 7:超3.5倍推理性能提升,支持桌面端與Windows

AMD的開(kai)源軟件戰略正在取得成(cheng)效。在開(kai)源社區幫助下,AMD軟件生(sheng)態系統(tong)發展突飛猛進。

ROCm軟件(jian)棧是AMD為前沿模型訓練和大(da)規(gui)模推理而設(she)計的統一(yi)架構(gou),在計算密度、內存、帶寬、擴(kuo)展(zhan)、互連方面提供領先(xian)優勢(shi)。

AMD ROCm軟(ruan)件(jian)生態(tai)系(xi)統持(chi)續優(you)化推(tui)理和訓練性能(neng),對(dui)Llama、DeepSeek等(deng)主流(liu)模(mo)型實現Day 0級支持(chi),將發(fa)布節(jie)奏從每(mei)季(ji)度加(jia)快到(dao)每(mei)兩周,持(chi)續改善(shan)開發(fa)者的開箱即用體驗。

AMD還增加了(le)捐贈開源社區的GPU數(shu)量。PyTorch、VLLM、SGLang、Hugging Face等公(gong)司或組(zu)織將免費獲得(de)GPU,這樣就能(neng)持續集成測試,確保他們研發的軟件棧和新(xin)功能(neng)都能(neng)在(zai)AMD硬件上開箱即(ji)用。

通過頻繁的(de)更(geng)新、先(xian)進的(de)數據(ju)類(lei)型(如FP4)和新算法(如FAv3),ROCm正在實現下一(yi)代(dai)AI性能,同時(shi)推動開源框架(如vLLM和SGLang)比封閉替代(dai)方案更(geng)快地向前(qian)發展(zhan)。

ROCm 7將(jiang)于2025年(nian)第(di)三季度(du)普遍可用,支持MI350系列GPU。AMD將(jiang)在6月12日發布(bu)一個(ge)公開預覽版,官方版本(ben)將(jiang)于8月發布(bu)。亮點包括:

1、性能提升:與上一代ROCm 6版本相比,ROCm 7擁有超過3.5倍的推理能力和3倍的訓練(lian)能力。這(zhe)源于可用性、性能和(he)(he)對低精(jing)度數據(ju)類型(如(ru)FP4和(he)(he)FP6)支持(chi)等方面的進(jin)步(bu)。通信棧的進(jin)一步(bu)增強優化了(le)GPU利用率和(he)(he)數據(ju)移動。

▲ROCm的新推理功能

推理方面,與上一代ROCm 6對比,ROCm 7在相同硬件上運行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型,可實現3.2~3.8倍的推理和訓練性能。

AMD在訓練方面(mian)同樣擁抱(bao)開(kai)源,有自研的(de)開(kai)源模(mo)(mo)型(xing)(xing)。AMD組(zu)建(jian)了一個AI科學家團隊(dui),該團隊(dui)用AMD的(de)軟(ruan)件(jian)和硬(ying)件(jian)來研發模(mo)(mo)型(xing)(xing)(包括(kuo)文本模(mo)(mo)型(xing)(xing)、文生圖模(mo)(mo)型(xing)(xing)、歐洲(zhou)模(mo)(mo)型(xing)(xing)、多模(mo)(mo)態(tai)模(mo)(mo)型(xing)(xing)、游(you)戲Agent等),試圖實現最佳性能。

▲新訓練功能

這里(li)補(bu)充個插曲,歐(ou)洲模型源自AMD之前收購(gou)的芬蘭silo AI。silo AI一(yi)直致力于構建支持(chi)多種歐(ou)洲語言的模型,他們也跟法國明星大模型獨角獸Mistral AI合(he)作(zuo)。

相比ROCm 6,ROCm 7在相同硬件上訓練Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等開源模型,可實現3~3.1倍的性能提升。

2、分布式推理:ROCm 7引入了一種(zhong)健壯的分布式推理方法,利用與(yu)開(kai)源(yuan)生態系統的協作,包括SGLang、vLLM、llm-d等(deng)開(kai)源(yuan)推理框架。通過(guo)采用開(kai)放策略,ROCm 7與(yu)這些合(he)作伙伴(ban)一起構建、共同(tong)開(kai)發共享(xiang)接口和原語(yu),從而在(zai)AMD平臺上實現(xian)高效(xiao)的分布式推理。

英偉達TensorRT-LLM工具不支持DeepSeek R1 FP8精度,但vLLM、SGLang等開源推理框架均可支持。由于AMD與這些開源軟件緊密合作,MI355X能取得更好的推理結果,吞吐量比B200高出30%

3、企業AI解決方案:ROCm企業級AI軟件棧(zhan)作(zuo)為一(yi)個全(quan)棧(zhan)MLOps平臺首次亮相,專為企業環境中的(de)(de)無(wu)縫AI操作(zuo)而設計,通(tong)過交鑰匙工具實現安全(quan)、可擴展的(de)(de)AI,用于(yu)微調、合規性、部署和(he)集(ji)成(cheng)。它包括針對行(xing)業特定數據進行(xing)模型(xing)微調的(de)(de)工具,以及與結構(gou)化(hua)(hua)和(he)非結構(gou)化(hua)(hua)工作(zuo)流(liu)的(de)(de)集(ji)成(cheng),通(tong)過AMD生(sheng)態(tai)系統內的(de)(de)合作(zuo)伙(huo)伴關(guan)系來開(kai)發參考應用,如聊(liao)天(tian)機器人和(he)文檔(dang)摘(zhai)要。

4、支持在Ryzen筆記本電腦和工作站上的開發:可執行AI輔助(zhu)代碼、定制自動化、先進推理(li)、模型微調等任務,將(jiang)ROCm體(ti)驗擴展到端側。

AMD Ryzen AI 300筆記本電腦可本地運行240億個參數的AI模型。更專業的Ryzen AI Max筆記本電腦,本地可跑700億個參數的模型。Threadripper + Radeon AI工作站,本地可跑1280億個參數的模型。

ROCm將支持In-Box Linux,并首度支持Windows操作系統。預(yu)計(ji)從2025年下半(ban)年開始,ROCm將(jiang)出現在主要的發行版中,將(jiang)Windows定位為一(yi)流的、得到全面(mian)支(zhi)持的操(cao)作(zuo)系統,確保家庭和企業(ye)設置的可移(yi)植(zhi)性和效率。

AMD還首次推出開發者云,讓(rang)開發(fa)者能夠即時、無(wu)障礙地訪問ROCm和AMD GPU,實現無(wu)縫(feng)的(de)AI開發(fa)和部署。

這個完(wan)全托管的環境提供了(le)對MI300X GPU的即時(shi)訪問(wen),無需(xu)硬(ying)件(jian)(jian)投資或本地(di)(di)設置,只需(xu)Github或電(dian)子郵件(jian)(jian)地(di)(di)址即可輕松設置。Docker容(rong)器(qi)預(yu)裝(zhuang)了(le)流行的AI軟件(jian)(jian),最大限度地(di)(di)減少(shao)了(le)安裝(zhuang)時(shi)間(jian),同時(shi)給開發人員定制(zhi)代碼的靈(ling)活性。

其可擴展(zhan)的計算(suan)選項包括(kuo):

  • 小型,1x MI300X GPU (192GB GPU內存);
  • 大型,8x MI300X GPU (1536GB GPU內存)。

率先注冊的開發者可(ke)獲得(de)(de)25小時的免費積分(fen),通過(guo)ROCm Star開發者證書(shu)等(deng)計(ji)劃可(ke)獲得(de)(de)最多50個小時的額(e)外(wai)時間。

五、“Helios”AI機架明年問世,搭載下一代3nm AI網卡

MI350系列機架(jia)基礎設施完全基于開放標準(zhun),可采用x86 CPU(5代EPYC)、Instinct GPU(MI350系列)、UEC Scale-Out NIC(AMD Pensando “Pollara” NIC)。

明年,AMD將推出下一代AI機架基礎設施解決方案——Helios AI機架將集成EPYC “Venice” CPU、MI400系列GPU、Pensando “Vulcano” NIC。

該架構橫向擴展基于超(chao)以太網(Ultra Ethernet),縱向擴展基于UALink(Ultra Accelerator Link),并提供Fabric Manager作為(wei)ROCm生(sheng)命周期管(guan)理的一部分,以支持基礎設施自動化(hua)。

網絡對于構建機架級規模的AI系統至關重要。為了擴大網絡規模,AMD去年推出了Pensando Pollara 400 AI NIC。該NIC現(xian)可在(zai)MI350系統(tong)里大規模部署。

相比英偉達ConnectX7、博通Thor2,AMD Pollara可實現高出10%~20%的RDMA性能。

AMD使用UEC標準來推動創新。由于先進UEC功能運行在Pollara內部,AMD可將客戶的fabric成本降低16%,這(zhe)個(ge)分析是基于(yu)8k GPU集群。當將(jiang)這(zhe)些集群擴展到(dao)32k、64k、128k時,成本(ben)和節(jie)省幅度會(hui)快速增加。

作為MI400系列的一部分,下一代AMD Pensando “Vulcano” AI NIC將在2026年作為默認配置(zhi)發貨。

Vulcano采用3nm制程,提供800G網絡吞吐量,每GPU的橫向擴展帶寬是上一代的8倍,支持UAL和PCIe Gen6,相比PCIe Gen6提供了2倍的帶寬,可擴展到100萬塊GPU,并具有完整的軟件向前和向后(hou)兼容(rong)。

這些(xie)優勢將直接轉化(hua)為(wei)更快的(de)(de)模型訓練(lian)和更好(hao)的(de)(de)推理性能,為(wei)客(ke)戶帶來巨(ju)大的(de)(de)經濟優勢。

六、AI網絡:UALink支持1024塊GPU互連,今年Q3推出全新DPU

AI模型尺寸每三年(nian)增長1000倍(bei),不僅需要(yao)更(geng)多(duo)的計算、內存(cun),還需要(yao)更(geng)多(duo)的網(wang)絡帶寬來進行訓(xun)練和分布式推理(li)。如(ru)今訓(xun)練數據集每8個月翻(fan)一(yi)番。這些需求(qiu)都(dou)超(chao)過(guo)了芯片(pian)的發展速(su)度,芯片(pian)晶體(ti)管密(mi)度每兩年(nian)才翻(fan)一(yi)番。

唯一的方法是構建分布式系(xi)統創新,實現(xian)AI芯片的數據中心級擴展(zhan)。

為了支持大量GPU一起工作,AMD與100多家公司一起成立了超以太網聯盟(Ultra Ethernet)。超以太網技術是以太網的進化,能擴展至英偉達Infiniband的20倍、經典以太網的10倍

去年(nian)成立(li)的(de)UALink(Ultra Accelerator Link)聯盟旨在擴展將AI芯片網絡規(gui)模,提供更高(gao)的(de)帶(dai)寬、更低的(de)延時。與(yu)英偉(wei)達NVLink相比(bi),UALink完全開放(fang),由100多個(ge)聯盟成員支(zhi)持,意(yi)味著客戶可以(yi)使用任(ren)何GPU、任(ren)何CPU和任(ren)何交換(huan)機來擴展他們(men)的(de)架構。

UALink支持多達1024個GPU連接在一起的能力,是英偉達NVLink支持GPU規模的2倍

在GPU系統連接的前端網絡方面,AMD宣布Salina 400 DPU將在今年(nian)第三季度推(tui)出,目(mu)標成為“目(mu)前市(shi)場(chang)上(shang)性能最好、最安全、可擴展的AI前端網絡(luo)基礎設施(shi)”。

Salina 400 DPU的性能達到上一代的2倍,相比英偉達Bluefield 3 DPU性能提升40%。該DPU可安全橋接AI服務器到企業,提高AI服務器性能與網絡、安全性、存儲卸載,引擎對網絡功能的加速可達到CPU的40倍

自動(dong)化同樣不可(ke)或缺(que)。ROCm AI生命周期管理軟件(jian),可(ke)將客戶(hu)的(de)部(bu)署時間從幾個月減少到(dao)幾天。

ROCm將在2026年推出Fabric Manager,確保用戶可自(zi)動部署機架級規模(mo)的應用,并自(zi)帶可靠性(xing)、可用性(xing)和可維護性(xing)。

七、AMD設定2030年新目標:將機架級能效提高20倍

能效(xiao)長期是與AMD的路線(xian)圖(tu)和產品戰略相一(yi)致的指(zhi)導核心設計原則。

在2020年,AMD通過在短短六年內將AMD移動處理器的能效提高25倍,超(chao)額完成了(le)25×20的目標。

如今AMD已超越其30×25的目標(與2020年相比,將加速計算節點的能源效率提高30倍),在AI訓練和高性能計算方面,使用當前配置的4個MI355X GPU和一個EPYC第五代CPU,實現了38倍的節點級能效提升,與5年前的系統相比,在相同的性能下,能耗降低了97%

現在,AMD又設定了一個新的2030年目標,即在2024年的基礎上,將機架規模的能源效率提高20倍(幾乎是之前行業效率的3倍),使目前需要超過275個機架的典型AI模型到2030年能夠在一個機架內進行訓練,同時減少95%的運營用電量,將模型訓練的碳排放量從約3000公噸減少到100公噸

這些預測是基于AMD芯(xin)片和系(xi)統設計路(lu)線(xian)圖以及經(jing)能效(xiao)專家Jonathan Koomey博士驗證的測量方法。

結合軟件和算法的進步,新目標可以使整體能源效率提高100倍

到(dao)2030年(nian)機架規模的(de)(de)20倍目標(biao)反映(ying)了下一個前沿領域:不僅(jin)關注芯(xin)片(pian),還(huan)關注更(geng)智(zhi)能(neng)、更(geng)高效(xiao)的(de)(de)系(xi)統,從芯(xin)片(pian)到(dao)全機架集(ji)成,以滿足數據中(zhong)心級的(de)(de)功率需求。

結語:全棧布局,豪賭AI計算未來

AI基礎(chu)設施如(ru)今已(yi)是數據中心AI芯片兵家必(bi)爭之地。從今日釋放信息來看(kan),AMD面(mian)向整個(ge)機架(jia)級基礎(chu)設施的(de)布局已(yi)趨(qu)于完整,覆蓋從CPU、GPU、內存、網(wang)絡(luo)、存儲、軟硬件協同設計到系統(tong)的(de)性能與(yu)能效(xiao)優化。

隨著頂尖大(da)模型性能(neng)增長放緩,產學界不再一味煉大(da)模型,而是更多探(tan)索圍(wei)繞可持續、更經濟地擴展AI計算的相關創新,這(zhe)正推動(dong)AI模型的訓練和部署效率持續提(ti)升。

除了提升硬件性能與(yu)配置外(wai),AI軟件棧(zhan)和(he)AI機(ji)架級基(ji)礎設(she)施(shi)的(de)優(you)化,都成為(wei)AMD面向未來增強AI競(jing)爭力的(de)重點投入方向。與(yu)英偉達不同(tong)的(de)是,AMD認(ren)定開源才能推動AI以最(zui)快(kuai)速(su)度(du)進步,正堅定擁抱開源,構(gou)建一個完全開放(fang)的(de)軟件生態系統。

在演講尾聲,蘇姿(zi)豐博士強調:“AI的(de)(de)未(wei)來不會由任何一家公司或在一個封閉的(de)(de)生態系(xi)統中建立,它將由整個行業的(de)(de)開(kai)放合作來塑造成型。”

作為全球數據(ju)中心AI芯片市場(chang)(chang)的第二(er)名,AMD比(bi)第一(yi)名的包袱更輕,比(bi)后位者吞食市場(chang)(chang)份額的機(ji)會更大。而(er)蓄勢待出的MI400系列和(he)“Helios” AI機(ji)架級基礎設(she)施,將(jiang)蘊藏著AMD押注(zhu)下一(yi)股AI浪潮、釋放生成式AI和(he)高性能計算的機(ji)遇與潛力。