芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影
芯東西9月10日報道,昨晚,英偉達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。
英偉達創始人兼CEO黃仁勛說:“正如RTX徹底改變了圖形和物理AI一樣,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,這種AI模型可以同時處理數百萬個知識token的推理。”
Rubin CPX配備128GB GDDR7內存,NVFP4精度下AI算力可達30PFLOPS,非常適合運行長上下文處理(超過100萬個token)和視頻生成任務。
Vera Rubin NVL144 CPX平臺可在單機架集成144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速內存,內存帶寬達到1.7PB/s。
其AI性能是英偉達Vera Rubin NVL144平臺的2倍多,是基于Blackwell Ultra的GB300 NVL72系統的7.5倍,相比GB300 NVL72系統還能提供3倍更快的注意力機制。
Rubin CPX GPU預計將于2026年底上市。
一、全新專用GPU:128GB內存,30PFLOPS算力
Rubin CPX基于NVIDIA Rubin架構構建,采用經濟高效的單芯片設計,配備128GB GDDR7內存,采用NVFP4精度,并經過優化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視頻生成,提供了遠超現有系統的性能和token收益。
與英偉達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。
相比之下,今年3月發布的Rubin GPU,在FP4精度下峰值推理能力為50PFLOPS。而英偉達在今年6月才公布創新型4位浮點格式NVFP4,這種格式的目標是在超低精度下力求保持模型性能。
其分析表明,當使用訓練后量化(PTQ)將DeepSeek-R1-0528從原始FP8格式量化為NVFP4格式時,其在關鍵語言建模任務上的準確率下降幅度不超過1%。在AIME 2024中,NVFP4的準確率甚至提高了2%。
Rubin CPX采用的GDDR7,價格比Rubin GPU配備的288GB HBM4高帶寬內存更便宜。
二、單機架AI性能達8EFLOPS,提供100TB快速內存、1.7PB/s內存帶寬
Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平臺中的英偉達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。
Vera Rubin NVL144 CPX平臺可在單機架集成144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速內存,內存帶寬達到1.7PB/s。
其AI性能是英偉達Vera Rubin NVL144平臺的2倍多,是基于Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。
英偉達還在周二分享了GB300 NVL72系統的基準測試結果,其DeepSeek-R1推理性能提升到上一代的1.4倍。該系統還創下MLPerf Inference v5.1套件中添加的所有新數據中心基準測試的記錄,包括Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper的記錄。
英偉達計劃為希望重復使用現有Vera Rubin 144系統的客戶配備專用的Rubin CPX計算托盤(tray)。
Rubin CPX提供多種配置,包括Vera Rubin NVL144 CPX,可與NVIDIA Quantum?X800 InfiniBand橫向擴展計算架構或搭載英偉達Spectrum-XGS以太網技術和ConnectX-9 SuperNIC的Spectrum-X以太網網絡平臺結合使用。
英偉達預計將推出一款雙機架產品,將Vera Rubin NVL144和Vera Rubin NVL144機架結合在一起,將快速內存容量提升至150TB。
三、為分解式推理優化而生,與英偉達旗艦GPU搭配用
這款全新的專用GPU,跟英偉達之前發布的旗艦GPU有什么區別?
據英偉達數據中心產品總監Shar Narasimhan分享,Rubin CPX將作為英偉達的專用GPU,用于上下文和預填充計算,從而顯著提升海量上下文AI應用的性能。原版Rubin GPU則負責生成和解碼計算。
推理由兩個階段組成:上下文階段和生成階段。這兩個階段對基礎設施的要求截然不同。
上下文階段受計算能力限制,需要高吞吐量處理來提取和分析大量輸入數據,最終生成第一個token輸出結果。
生成階段受內存帶寬限制,依賴于快速內存傳輸和高速互連(如NVLink)來維持逐token輸出性能。
分解式推理使這些階段能夠獨立處理,從而實現對計算和內存資源的有針對性的優化。這種架構轉變可提高吞吐量,降低延遲,并提升整體資源利用率。
但分解會帶來新的復雜性,需要在低延遲鍵值緩存傳輸、大語言模型感知路由和高效內存管理之間進行精確協調。
英偉達打造Rubin CPX GPU,就是為了在計算密集型長上下文階段實現專業的加速,并將該專用GPU無縫集成到分解式基礎架構中。
英偉達通過將GPU功能與上下文和生成工作負載相結合來優化推理。
Rubin CPX GPU專為高效處理長序列而優化,旨在增強長上下文性能,補充現有基礎架構,提升吞吐量和響應速度,同時提供可擴展的效率,并最大化大規模生成式AI工作負載的投資回報率(ROI)。
為了處理視頻,AI模型可能需要處理1小時內容中多達100萬個token,這挑戰了傳統GPU計算的極限。Rubin CPX將視頻解碼器和編碼器以及長上下文推理處理集成在單芯片中,為視頻搜索和高質量生成視頻等應用提供了前所未有的功能。
Rubin CPX將能夠運行NVIDIA Nemotron系列最新的多模態模型,為企業級AI agent提供最先進的推理能力。對于生產級AI,Nemotron模型可以通過NVIDIA AI Enterprise軟件平臺交付。
結語:30~50倍投資回報率,每投資1億美元可帶來50億美元收益
Vera Rubin NVL144 CPX采用英偉達Quantum-X800 InfiniBand或Spectrum-X以太網,搭配ConnectX-9 SuperNIC并由Dynamo平臺協調,旨在為下一波百萬token上下文AI推理工作負載提供支持,降低推理成本。
在規模化運營下,該平臺可實現30~50倍的投資回報率,相當于每1億美元的資本支出即可帶來高達50億美元的token收益。英偉達稱這“為推理經濟學樹立了新的標桿”。
Rubin CPX將使AI編程助手從簡單的代碼生成工具轉變為能夠理解和優化大型軟件項目的復雜系統。
知名的美國AI編程平臺Cursor、AI視頻生成創企Runway、AI編程創企Magic等正在探索用Rubin CPX GPU加速他們的代碼生成、復雜視頻生成等應用。