芯東西(公眾號:aichip001)
作者 | ?ZeR0
編輯 | ?漠影

芯東西8月6日報道,昨晚,“英偉達勁敵”之一Groq甩出了兩個重磅新聞:

1、獲得6.4億美元D輪融資,由貝萊德領投,思科、三星旗下風投機構等跟投,估值達28億美元(折合約200億人民幣)。

2、請來2018年圖靈獎得主、“深度學習三巨頭之一”、紐約大學教授、Meta副總裁兼首席AI科學家楊立昆(Yann LeCun),擔任技術顧問。

楊立昆雖然經常接地氣地跟馬斯克隔空互噴,但論起AI學術界的地位、產學雙棲的實力,沒有幾人能比這位AI重要奠基人物享有更高的聲譽,而且是前沿世界模型的“頭號代言人”。

天天喊話AI產業大佬的Groq,這回真“傍”上了一位重量級大牛。

這家由谷歌TPU核心成員搭伙創辦的創企堪稱AI芯片界的整活兒大師,剛成立時主打神秘感,把技術和產品瞞得密不透風,吊足了業界的胃口。

后來市場不及預期,生存遇到危機,Groq痛定思痛,在抓住生成式AI這根救命稻草后畫風突變,打出“世界最快推理”的招牌,接連喊話“宇宙網紅”馬斯克、OpenAI CEO薩姆·阿爾特曼、Meta創始人兼CEO馬克·扎克伯格,屢屢挑釁英偉達,跟剛成立時的低調作風判若兩司。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

除了搏眼球功夫深,它的吸粉能力也可圈可點,不少知名大佬都給它打過廣告。

楊立昆說“Groq芯片真的很有市場”。扎克伯格宣布Groq將為Meta Llama 3.1大語言模型提供推理芯片。原阿里副總裁、創辦AI Infra創企Lepton AI的賈揚清自稱是“Groq超級粉絲”。

這次新融資后,硅谷AI芯片三大獨角獸——Groq(估值28億美元)、Cerebras(估值40億美元)、SambaNova(估值51億美元)——終于在200億人民幣估值俱樂部會師。

一、融資金額比預期翻倍,今年銷售額可能達1億美元

全球最大AI計算巨頭英偉達的市值已經一度飆升到3萬億美元,2023年營收達609億美元。

相比之下,Groq的體量還很小,根據《福布斯》看到的財務文件,這家創企2023年的銷售額僅為340萬美元,凈虧損達到8830萬美元

不過消息人士稱,Groq預計今年銷售額可能樂觀地達到1億美元

但走到今天這一步,對于這家AI芯片創企來說已經是時來運轉、柳暗花明了。

別看Groq是現在叫板英偉達最起勁兒的AI芯片創企之一,在ChatGPT引爆全球生成式AI熱潮前,Groq曾經歷了一段很難熬的日子。

據聯合創始人喬納森·羅斯 (Jonathan Ross)回憶,Groq有好幾次差點“死掉”,在2019年低谷期時再有一個月就沒錢了。

以至于羅斯后來都懊悔Groq創辦得有點早。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲Groq創始人喬納森·羅斯

2016年底,包括羅斯在內,谷歌TPU十位核心成員中的八人悄悄離職,合伙創立Groq。

谷歌TPU,AlphaGo擊敗世界圍棋冠軍背后算力的核心功臣,一戰成名,帶動起全球專用AI芯片市場的火熱。它的核心設計人員出走創業,受關注程度可想而知。但Groq創立初期一路神隱,悄悄熬過了一段缺錢窘境,直到2019年年底才偶爾發發博客文章,滿足一下業界的好奇心。

2017年,Groq被報道獲得1030萬美元啟動資金,這是它第一次出現在公眾視野。之后找到新投資者似乎就變得困難,Groq又經歷3輪融資,但累計金額僅6000多萬美元。

直到2021年4月,Groq終于拿到一筆相對大的3億美元融資,總融資額超過3.6億美元,估值超過10億美元,躋身芯片獨角獸俱樂部。

時隔3年,Groq如今一口氣獲得6.4億美元新融資,總融資額越過10億大關,估值暴漲到28億美元,比上次融資后估值的兩倍還多。

羅斯新發的推文一股凡爾賽味兒:我們起初打算融資3億美元來著,為了能在2025年第一季度末部署10.8萬塊IPU投入生產,誰承想籌到2倍的資金,所以也在擴大云計算和核心工程團隊。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

二、跑Llama 3 70B,快過GPT-4o mini

在發布旗艦大語言模型Llama 3.1 405B時,扎克伯格發表一篇題為《開源AI是前進的道路》的文章,其中提到“像Groq這樣的創新者已為所有新模型構建了低延遲、低成本的推理服務”。

羅斯稱,相比用英偉達GPU,LPU集群將為大語言推理提供更高吞吐量、更低延遲、更低成本。

Groq自研的LPU(語言處理單元)旨在克服大語言模型的計算密度和內存帶寬瓶頸,計算能力超過GPU和CPU,能夠減少計算每個單詞所需時間,更快生成文本序列。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

在ChatGPT掀起生成式AI熱潮后,經歷過瀕臨生存危機的Groq開啟暴走模式,瘋狂宣傳自家AI推理引擎LPU,號稱做到“世界最快推理”,并在社交平臺上頻繁發文和轉發合作伙伴們、網友們對其LPU的實測結果和好評。

今年2月,根據Groq及一些網友分享的技術演示視頻,在LPU上運行大語言模型Mixtral 8x7B-32k生成回答只用時11秒,而OpenAI ChatGPT 4需要花費長達1分鐘。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

AI寫作創企HyperWriteAI CEO Matt Shumer稱LPU“快如閃電”、“不到1秒寫出數百個單詞”、“大語言模型的運行時間只有幾分之一秒”。

根據Artificial Analysis今年7月公布的數據,Groq以大約340tokens/s的輸出速度提供Llama 3 70B,比GPT-4o mini的兩倍還快。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

通用全球資本參與了Groq的多輪融資,其聯合創始人埃米什·沙阿(Aemish Shah)稱Groq產品的推理速度“明顯優于市場上任何其他產品”。

在即時AI推理速度的吸引下,大批開發者涌向Groq。

今年3月,Groq推出了一個由LPU驅動的開發者平臺GroqCloud。開發者可以通過這一平臺租用LPU芯片,而無需直接購買。

該平臺提供Meta Llama 3.1、OpenAI Whisper Large V3、谷歌Gemma、Mistral Mixtral等開源模型,支持在云實例中使用其芯片的API。

為了吸引開發者,Groq提供免費訪問:第一個月就有7萬人注冊。現在已有超過36萬名開發人員在GroqCloud上創建AI應用,數量還在增加。

Groq最近剛剛聘請了英特爾前代工業務前負責人、惠普前首席信息官斯圖爾特·潘恩(Stuart Pann)擔任首席運營官。潘恩對Groq的增長持樂觀態度:在GroqCloud的客戶訂購中,超過1/4的客戶要求支付更多的計算能力。

Groq打算用新融資擴大其TaaS(Token即服務)產品的版圖,并為GroqCloud添加新的模型和功能。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

三、架構設計不走尋常路:沒HBM、沒CoWoS,比GPU效率高

Groq宣稱LPU在運行大語言模型及其他生成式AI模型等解決方案時,能效至少是GPU的10倍。

GroqChip1芯片采用14nm制程,搭載230MB片上共享SRAM,內存帶寬達80TB/s,FP16算力為188TFLOPS,int8算力為750TOPS。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億

與很多大模型芯片不同的是,Groq的芯片沒有HBM、沒有CoWoS,因此不受HBM供應短缺的限制。它采用了單核心時序指令集計算機架構,無需像使用HBM的GPU那樣頻繁從內存中加載數據,能有效利用每個時鐘周期,降低成本,運行大語言模型的速度更快。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲傳統GPU內存結構

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲Groq芯片內存結構

實時AI推理是一個專門的系統問題。硬件和軟件都在速度和延遲方面發揮作用。再多的軟件也無法克服芯片設計和架構造成的硬件瓶頸。

Groq用軟件定義硬件方法將執行控制和數據流控制的決策步驟從硬件轉移到了編譯器。通過精確調度每個內存負載、操作和數據包傳輸,確保最高的性能和最快的系統響應,釋放了額外的芯片空間和處理能力。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲Groq的簡化軟件定義硬件方法釋放了額外的芯片空間和處理能力

編譯器會將模型劃分為較小的塊,這些塊在空間上映射到多個LPU芯片上。就像一條計算裝配線,每個LPU集群都設置為運行特定的計算階段,并將執行該任務所需的所有數據存儲在其本地片上 SRAM內存中,數據傳輸從LPU到LPU,不需要外部HBM芯片和外部路由器。

這種高效的流水線架構之所以可行,是因為LPU推理引擎具有完全確定性,系統準確地知道每個芯片上每個階段發生的情況,使流水線能夠以最高效率運行。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲LPU(右)的可編程流水線架構與GPU(左)方法更快更高效

根據Groq的描述,GPU的工作方式是在小型芯片集群中運行,每個集群執行生成token所需的每個順序計算階段。在每個階段,GPU從另一個芯片上的HBM中檢索執行該階段所需的所有數據,完成任務后,數據返回到片外HBM,所有傳輸數據都需要來自外部芯片的指示,既低效又昂貴。

Groq編譯器將操作直接映射到LPU,無需任何手動調優或實驗,因此LPU的設計非常簡單。基于張量流式架構,LPU不需要CUDA或內核。

AI芯片獨角獸宣布楊立昆加盟!估值暴漲到200億▲單個LPU架構

“我們的目標是在硬件上投入的每一美元都能獲得全額回報,我們不想賠錢。”羅斯說。

Groq從兩年前開始銷售芯片,陸續獲得客戶,已經與Meta、三星等多家公司以及沙特阿拉伯等主權國家合作生產和推出其芯片。

阿貢國家實驗室曾使用Groq的芯片研究核聚變。今年早些時候,Groq與沙特阿美數字公司達成合作,計劃在中東和北非地區建立最大的AI推理即服務計算基礎設施之一;并與歐洲可持續能源公司Earth Wind & Power合作,將在挪威數據中心部署數萬塊IPU。

目前Groq正在推進下一代芯片的研發生產,去年8月宣布將與晶圓代工廠格芯簽訂生產4nm IPU的合同。

根據此前報道,Groq下一代芯片的能效預計相較前一代提高15~20倍,尺寸將變得更大。執行相同任務所需的芯片數量也將大幅減少。

在對Meta Llama 2 70B模型做推理基準測試時,Groq將在9個機架中576塊芯片互連。而到2025年完成這一任務,可能只需在2個機架使用大約100塊芯片。

結語:AI芯片越來越熱鬧了

隨著生成式AI熱潮持續,AI芯片市場前景可期,Groq面臨的競爭也日趨激烈。

根據Groq在今年4月發表的博客文章,到2027年,AI芯片TAM市場預計將達到1194億美元,當前約40%的AI芯片用于推理,應用程序達到成熟后通常會將90-95%的資源分配給推理,這表明隨著時間的推移,推理市場會變得更大。

目前英偉達把控著70%~95%的AI芯片市場。谷歌、微軟、亞馬遜、Meta等科技巨頭均在自研AI芯片。OpenAI今年籌備啟動一項AI芯片制造計劃。Arm也被傳將成立一個AI芯片部門。

多家AI芯片企業均有新動作。去年年底,美國AI芯片創企D-Matrix獲得1.1億美元B輪融資;今年6月,美國AI芯片創企Etched宣布完成1.2億美元A輪融資,美國晶圓級芯片獨角獸Cerebras秘密申請IPO;7月,日本軟銀集團以6億美元收購英國AI芯片獨角獸Graphcore。

據外媒報道,一位風險投資家拒絕參與Groq的新融資,理由是Groq的方法雖然新穎,但從長遠來看,其知識產權并不可靠。也有一些人質疑Groq大規模生產芯片的成本效益。

要打消市場的種種疑慮,Groq仍需竭力證明自家產品在推理市場的商用實力。

畢竟這么多年來,“英偉達勁敵”越來越多,但市值3萬億美元的英偉達始終只有一個。

來源:Groq,TechCrunch,Forbes