在智猩猩聯合主辦的2025中國AI算力大會上,中昊芯英創始人及CEO楊龔軼凡圍繞《從GPU 到 TPU,同等制程3-5倍性能躍升的 AI 芯片演進之路》這一主題在主會場高峰論壇帶來了主題演講。
要點提煉:
- 沒有人能夠說自己一兩年就可以做到量產很大、可以用的芯片,沒有10年的積累是做不到的。
- 中昊芯英當期的 TPU 芯片產品用于AI計算場景時算力性能超越海外知名GPU芯片近 1.5 倍,能耗降低 30%,公司很快將推出第二代性能更強大的TPU AI 芯片產品。
- TPU的發展有兩個方向,一個是單芯片的性能,另一個是集群性能。
- 今天和未來,所有跟AI芯片關聯的設計理念,都需要考慮如何實現高效的網絡互聯。
- TPU在網絡架構中實現了二維環2D Torus,當然還有更先進的3D Torus,這是其在片間網絡上的創新。
- MoE(Mixture of Experts,混合專家模型,是一種機器學習方法)已經成了標配,大模型里如果沒有MoE,是沒有價值的。
- 因為大模型對計算和帶寬的需求,今天大家在運行大模型服務的時候,都在用H100、H200,大模型的訓練和推理是一塊芯片,分離不了,除非有新的路線和創新出現,未來推理芯片和訓練芯片才會有逐步分化
- 隨著模型的逐步收斂,CUDA的價值在逐步降低。
- 數據的重要性逐步上升,未來是否有合規的行業數據,可能會成為企業的核心競爭力。
演講全文:
楊龔軼凡:大家好,我今天分享的主題是《從GPU到TPU,同等制程3-5倍性能躍升的AI芯片演進之路》。接下來,我將主要和大家分享中昊芯英從2018年我們回國落地到今天將近7年時間,對行業的核心思考,以及最近AI大模型產業快速變遷的過程中,未來我們要支持什么,以及為什么我們今天需要AI專用芯片。
首先做個簡單的介紹,我從2011年斯坦福畢業之后,就一直在美國甲骨文做高性能CPU。到2017年的時候發現摩爾定律在生產制程的迭代過程中在逐步減緩,所以我們認為繼續做通用計算的意義不太大,未來肯定會有一些新的方向去迭代整個計算領域。
2017年的時候我們認為AI浪潮來了,所以當時甲骨文整個做CPU的團都去做各種各樣的AI芯片,比如美國比較有名的SambaNova等。而我們團隊則去了谷歌,開創了TPU這個方向。
在谷歌TPU 2/3/4實踐落地的過程中,我們完成了著名的Transformer模型的落地。它的Attention和MatMul是基于TPU硬件特性優化開發的。
有了Transformer的實踐落地,我們認為AGI實現的可能性大幅度提升。2017年的時候我們預計24、25甚至26年的時候,AGI大概率會落地,我們可以逐步實現真正的人工智能,AI將進而成為整個人類社會的生產力核心。
基于這種對AI 的信念,我們決定投身于做TPU類似方向的AI芯片設計研發和產業落地。我們相信未來算力會成為整個產業的核心,這個方向將重構和迭代整個計算的可能性,因此我們成立了中昊芯英。
從2018年開始,我們已經能夠看到整個人工智能需求的變化,再到今天隨著ChatGPT和國產DeepSeek的出現,大家在生活中已經開始使用大模型去完成各種各樣的任務。
在工作當中,無論國際還是國內,我們看到變化最大的領域其實就是寫程序。在美國很多知名的公司中,90%的簡單程序已經在使用大模型自動生成,并且已經在改變人機交互的方式,以及傳統程序員的工程實現方式。
在國內,包括我們公司在內,目前大概20%-40%的程序是由大模型來完成書寫,以及進行找bug。
相信未來三年左右,程序員實際的寫程序能力都將被迭代成綜合解決方案能力,解決方案可以由大模型去逐步去實現。在這個過程中,AI已經對各種各樣的產業產生了深遠的影響。
這只是一個行業案例。在過去1-2年左右,我們也在各個行業看到了AI的落地。只是說在程序員替代的過程中落地實踐最快。因為做大模型的所有玩家,實際的工作人員就是程序員,程序員最理解程序員的需求,所以程序員的替代是最快的。
相信其他行業也將逐步跟上,未來3-5年,甚至最多10年內,我們將迎來新一波人工智能浪潮,或者說新一波工業浪潮,并將重新定義很多工作崗位。

隨著新的工作崗位的定義,和AI落地實踐的逐步爆發,可以看到整個市場正在快速增長。今年中國AIGC的市場,包括算力市場的預期在內,已經超過2000億人民幣。
從國際上來說,AI市場規模其實更大。在過去一年,我們看到國內算力芯片的需求量在800億人民幣左右,而國際的需求量大概在800-1000億美金。
一、 大模型推動計算Infra變革
隨著模型的迭代,尤其是新的模型迭代,它的算力消耗是非常高的。完成一次模型的訓練和推理的算力值都極高,已經達到1025甚至更高。
推理過程也跟以前產生了很大的區別,這就是剛才說為什么新的計算范式會用新的模型去定義和重構的原因,傳統計算的Infra為什么在新的領域不能用,核心點就在這里,當模型越來越大之后,它已經在顛覆了傳統的計算方式。
傳統的計算方式就像是我們拿出一個手機,你可以同時用很多應用。什么概念呢?小小的一塊芯片無論它是5nm還是10nm,跑的都是多個應用。今天大模型變大之后,發現一個很有趣的現象,現在一個算法、一個模型、一個應用,即使是簡單跑個推理,4塊芯片都不夠用。
我們知道模型有history,有token length,token length越長代表模型的記憶力越好。現在的模型已經從之前的幾千的token length到現在的10萬甚至百萬級別,這個過程也意味著其對內存和計算的挑戰非常大。一些大模型,已經開始用8卡甚至多機互連的方式,才能完成推理。
幾年前,訓練Yolo這類小模型,使用一個機器、或者最多兩個機器,只需要16卡就可以完成,但是今天的大模型千卡都不夠。沒有任何一個做預訓練的玩家會說,我有千卡的H100/B200,或者千卡的國產芯片就能夠完成任何有價值的模型訓練,這是不可能的,因為需要的是萬卡集群。
所以我們看到整個計算的Infra都在迭代,在迭代過程中我們就需要有創新。比如我們中昊芯英在芯片層面有創新,更多的合作伙伴在系統、應用上有創新,這是AI對整個計算領域的迭代和需求。
二、 AI專用芯片是AI Infra的必然發展趨勢
隨著創新的出現,我們認為芯片本身也有創新的機會。回看計算芯片的發展歷史的時候,我們可以看到芯片的架構總是從通用向專用型去發展。為什么會這樣發展呢?
首先專用型芯片開銷非常高,特別是今天把軟件棧的開銷也算進去之后。之前一塊12nm的芯片,把芯片做出來實際投入大概在1.5億人民幣,做到量產并且把軟件棧的開銷全部算進去,大概3億人民幣,也就是5000萬美金,這個我覺得國際上大家相互之間是認可的。一塊7nm的芯片需要8000萬美金,再往下走的話,需要上億美金才能完成一塊芯片從零到量產的過程。這么大的資金投入,如果產品對應的市場不夠大,就沒有價值,投資產出比是不夠的。
所以在行業早期的時候,一般都是通用器件去適應新行業的出現。只有當行業規模足夠大、足夠有價值的時候,才會逐步去定義新的架構和微架構的芯片。因為定義新的架構和微架構,能夠提高芯片的計算效率,提升性價比。
一個很簡單的直觀體驗,如果用通用器件來完成一個模型訓練,投入成本是按億美金來計算,而如果使用專用器件,可以將投入成本降到千萬級,這就是它的核心優勢。
無論是國內還是國際上,整個AI Infra的需求非常大,已經是百億人民幣到千億美金的量級。所以這個時候,新的AI芯片已經成為了整個產業的開發方向。
上圖我列舉了ISSCC、ISCA和HotChips歷年來AI相關的論文占比。不管是學術屆還是產業界,ISSCC、ISCA和HotChips都是頂會的標準。它們不僅包含了前面提到的大芯片或者數據中心芯片,而且包括所有的芯片技術,從物理底層技術到微架構,涵蓋手機芯片、藍牙芯片等,所有的芯片設計都可以去發頂會。我們發現AI的比例越來越高,去年綜合下來接近30%的論文都和AI相關。
通過這個數據,我們可以看到整個行業的發展趨勢,這個賽道正在逐步從CPU、GPU這類通用器件往定制化器件路徑發展。我們認為定制路線能夠比通用器件至少做到3-5倍,甚至10倍的性能提升。
三、 TPU架構比GPU更適合大模型計算
中昊芯英選擇了跟谷歌一樣的思路——TPU。
做TPU不是一個簡單的事情,從0到1的過程需要很長的時間,哪怕是谷歌,他們的TPU也是去年才終于被用到蘋果和其他產業的大模型訓練中。谷歌從0到1用了很長時間,從1到100用了更長時間。谷歌的TPU從0開始,到去年280萬片的芯片量產,這個過程用了整整10年時間。
這也是半導體產業本身不可打破的規律,沒有人能夠說自己一兩年就可以做到量產很大、可以用的芯片,這是不可能的,沒有10年的積累是做不到的。中昊芯英也是花了5年的時間,把一塊芯片從0到1并實現量產,在去年開始實現硬件生態的打造和軟件生態的適配。
今年我們能夠自豪的說,在大部分模型的實測過程中,我們已經能用比海外領先的GPU芯片低一個量級的生產制程,實現1.5倍性能提升的同時,將功耗降低到75%。
此外,我們也定義了新的集群連接方式,能夠支持千卡集群內1024片芯片直接光模塊高速片間互聯,并且有了千卡集群的落地實踐,同時還在行業中完成了大模型訓練和推理的落地。
在這個過程中,我們也積累了一些經驗,和大家分享下在新的模型和芯片設計方向上,我們的思考和收獲。
前面提到芯片設計要花費很長時間,中昊芯英從2018年發展到現在近7年時間,已經逐步開始下一代芯片的迭代。中昊芯英當期迭代的芯片“剎那?”用于AI計算場景時,算力性能超越海外知名GPU芯片近 1.5 倍,能耗降低 30%。我們的第二代性能更強大的TPU AI 芯片產品已經在研發的最后階段,很快就會面向市場推出。
自研芯片的核心價值在于,有了自己設計的TPU之后,所有的IP沒有外購,全部國產自主可控,這樣就有了迭代的能力,并知道未來迭代的方向。
TPU的發展有兩個方向,一個是單芯片的性能,另一個是集群性能。為什么要分這兩個方向呢?剛才提到一個模型現在需要千卡甚至萬卡才能完成訓練,推理也是16卡到32卡的階段。
比如DeepSeek-R1的滿血版,真正看性能的話會發現,不管國產芯片產品還是國外芯片產品,至少16卡是標配,很多能跑性能的是24卡到32卡,因此其片間互聯能力會成為架構的核心痛點。
今天和未來,所有跟AI芯片關聯的設計理念,都需要考慮如何實現高效的網絡互聯。這里包含兩個方面,一方面是芯片內部的定義,另一方面是芯片間的網絡怎么構建。因為現在芯片的使用方式跟傳統的計算方式是有很大區別的。
比如傳統的CPU也好,大家用的手機也好,其網絡架構的一個核心思路,是流量是可以分時進行分享的,就像今天會場的所有人不會同時全部只使用一個手機APP。一個交換機可以接很多人,交換機的鏈路帶寬需求不是所有玩家需求的總和,它是可以做 directing 的。
但是AI的計算過程是不同的。如果用1000張卡來訓練,他們會同時開啟,同時結束,同時需要數據交互,所以傳統的網絡架構其實是不適合的。我們在實踐中發現事實也是這樣的。
因此,我們在網絡架構中實現了二維環2D Torus,當然還有更先進的3D Torus,這是我們在片間網絡上的創新。
片內的設計我們做了哪些創新呢?當我們把傳統的GPU和CPU分開看,來研究它們的能耗分布,一個很有趣的現象是,大家本來認為CPU、GPU應該是計算導向型的器件,但實際上它的能耗里超過40%用于控制,計算和數據的能耗占比反而不夠高。
所以在設計TPU的時候,我們刻意把“控制”的這個這部分進行了降低和重調,讓計算和數據的讀取、搬運成為能耗的主要貢獻者。但這里也有一個壞處,就是降低了它的靈活性,所以TPU核心的AI芯片靈活性是不如GPU的。
四、 TPU驅動軟件棧變革
這里又回到另一個問題,到底是軟件定義硬件還是硬件定義軟件?這也是歷史爭論,我們今天也沒法給出答案。但是從我們的工程實踐來看,二者是相互促進的。因為有了像TPU這樣靈活性不如GPU,但是性價比和性能比GPU更強的芯片,所以軟件棧也發生了新的變革。
舉一個簡單的例子。為什么有段時間MoE會出現?MoE其實是谷歌提出來的,因為TPU的靈活性不如GPU,GPU的模型可以變各種各樣的造型,TPU做不到怎么辦?
TPU的并行能力比GPU強,通過多跑幾個模型,然后取一個共識,這樣模型的性能也可以提升。所以我們看到硬件的出現也會去影響和改變軟件。MoE已經成了標配,大模型里如果沒有MoE我們會認為它沒有價值。
有了定制化芯片的硬件內部結構和網絡拓撲,我們做了一些簡單的對比。我們有自己的硬件網絡棧,也有完整定義的軟件網絡棧。
在千卡集群的實測中發現,我們發現中昊芯英的TPU芯片的延時帶寬的測試數據,跟特斯拉Dojo的TTPoE工程實踐差不多是同一水平,我們已經做到了比傳統網絡帶寬高很多,相比NVLink也已經拉開了一定的優勢。
這是我認為AI芯片未來的優勢,它的每一個技術方向都會比通用器件和通用的協議要好,這樣總體上才能在同樣的生產制程、同樣的工藝、同樣的面積、同樣的成本的情況下,實現3倍、5倍甚至10倍的性能提升,降低AI使用的落地成本。
今天AI的使用成本太高了,我們做了很多行業的實際商業落地,發現很多行業的ROI是不合適的。
比如拿671B滿血版的DeepSeek模型來替代一部分人工的工作,基本投入400萬,但是招一個員工一年也就二三十萬的成本,所以ROI很難做到合理。
未來如何讓AI以更合理的生產成本落地,核心在于我們如何在各個維度去降低成本。這是我認為未來AI芯片的發展方向。
五、 算法定義硬件的時代
雖然剛剛我們提到硬件定義軟件已經有案例了,那么軟件也會定義硬件。MoE就是一個很好的生產實踐,現在的模型都是MoE架構。
另外一個很有意思的現象,就是谷歌研發了TPU,TPU的一大創新點是它里面有Systolic Array(脈動陣列),這進而創造了MatMul這樣的計算方式,最后才有了今天所有大模型基礎架構的核心算子——Attention。
但是Attention存在的問題是,它在對計算的需求非常大的同時,對存儲的要求也極高。我們現在說671B的模型它需要的存儲空間,已經不是簡單的671B參數量乘以每個參數兩個字節的存儲量,相當于300多GB的存儲需求,現在不是這樣了。因為Token length需要知道它的歷史,歷史越長,存儲的東西就越多。因此Attention機制導致671B參數需要的存儲空間已經不是300多GB,有可能是3TB,這也是為什么需要這么多芯片的原因。
在這個過程中,軟件棧已經在開始研究如何設計不同版本的Attention。比如對于GPU來說最合理、最優化的是Linear Attention,因為GPU的并行化計算能力沒有其他AI芯片強,但是靈活性高,這也是Linear Attention的設計思路。而Multi-Head Attention以及其他Attention對AI芯片有更好的適配效果。相信新的Attention機制的出現,也會定義一些新的算子。
同樣的,使用了新的強化學習,包括現在的模型蒸餾技術,也會逐步定義AI芯片硬件在推理過程和訓練過程中計算的區別。只有在這樣的區別真實產生以后,才會逐步實現大模型領域訓練芯片和推理芯片的分化。
舉個例子,今天大家在運行大模型服務的時候,都在用H100、H200,而訓練用的也是H100、H200,那么大家以前說的推理芯片就沒有價值了。因為大模型對計算和帶寬的需求,導致在今天這個時代,訓練和推理是一塊芯片,分離不了。只有新的路線和創新出現,未來推理芯片和訓練芯片才會有逐步分化的標準,去重新定義核心的方向。
隨著新的模型出現及模型的逐步收斂,我們認為CUDA的價值在逐步降低。因為有了新的需求和新的創新點的要求,模型在收斂的過程中,算子的數目會降低,對通用型工具鏈的需求會降低,這樣無論對國產還是國際上的AI芯片,都帶來了很好的紅利。
剛才我們提到芯片的成本很高,一塊7nm的芯片需要一億美金,但是硬件關聯的成本最多不超過2.5億人民幣,剩下大部分開銷至少有一半是跟軟件棧關聯的,甚至更多。
如果現在軟件棧已經在收斂,我們不需要開發那么復雜、通用的軟件棧的時候,軟件棧研發成本和生態構建成本就會降低,這樣對AI芯片的市場化和量級就有了很好的突破。
一個很簡單的實踐論證,就是大模型出來以后谷歌的TPU大規模量產了,需求量增加。前面提到,去年谷歌TPU的生產量是280萬片,NVIDIA GPU的生產量大概是400萬片,這意味著TPU去年占據了全球超過30%的計算市場份額。這是很難想象的事情,因為在模型還沒有收斂、CUDA工具鏈依然是絕對的橋頭堡的時候,谷歌的TPU生產量對比GPU是1:100。
六、 AI專用芯片落地迎來窗口期
所以我們可以認識到,隨著模型的收斂,AI模型越來越成熟,跟產業的結合越來越深入,落地越來越合理,它的商業價值會逐步提升,AI芯片落地也終于迎來了它的時代。
對于中昊芯英來說,我們進行了產品結構的標準化,實現了完整的千卡集群落地,同時還構建了自己的行業模型。
我們認為未來的計算方式一定是一個基礎大模型、一個基礎架構。因為現在有了MCP,有了A2A,Agent已經可以訓練得非常好,再跟實際行業落地的數據公司進行合作,提供基本的工具鏈,就能夠實現在具體領域的模型落地。
這也給了我們一個新的思考,數據的重要性逐步上升,未來是否有合規的行業數據,可能會成為企業的核心競爭力。
在注重自身芯片研發的同時,中昊芯英還高度重視產學研深度融合,目前,中昊芯英與太極股份、浙江大學開展三方合作,引入基于中昊芯英全自研的TPU架構高性能AI芯片“剎那?”構建的人工智能服務器“泰則?”。該服務器通過強大的計算能力,以及高能效比與良好的兼容性,成功應用于浙江大學的多個科研項目中。
中昊芯英還自研預訓練大模型并為細分行業用戶提供再訓練/推理接口,賦能金融、醫療、傳媒、 營銷、教育、編程等多行業發展。其中,在金融領域,我們與國內頭部金融機構國泰君安共創了“泰則·練氣”大模型,這是業界首款適用于金融數據處理的剛性大模型,具備結構化數據分析、作圖 、處理、建模等功能。
此外,去年9月,中昊芯英與深圳聯通聯合啟動了廣東地區首個全采用國產TPU芯片的高性能AI智算中心,形成訓推一體化樞紐,成為中國聯通在深圳的核心智算高地的重要組成部分。
在落地實踐過程中,我們發現很多應用場景已經實現了早期得拓展與落地了。相信未來兩三年之后,大家會在很多行業的實際生產過程中看到大模型作為核心生產力的身影。
在此,我也呼吁在座的所有嘉賓,我們今天進入了一個新的時代,新的時代在改變我們,但不應該只有一部分人受到時代紅利的影響,而是能夠影響到整個行業,或者說整個國家的所有角落。
所以中昊芯英做了很多商業向善項目,這些商業向善項目并不是簡單的捐贈,更多的是把我們對AI未來的預期、世界的預期,帶到原來接觸不到這些事情的角落里去。讓他們也能接觸到AI到底是什么,未來會發展成什么樣,以及他們對自己的未來應該有什么樣的暢想。
所以,我們跟云南當地山區的學校開展合作,對云南當地山村中小學生進行一對一幫扶;跟上海交通大學、浙江大學、杭州電子科技大學等高校達成了戰略合作,還構建了人才培養團隊等。我們希望在他們年輕的時候,能夠有很多自己的想法和觀點,最后去支持整個產業的變遷。
以上就是我今天的分享,謝謝大家!









