智東西(公眾號:zhidxcom)
作者 | 香草
編輯 | 李水青
智東西6月3日報道,近日,AI技術公司彩云科技發布了全新通用模型結構DCFormer,通過改進注意力矩陣,在相同訓練數據下,最高可以將算力智能轉化率提升至Transformer的2倍。
具體來說,DCFormer改變了向量矩陣的推理通路,將Transformer結構中綁定的矩陣改進為任意線性組合,可以用2組原來的注意力矩陣組合出4種搭配,用8組注意力矩陣組合出64種搭配。
根據實驗,在相同訓練數據和算力下,用DCFormer架構改進后的69億參數模型,擁有比120億參數模型更好的效果。如果GPT-4o能夠應用,其推理一次128k上下文的成本,就可能從4元變成2元。

▲同一款模型在DCFormer架構改進前后的性能偏移曲線
該模型結構相關論文已于5月15日發布在arXiv,并將在第41屆國際機器學習大會ICML 2024正式發表。彩云科技引用一位ICML評委的話透露,今年錄用論文的平均分為4.25-6.33,而DCFormer論文獲得平均7分。
DCFormer模型代碼、權重和訓練數據集已開源發布,相關成果后續將在彩云科技旗下彩云天氣、彩云小譯等產品,以及小夢V4、小夢V5等模型上應用。
在媒體溝通會上,智東西及少數媒體與彩云科技CEO袁行遠進行了深入交談。
當智東西問道,與市面上其他挑戰Transformer的模型架構,如Mamba、RetNet等相比,DCFormer采取的路徑有什么不同?具體有哪些差異化優勢?
袁行遠稱,Mamba等架構對模型的改動都比較大,是沒有辦法在已有模型上去做改進的,需要從頭重新訓練模型。
相較之下,DCFormer是在Transformer的基礎上進行改進,能夠和現有的模型疊加,而不是互斥,因此所有基于Transformer架構的大模型都能在DCFormer的基礎上降低成本
DCFormer對Transformer的改動很小,那么為什么7年間沒有其他團隊實現這一突破?是沒有想到這個路徑,還是其他原因?
袁行遠告訴智東西,實際上這個路徑之前也有人想到,但其大多選擇在預訓練之后去改進,沒有達到理想的效果。為什么彩云科技做到了?袁行遠用“中二”這個詞來形容自己和團隊,“我們相信能做到,并且堅持做了下去。”
談及近期大模型廠商之間的“價格戰”,袁行遠認為,現在處于一個市場搶占的過程,大模型的價格肯定是存在一些補貼的。從電力發展的歷程來看,這些資源未來都會變得越來越便宜,甚至免費,因此廠商提前去做一些補貼也不會有太大的影響。
同時,如果大模型廠商能利用DCFormer架構壓縮大模型訓練推理的成本,也能進一步降低自身的成本,在提供低價云服務時更具優勢。
論文地址:
//arxiv.org/abs/2405.08553
開源地址:
//github.com/Caiyun-AI/DCFormer
一、算力智能轉化率提升2倍,可將GPT-4o成本壓縮一半
在傳統的Transformer模型中,如果輸入“上海的簡稱”和“中國的人口”,它們將分別被拆分成兩組注意力矩陣Q1、K1、V1、O1和Q2、K2、V2、O2。
但其中,QKVO這四個矩陣是綁定的,因此要解決新問題,必須重新再來2組注意力矩陣。
比如輸入新問題“上海的人口”和“中國的簡稱”,Transformer模型需要Q3、K3、V3、O3和Q4、K4、V4、O4這兩組新矩陣來解決。
而在DCFormer中,查找通路和變換通路可以根據輸入的不同而任意組合。對于上面這兩個新問題,只需要搭配成Q1、K1、V2、O2和Q2、K2、V1、O1,就能在不創造新矩陣的條件下解決問題。
這就意味著,可以用2組原來的注意力矩陣組合出4種搭配,用8組注意力矩陣組合出64種搭配。

▲DCFormer與Transformer在注意力矩陣上的搭配
袁行遠為我們舉了個用更通俗的例子:Transformer就像一家只能點套餐的麥當勞,麥辣雞腿堡只能搭配可樂,奧爾良烤雞只能搭配薯條;而DCFormer就是可以任意單點的麥當勞,麥辣雞腿堡可以搭配薯條,奧爾良烤雞也可以搭配可樂,甚至可以只點半個麥辣雞腿堡,組合半只奧爾良烤雞。
反映在具體模型上,DCFormer可以達到1.7-2倍算力的Transformer模型效果,即算力智能轉化率提升1.7-2倍。
袁行遠稱,如果GPT-4o能夠用上DCFormer,推理一次128k上下文的成本,就可能從4元變成2元。此外,DCFormer模型越大效果越好,考慮到GPT模型的巨大參數量,在千億、萬億模型上,DCFormer可能將價格壓縮至一次128k上下文推理1.5元、1元。
二、打開神經網絡“黑盒”,動態組合改進注意力機制
Transformer架構問世已經7年,期間雖然不乏挑戰者,但能真正做到有效改進的架構并不多。無論是國內還是海外,Transformer仍是使用率最高的模型基礎架構。
袁行遠認為,如果底層模型沒有突破,AI終將停滯不前,“人人都說神經網絡是個黑盒,我們需要勇氣和耐心打開這個黑盒,通過分析模型運轉原理,我們才能知道智能的本質規律,從而可以改進模型,提高模型的運行效率。”
為了改進Transformer,彩云科技團隊提出了一種動態可組合多頭注意力機制(DCMHA),通過動態組合注意力頭來提高Transformer的表達能力。

▲DCFormer整體架構及計算合成
論文提到,該機制的核心是一個可學習的Compose函數,能夠根據輸入數據變換注意力分數和權重矩陣,這種動態性增加了模型的表達能力,同時保持參數和計算的效率。
將DCMHA應用于Transformer架構中,就得到DCFormer模型。實驗結果表明,DCFormer在不同架構和模型規模上的語言建模任務上顯著優于原始的Transformer,甚至在計算量減少的情況下也能達到相似的性能。

▲Transformer和DCFormers的Scaling曲線
在眾多NLP下游任務和圖像識別任務上的測評也驗證了DCFormer的有效性。根據實驗,DCFormer對性能算力比的提升幅度,超過被廣泛采用的兩項結構改進架構Transformer++的提升幅度之和。
隨著模型規模的增大,DCFormer的提升越來越大,而Transformer++的提升越來越小。可以說,DCFormer讓Transformer的能力又躍上一個新臺階。
三、將用于天氣、翻譯、寫作產品,以1/10價格提供10倍效率
談到未來的發展戰略,袁行遠分享道,首先是在2倍效率提升的基礎上繼續提升優化效率,目標是以目前1/10的價格,提供10倍以上的智能能力。
其次,DCFormer將應用于彩云科技目前的三款應用產品矩陣中,包括彩云天氣、彩云小譯、彩云小夢。
彩云天氣是一款分鐘級高精度天氣預報應用,其基于三維時空卷積神經網絡技術,每天為公眾和開發者提供超過15億次天氣預報服務。據介紹,彩云天氣目前累計用戶數超5000萬,每日服務上百萬用戶。

▲彩云天氣的實時天氣預測
袁行遠談道,基于DCFormer帶來的模型效率的提升,彩云天氣有望在未來將分鐘級的高準確率預測時長,從2小時擴展到3-12小時。
彩云小譯是一款中英同傳應用,基于殘差長短期記憶網絡提供服務,目前月活超100萬,每天翻譯量達到10億字。
袁行遠向我們分享了一個有趣的數據:在彩云小譯的翻譯服務中,有80%的流量都用于小說翻譯。他認為,雖然這看起來是娛樂用途,但小說本質上是對世界的模擬。
彩云小夢是一款AI RPG(角色扮演游戲)平臺,基于相對位置編碼與人設編碼的Transformer能力,有超過1500萬用戶創作的虛擬角色,國內版日產4億字。
目前,彩云小夢基于V2、V3模型,在保持邏輯通順與描寫細致的前提下單次可以創作幾百字到一千字的內容。袁行遠稱,在DCFormer的加持下,下一代V4、V5版本有希望擴展到2-5千字的創作;再通過故事工程優化,目標是一年內可以輕松創作出達到專業作家水平的5萬字長度中篇故事,同時小夢角色扮演的故事體驗也能達到專業編劇的水平。
結語:大模型算力智能轉化率現新里程碑
DCFormer的推出,讓大模型在提升效率和降低成本方面邁出重要一步。其模型代碼、權重和訓練數據集已全面開源,期待計算機科學界和產業界能在DCFormer的基礎上,帶來更多研究與應用上的精彩演繹。