智東西(公眾號:zhidxcom)
作者 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行,在大會第一天的主會場大模型專場上,云天勵飛“云天天書”大模型技術負責人余曉填以《多模態大模型技術演進與落地應用探索》為題發表演講。

2022年底,ChatGPT橫空出世,攪起了AI行業的發展熱潮。2024年初,文生視頻大模型Sora推出,AGI(通用人工智能)發展駛入快車道。余曉填以Sora的發布以及美國利用腦機接口幫助癱瘓病人實現自主行動等案例,展示了AI技術驚人的迭代速度及其潛力。余曉填認為,大模型技術從前幾年的嶄露頭角,發展到現在的如日中天,人類已然邁入了AI的新時代,并朝著AGI的大道全速前進。

在AI蓬勃發展的新時代,大模型技術成為AI領域的焦點之一。以Transformer結構為核心的大型模型被認為是一種高效、可擴展的學習器,能夠在短時間內對海量數據進行學習和信息壓縮。然而,大模型技術的發展仍舊面臨挑戰。其中突出問題之一便是數據支持的不足

如何克服這一難題?余曉填認為,解決的關鍵在于頂尖AI人才的培育,頂級的人才、專家才是支撐著大模型技術快速發展的基石。

多模態大模型作為大模型技術的重要發展方向,也引起了各界的廣泛關注。余曉填提到,多模態大模型信息壓縮策略主要分為兩種類型:分階對齊結構和端到端對齊結構。前者利用文本數據的廣泛覆蓋優勢,加速學習收斂速度;后者則通過一次性對各種信息進行交叉并發,實現高效的信息壓縮。然而,多模態大模型的落地應用面臨諸多挑戰。

在此背景下,云天勵飛又將如何打破大模型應用的“三角約束”,為大模型技術在各行各業的應用提供新的可能?

以下為余曉填的演講實錄:

在梳理大模型技術近期的重要事件中,如大模型的發布、算力的提升,我看到了兩點重要信:第一,AI技術的迭代速度驚人,世界各地的科技巨頭均在競相爭奪領先地位;第二,以大模型技術為核心的AI領域正在經歷前所未有的快速發展,并且這種加速度正持續提升。

我們梳理了三個可視化的例子

首先,去年特斯拉在其投資者日公開展示了一個視頻,展示了一個人形機器人正在嘗試組裝機器。這預示著我們可能即將邁入機器人制造機器人的時代。

其次,最近OpenAI發布了名為Sora的項目,并與Figure合作,開發了具備人形外觀的智能機器人。這種機器人具備了高度交互性,能夠與人類進行流暢的溝通,并執行人類的指令。

另外,上個月,美國首例利用腦機接口幫助癱瘓的病人已經開始使用自己的意念來發推文,甚至在半夜使用意念玩游戲。這些令人震驚的應用展示了AI技術帶來的巨大潛力,表明人類已經邁入了AI的新時代。

一、從ChatGPT到Transformer,大模型在信息壓縮與學習中的演進

ChatGPT的根基是圍繞著Transformer結構的演化,但是,什么是Transformer?我們認為,它是一個很高效的、可擴展的海量數據的學習器。簡單來說,它是一種信息壓縮機制,能夠在短時間內將人類歷史上的所有知識進行壓縮,并從中發現語言的規律。

GPT的結構并不偏好任何特定的領域或模態,它能夠對各種知識和多種模態進行壓縮。這種信息壓縮的關鍵條件包括巨大的參數規模、強大的計算能力以及海量的數據支持。參數規模已經發展到了千億或萬億級別。在計算能力方面,英偉達一直在為其提供強大支持。

然而,從數據層面,一些學者表示,以后數據將不足以支撐大模型的訓練,那這時候怎么辦?可能是采用數據合成,用大模型去制造更多的數據進行博弈的學習。

我們認為大模型的一個核心根基人才,頂尖的AI人才。這種人才可以把大參數、大算力、大數據有機地結合在一起,形成真正算法結構下的高效信息壓縮,而這種頂級的專家人才則是支撐著美國大模型技術快速發展的基石。

云天勵飛余曉填:剖解大模型技術演進與挑戰,算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

可以看到,大模型技術的發展以及大模型的能力,歸納起來就是海量信息的壓縮,并學習到其中的統計規律。目前在文本方面,我們可以把海量的數據進行壓縮,得到了文本的規律,形成了語言的理解和生成。視頻、圖像、聲音等也可以通過海量的數據進行壓縮,訓練數百萬小時的視頻,最終用眼睛去看和理解這個世界,甚至在未來進行多種模態的數據交互,這時候,自然而然就會引出來下一個真正要討論的主題——多模態大模型

二、多模態大模型如何做信息壓縮?探索分階對齊結構、端到端對齊結構

多模態大模型是怎么去做信息壓縮的?我們認為有兩大類型

第一大類型,分階的對齊結構。第一個階段先去壓縮文本的信息,第二階段再壓縮其它的信息,其它的信息包括視覺、聲音等。

云天勵飛余曉填:剖解大模型技術演進與挑戰,算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

為什么要這么做?因為文本的數據覆蓋面更廣,全量,而且是高知識量的。以此為基礎,就可以獲得更快的學習收斂速度。這里可以類比人,人學習的過程最重要的三大來源:說話、眼睛看世界、耳朵聽東西,這三個信息可能最開始要引導的教育過程,是引導他講東西,這也就是分階段對齊的核心要義。從圖來看,LLM Backbone以語言對齊為核心,分階段去做多模態大模型的信息壓縮,找到其中的信息系規律。

第二大類型,端到端對齊結構。就是對不同模態的數據同時學習,同時輸入圖像、文本各種各樣的信息,直接把所有信息交叉并發,把所有的信息進行壓縮,抽取里面的規律,最終達到理解這個世界,去驅動跟這個世界進行交互。

云天勵飛余曉填:剖解大模型技術演進與挑戰,算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

三、解讀大模型技術發展三階段,場景反哺技術階段仍面臨挑戰

大模型能夠幫我們做什么?我們很清楚大模型技術只是一個工具,從技術的角度去看,它幫我們把很多信息壓縮,更高效地找出其中的規律。大模型要體現出價值,就要落實到各行各業、各種業務的閉環應用里面去。

借鑒AI技術發展的路徑,我們認為大模型技術發展定義也有三個階段。這三個階段實際上也是技術跟數據或者算法的關系。

云天勵飛余曉填:剖解大模型技術演進與挑戰,算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

一開始,我們設計算法時通常會使用少量數據進行驗證,這被稱為技術找場景。在第二階段,場景反哺技術,我們則采用更多數據來提升算法和技術的能力。第三階段,場景找技術,即所有應用和需求都能通過同一個算法、模型來解決,這標志著我們邁入AGI時代的大道。

那么,技術找場景現在的進展如何?我們已經走完了技術找場景在大模型技術發展應用的這段路。許多應用,例如智能問答、文生成圖以及像ChatGPT這樣的生成式大模型單點應用,已經驗證了大模型技術的應用和算法成熟度。

目前,我們正處于第二階段,即場景反哺技術的階段。我們可以看到,多模態大模型的落地還有很長一段路要走,其困難之處在于行業場景的復雜性。盡管我們希望在各行各業中廣泛應用大模型,但行業場景的知識深度對大模型的能力提出了嚴峻的考驗,仍存在著參差不齊、遠未滿足需求的情況。

因此,我們需要積極推動多模態大模型技術的落地,并應對挑戰尋找解決方案。

四、如何打破大模型應用的“三角約束”?云天勵飛提出“算法芯片化”

我們要考慮主要的變量是什么?從智慧城市中的城市治理、智慧交通,我們歸納出,要在多模態大模型進行落地變現,應注意三個變量的“三角約束”。

云天勵飛余曉填:剖解大模型技術演進與挑戰,算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

如今,對話系統備受關注,其精度已經接近人類,跟人沒有差異,但在對垂域的深度支持和行業的價值,大模型沒法去做。在真實生產環境中,很多任務是很復雜的,由于對垂域專業知識的不足,以及數據優化結構的增加,大模型面臨著成本和效率方面的挑戰。

因此,我們需要在精度、成本效率之間尋找平衡點,以推動多模態大模型技術在對話系統中的落地應用。我們相信,我們正在積極解決這一問題,并與AI領域的同仁一道不斷推進技術進步。

云天勵飛是如何突破“三角約束”的?我來分享一下我們的解決方案。

自2014年云天勵飛建立之初,我們就定義了“算法芯片化”的技術發展路徑。算法芯片化不僅僅是簡單地將算法應用于芯片,還需要高度專業的人才,需要專家人才對算法有深刻理解,對不同場景和行業數據有專業認知,并能夠通過協同設計算法與場景,最終體現在芯片側、算子側,包括推進可伸縮的指令集、優化計算架構以及工具鏈的優化。

這樣的技術支持使得我們能夠應用包括Transformer、各種深度學習算法框架等多種算法。最重要的一點,它的成本、效率是制約多模態大模型落地的關鍵。

過去打造的云天天書多模態大模型包含了幾個維度,包括語言、CV、文本問答、目標檢測分割等。這些大模型的落地采取了分層解耦的策略,通過設計算法芯片化平臺,我們構建了一個通用大模型。這個通用大模型具備基礎能力,它在行業知識和場景經驗方面可能只達到60到70分,但在通用性方面可以達到80分、90分甚至滿分。

再往上走就是行業大模型、場景大模型,要在具體的場景業務里面拿到90分,需要低成本的算子層面優化,并通過與邊緣側數據的高效迭代訓練來滿足客戶需求。

過去十年,云天天書算法研究經歷了長時間的迭代發展。從2017年之前研究以ResNet卷積神經網絡的深度學習,到Transformer結構起來之后,我們第一批啟動了Transformer結構適配整個算法芯片化的平臺。去年公司上市后,我們加大了對大模型技術的研發投入,并持續跟進海內外的先進技術。我們成功地研發了從百億級到千億級的語言多模態大模型。

上個月,我們發布了云天天書3.5V的大模型。在圖文理解、生成以及問答等方面,這些模型表現非常可觀。在語言大模型方面,我們去年已經多次獲得了權威榜單的第一名。

五、云天勵飛是怎么取得可觀成績的?背后有4項關鍵技術

我們如何實現這些可觀的成績?盡管我們面臨了諸多挑戰,但我們總結歸納后認為有四個關鍵點值得分享:

第一,解決成本的問題。精度可以通過數據堆積解決,在真正落地的時候,推理的成本是繞不過去的,我們的核心要義是解決高效的推理引擎問題。

為此,我們自主研發了Space推理引擎,它與算子層高效融合,實現了無損的推理,并將推理速度提升了50%以上。具體來說,像生成式大模型,通常是進行單字符的向前預測,但我們想辦法一次性預測多個字符,同時保持無損、精度不變。在這種情況下,我們通過對算法結構進行改進,實現了一次性預測多個詞條,從而提升了推理效率。

第二,降低核心成本。我們致力于提高效率和減少GPU存儲需求,通過研究分布式切塊,包括自適應的稀疏緩存解碼等技術,我們成功將GPU需求降低了50%

第三,優化訓練技術。優化訓練是大模型落地的根基,所有的應用都在這個根基上長起來。我們研發了一套可伸縮的大模型訓練技術,簡單來說,訓練一個大模型,這個大模型要考慮如果擴展它的參數或者說擴展它的規模、優化它的結構,能不能復用原有的大模型?

答案是肯定的,這種方法也節省了訓練成本。從深度和廣度的角度來看,通過復用已訓練的參數,達到深度擴展和寬度擴展,使訓練效率翻倍,同時降低了達50%的訓練成本。

第四,神經網絡處理器和推理芯片是我們近十年來的重點。如今已經歷了四代迭代,從第一代NNP100到目前的NNP400T,我們已經完全靈活適配多種深度學習架構,特別是在Transformer架構下,我們進行了指令集優化、算子的協同設計以及高效的聯合設計,支撐了Transformer結構的高效推理。此外,我們還是最早一批使用Chiplet結構適配大模型的公司之一。

云天勵飛余曉填:剖解大模型技術演進與挑戰,算法芯片化突破大模型落地“三角約束”丨GenAICon 2024

利用這四項核心技術,我們構建了支持邊緣大模型的算法芯片化系統。我們的底層技術支持了神經網絡處理器和自主研發的推理芯片,促進了國產化進程,避免了對供應鏈的依賴,并在此基礎上實現了多模態大模型的運行。從行業應用的角度來看,我們有基于行業到邊緣的場景大模型。更重要的是,我們支持用戶進行無感知的在線微調,同時保護用戶的數據隱私,而且成本極低。

六、實現每秒30字高效推理,多模態大模型已落地G端

云天天書的多模態大模型在文本理解和生成方面表現卓越,每秒可實現30字的高效推理速度,并能處理超過45萬字的上下文。通過指定要求,快速生成符合特定格式的通知、決議等文件,從而有效推動辦公自動化。大家可以看到整個生成過程內容極其簡潔,速度極其快。

此外,我們也支持帶參考內容的文章修改和潤色,可以復制一部分已有的參考內容,高效地進行潤色、修改,變成大家所需要的東西。目前這一塊的內容已成功地在多個地級市、省廳局委辦落地。采用我們的多模態大模型進行辦公賦能,對于項目報告的內容生成也是非常靈活。

最后,在文本內容的理解和生成方面,很重要的一點是生成的質量。我們自帶校閱功能,生成完之后可以多次優化里面的內容,達到自迭代、自進化的效果。云天天書多模態大模型支撐視頻數據的理解和生成,很多數據訓練過程結束之后,有一些數據是需要優化、編輯的,尤其在消費端的場景,比如對圖片編輯,對3D數據合成。

我們可以通過多模態大模型進行數據的合成,達到我們想要的3D數據。對于圖片的數據理解,比如通過指令去渲染,通過指令去編輯整個圖片,讓大模型去理解,根據指令操作圖片,甚至畫出不同的風格。多模態大模型的Agent能力,以開源目標檢測為例,這種技術為城市發展提供了支持,正如我們之前提到的,我們發布了一個AI模盒,旨在促進AI技術在城市領域的應用,其中就包括基于多模態大模型的支持。

我們非常榮幸,能夠身處在這個AI蓬勃發展,引領各行各業不斷變革的時代。如今,AI大模型技術在各行各業遍地開花,我們希望攜手各行各業的專家及朋友,共同引領多模態技術的落地,并邁向AGI大方向。

以上是余曉填演講內容的完整整理。