智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

智東西6月9日報道,當生成式AI和大模型的颶風呼嘯而來,全球掀起了一場狂熱的GPT競賽,大量緊迫的前沿議題隨之接踵而至:

語言、視覺、多模態大模型分別有哪些研究突破口?如何顯著提升大模型的計算速度、效率和擴展性?怎樣確保大模型始終安全可控、符合人類意圖和價值觀?國內產學研界亟待做些什么,才能更好地迎接大模型時代?

這些問題的答案,正在今日開幕的國內現象級AI內行頂級盛會——2023北京智源大會上——碰撞出專業深度的火花。

隨著AI大模型爆火,智源大會因規格之高、嘉賓陣容之強大而廣受矚目:這場面向AI精英人群的專業大會已經連續舉辦5年,即日起兩天15場專題論壇匯聚了一眾AI行業翹楚,從多位深度學習先驅、圖靈獎得主與院士,到聲名烜赫的OpenAI聯合創始人Sam Altman、Midjourney創始人David Holz,以及Google DeepMind、Anthropic、Stability AI、HuggingFace、Cohere等明星AI團隊和Meta、谷歌、微軟等科技巨頭的代表,都將齊聚一堂,探討影響AI未來的核心議題。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

智源“悟道”大模型項目連創「中國首個+世界最大」大模型紀錄之后,智源研究院在開幕式上重磅宣布:“悟道3.0”邁向全面開源、嶄新階段

大會期間,智源研究院發布首個支持中英雙語知識、開源商用許可的“悟道·天鷹(Aquila)”語言大模型系列,提供“能力-任務-指標”三維評測框架的“天秤(FlagEval)”大模型評測體系,力求打造大模型時代“新Linux”生態的FlagOpen大模型開源技術體系,以及6項“悟道·視界”視覺大模型研究成果

智源研究院院長黃鐵軍在與智東西等媒體交流時談道,大模型已成為AI產業發展的主導力量,智源研究院希望未來做更多的支撐性工作,為大模型時代的早日形成貢獻一份獨特力量。?智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

一、悟道·天鷹(Aquila)+天秤(FlagEval),打造大模型能力與評測標準雙標桿

為了推動大模型在產業落地和技術創新,智源研究院發布了“開源商用許可語言大模型系列+開放評測平臺”兩大重磅成果。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

先來看一下“悟道·天鷹”Aquila語言大模型系列

這是首個具備中英雙語知識、支持商用許可協議、支持國內數據合規要求的開源語言大模型。悟道·天鷹(Aquila)系列模型包括 Aquila基礎模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode “文本-代碼”生成模型。

開源地址://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

現場,智源重點展示了“悟道·天鷹”AquilaChat對話模型的4項技能:對話、寫作、可拓展特殊指令規范,強大的指令分解能力

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

首先是對話能力,AquilaChat非常謹慎地拒絕回答像“如何瞞過安檢帶著炸藥上飛機”這樣存在安全風險的問題,同時能就乘坐飛機的常見問題給出簡明清晰的答案。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

寫高考作文也不在話下。AquilaChat拿今年高考作文全國甲卷的“時間的仆人”題目練了練手,僅用不到10秒就生成了一篇切題的完整文章。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

此外,AquilaChat通過定義可擴展的特殊指令規范,實現通過AquilaChat對其它模型和工具的調用,且易于擴展。例如,調用智源開源的AltDiffusion多語言文圖生成模型,實現了流暢的文圖生成能力

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

AquilaChat還擁有強大的指令分解能力,配合智源InstrucFace多步可控文生圖模型,能夠實現對人臉圖片的多步可控編輯。

比如要求將照片中的女人皮膚變白、眼睛變藍、動漫化,AquilaChat會將復雜指令拆解成多個步驟,依次完成。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

再比如要求把圖片里女生的頭發變成淡黃色、皮膚變成古銅色、臉色變得更加紅潤,AquilaChat也能出色地分解并完成任務。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

AquilaCode-7B“文本-代碼”生成模型,基于Aquila-7B強大的基礎模型能力,以小數據集、小參數量,實現高性能,是目前支持中英雙語的、性能最好的開源代碼模型。

AquilaCode-7B分別在英偉達和國產芯片上完成了代碼模型的訓練,并通過對多種架構的代碼+模型開源,推動芯片創新與多元化發展。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

值得一提的是,悟道·天鷹Aquila語言大模型基座是在中英文高質量語料(有近40%的中文語料)基礎上從零開始訓練的,通過數據質量的控制、深層次數據清洗處理、多種訓練的優化方法,實現在更小的數據集、更短的訓練時間,獲得了比其它開源模型更優的性能

Aquila基礎模型底座(7B、33B)在技術上繼承了GPT-3、LLaMA等模型的架構設計優點,使用智源FlagAI開源代碼框架,替換了一批更高效的底層算子實現、重新設計實現了中英雙語的tokenizer,升級了BMTrain并行訓練方法。

結果,Aquila在訓練過程中,實現了比Megtron-LM+ZeRO-2將近8倍的訓練效率;訓練效率也比LLaMA提升了24%

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

智源研究院副院長兼總工程師林詠華告訴智東西,一個消費級顯卡就能運行Aquila-7B模型:如果是FP16精度,Aquila-7B模型至少可以在20G顯存上跑起來;如果是INT8精度,則會進一步減少顯存使用。

“我們的發布只是一個起點。”她談道,智源今天打造了一整套“大模型進化流水線”,基于此,智源會讓大模型在更多數據、更多能力的增加之下,源源不斷地成長。

智源研究院首創“可持續、自動化評測輔助模型訓練”的新范式,將大模型訓練與評測結合,利用階段性的自動化評測結果,指導后續訓練的方向、選擇更優路徑,大幅提升模型訓練的效果,實現了“大模型進化流水線”,悟道 · 天鷹Aquila語言大模型系列后續也將持續迭代、持續開源。

同時,智源研究院發布了FlagEval(天秤)大語言模型評測體系及開放平臺

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

目前大模型評測存在諸多難點。相比傳統小模型,大模型規模大、結構更復雜、具備多種能力,且步入內容生成和人類認知領域。傳統評測方法已經遠遠無法滿足大模型評測的需求。

因此,是否有能力打造一套“自動化評測+人工主觀評測”的大模型全面評價系統,并實現從評測結果到模型能力分析、再到模型能力提升的自動閉環,已是基礎大模型創新的重要壁壘之一。

智源推出的天秤(FlagEval)大模型評測體系及開放平臺,旨在建立一站式的科學、公正、開放的基礎模型評測基準、方法及工具集,協助研究人員全方位評估基礎模型及訓練算法的性能,同時探索利用AI方法實現對主觀評測的輔助,大幅提升評測的效率和客觀性。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

FlagEval創新地構建了“能力-任務-指標”三維評測框架,細粒度刻畫基礎模型的認知能力邊界,并可視化呈現評測結果。

目前該評測體系已覆蓋語言多模態兩大領域的大模型評測,推出開源多語言文圖大模型評測工具mCLIP-Eval開源文圖生成評測工具ImageEval,后續將覆蓋視覺語音評測場景。

FlagEval開放評測平臺現已開放(//flageval.baai.ac.cn),打造自動化評測與自適應評測機制,并支持英偉達、寒武紀、昆侖芯、昇騰-鵬城云腦等多種芯片評測,以及PyTorch、MindSpore等多種深度學習框架。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

開源評測工具://github.com/FlagOpen/FlagEval

林詠華期待更多業界同仁參與其中,通過更多的學科交叉,持續豐富大模型評測集。

作為“科技部2030”旗艦項目重要課題,天秤FlagEval評測體系正與北京大學、北京航空航天大學、北京師范大學、北京郵電大學、閩江學院、南開大學、中國電子技術標準化研究院、中國科學院自動化研究所等合作單位共建(按首字母排序),定期發布權威評測榜單

FlagEval是FlagOpen飛智大模型技術開源體系的重要組成之一。

其中,FlagAI新增集成了悟道·天鷹(Aquila)語言大模型系列、18種語言多模態文生圖生成模型AltCLIP-m18、AltDiffusion-m18等智源開源模型,支持并行加速技術,并集成了高效推理技術LoRA和BMinf。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

FlagPerf建立了評測Case的各項標準、支持容器內評測模式;新增國產芯片的評測系列,包括昆侖芯、天數智芯等;評測系列從語言大模型擴展到多種主流視覺模型。

FlagEval包含多種開源多模態模型評測工具和FlagEval(天秤)大模型評測平臺。FlagData包含數據分析工具、數據清洗工具、微調數據標注工具等。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

FlagOpen開放平臺://flagopen.baai.ac.cn

二、“悟道·視界”:6大視覺智能成果,點亮通用視覺曙光

除了發布開源語言大模型及評測體系外,智源研究院還一連發布了“悟道·視界”視覺大模型系列的6項先進技術成果。

據黃鐵軍分享,從技術路線而言,通用視覺模型與語言模型的方法論類似,但視覺涌現與語言涌現的形式有所差別。傳統視覺模型屬于判別式模型,通用視覺模型則更看重對未知事物的通用辨別能力和生成預測能力。

“悟道·視界”由悟道3.0的視覺大模型團隊打造,是一套具備通用場景感知和復雜任務處理能力的智能視覺和多模態大模型系列。6項國際領先技術中,前5個是基礎模型,最后1個是應用技術。

1、Emu:在多模態序列中補全一切的多模態大模型

Emu是一個多模態-to-模態的大模型,輸入輸出均可為多模態,可以接受和處理不同模態的數據,并輸出各類的多模態數據。

基于多模態上下文學習技術路徑,Emu能從圖文、交錯圖文、交錯視頻文本等海量多模態序列中學習。訓練完成后,Emu能在多模態序列的上下文中補全一切,也就是可通過多模態序列做prompting(提示),對圖像、文本和視頻等多種模態的數據進行感知、推理和生成。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

相比其他多模態模型,Emu能進行精準圖像認知,完成少樣本圖文理解,根據圖片或者視頻進行問答和多輪對話。它也具備文圖生成、圖圖生成、多模態上下文生成等生成能力。

2、EVA:最強十億級視覺基礎模型

如何讓通用視覺模型兼顧更高效和更簡單?抓住語義學習和幾何結構學習這兩個關鍵點,基本可以解決絕大部分的視覺任務。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

智源的十億級視覺基礎模型EVA便將最強語義學習(CLIP)與最強幾何結構學習(MIM)結合,再將標準的ViT模型擴大規模至10億參數進行訓練,一舉在ImageNet分類、COCO檢測分割、Kinetics視頻分類等廣泛的視覺感知任務中取得當時最強性能。

論文地址://arxiv.org/abs/2211.07636
代碼地址://github.com/baaivision/EVA

3、EVA-CLIP:性能最強開源CLIP模型

EVA-CLIP基于通用視覺模型EVA開發,相關工作入選2023 CVPR Highlight論文。 EVA極大地穩定了巨型CLIP的訓練和優化過程,僅需使用FP16混合精度,就能幫助訓練得到當前最強且最大的開源CLIP模型。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

此前多模態預訓練模型CLIP作為零樣本學習基礎模型,廣受業界認可。智源視覺團隊在今年年初發布的EVA-CLIP 5B版本,創造了零樣本學習性能新高度,超越了此前最強的Open CLIP模型,在ImageNet1K零樣本top1達到最高的82.0%準確率。此外,智源去年發布的EVA-CLIP 1B版本,今年才被Meta發布的DINOv2模型追平ImageNet kNN準確率指標。

論文地址://arxiv.org/abs/2303.15389
 代碼地址://github.com/baaivision/EVA/tree/master/EVA-CLIP

4、Painter:首創“上下文圖像學習”技術路徑的通用視覺模型

研究者相信,表達圖像信息最好的方式就是圖像,圖像理解圖像、圖像解釋圖像、圖像輸出圖像,可以避免圖像-語言翻譯過程中產生的信息誤差和成本消耗。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

智源將NLP中的上下文學習概念引入視覺模型,打造了將“以視覺為中心”作為建模核心思想的通用視覺模型Painter。Painter把圖像作為輸入和輸出,從而獲得了上下文視覺信息,完成不同的視覺任務。該模型目前可完成7種主流視覺任務,已在深度估計、語義分割等核心視覺任務中,相比同類模型有11%~25%的性能提升。

論文地址://arxiv.org/abs/2212.02499
代碼地址://github.com/baaivision/Painter

5、視界通用分割模型:一通百通,分割一切

從影像中分割出各種各樣的對象,是視覺智能的關鍵里程碑。今年年初,智源研發的首個利用視覺提示(prompt)完成任意分割任務的“視界通用分割模型”,與Meta的SAM模型同時發布,點亮了通用視覺GPT曙光。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

“視界通用分割模型”具有強大的視覺上下文推理能力:給出一個或幾個示例圖像和意圖掩碼(視覺提示prompt),模型就能理解用戶意圖,“有樣學樣”地完成類似分割任務。用戶在畫面上標注識別一類物體,即可批量化識別分割同類物體。此外,該模型還具備強大的通用能力、靈活推理能力和自動視頻分割與追蹤能力。

論文地址://arxiv.org/abs/2304.03284
代碼地址://github.com/baaivision/Painter
Demo地址://huggingface.co/spaces/BAAI/SegGPT

6、vid2vid-zero:首個零樣本視頻編輯方法

現有文本驅動的AIGC視頻編輯方法嚴重依賴于大量“文本-視頻”數據上調整預訓練好的視頻擴散模型,需要龐大的計算資源,帶來了高昂的人工數據標注成本和計算成本。

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

智源研究院提出的零樣本視頻編輯方法vid2vid-zero,首次在無需額外視頻訓練的情況下,利用注意力機制動態運算的特點,結合現有圖像擴散模型,實現可指定屬性的視頻編輯。只需上傳視頻,輸入一串編輯文本提示,就可以坐等AI創作出創意視頻。

論文鏈接://arxiv.org/pdf/2303.17599.pdf
代碼地址://github.com/baaivision/vid2vid-zero
 Demo地址:////huggingface.co/spaces/BAAI/vid2vid-zero

“悟道·視界”聚焦視覺和多模態上下文學習,創新了視覺和多模態領域的Prompt工程,取得了零樣本學習性能的新突破。未來其應用可帶給自動駕駛、智能機器人等領域更多可能性。還有多語言AIGC文圖生成,通用智能體學習等多模態領域,也將公布相關代碼。

三、通向AGI的三大路線:大模型、生命智能、AI4Science

據黃鐵軍分享,在以智力服務為特征的時代,重要的不是模型本身比誰大比誰強,而是訓練大模型的算法和技術本身是否夠先進、訓練成本是否能夠有效降低、模型智能的能力是否可信可控。智源正將許多產學研單位的智慧匯聚,以開放方式進行協作,為大模型技術體系的發展添磚加瓦。

他告訴智東西,作為一家非營利機構,智源研究院立足科研,會基于自研通用視覺模型和語言模型做一些Demo演示。目標是以開源開放的方式提供技術,促進技術發展與迭代。

除了大模型技術路線外,智源也在堅持研究生命智能AI4Science

智源連甩多個開源王炸!悟道3.0大模型數彈齊發,大模型評測體系上線

黃鐵軍說,這三條路線相互作用和影響,對于未來的通用人工智能(AGI)都是必要的。今天,大模型方向展現出很強的能力,主要得益于海量高質量數據,用擁有巨大參數的神經網絡表達復雜數據背后規律,是一種比較直接的方式。

大模型方向有其優勢,但并沒有解決掉通用人工智能的所有問題。比如大模型智能的發生機理與人類生物大腦智能背后的信號機理差距很大,如果想做到類似于人腦的智能涌現,還要探究類腦方向與具身智能。

他談道,既然大模型已經證明涌現能力行之有效,這方面的投入會加大很多,速度也會加快,很大概率大模型方向上接近通用人工智能速度會更快。隨著模型規模擴大,對算力、數據的要求越來越高,必然會帶來成本上和實現代價上的一些需求快速增加。這是次生問題。

“為實現一個更偉大目標,付出資源成本更高,也是自然的事情。我認為大模型規模上現在遠遠沒有看到天花板。”黃鐵軍說。

結語:群英會聚大模型研討高地,百場精彩討論干貨滿載

算上今天,智源大會已經連續舉辦了五屆。這五年來,憑借匯聚人工智能領域最關鍵的人物、最重要的機構、最核心的話題與最專業的觀眾,智源大會的口碑持續發酵,不僅是業界全面關注度最高的人工智能盛會之一,也早已成為北京加快建設人工智能創新策源地的一張名片。

智源大會的主辦方智源研究院,是中國最早進行大模型研究的科研機構,從率先開啟大模型立項探索,率先組建大模型研究團隊,率先預見“AI大模型時代到來”,率先發布連創“中國首個+世界最大”記錄的“悟道”大模型項目,到今天,智源研究院依然走著最前沿,率先倡導大模型開源開放,并帶頭建設大模型測評旗艦項目,為大模型行業發展與生態擴張注入源源不斷的動能。

大模型引爆人工智能概念,離不開算法的進步。本屆智源大會邀請了過去一年領域突破的重要工作完成者,包括GPT-4/ChatGPT、PaLM-E、OPT、LLaMA、Codex、Whisper、Sparrow、NLLB、T5、Flan-T5、LAION-5B、RoBERTa等重要工作作者出席,親身講解研究成果。

滿滿兩天將覆蓋百場精彩討論,包括明天,在星光熠熠的AI安全與對齊論壇期間,智源研究院理事長張宏江與OpenAI聯合創始人兼CEO Sam Altman,加州伯克利分校教授與圖靈獎得主、中國科學院院士姚期智,將分別展開對談交鋒。圖靈獎得主、“深度學習之父”Geoffrey Hinton也將發表重磅主題演講,非常令人期待。