現有的多模態大模型(MLLM)通常將預訓練的視覺編碼器與大語言模型結合來實現,即模塊化MLLM。最近新興的Chameleon、EVE等原生MLLM,將視覺感知和多模態理解直接集成到LLM中,能夠更方便地通過現有工具進行部署,且具備更高的推理效率。
然而,由于原生MLLM缺乏視覺能力,但視覺預訓練過程中語言基座能力常常出現災難性遺忘問題,這導致現有原生MLLM的性能仍顯著低于模塊化MLLM。
為此,上海人工智能實驗室通用視覺團隊(OpenGVLab)聯合清華大學、上海交通大學等提出了全新的原生多模態大模型Mono-InternVL。該模型采用增量預訓練方法,解決了此前原生MLLM中的災難性遺忘問題。與非原生模型相比,Mono-InternVL首個單詞延遲能夠降低67%,且在多個評測數據集上均達到了SOTA水準。

相比于現有多模態大模型,Mono-InternVL無需額外的視覺編碼器,通過內嵌視覺專家打通了一條從大語言模型到原生多模態模型擴展的新路徑,且2B模型多模態能力優于7B參數的現有原生多模態模型,多個指標超越了InternVL1.5。
Mono-InternVL兼具了視覺靈活性和部署高效性,支持高達2M像素輸入的動態圖像分辨率,在原生多模態架構中感知精度最高。相比于InternVL1.5,在部署框架上首個單詞延遲最多降低67%,整體吞吐量提高31%。

11月7日19點,智猩猩邀請到論文一作、上海 AI Lab OpenGVLab 博士后研究員羅根參與「智猩猩通用視覺講座」03講,主講《Mono-InternVL: 突破原生多模態大模型性能瓶頸》。
講者
羅根,上海 AI Lab OpenGVLab 博士后研究員
?主 題?
《Mono-InternVL: 突破原生多模態大模型性能瓶頸》?
提 綱?
1、模塊化大模型與原生大模型對比分析
2、原生多模態大模型Mono-InternVL解析
3、原生MLLM面臨的的災難性遺忘問題
4、增量內生視覺預訓練(EViP)方法
5、實驗比較及模型性能展示
直 播 信 息
直播時間:11月7日19:00
成果
論文標題
《Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training》
論文鏈接
//arxiv.org/abs/2410.08202
項目地址
//internvl.github.io/blog/2024-10-10-Mono-InternVL/
如何報名
有講座直播觀看需求的朋友,可以添加小助手“沐可”進行報名。已添加過“沐可”的老朋友,可以給“沐可”私信,發送“通用視覺03”進行報名。對于通過報名的朋友,之后將邀請入群進行觀看和交流。
