智東西(公眾號:zhidxcom
作者?| 程茜
編輯?|?漠影

智東西7月9日消息,今日,昆侖萬維重磅開源多模態推理模型Skywork-R1V 3.0,這是其迄今最強多模態推理模型,參數規模為38B,在多個多模態推理基準測試中取得了開源最佳(SOTA)性能。

Skywork-R1V 3.0在不到15秒的時間里,深入分析了下面這道高考物理選擇題并給出正確答案。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

面對這道題,模型需要綜合調用物理基礎概念、多模態理解能力,最后的結果顯示,Skywork-R1V 3.0推理速度相比上一代提升6倍,解題思維鏈從4000 token降低至700 token。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

從基準測試來看,Skywork-R1V 3.0在權威基準測試MMMU中的表現已經接近人類專家水平,并超過超過Claude-3.7-Sonnet 和GPT-4.5等閉源模型

這一多模態推理模型的核心亮點可以用跨模態推理、跨學科泛化兩個關鍵詞概括,既能解數學、物理題,還能完成地理、歷史、人文領域任務,同時完成從文本到視覺的推理。

其作為昆侖萬維多模態模型體系的關鍵節點與核心基石,正是昆侖萬維探索通用人工智能邁出的重要一步。

昆侖萬維已全面開源Skywork-R1V 3.0的所有資源。

Hugging Face//huggingface.co/Skywork/Skywork-R1V3-38B

GitHub://github.com/SkyworkAI/Skywork-R1V

技術報告://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf

一、專業術語秒懂,還能結合圖表對應分析,輔助診斷、看梗圖樣樣全能

作為多模態推理模型,Skywork-R1V 3.0不僅可以勝任數學、物理等傳統理工科推理任務,還能應對地理、歷史、人文、設計等跨學科任務。

話不多說,先來一睹Skywork-R1V 3.0在各項實操任務中的真實水平。

第一大難關是解物理、數學難題。可以看到下面的物理題目中,模型不僅需要對英文題目進行分析,還要識別“unit ramp”等專業術語,并結合圖表上給出的信息進行解答,綜合調用多項能力才能得出答案,值得一提的是,即使推理鏈路很長,模型也沒有丟失圖表中的關鍵信息。

題目:Consider applying a unit ramp voltage source to a series RL circuit as shown in <image 1>. Compute the voltages?$$v_R (t$$?with zero initial condition for L = 0.1H;

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0識別出了圖表中unit ramp代表線性上升的輸入電壓,調用物理公式等進行推導,并在得出結論后進行了反向推理驗證,確認結果滿足電路平衡關系。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

第二大難關是跨學科能力,從醫學相關的實例證明,Skywork-R1V 3.0能根據患者的醫療影像提取關鍵信息,輔助診斷。

題目:這位64歲的男性有20年的肝硬化病史,圖像顯示的是增強后的動脈期影像,最可能的診斷是?

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0綜合分析了20年肝硬化病史64歲男性患者的病史、動脈影像特點以及肝細胞癌的表現,在列出可能鑒別診斷的情況下,還針對影像特征進行了具體解釋。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

多模態推理還有一大更為直觀的應用場景,如逛博物館等,用戶想要了解某一件展品需要專業解說、在網上查閱大量資料。

題目:請仔細觀察下方圖上的音樂家俑,并結合歷史背景和視覺細節,使用中文回答以下問題:

1)圖中這位女性音樂家在做什么?演奏的是什么樂器?

2)結合其服飾(如條紋長裙、高腰褶皺、雙髻發髻)、妝容(白粉面龐、細眉等)及跪坐姿態,她可能屬于哪個朝代,來自什么社會階層或擔任何種職能?

3)請聯系“墓葬明器”的概念,分析為何墓主要將這些音樂家俑陪葬?

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

Skywork-R1V 3.0在看到下圖中“音樂家俑”后,就可以快速給出他們在做什么、術語說明朝代、來自什么社會階層、為什么要陪葬等信息。這些內容需要模型細致分析圖片上的隱藏信息,并結合對特定歷史朝代、社會制度的深入了解,才能得出正確結論。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

第三大難關是真實世界中的復雜推理難題。用戶日常生活面對的場景往往都包含多元化的復雜信息,如對各地地理特征、人文等需要極度熟悉的“地理定位挑戰”,Skywork-R1V 3.0可以憑借下方圖片的信息,準確給出其所處位置。

你正在參加一個地理定位挑戰。根據提供的圖像:

仔細分析圖像中的線索(包括建筑風格、標識牌、植被、地形等);按照步驟思考這個地點最可能位于哪個大洲、國家以及城市,并說明原因;根據你的分析估計大致的緯度和經度。

請務必認真推理并給出證據, 你的最終答案中必須包含以下五行信息: continent: [大洲名稱], country: [國家名稱], city: [城市名稱], lat: [小數形式的緯度], lng: [小數形式的經度]

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

從模型的分析過程可以看出,Skywork-R1V 3.0識別了圖片中商鋪的文字、建筑風格、地形、人流密度等,綜合調用了語言理解、空間記憶和知識推理多個能力模塊,最終鎖定目標。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

最后,Skywork-R1V 3.0還能理解網絡上的熱梗,結合圖片內容分析梗圖中詞語的雙關含義給出解釋。

題目:解釋這個meme
昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維Skywork-R1V研發團隊提到,Skywork-R1V 3.0在跨模態、跨學科方面的能力,使其在醫療、教育領域都展現出更為廣泛的應用潛力。如醫療領域,其能綜合醫學影像、病歷文本、病人對話進行更準確的診斷建議,教育領域的個性化學習和智能輔導等。

二、多項評測表現超Claude、GPT,加速實現大模型學習最終目標

從基準測試結果來看,Skywork-R1V 3.0的表現也毫不遜色,已經在多個維度超過同類開源模型和主流閉源模型

在2025年高考數學新一卷上,Skywork-R1V 3.0取得了142分的成績,接近Gemini 2.5 Pro等多款閉源模型,成績如下:

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

多學科基準測試中,Skywork-R1V 3.0表現逼近人類專家水平。

大規模多學科多模態理解和推理基準測試MMMU中,Skywork-R1V 3.0的基準測試成績為76.0分,人類專家平均分數為76.2分,其表現超過Claude-3.7-Sonnet 和GPT-4.5等閉源模型。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

視覺推理相關的EMMA-Mini(CoT)、中小學知識點測評集MMK12中,該模型表現均超過規模參數更大的Qwen2.5-VL-72B-Instruct、InternVL3-78B等開源模型。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

尤其在物理和邏輯推理領域,Skywork-R1V 3.0相比于上一代模型性能顯著提升。多模態大模型物理推理能力測試PhyX、數學能力數據集MMK12中,其均超過Claude 3.7 Sonnet、GPT-4.5、Gemini 2 Flash等主流閉源模型,Qwen 2.5等開源模型。

在理解物理基礎概念和圖文結合的復雜物理問題方面,該模型在多模態大模型物理推理能力測試集PhyX-MC-Text-Minimal和SeePhys,表現超谷歌、OpenAI旗下模型。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

邏輯推理能力上,其多模態邏輯一致性、條件推理和跨模態因果建模方面優勢顯著。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

綜合來看,Skywork-R1V 3.0已經基于文本推理遷移融合視覺推理,實現跨模態推理、跨學科泛化,而這正是昆侖萬維加速實現大模型表征學習最終目標的關鍵一步。

當下關于AI表征有一大討論,人類觀測到的圖像、文本等多模態數據是同一客觀真實Z的不同投射,而大模型表征學習目標,就是逼近對“Z”的統一、深層理解。昆侖萬維Skywork-R1V研發團隊通過一個簡單的例子進行了說明,以我們看到“蘋果”為例,其包含顏色、形狀視覺投影,光滑度、重量等觸覺投影,甜、酸等味覺投影,綜合所有模態數據,才能幫助用戶理解“蘋果”的整體概念,而不是僅停留在單一的“視覺”或“味覺”認知上。

在此基礎上,模型對于多模態信息的深入理解、推理就至關重要,其對于模型完整理解客觀世界的關鍵作用也不言而喻。

三、冷啟動+GRPO強化學習,低成本、高效率激發推理潛能

與此同時,突破模型在單一維度的局限性,構建更全面、更貼近人類認知推理過程的多模態推理模型,也對昆侖萬維的研究團隊提出了更大挑戰。

昆侖萬維Skywork-R1V研發團隊提到,Skywork-R1V 3.0在跨模態推理、跨學科泛化能力提升的背后有兩大關鍵,一是其跨模態融合機制更加精巧、有效,二是依靠強化學習方法實現了泛化推理能力媲美甚至超越部分閉源巨型模型。

具體來看,昆侖萬維研發團隊在強化學習GRPO策略、關鍵熵驅動的模型判別機制、連接器微調與多學科知識矯正的綜合作用下,實現了模型推理性能、推理效率的雙重提升。

Skywork-R1V 3.0基于其上一代模型Skywork-R1V 2.0蒸餾數據進行“冷啟動”,隨后引入強化學習算法GRPO深度激發模型的推理潛能,實現推理能力在圖像和文本模態之間的遷移,提升其跨模態、多學科場景下的理解與分析表現。最后,其通過約1.2萬條監督微調樣本和1.3萬條強化學習樣本就進行了訓練。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

為了增強模型推理能力的泛化性,研究人員采用了關鍵熵驅動的模型判別機制,通過監測模型在進入推理關鍵節點(例如“Wait…”、“Alternatively…”)時輸出熵的變化。

這背后的考量在于,研究人員發現具備推理能力的模型會在這些位置輸出更高不確定性,僅模仿推理語氣的模型則輸出低熵、確定性內容,基于此其提出確定性檢查點,篩選出了具備推理能力的權重版本。

Skywork-R1V 3.0的能力層層深入,其通過基于1萬條高質量、多學科、多模態樣本對連接器定向再訓練,優化不同領域知識的融合,具備了跨學科推理能力。

與此同時,昆侖萬維還針對跨模態連接器進行專門精細微調,使視覺模態提供的細節信息能夠在整個推理鏈條中持續保持清晰且穩定的貢獻,保證保持了Skywork-R1V 3.0在深度推理場景下視覺感知的準確性和穩定性,以應對多模態模型推理鏈條過長時,視覺信息被淡化出現幻覺的風險。

不同于從頭大規模預訓練增強多模態推理能力的技術路線,昆侖萬維將重點放到了模型的后訓練階段,其通過精巧的強化學習策略以低成本激發模型本身潛在的推理能力,實現性能飛躍研發團隊提到,后訓練階段的強化學習可以針對性地激活和深化大規模預訓練的潛在能力,同時這種小規模、高質量數據驅動的強化學習更經濟高效,可更適合快速迭代并精準地調控模型能力。

Skywork-R1V 3.0正是昆侖萬維在探索AGI過程中,提出的一條更低成本、更高效率地激發多模態模型推理潛能的有效路徑。

結語:以推理能力為主線,挖掘多模態模型應用潛力

多模態推理模型的應用潛力顯現,其可以同時接收文本、圖像、音頻等多種模態輸入,并將其轉化為統一的語義表示,能挖掘不同模態數據間的潛在聯系,結合多源信息進行動態決策等,都使其成為當下AI行業探索通用人工智能的一個關鍵里程碑。

率先看到這一技術發展趨勢的昆侖萬維,自2025年起就已經陸續開源涵蓋推理、獎勵模型、SWE、空間智能、視頻生成等多個SOTA模型,到最新的R1V 3.0,如今其圍繞著多模態模型推理的技術體系已經成型,其技術探索正通過開源開放的策略進一步加速AI理解復雜人類意圖、實現應用的規模化落地。

昆侖萬維開源最強多模態推理模型!性能逼近人類專家,還超了OpenAI、Anthropic

關于更多昆侖萬維開源模型,可查看其HuggingFace主頁:
//huggingface.co/Skywork