智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬
智東(dong)西9月24日報道,今天,阿(a)里(li)通義大模(mo)(mo)型(xing)團隊(dui)宣布(bu)推出全新升級的Qwen3-VL系列(lie)(lie)模(mo)(mo)型(xing),并宣布(bu)旗艦版本Qwen3-VL-235B-A22B系列(lie)(lie)開源。這是(shi)Qwen系列(lie)(lie)中最強的視覺語(yu)言(yan)模(mo)(mo)型(xing)。
Qwen3-VL的目標,是讓模型不僅能看到圖像或視頻,更能真正看懂世界、理解事件、做出行動。在官方演示中,Qwen3-VL已經展現出強大的視覺驅動推理與執行能力,可操作手機、電腦等設備。模型可以根據自然語言指令打開(kai)應用、點擊按鈕、填寫信息等,幫(bang)你輕(qing)松完成航班的(de)查(cha)詢和預定(ding)。
Qwen3-VL也具備識(shi)別萬物的(de)能(neng)力,名(ming)人、美食(shi)、動(dong)植物、汽車品牌、動(dong)漫角色(se)等均在其知識儲備范圍內(nei)。上傳一(yi)張圖片,模型就能(neng)準(zhun)確報菜名(ming),還是帶定位框的(de)那種。

在十個維度的全面評估中,Qwen3-VL-235B-A22B-Instruct在非推理類模型中,多數指標表現最優,超越(yue)了Gemini 2.5 Pro和GPT-5等(deng)閉源模型,同時(shi)刷新了(le)開源多模(mo)態模(mo)型的最佳成績(ji),在復雜視覺任務(wu)上具(ju)備(bei)強大泛(fan)化能力與(yu)綜(zong)合性能。
而在推理模型方面,Qwen3-VL-235B-A22B-Thinking同樣在多數指標上創下開源多模態模型的新高,與Gemini 2.5 Pro和GPT-5等閉源頂尖模型相(xiang)比各(ge)有勝負。雖然在(zai)多(duo)學科問題、視(shi)覺推理(li)(li)和視(shi)頻(pin)理(li)(li)解(jie)方面(mian)與閉源(yuan)SOTA模型仍存在(zai)一定差(cha)距,但在(zai)Agent能力、文檔(dang)理(li)(li)解(jie)、2D/3D Grounding等任務上展現出明顯(xian)優勢。

▲左(zuo)側為Qwen3-VL-235B-A22B-Instruct等非推理模型得(de)分,右側為Qwen3-VL-235B-A22B-Thinking等推理模型得(de)分
目(mu)前,Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking均(jun)已開(kai)源至Github、Hugging Face、魔搭(da)等開(kai)源平臺,用戶也(ye)可在Qwen Chat里直接體驗模型(xing)表(biao)現。
開源地址:
//modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
//huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
//github.com/QwenLM/Qwen3-VL
體驗鏈接:
//chat.qwen.ai
一、八大能力效果驚艷,看截圖用600行代碼再造小紅書
在(zai)博客中,阿里通義大模型團隊介(jie)紹(shao)了Qwen3-VL系列模型的八大能力。
視覺智能體
Qwen3-VL能操(cao)作電腦(nao)和手機界(jie)面、識別GUI元(yuan)素、理解按(an)鈕功能、調用工(gong)具、執行任(ren)(ren)務,在(zai)(zai)OS World等(deng)基準(zhun)測試(shi)上達(da)到世界(jie)頂尖水(shui)平,能通過調用工(gong)具有效(xiao)提升在(zai)(zai)細粒度感(gan)知任(ren)(ren)務的表現。
官方Demo中(zhong),Qwen3-VL能在電腦中(zhong)快速完成復制粘貼工作(zuo),還能把文件保存為Word文檔。或是根據用(yong)戶(hu)指令,輸(shu)出(chu)航班出(chu)發地、到(dao)達地、時(shi)間等信(xin)息,幫用(yong)戶(hu)節省繁瑣(suo)的(de)操作(zuo)流程。
文本能力
Qwen3-VL在(zai)預訓練早期即混合(he)文本(ben)與視(shi)覺模態協(xie)同訓練,在(zai)純文本(ben)任務上表現與Qwen3-235B-A22B-2507純文本(ben)旗(qi)艦模型不相上下。結合(he)視(shi)覺能力后,它(ta)能根(gen)據圖片或視(shi)頻內容(rong)生(sheng)成生(sheng)動的文字描述(shu),適用于故(gu)事創作、文案撰寫、短視(shi)頻腳(jiao)本(ben)等(deng)創意(yi)場景(jing)。
官方Demo展現了一(yi)個非(fei)常(chang)實用(yong)的(de)(de)Case,可(ke)以直接把孩子的(de)(de)素描作業發給(gei)Qwen3-VL,模(mo)型(xing)能根(gen)據(ju)畫面(mian)內容和用(yong)戶(hu)提示(shi)詞,給(gei)出準確的(de)(de)評價(jia)。

視覺Coding能力
Qwen3-VL能實現(xian)圖(tu)像生(sheng)(sheng)成(cheng)代(dai)碼(ma)以及(ji)視頻(pin)生(sheng)(sheng)成(cheng)代(dai)碼(ma),例如看(kan)到設(she)計圖(tu),代(dai)碼(ma)生(sheng)(sheng)成(cheng)Draw.io/HTML/CSS/JS代(dai)碼(ma),真正實現(xian)“所(suo)見(jian)即(ji)所(suo)得”的視覺編程。
智東西將一張小紅(hong)書(shu)網頁版的(de)截圖上傳給Qwen3-VL,不(bu)過(guo),首(shou)先遇到的(de)是其(qi)安全(quan)機制。模型認(ren)為直接復制小紅(hong)書(shu)的(de)設計有侵權風險,多次(ci)拒絕此類任務。
隨后,我們(men)向模(mo)型保證了相關(guan)代(dai)碼僅用于展示,模(mo)型這(zhe)才同意上手開(kai)發。最終,Qwen3-VL用600多行(xing)代(dai)碼實(shi)現(xian)了復(fu)刻,除了未能顯示圖片之外,網(wang)頁基本(ben)實(shi)現(xian)了90%的還原度。

空間感知能力
Qwen3-VL在2D grounding任務(wu)上從絕(jue)對坐標變(bian)為相對坐標,支持判斷物體方位、視(shi)角變(bian)化、遮擋關系。

它也(ye)同(tong)時支持直接(jie)預測3D邊界(jie)框,還原物體在真實世界(jie)中的(de)位(wei)置和大小。

長上下文支持和長視頻理解
Qwen3-VL全系列模型(xing)原生支持(chi)256K tokens的上下文(wen)長度,并可擴展至1M token。這意味著,無論(lun)是幾(ji)百頁(ye)的技術文(wen)檔、整本教材,還是長達兩小時(shi)的視頻,都能完(wan)整輸入、全程記憶、精準檢索(suo)。視頻定(ding)位(wei)可精確到秒級別時(shi)刻(ke)。
例如(ru),在256K tokens上下文的“視(shi)頻(pin)大海撈針”實驗中,Qwen3-VL的準確(que)率(lv)達到100%;當(dang)上下文擴(kuo)展至(zhi)1M tokens時,對(dui)應視(shi)頻(pin)時長約2小時,準確(que)率(lv)仍保持在99.5%。
在(zai)官方Demo中(zhong),模型能(neng)看懂一條(tiao)20多分鐘的外語(yu)視頻,并據此(ci)整(zheng)理出一道菜譜。

甚至可以通過觀看游(you)戲(xi)視頻自動(dong)生(sheng)成對應(ying)的游(you)戲(xi)代(dai)碼。

多模態思考能力
Qwen3-VL系(xi)列的(de)Thinking模(mo)型重點優化了STEM與數學推理能(neng)力。面對專業學科問題,模(mo)型能(neng)捕捉(zhuo)細節、抽絲(si)剝繭、分析因果、給出有邏輯、有依據的(de)答案,在(zai)MathVision、MMMU、MathVista等權威評測(ce)中達(da)到領先水平。
智(zhi)東西(xi)直接將官方Demo中的一則(ze)案例截圖,考察模(mo)型能(neng)否正確解答。

模型準(zhun)確地(di)識別了圖(tu)中的(de)文字和畫面,思(si)考2-3分鐘后(hou),給出了正確答案。
視覺感知與識別能力
通過優化預訓練(lian)數據的(de)質量(liang)和(he)廣度,Qwen3-VL現在能(neng)識(shi)別更豐富(fu)的(de)對象類別——從名人、動漫角(jiao)色、商品(pin)、地(di)標,到動植物等(deng),覆蓋日常生活與專業(ye)領(ling)域的(de)“萬(wan)物識(shi)別”需求。
官方Demo中(zhong),僅需上傳一張吹風機的圖片,模型(xing)就(jiu)能主動進行(xing)圖像感知,并(bing)(bing)調用搜(sou)索工(gong)具,給出品(pin)牌等信息(xi),并(bing)(bing)提供是否值得(de)購買的建(jian)議。

OCR支持更多語言及復雜場景
在復雜光線(xian)、模糊、傾斜等實拍(pai)挑戰性場景下,Qwen3-VL的表現更穩定;對生(sheng)僻(pi)字(zi)、古籍字(zi)、專業(ye)術語的識別準確率(lv)也有提(ti)升;超(chao)長文檔理解和(he)精細結(jie)構還(huan)原能力進一步提(ti)升。
例如,官方Demo中(zhong),這張(zhang)實拍(pai)的掛號費收據字跡模糊,還有重疊,肉眼看著都有些費勁。但模型能準(zhun)確識別(bie)字樣,并根據指定(ding)格式輸(shu)出。

Qwen3-VL能(neng)識別的非(fei)中文、英文語(yu)言(yan)從10種擴展(zhan)到32種,覆(fu)蓋更多國家和(he)(he)(he)地區。在這32種語(yu)言(yan)上(shang),模型的識別準確率(lv)已經超過70%,達到實(shi)際可(ke)用水平。這些(xie)語(yu)言(yan)包括瑞典(dian)語(yu)等(deng)(deng)歐洲語(yu)言(yan)、斯瓦西里語(yu)等(deng)(deng)非(fei)洲語(yu)言(yan)、越(yue)南語(yu)等(deng)(deng)東南亞語(yu)言(yan)、印地語(yu)和(he)(he)(he)烏爾都語(yu)等(deng)(deng)南亞語(yu)言(yan)和(he)(he)(he)日語(yu)韓語(yu)等(deng)(deng)東亞語(yu)言(yan),基本覆(fu)蓋了常用的小語(yu)種。

二、采用原生動態分辨率設計,結構迎來三大更新
在模型架構(gou)上,Qwen3-VL仍舊采(cai)用原生動態分辨率設計(ji),但在結構(gou)設計(ji)上進行(xing)了更新:

一是采用(yong)MRoPE-Interleave,原始MRoPE將特(te)征(zheng)維度按照時間(t)、高(gao)度(h)和(he)寬(kuan)度(w)的順(shun)序分(fen)塊劃分(fen),使(shi)得時間信息全部分(fen)布在(zai)高(gao)頻(pin)維度上。
Qwen3-VL中采取(qu)了(le)t,h,w交錯分布的形式,實(shi)現對(dui)時間,高度(du)和寬度(du)的全頻率覆(fu)蓋,這樣(yang)更加魯棒的位置(zhi)編碼能(neng)夠保證模型在圖(tu)片(pian)理(li)解能(neng)力相(xiang)當的情況下,提升(sheng)對(dui)長視頻的理(li)解能(neng)力。
二是引入DeepStack技術,融合(he)ViT多(duo)層(ceng)(ceng)次(ci)特(te)征,提升視(shi)覺細節捕捉能力和圖文(wen)對齊(qi)精度。阿里通(tong)義大模(mo)(mo)型團隊沿用DeepStack的核心思想,將以往(wang)多(duo)模(mo)(mo)態大模(mo)(mo)型單層(ceng)(ceng)輸入視(shi)覺tokens的范式,改為(wei)在(zai)(zai)大語言模(mo)(mo)型的多(duo)層(ceng)(ceng)中進行注入。這種多(duo)層(ceng)(ceng)注入方式旨在(zai)(zai)實現更精細化的視(shi)覺理解。
在(zai)此基礎上,阿里(li)通義大模型團隊進一步優化(hua)了視覺(jue)特(te)征token化(hua)的策略(lve)。具體而言,Qwen3-VL將來自ViT不同層(ceng)的視覺(jue)特(te)征進行token化(hua),并(bing)以此作為視覺(jue)輸入(ru)。這種設計能夠(gou)有效保留(liu)從底(di)層(ceng)(low-level)到高層(ceng)(high-level)的豐富視覺(jue)信息。實驗結果表明(ming),該方法在(zai)多種視覺(jue)理解任務(wu)上均展現出顯著的性(xing)能提升(sheng)。
三是將原(yuan)有的(de)視頻時(shi)(shi)序(xu)建模機制T-RoPE升級為文本時(shi)(shi)間戳對(dui)齊機制。該機采用(yong)“時(shi)(shi)間戳-視頻幀(zhen)”交錯的(de)輸入形式(shi),實(shi)現幀(zhen)級別的(de)時(shi)(shi)間信息與視覺內容的(de)細粒度(du)對(dui)齊。
同時(shi)(shi),模(mo)型原生支持(chi)“秒數”與(yu)“時(shi)(shi):分:秒”(HMS)兩種(zhong)時(shi)(shi)間輸出格式。這一(yi)改(gai)進提(ti)升了模(mo)型對視頻(pin)中動作(zuo)、事件(jian)的(de)語(yu)義感知(zhi)與(yu)時(shi)(shi)間定(ding)位精(jing)(jing)度,使其在復雜時(shi)(shi)序推(tui)理任務——如事件(jian)定(ding)位、動作(zuo)邊界檢測、跨模(mo)態時(shi)(shi)間問答等——中表現更穩(wen)健、響應更精(jing)(jing)準。
結語:從多模態到智能體,VL模型展現龐大想象空間
生成式AI與真實(shi)世界場(chang)景(jing)的結(jie)合越來(lai)越密切,在文本(ben)模(mo)態之外,圖像、視頻(pin)等多(duo)模(mo)態任務,也正在成為AI落地的關(guan)鍵場(chang)景(jing)之一。
未來,VL模型(xing)的(de)潛力不僅在于識別(bie)物體、理解(jie)文檔或解(jie)析(xi)視頻,更(geng)在于成為驅動Agent的(de)大腦。它(ta)們將具備跨(kua)模態感知、跨(kua)任務推理、跨(kua)場景(jing)執行(xing)的(de)能力,從個(ge)人助手到工(gong)業自動化、從教(jiao)育科(ke)研到醫療健(jian)康(kang),均有望(wang)釋放出巨大價(jia)值。