智東西(公眾號:zhidxcom)
作者 |? 陳駿達
編輯 |? 云鵬
在大語言模型不(bu)斷拉(la)長上下文窗口的(de)競爭中,DeepSeek剛剛提(ti)出了一條與眾不(bu)同的(de)技術路徑。
智東西10月20日報道,今天上午,DeepSeek開源了DeepSeek-OCR模型,首次提出了“上下文光學壓縮(Contexts Optical Compression)”的概念,通過文本轉圖像實現信息的高效(xiao)壓(ya)縮(suo)。

這一方法的可行性已經得到驗證,在10倍壓縮比下,DeepSeek-OCR的解碼精度可達97%,近乎實現無損壓縮;在20倍(bei)壓縮比(bi)下,精度仍保持約(yue)60%。

當把等量的文本token轉化為視覺token(圖像)后,DeepSeek-OCR能用更少的token數表達相近的文本內容,這為(wei)解決大語言模型在長文本處理中的(de)高算力開銷提供了(le)新的(de)思路。
除此之外,DeepSeek-OCR還表現出很高的實際應用價值。在OmniDocBench上,它只使用100個(ge)視(shi)覺token就超越(yue)了GOT-OCR2.0(每頁256個(ge)token),并且在使用少于800個視覺tokens的情況下,性能超過(guo)了MinerU2.0(平均每頁(ye)近7000個token)。

在生產(chan)環境中,DeepSeek-OCR可(ke)以每天在單個A100-40G GPU上生成(cheng)20萬頁以上的訓練數據,為大規(gui)模(mo)(mo)文檔(dang)理解和多模(mo)(mo)態(tai)模(mo)(mo)型訓練提(ti)供(gong)支持。
目前,這一(yi)模(mo)(mo)型(xing)已在Hugging Face上開源,而介紹DeepSeek-OCR模(mo)(mo)型(xing)技術(shu)細節與背(bei)后理論的技術(shu)報(bao)告也已同步公開。DeepSeek-OCR團隊稱,他(ta)們此番開源的模(mo)(mo)型(xing)是對一(yi)種潛在解決方案的初步探索,即利用視(shi)覺模(mo)(mo)態作(zuo)為文本信息的高效壓(ya)縮媒(mei)介。
值得(de)一提(ti)的(de)是(shi),與DeepSeek過往新(xin)模型(xing)動輒數十(shi)人的(de)作(zuo)者團(tuan)隊不同,這(zhe)篇論文(wen)的(de)作(zuo)者僅有3人,分別為Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR論文(wen)的(de)第一作(zuo)者Haoran Wei也(ye)是(shi)GOT-OCR2.0論文(wen)的(de)第一作(zuo)者,GOT-OCR2.0是(shi)階躍星辰(chen)去(qu)年(nian)9月發布的(de)一款OCR模型(xing)。

開源地址:
//huggingface.co/deepseek-ai/DeepSeek-OCR
論文鏈接(jie):
//github.com/deepseek-ai/DeepSeek-OCR/tree/main
一、光學壓縮可實現高壓縮比,解碼到底需要多少視覺token?
過去幾(ji)年,AI模型的上下(xia)文能力不斷被拉長——從4K到128K,再到上百萬token,但代價是成倍增加的算(suan)力與(yu)顯存消耗(hao)。
但文本其實是一種冗余的信息形式。DeepSeek-OCR的團隊認為:“一張包含文檔文本(document text)的圖像,可以用比等效數字文本(digital text)少得多的token,來表示豐富信息。這表明,通過視覺token進行光學壓縮可以實現更高的壓縮比。”
目前,業內已經在VLM視覺編碼器和端到端OCR模型上有一定探索。基于此前的研究,DeepSeek-OCR團隊發現了目前尚未解決的一個關鍵研究問題:對于包含1000個單詞的文檔,解碼至少(shao)(shao)需要多少(shao)(shao)視覺token?這(zhe)一問題對于(yu)研究“一圖勝千(qian)言”的(de)原則具有(you)重(zhong)要意義。
圍繞這(zhe)一問題,DeepSeek打造了(le)一個(ge)驗證(zheng)系統(tong)——DeepSeek-OCR。該模(mo)(mo)型通過將(jiang)文本(ben)“光學化(hua)”,把原(yuan)本(ben)數千個(ge)文字token壓縮成(cheng)幾(ji)百個(ge)視覺token,再由語(yu)言模(mo)(mo)型解碼回原(yuan)文。
DeepSeek-OCR的架構分為兩部分。一是DeepEncoder,一個專為高壓縮、高分辨率文檔處理設計的視覺編碼器;二是DeepSeek3B-MoE,一個(ge)輕量級混合專(zhuan)家(jia)語(yu)言解碼器。

DeepEncoder:顯著壓縮vision token數量
DeepEncoder采(cai)用SAM + CLIP的(de)雙結構設計,通過局(ju)部窗口注意力(li)結合全局(ju)注意力(li)實現(xian)高保真視覺理解(jie),并用一個雙層(ceng)的(de)16×卷積壓縮模塊顯著減少vision token數量。
舉個例子,當輸入1024×1024的文檔圖片時,傳統視(shi)覺模型(xing)會(hui)生(sheng)成(cheng)4096個(ge)token,DeepEncoder能將其壓縮至(zhi)僅256個(ge)token,讓激活(huo)內存的(de)數(shu)量(liang)更可控。
此外,它支持多種“分辨(bian)率模式”。從輕量的Tiny(64 token)到高保真的Gundam(795 token),模型(xing)可(ke)根據任務復雜度自動選擇壓縮(suo)等級。
論文(wen)展示了不同(tong)分辨率的(de)(de)壓(ya)縮(suo)效果。對肉眼而言(yan),Tiny模式下(xia)圖片中(zhong)的(de)(de)文(wen)字(zi)略顯(xian)模糊,但基(ji)本能看清;而在高保真的(de)(de)Gundam模式下(xia),圖中(zhong)文(wen)字(zi)的(de)(de)閱(yue)讀體(ti)驗基(ji)本和(he)原文(wen)件的(de)(de)閱(yue)讀體(ti)驗沒有(you)差別。

▲實際閱讀效果需參照原論文中的圖片
在實(shi)際(ji)使用(yong)中,一(yi)頁普通論文(wen)或幻燈片僅(jin)需(xu)100個視覺token即可精準(zhun)識(shi)別;而密集文(wen)本的報紙或科學論文(wen),則(ze)可通過Gundam模式實(shi)現高精度還原。
DeepSeek3B-MoE:激活參數僅5.7億
在解碼端,DeepSeek采用自研(yan)DeepSeek3B-MoE架構,推理時(shi)僅(jin)激(ji)活6個專家模塊,總(zong)激(ji)活參數量(liang)約5.7億(yi)。
這種(zhong)“按(an)需激活”的機制(zhi)讓模型既具備(bei)強表達能力,又能保持低延遲(chi)和高能效,極(ji)其適合文(wen)檔OCR、圖文(wen)生(sheng)成等(deng)場景。
數據引擎:從文檔到圖表、化學式、幾何圖
DeepSeek還搭建了一(yi)個龐(pang)大(da)的(de)數據數據集,包含(han)四大(da)數據類型(xing):
(1)OCR 1.0數據:3000萬頁多語言文檔與自(zi)然場景(jing)文字(zi)等;
(2)OCR 2.0數據:圖表、化學公(gong)式(shi)、幾何圖形解析等;
(3)通用視覺數據:為模型注入基(ji)礎圖像理解(jie)能力(li);
(4)純文本數據:維持語(yu)言流(liu)暢度與上(shang)下文建模。
得益于(yu)這一體系,DeepSeek-OCR不僅能(neng)識字、斷句(ju),還能(neng)看懂圖表、解讀化(hua)學(xue)式(shi)、識別幾何圖形,處理常(chang)見的圖文(wen)交錯文(wen)檔。
二、10倍壓縮效果幾乎無損,數百token表示效果超7000 token
DeepSeek-OCR的(de)訓練流(liu)程整體上(shang)相對簡潔,主要分為兩個階段:獨(du)立(li)訓練DeepEncoder和訓練完整的(de) DeepSeek-OCR模(mo)型(xing)。
此(ci)外,所謂的(de)“Gundam-master模式(超高分(fen)辨率)”是在預訓(xun)練好的(de)DeepSeek-OCR模型基礎上,繼(ji)續(xu)使用(yong)600萬條采樣數據(ju)進(jin)行微(wei)調得到的(de)。由(you)于其訓(xun)練協議與其他模式相同,DeepSeek-OCR團隊省略了詳細描(miao)述。
DeepEncoder的(de)(de)訓練(lian)(lian)遵循Vary的(de)(de)做(zuo)法,使用(yong)一個(ge)輕量級語言模(mo)型(xing)(xing),并基(ji)于下一token預測(ce)框架進行訓練(lian)(lian)。在此(ci)階(jie)段,模(mo)型(xing)(xing)使用(yong)了(le)前述(shu)的(de)(de)OCR 1.0與OCR 2.0數據,以及從LAION 數據集(ji)中采樣的(de)(de)1億條通用(yong)圖像(xiang)數據。
當(dang)DeepEncoder訓練完(wan)成后(hou),DeepSeek-OCR團隊使用多模態數(shu)據和純文本數(shu)據,采用流水線并(bing)行策略來訓練完(wan)整的模型。
為驗(yan)(yan)證DeepSeek-OCR在文本密集型文檔中(zhong)的壓(ya)縮(suo)與(yu)解(jie)壓(ya)能力,研究團(tuan)隊選(xuan)取了Fox基準進行實(shi)驗(yan)(yan)。實(shi)驗(yan)(yan)結(jie)果顯(xian)示,在10×壓(ya)縮(suo)率下,DeepSeek-OCR的解(jie)碼精度(du)可達約97%。這(zhe)表明(ming)未來有望實(shi)現近乎(hu)無(wu)損的10×文本壓(ya)縮(suo)。
當壓縮率(lv)超過10×時,性能有所下降,主(zhu)要原(yuan)因包括文(wen)檔版(ban)(ban)式(shi)復雜度的提升,以及長文(wen)本(ben)在512×512或(huo)640×640分(fen)辨率(lv)下出現模糊。前者(zhe)可(ke)通過將(jiang)文(wen)本(ben)渲染為(wei)統一版(ban)(ban)面解決,而后者(zhe)則可(ke)能成為(wei)未來(lai)“遺忘機(ji)制”的研究(jiu)特征。

即便在近20×壓縮時,模型(xing)仍能保持約60%的精度。這(zhe)些結(jie)果(guo)充(chong)分說明,光學上下文壓縮是一條(tiao)前景廣(guang)闊的研究方向,且無需額外計算開銷,因為多(duo)模態系統本身已具備視覺編碼器(qi)結(jie)構。
除實驗驗證外,DeepSeek-OCR在(zai)實際場景(jing)中(zhong)同樣表現出不錯的(de)(de)能力,可為LLM/VLM的(de)(de)預訓練構(gou)建(jian)高質(zhi)量(liang)數據。在(zai)OmniDocBench上,DeepSeek-OCR僅使(shi)用(yong)100個(ge)視(shi)覺toke(640×640 分辨率)的(de)(de)情況下,超越使(shi)用(yong)256個(ge)token的(de)(de)GOT-OCR 2.0。而(er)在(zai)少于(yu)800個(ge)tokens(Gundam 模式)的(de)(de)條件下,DeepSeek-OCR甚至超越了需(xu)約7000個(ge)視(shi)覺token的(de)(de)MinerU 2.0。
進一步分析顯示(shi),不同類型(xing)文(wen)檔(dang)對token數(shu)量的需求存在(zai)差異:幻燈片類文(wen)檔(dang)僅(jin)需約64個(ge)視覺token即可獲得良好效果;書(shu)籍(ji)與(yu)報告在(zai)100個(ge)視覺token下即可實現穩定性能(neng);報紙類文(wen)檔(dang)由于(yu)文(wen)本量龐大,需采用Gundam或(huo)Gundam-master模式才能(neng)實現可接受(shou)的效果。
三、從金融圖表到化學表達式,各類文檔均可深度解析
DeepSeek-OCR團隊在論文中展示了DeepSeek-OCR在具體場景的能力。DeepSeek-OCR具備版面識別與OCR 2.0能力,可通過二次模型調用實現文檔圖像的進一步解析。DeepSeek將這一功能稱為“深度解析(Deep Parsing)”。模型可在圖像(xiang)中識別(bie)不同(tong)類型的內容,包括圖表、幾何圖形、化學結構(gou)式及自然圖像(xiang)等。
在金(jin)融(rong)研究報(bao)告(gao)中,DeepSeek-OCR能(neng)自動提取(qu)文檔中圖表的(de)結構化信息,這一功(gong)能(neng)對金(jin)融(rong)與(yu)科學領域(yu)尤為重要。

在(zai)書籍與(yu)(yu)論文場景中,深度解析(xi)模式能夠生成密集的圖像描(miao)述,實現自動化的圖文內容識別與(yu)(yu)轉(zhuan)寫(xie)。

對于化學(xue)文獻,模型不僅可識別化學(xue)結構式,還(huan)能將(jiang)其轉(zhuan)化為(wei)SMILES格(ge)式,展現出(chu)在STEM(科學(xue)、技術、工程與數學(xue))領域的潛在應用價值。

此外,DeepSeek-OCR還能解(jie)析平(ping)面(mian)幾何圖形(xing)的(de)結構,盡管當前(qian)任務(wu)仍具有較高難度(du),但模型已顯示出對幾何要素與空(kong)間關系(xi)的(de)初(chu)步理解(jie)能力。

互(hu)聯(lian)網上的PDF數據(ju)涵蓋多種語言,包括中文(wen)、英文(wen)以(yi)及大量多語種內容,這對訓練(lian)具(ju)備全球通用性的大語言模型至關重要。DeepSeek-OCR已具(ju)備處(chu)理(li)近百種語言的OCR能(neng)力,支(zhi)持(chi)帶版(ban)面(mian)與非(fei)版(ban)面(mian)兩(liang)種輸出格式。
在多語言測試中,DeepSeek-OCR對阿拉伯語與僧伽羅語等小語種文檔同樣能夠生成高質量識別結果。該能力確保DeepSeek-OCR能在多語言環境下穩定運行,為多語種文檔解析與跨語言知識提取奠定基礎。
除專注于文檔(dang)解(jie)析外,DeepSeek-OCR還保留了一定(ding)(ding)的通用視覺理解(jie)能力,包(bao)括圖像(xiang)描述、物體檢測、目標定(ding)(ding)位(grounding)等任務。在(zai)提供相應提示詞后,模型能夠(gou)詳細(xi)描述圖像(xiang)內容、定(ding)(ding)位特定(ding)(ding)對象,甚至在(zai)包(bao)含文本的圖像(xiang)中(zhong)執行(xing)OCR識別任務。

此外,由于(yu)訓練(lian)中融入了大量(liang)純文本數(shu)據,DeepSeek-OCR也(ye)保留了較(jiao)強的語言理解與生(sheng)成能(neng)力。需要(yao)指出的是,DeepSeek-OCR尚(shang)未經過監督微調(SFT)階(jie)段(duan),因此并(bing)非對(dui)話模型,部分功能(neng)需通過特定提示詞激活。
結語:高效信息表示或成大模型潛在優化方向
“上(shang)下文光學(xue)(xue)壓縮(suo)”驗證了視覺模態在(zai)文本(ben)壓縮(suo)中的(de)(de)有效性,為大(da)語言模型處(chu)理超(chao)長上(shang)下文提(ti)供了新的(de)(de)解決路徑。DeepSeek-OCR團隊計(ji)劃(hua)在(zai)后續(xu)研究中進一步(bu)探索數字與光學(xue)(xue)混合(he)的(de)(de)文本(ben)預(yu)訓練方式,并(bing)通過更細粒(li)度(du)的(de)(de)“needle-in-a-haystack”測試評估光學(xue)(xue)壓縮(suo)在(zai)真實長文本(ben)環(huan)境下的(de)(de)表現。
從(cong)行(xing)業視角看,DeepSeek-OCR展示(shi)了另一(yi)種提(ti)高模型(xing)效率的(de)(de)可能(neng)路(lu)徑——優化信(xin)息表達方(fang)式(shi)。通過(guo)視覺(jue)壓(ya)縮減少token數量,模型(xing)可以(yi)在(zai)相(xiang)同(tong)算(suan)力(li)下處(chu)理更長的(de)(de)上(shang)下文(wen)內容。這(zhe)一(yi)思路(lu)為未來在(zai)VLM視覺(jue)token優化、上(shang)下文(wen)壓(ya)縮機制(zhi)以(yi)及大(da)模型(xing)遺忘機制(zhi)等方(fang)向的(de)(de)研究提(ti)供了有價值的(de)(de)參考。
DeepSeek團隊在論文最后寫道:“光學上下文壓縮仍(reng)有廣闊的研究空間(jian),它代表了(le)一(yi)個新(xin)的方向(xiang)。”這項從OCR任務出發(fa)的研究,或許已經超越了(le)文字識別本(ben)身。