剛剛，DeepSeek重要突破！大模型上下文緊箍咒打破

2025-10-21 11:10:59　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯云鵬

在大語言模型不斷拉長上下文窗口的競爭中，DeepSeek剛剛提出了一條與眾不同的技術(shù)路徑。

智東西10月20日報(bào)道，今天上午，DeepSeek開源了DeepSeek-OCR模型，首次提出了“上下文光學(xué)壓縮（Contexts Optical Compression）”的概念，通過文本轉(zhuǎn)圖像實(shí)現(xiàn)信息的高效壓縮。

這一方法的可行性已經(jīng)得到驗(yàn)證，在10倍壓縮比下，DeepSeek-OCR的解碼精度可達(dá)97%，近乎實(shí)現(xiàn)無損壓縮；在20倍壓縮比下，精度仍保持約60%。

當(dāng)把等量的文本token轉(zhuǎn)化為視覺token（圖像）后，DeepSeek-OCR能用更少的token數(shù)表達(dá)相近的文本內(nèi)容，這為解決大語言模型在長文本處理中的高算力開銷提供了新的思路。

除此之外，DeepSeek-OCR還表現(xiàn)出很高的實(shí)際應(yīng)用價(jià)值。在OmniDocBench上，它只使用100個(gè)視覺token就超越了GOT-OCR2.0（每頁256個(gè)token），并且在使用少于800個(gè)視覺tokens的情況下，性能超過了MinerU2.0（平均每頁近7000個(gè)token）。

在生產(chǎn)環(huán)境中，DeepSeek-OCR可以每天在單個(gè)A100-40G GPU上生成20萬頁以上的訓(xùn)練數(shù)據(jù)，為大規(guī)模文檔理解和多模態(tài)模型訓(xùn)練提供支持。

目前，這一模型已在Hugging Face上開源，而介紹DeepSeek-OCR模型技術(shù)細(xì)節(jié)與背后理論的技術(shù)報(bào)告也已同步公開。DeepSeek-OCR團(tuán)隊(duì)稱，他們此番開源的模型是對一種潛在解決方案的初步探索，即利用視覺模態(tài)作為文本信息的高效壓縮媒介。

值得一提的是，與DeepSeek過往新模型動(dòng)輒數(shù)十人的作者團(tuán)隊(duì)不同，這篇論文的作者僅有3人，分別為Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR論文的第一作者Haoran Wei也是GOT-OCR2.0論文的第一作者，GOT-OCR2.0是階躍星辰去年9月發(fā)布的一款OCR模型。

開源地址：

https://huggingface.co/deepseek-ai/DeepSeek-OCR

論文鏈接：

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

一、光學(xué)壓縮可實(shí)現(xiàn)高壓縮比，解碼到底需要多少視覺token？

過去幾年，AI模型的上下文能力不斷被拉長——從4K到128K，再到上百萬token，但代價(jià)是成倍增加的算力與顯存消耗。

但文本其實(shí)是一種冗余的信息形式。DeepSeek-OCR的團(tuán)隊(duì)認(rèn)為：“一張包含文檔文本（document text）的圖像，可以用比等效數(shù)字文本（digital text）少得多的token，來表示豐富信息。這表明，通過視覺token進(jìn)行光學(xué)壓縮可以實(shí)現(xiàn)更高的壓縮比。”

目前，業(yè)內(nèi)已經(jīng)在VLM視覺編碼器和端到端OCR模型上有一定探索?；诖饲暗难芯?，DeepSeek-OCR團(tuán)隊(duì)發(fā)現(xiàn)了目前尚未解決的一個(gè)關(guān)鍵研究問題：對于包含1000個(gè)單詞的文檔，解碼至少需要多少視覺token？這一問題對于研究“一圖勝千言”的原則具有重要意義。

圍繞這一問題，DeepSeek打造了一個(gè)驗(yàn)證系統(tǒng)——DeepSeek-OCR。該模型通過將文本“光學(xué)化”，把原本數(shù)千個(gè)文字token壓縮成幾百個(gè)視覺token，再由語言模型解碼回原文。

DeepSeek-OCR的架構(gòu)分為兩部分。一是DeepEncoder，一個(gè)專為高壓縮、高分辨率文檔處理設(shè)計(jì)的視覺編碼器；二是DeepSeek3B-MoE，一個(gè)輕量級混合專家語言解碼器。

DeepEncoder：顯著壓縮vision token數(shù)量

DeepEncoder采用SAM + CLIP的雙結(jié)構(gòu)設(shè)計(jì)，通過局部窗口注意力結(jié)合全局注意力實(shí)現(xiàn)高保真視覺理解，并用一個(gè)雙層的16×卷積壓縮模塊顯著減少vision token數(shù)量。

舉個(gè)例子，當(dāng)輸入1024×1024的文檔圖片時(shí)，傳統(tǒng)視覺模型會生成4096個(gè)token，DeepEncoder能將其壓縮至僅256個(gè)token，讓激活內(nèi)存的數(shù)量更可控。

此外，它支持多種“分辨率模式”。從輕量的Tiny（64 token）到高保真的Gundam（795 token），模型可根據(jù)任務(wù)復(fù)雜度自動(dòng)選擇壓縮等級。

論文展示了不同分辨率的壓縮效果。對肉眼而言，Tiny模式下圖片中的文字略顯模糊，但基本能看清；而在高保真的Gundam模式下，圖中文字的閱讀體驗(yàn)基本和原文件的閱讀體驗(yàn)沒有差別。

▲實(shí)際閱讀效果需參照原論文中的圖片

在實(shí)際使用中，一頁普通論文或幻燈片僅需100個(gè)視覺token即可精準(zhǔn)識別；而密集文本的報(bào)紙或科學(xué)論文，則可通過Gundam模式實(shí)現(xiàn)高精度還原。

DeepSeek3B-MoE：激活參數(shù)僅5.7億

在解碼端，DeepSeek采用自研DeepSeek3B-MoE架構(gòu)，推理時(shí)僅激活6個(gè)專家模塊，總激活參數(shù)量約5.7億。

這種“按需激活”的機(jī)制讓模型既具備強(qiáng)表達(dá)能力，又能保持低延遲和高能效，極其適合文檔OCR、圖文生成等場景。

數(shù)據(jù)引擎：從文檔到圖表、化學(xué)式、幾何圖

DeepSeek還搭建了一個(gè)龐大的數(shù)據(jù)數(shù)據(jù)集，包含四大數(shù)據(jù)類型：

（1）OCR 1.0數(shù)據(jù)：3000萬頁多語言文檔與自然場景文字等；

（2）OCR 2.0數(shù)據(jù)：圖表、化學(xué)公式、幾何圖形解析等；

（3）通用視覺數(shù)據(jù)：為模型注入基礎(chǔ)圖像理解能力；

（4）純文本數(shù)據(jù)：維持語言流暢度與上下文建模。

得益于這一體系，DeepSeek-OCR不僅能識字、斷句，還能看懂圖表、解讀化學(xué)式、識別幾何圖形，處理常見的圖文交錯(cuò)文檔。

二、10倍壓縮效果幾乎無損，數(shù)百token表示效果超7000 token

DeepSeek-OCR的訓(xùn)練流程整體上相對簡潔，主要分為兩個(gè)階段：獨(dú)立訓(xùn)練DeepEncoder和訓(xùn)練完整的 DeepSeek-OCR模型。

此外，所謂的“Gundam-master模式（超高分辨率）”是在預(yù)訓(xùn)練好的DeepSeek-OCR模型基礎(chǔ)上，繼續(xù)使用600萬條采樣數(shù)據(jù)進(jìn)行微調(diào)得到的。由于其訓(xùn)練協(xié)議與其他模式相同，DeepSeek-OCR團(tuán)隊(duì)省略了詳細(xì)描述。

DeepEncoder的訓(xùn)練遵循Vary的做法，使用一個(gè)輕量級語言模型，并基于下一token預(yù)測框架進(jìn)行訓(xùn)練。在此階段，模型使用了前述的OCR 1.0與OCR 2.0數(shù)據(jù)，以及從LAION 數(shù)據(jù)集中采樣的1億條通用圖像數(shù)據(jù)。

當(dāng)DeepEncoder訓(xùn)練完成后，DeepSeek-OCR團(tuán)隊(duì)使用多模態(tài)數(shù)據(jù)和純文本數(shù)據(jù)，采用流水線并行策略來訓(xùn)練完整的模型。

為驗(yàn)證DeepSeek-OCR在文本密集型文檔中的壓縮與解壓能力，研究團(tuán)隊(duì)選取了Fox基準(zhǔn)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示，在10×壓縮率下，DeepSeek-OCR的解碼精度可達(dá)約97%。這表明未來有望實(shí)現(xiàn)近乎無損的10×文本壓縮。

當(dāng)壓縮率超過10×?xí)r，性能有所下降，主要原因包括文檔版式復(fù)雜度的提升，以及長文本在512×512或640×640分辨率下出現(xiàn)模糊。前者可通過將文本渲染為統(tǒng)一版面解決，而后者則可能成為未來“遺忘機(jī)制”的研究特征。

即便在近20×壓縮時(shí)，模型仍能保持約60%的精度。這些結(jié)果充分說明，光學(xué)上下文壓縮是一條前景廣闊的研究方向，且無需額外計(jì)算開銷，因?yàn)槎嗄B(tài)系統(tǒng)本身已具備視覺編碼器結(jié)構(gòu)。

除實(shí)驗(yàn)驗(yàn)證外，DeepSeek-OCR在實(shí)際場景中同樣表現(xiàn)出不錯(cuò)的能力，可為LLM/VLM的預(yù)訓(xùn)練構(gòu)建高質(zhì)量數(shù)據(jù)。在OmniDocBench上，DeepSeek-OCR僅使用100個(gè)視覺toke（640×640 分辨率）的情況下，超越使用256個(gè)token的GOT-OCR 2.0。而在少于800個(gè)tokens（Gundam 模式）的條件下，DeepSeek-OCR甚至超越了需約7000個(gè)視覺token的MinerU 2.0。

進(jìn)一步分析顯示，不同類型文檔對token數(shù)量的需求存在差異：幻燈片類文檔僅需約64個(gè)視覺token即可獲得良好效果；書籍與報(bào)告在100個(gè)視覺token下即可實(shí)現(xiàn)穩(wěn)定性能；報(bào)紙類文檔由于文本量龐大，需采用Gundam或Gundam-master模式才能實(shí)現(xiàn)可接受的效果。

三、從金融圖表到化學(xué)表達(dá)式，各類文檔均可深度解析

DeepSeek-OCR團(tuán)隊(duì)在論文中展示了DeepSeek-OCR在具體場景的能力。DeepSeek-OCR具備版面識別與OCR 2.0能力，可通過二次模型調(diào)用實(shí)現(xiàn)文檔圖像的進(jìn)一步解析。DeepSeek將這一功能稱為“深度解析（Deep Parsing）”。模型可在圖像中識別不同類型的內(nèi)容，包括圖表、幾何圖形、化學(xué)結(jié)構(gòu)式及自然圖像等。

在金融研究報(bào)告中，DeepSeek-OCR能自動(dòng)提取文檔中圖表的結(jié)構(gòu)化信息，這一功能對金融與科學(xué)領(lǐng)域尤為重要。

在書籍與論文場景中，深度解析模式能夠生成密集的圖像描述，實(shí)現(xiàn)自動(dòng)化的圖文內(nèi)容識別與轉(zhuǎn)寫。

對于化學(xué)文獻(xiàn)，模型不僅可識別化學(xué)結(jié)構(gòu)式，還能將其轉(zhuǎn)化為SMILES格式，展現(xiàn)出在STEM（科學(xué)、技術(shù)、工程與數(shù)學(xué)）領(lǐng)域的潛在應(yīng)用價(jià)值。

此外，DeepSeek-OCR還能解析平面幾何圖形的結(jié)構(gòu)，盡管當(dāng)前任務(wù)仍具有較高難度，但模型已顯示出對幾何要素與空間關(guān)系的初步理解能力。

互聯(lián)網(wǎng)上的PDF數(shù)據(jù)涵蓋多種語言，包括中文、英文以及大量多語種內(nèi)容，這對訓(xùn)練具備全球通用性的大語言模型至關(guān)重要。DeepSeek-OCR已具備處理近百種語言的OCR能力，支持帶版面與非版面兩種輸出格式。

在多語言測試中，DeepSeek-OCR對阿拉伯語與僧伽羅語等小語種文檔同樣能夠生成高質(zhì)量識別結(jié)果。該能力確保DeepSeek-OCR能在多語言環(huán)境下穩(wěn)定運(yùn)行，為多語種文檔解析與跨語言知識提取奠定基礎(chǔ)。

除專注于文檔解析外，DeepSeek-OCR還保留了一定的通用視覺理解能力，包括圖像描述、物體檢測、目標(biāo)定位（grounding）等任務(wù)。在提供相應(yīng)提示詞后，模型能夠詳細(xì)描述圖像內(nèi)容、定位特定對象，甚至在包含文本的圖像中執(zhí)行OCR識別任務(wù)。

此外，由于訓(xùn)練中融入了大量純文本數(shù)據(jù)，DeepSeek-OCR也保留了較強(qiáng)的語言理解與生成能力。需要指出的是，DeepSeek-OCR尚未經(jīng)過監(jiān)督微調(diào)（SFT）階段，因此并非對話模型，部分功能需通過特定提示詞激活。

結(jié)語：高效信息表示或成大模型潛在優(yōu)化方向

“上下文光學(xué)壓縮”驗(yàn)證了視覺模態(tài)在文本壓縮中的有效性，為大語言模型處理超長上下文提供了新的解決路徑。DeepSeek-OCR團(tuán)隊(duì)計(jì)劃在后續(xù)研究中進(jìn)一步探索數(shù)字與光學(xué)混合的文本預(yù)訓(xùn)練方式，并通過更細(xì)粒度的“needle-in-a-haystack”測試評估光學(xué)壓縮在真實(shí)長文本環(huán)境下的表現(xiàn)。

從行業(yè)視角看，DeepSeek-OCR展示了另一種提高模型效率的可能路徑——優(yōu)化信息表達(dá)方式。通過視覺壓縮減少token數(shù)量，模型可以在相同算力下處理更長的上下文內(nèi)容。這一思路為未來在VLM視覺token優(yōu)化、上下文壓縮機(jī)制以及大模型遺忘機(jī)制等方向的研究提供了有價(jià)值的參考。

DeepSeek團(tuán)隊(duì)在論文最后寫道：“光學(xué)上下文壓縮仍有廣闊的研究空間，它代表了一個(gè)新的方向。”這項(xiàng)從OCR任務(wù)出發(fā)的研究，或許已經(jīng)超越了文字識別本身。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.