智東西
作者 陳駿達(dá)
編輯 云鵬
在大語言模型不斷拉長上下文窗口的競爭中,DeepSeek剛剛提出了一條與眾不同的技術(shù)路徑。
智東西10月20日報(bào)道,今天上午,DeepSeek開源了DeepSeek-OCR模型,首次提出了“上下文光學(xué)壓縮(Contexts Optical Compression)”的概念,通過文本轉(zhuǎn)圖像實(shí)現(xiàn)信息的高效壓縮。
這一方法的可行性已經(jīng)得到驗(yàn)證,在10倍壓縮比下,DeepSeek-OCR的解碼精度可達(dá)97%,近乎實(shí)現(xiàn)無損壓縮;在20倍壓縮比下,精度仍保持約60%。
當(dāng)把等量的文本token轉(zhuǎn)化為視覺token(圖像)后,DeepSeek-OCR能用更少的token數(shù)表達(dá)相近的文本內(nèi)容,這為解決大語言模型在長文本處理中的高算力開銷提供了新的思路。
除此之外,DeepSeek-OCR還表現(xiàn)出很高的實(shí)際應(yīng)用價(jià)值。在OmniDocBench上,它只使用100個(gè)視覺token就超越了GOT-OCR2.0(每頁256個(gè)token),并且在使用少于800個(gè)視覺tokens的情況下,性能超過了MinerU2.0(平均每頁近7000個(gè)token)。
在生產(chǎn)環(huán)境中,DeepSeek-OCR可以每天在單個(gè)A100-40G GPU上生成20萬頁以上的訓(xùn)練數(shù)據(jù),為大規(guī)模文檔理解和多模態(tài)模型訓(xùn)練提供支持。
目前,這一模型已在Hugging Face上開源,而介紹DeepSeek-OCR模型技術(shù)細(xì)節(jié)與背后理論的技術(shù)報(bào)告也已同步公開。DeepSeek-OCR團(tuán)隊(duì)稱,他們此番開源的模型是對一種潛在解決方案的初步探索,即利用視覺模態(tài)作為文本信息的高效壓縮媒介。
值得一提的是,與DeepSeek過往新模型動(dòng)輒數(shù)十人的作者團(tuán)隊(duì)不同,這篇論文的作者僅有3人,分別為Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR論文的第一作者Haoran Wei也是GOT-OCR2.0論文的第一作者,GOT-OCR2.0是階躍星辰去年9月發(fā)布的一款OCR模型。
開源地址:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
論文鏈接:
https://github.com/deepseek-ai/DeepSeek-OCR/tree/main
一、光學(xué)壓縮可實(shí)現(xiàn)高壓縮比,解碼到底需要多少視覺token?
過去幾年,AI模型的上下文能力不斷被拉長——從4K到128K,再到上百萬token,但代價(jià)是成倍增加的算力與顯存消耗。
但文本其實(shí)是一種冗余的信息形式。DeepSeek-OCR的團(tuán)隊(duì)認(rèn)為:“一張包含文檔文本(document text)的圖像,可以用比等效數(shù)字文本(digital text)少得多的token,來表示豐富信息。這表明,通過視覺token進(jìn)行光學(xué)壓縮可以實(shí)現(xiàn)更高的壓縮比。”
目前,業(yè)內(nèi)已經(jīng)在VLM視覺編碼器和端到端OCR模型上有一定探索?;诖饲暗难芯?,DeepSeek-OCR團(tuán)隊(duì)發(fā)現(xiàn)了目前尚未解決的一個(gè)關(guān)鍵研究問題:對于包含1000個(gè)單詞的文檔,解碼至少需要多少視覺token?這一問題對于研究“一圖勝千言”的原則具有重要意義。
圍繞這一問題,DeepSeek打造了一個(gè)驗(yàn)證系統(tǒng)——DeepSeek-OCR。該模型通過將文本“光學(xué)化”,把原本數(shù)千個(gè)文字token壓縮成幾百個(gè)視覺token,再由語言模型解碼回原文。
DeepSeek-OCR的架構(gòu)分為兩部分。一是DeepEncoder,一個(gè)專為高壓縮、高分辨率文檔處理設(shè)計(jì)的視覺編碼器;二是DeepSeek3B-MoE,一個(gè)輕量級混合專家語言解碼器。
DeepEncoder:顯著壓縮vision token數(shù)量
DeepEncoder采用SAM + CLIP的雙結(jié)構(gòu)設(shè)計(jì),通過局部窗口注意力結(jié)合全局注意力實(shí)現(xiàn)高保真視覺理解,并用一個(gè)雙層的16×卷積壓縮模塊顯著減少vision token數(shù)量。
舉個(gè)例子,當(dāng)輸入1024×1024的文檔圖片時(shí),傳統(tǒng)視覺模型會生成4096個(gè)token,DeepEncoder能將其壓縮至僅256個(gè)token,讓激活內(nèi)存的數(shù)量更可控。
此外,它支持多種“分辨率模式”。從輕量的Tiny(64 token)到高保真的Gundam(795 token),模型可根據(jù)任務(wù)復(fù)雜度自動(dòng)選擇壓縮等級。
論文展示了不同分辨率的壓縮效果。對肉眼而言,Tiny模式下圖片中的文字略顯模糊,但基本能看清;而在高保真的Gundam模式下,圖中文字的閱讀體驗(yàn)基本和原文件的閱讀體驗(yàn)沒有差別。
▲實(shí)際閱讀效果需參照原論文中的圖片
在實(shí)際使用中,一頁普通論文或幻燈片僅需100個(gè)視覺token即可精準(zhǔn)識別;而密集文本的報(bào)紙或科學(xué)論文,則可通過Gundam模式實(shí)現(xiàn)高精度還原。
DeepSeek3B-MoE:激活參數(shù)僅5.7億
在解碼端,DeepSeek采用自研DeepSeek3B-MoE架構(gòu),推理時(shí)僅激活6個(gè)專家模塊,總激活參數(shù)量約5.7億。
這種“按需激活”的機(jī)制讓模型既具備強(qiáng)表達(dá)能力,又能保持低延遲和高能效,極其適合文檔OCR、圖文生成等場景。
數(shù)據(jù)引擎:從文檔到圖表、化學(xué)式、幾何圖
DeepSeek還搭建了一個(gè)龐大的數(shù)據(jù)數(shù)據(jù)集,包含四大數(shù)據(jù)類型:
(1)OCR 1.0數(shù)據(jù):3000萬頁多語言文檔與自然場景文字等;
(2)OCR 2.0數(shù)據(jù):圖表、化學(xué)公式、幾何圖形解析等;
(3)通用視覺數(shù)據(jù):為模型注入基礎(chǔ)圖像理解能力;
(4)純文本數(shù)據(jù):維持語言流暢度與上下文建模。
得益于這一體系,DeepSeek-OCR不僅能識字、斷句,還能看懂圖表、解讀化學(xué)式、識別幾何圖形,處理常見的圖文交錯(cuò)文檔。
二、10倍壓縮效果幾乎無損,數(shù)百token表示效果超7000 token
DeepSeek-OCR的訓(xùn)練流程整體上相對簡潔,主要分為兩個(gè)階段:獨(dú)立訓(xùn)練DeepEncoder和訓(xùn)練完整的 DeepSeek-OCR模型。
此外,所謂的“Gundam-master模式(超高分辨率)”是在預(yù)訓(xùn)練好的DeepSeek-OCR模型基礎(chǔ)上,繼續(xù)使用600萬條采樣數(shù)據(jù)進(jìn)行微調(diào)得到的。由于其訓(xùn)練協(xié)議與其他模式相同,DeepSeek-OCR團(tuán)隊(duì)省略了詳細(xì)描述。
DeepEncoder的訓(xùn)練遵循Vary的做法,使用一個(gè)輕量級語言模型,并基于下一token預(yù)測框架進(jìn)行訓(xùn)練。在此階段,模型使用了前述的OCR 1.0與OCR 2.0數(shù)據(jù),以及從LAION 數(shù)據(jù)集中采樣的1億條通用圖像數(shù)據(jù)。
當(dāng)DeepEncoder訓(xùn)練完成后,DeepSeek-OCR團(tuán)隊(duì)使用多模態(tài)數(shù)據(jù)和純文本數(shù)據(jù),采用流水線并行策略來訓(xùn)練完整的模型。
為驗(yàn)證DeepSeek-OCR在文本密集型文檔中的壓縮與解壓能力,研究團(tuán)隊(duì)選取了Fox基準(zhǔn)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,在10×壓縮率下,DeepSeek-OCR的解碼精度可達(dá)約97%。這表明未來有望實(shí)現(xiàn)近乎無損的10×文本壓縮。
當(dāng)壓縮率超過10×?xí)r,性能有所下降,主要原因包括文檔版式復(fù)雜度的提升,以及長文本在512×512或640×640分辨率下出現(xiàn)模糊。前者可通過將文本渲染為統(tǒng)一版面解決,而后者則可能成為未來“遺忘機(jī)制”的研究特征。
即便在近20×壓縮時(shí),模型仍能保持約60%的精度。這些結(jié)果充分說明,光學(xué)上下文壓縮是一條前景廣闊的研究方向,且無需額外計(jì)算開銷,因?yàn)槎嗄B(tài)系統(tǒng)本身已具備視覺編碼器結(jié)構(gòu)。
除實(shí)驗(yàn)驗(yàn)證外,DeepSeek-OCR在實(shí)際場景中同樣表現(xiàn)出不錯(cuò)的能力,可為LLM/VLM的預(yù)訓(xùn)練構(gòu)建高質(zhì)量數(shù)據(jù)。在OmniDocBench上,DeepSeek-OCR僅使用100個(gè)視覺toke(640×640 分辨率)的情況下,超越使用256個(gè)token的GOT-OCR 2.0。而在少于800個(gè)tokens(Gundam 模式)的條件下,DeepSeek-OCR甚至超越了需約7000個(gè)視覺token的MinerU 2.0。
進(jìn)一步分析顯示,不同類型文檔對token數(shù)量的需求存在差異:幻燈片類文檔僅需約64個(gè)視覺token即可獲得良好效果;書籍與報(bào)告在100個(gè)視覺token下即可實(shí)現(xiàn)穩(wěn)定性能;報(bào)紙類文檔由于文本量龐大,需采用Gundam或Gundam-master模式才能實(shí)現(xiàn)可接受的效果。
三、從金融圖表到化學(xué)表達(dá)式,各類文檔均可深度解析
DeepSeek-OCR團(tuán)隊(duì)在論文中展示了DeepSeek-OCR在具體場景的能力。DeepSeek-OCR具備版面識別與OCR 2.0能力,可通過二次模型調(diào)用實(shí)現(xiàn)文檔圖像的進(jìn)一步解析。DeepSeek將這一功能稱為“深度解析(Deep Parsing)”。模型可在圖像中識別不同類型的內(nèi)容,包括圖表、幾何圖形、化學(xué)結(jié)構(gòu)式及自然圖像等。
在金融研究報(bào)告中,DeepSeek-OCR能自動(dòng)提取文檔中圖表的結(jié)構(gòu)化信息,這一功能對金融與科學(xué)領(lǐng)域尤為重要。
在書籍與論文場景中,深度解析模式能夠生成密集的圖像描述,實(shí)現(xiàn)自動(dòng)化的圖文內(nèi)容識別與轉(zhuǎn)寫。
對于化學(xué)文獻(xiàn),模型不僅可識別化學(xué)結(jié)構(gòu)式,還能將其轉(zhuǎn)化為SMILES格式,展現(xiàn)出在STEM(科學(xué)、技術(shù)、工程與數(shù)學(xué))領(lǐng)域的潛在應(yīng)用價(jià)值。
此外,DeepSeek-OCR還能解析平面幾何圖形的結(jié)構(gòu),盡管當(dāng)前任務(wù)仍具有較高難度,但模型已顯示出對幾何要素與空間關(guān)系的初步理解能力。
互聯(lián)網(wǎng)上的PDF數(shù)據(jù)涵蓋多種語言,包括中文、英文以及大量多語種內(nèi)容,這對訓(xùn)練具備全球通用性的大語言模型至關(guān)重要。DeepSeek-OCR已具備處理近百種語言的OCR能力,支持帶版面與非版面兩種輸出格式。
在多語言測試中,DeepSeek-OCR對阿拉伯語與僧伽羅語等小語種文檔同樣能夠生成高質(zhì)量識別結(jié)果。該能力確保DeepSeek-OCR能在多語言環(huán)境下穩(wěn)定運(yùn)行,為多語種文檔解析與跨語言知識提取奠定基礎(chǔ)。
除專注于文檔解析外,DeepSeek-OCR還保留了一定的通用視覺理解能力,包括圖像描述、物體檢測、目標(biāo)定位(grounding)等任務(wù)。在提供相應(yīng)提示詞后,模型能夠詳細(xì)描述圖像內(nèi)容、定位特定對象,甚至在包含文本的圖像中執(zhí)行OCR識別任務(wù)。
此外,由于訓(xùn)練中融入了大量純文本數(shù)據(jù),DeepSeek-OCR也保留了較強(qiáng)的語言理解與生成能力。需要指出的是,DeepSeek-OCR尚未經(jīng)過監(jiān)督微調(diào)(SFT)階段,因此并非對話模型,部分功能需通過特定提示詞激活。
結(jié)語:高效信息表示或成大模型潛在優(yōu)化方向
“上下文光學(xué)壓縮”驗(yàn)證了視覺模態(tài)在文本壓縮中的有效性,為大語言模型處理超長上下文提供了新的解決路徑。DeepSeek-OCR團(tuán)隊(duì)計(jì)劃在后續(xù)研究中進(jìn)一步探索數(shù)字與光學(xué)混合的文本預(yù)訓(xùn)練方式,并通過更細(xì)粒度的“needle-in-a-haystack”測試評估光學(xué)壓縮在真實(shí)長文本環(huán)境下的表現(xiàn)。
從行業(yè)視角看,DeepSeek-OCR展示了另一種提高模型效率的可能路徑——優(yōu)化信息表達(dá)方式。通過視覺壓縮減少token數(shù)量,模型可以在相同算力下處理更長的上下文內(nèi)容。這一思路為未來在VLM視覺token優(yōu)化、上下文壓縮機(jī)制以及大模型遺忘機(jī)制等方向的研究提供了有價(jià)值的參考。
DeepSeek團(tuán)隊(duì)在論文最后寫道:“光學(xué)上下文壓縮仍有廣闊的研究空間,它代表了一個(gè)新的方向。”這項(xiàng)從OCR任務(wù)出發(fā)的研究,或許已經(jīng)超越了文字識別本身。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.