夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,DeepSeek重要突破!大模型上下文緊箍咒打破

0
分享至


智東西
作者 陳駿達(dá)
編輯 云鵬

在大語言模型不斷拉長上下文窗口的競爭中,DeepSeek剛剛提出了一條與眾不同的技術(shù)路徑。

智東西10月20日報(bào)道,今天上午,DeepSeek開源了DeepSeek-OCR模型,首次提出了“上下文光學(xué)壓縮(Contexts Optical Compression)”的概念,通過文本轉(zhuǎn)圖像實(shí)現(xiàn)信息的高效壓縮。


這一方法的可行性已經(jīng)得到驗(yàn)證,在10倍壓縮比下,DeepSeek-OCR的解碼精度可達(dá)97%,近乎實(shí)現(xiàn)無損壓縮;在20倍壓縮比下,精度仍保持約60%。


當(dāng)把等量的文本token轉(zhuǎn)化為視覺token(圖像)后,DeepSeek-OCR能用更少的token數(shù)表達(dá)相近的文本內(nèi)容,這為解決大語言模型在長文本處理中的高算力開銷提供了新的思路。

除此之外,DeepSeek-OCR還表現(xiàn)出很高的實(shí)際應(yīng)用價(jià)值。在OmniDocBench上,它只使用100個(gè)視覺token就超越了GOT-OCR2.0(每頁256個(gè)token),并且在使用少于800個(gè)視覺tokens的情況下,性能超過了MinerU2.0(平均每頁近7000個(gè)token)。


在生產(chǎn)環(huán)境中,DeepSeek-OCR可以每天在單個(gè)A100-40G GPU上生成20萬頁以上的訓(xùn)練數(shù)據(jù),為大規(guī)模文檔理解和多模態(tài)模型訓(xùn)練提供支持。

目前,這一模型已在Hugging Face上開源,而介紹DeepSeek-OCR模型技術(shù)細(xì)節(jié)與背后理論的技術(shù)報(bào)告也已同步公開。DeepSeek-OCR團(tuán)隊(duì)稱,他們此番開源的模型是對一種潛在解決方案的初步探索,即利用視覺模態(tài)作為文本信息的高效壓縮媒介。

值得一提的是,與DeepSeek過往新模型動(dòng)輒數(shù)十人的作者團(tuán)隊(duì)不同,這篇論文的作者僅有3人,分別為Haoran Wei、Yaofeng Sun、Yukun Li。DeepSeek-OCR論文的第一作者Haoran Wei也是GOT-OCR2.0論文的第一作者,GOT-OCR2.0是階躍星辰去年9月發(fā)布的一款OCR模型。


開源地址:

https://huggingface.co/deepseek-ai/DeepSeek-OCR

論文鏈接:

https://github.com/deepseek-ai/DeepSeek-OCR/tree/main

一、光學(xué)壓縮可實(shí)現(xiàn)高壓縮比,解碼到底需要多少視覺token?

過去幾年,AI模型的上下文能力不斷被拉長——從4K到128K,再到上百萬token,但代價(jià)是成倍增加的算力與顯存消耗。

但文本其實(shí)是一種冗余的信息形式。DeepSeek-OCR的團(tuán)隊(duì)認(rèn)為:“一張包含文檔文本(document text)的圖像,可以用比等效數(shù)字文本(digital text)少得多的token,來表示豐富信息。這表明,通過視覺token進(jìn)行光學(xué)壓縮可以實(shí)現(xiàn)更高的壓縮比。

目前,業(yè)內(nèi)已經(jīng)在VLM視覺編碼器和端到端OCR模型上有一定探索?;诖饲暗难芯?,DeepSeek-OCR團(tuán)隊(duì)發(fā)現(xiàn)了目前尚未解決的一個(gè)關(guān)鍵研究問題:對于包含1000個(gè)單詞的文檔,解碼至少需要多少視覺token?這一問題對于研究“一圖勝千言”的原則具有重要意義。

圍繞這一問題,DeepSeek打造了一個(gè)驗(yàn)證系統(tǒng)——DeepSeek-OCR。該模型通過將文本“光學(xué)化”,把原本數(shù)千個(gè)文字token壓縮成幾百個(gè)視覺token,再由語言模型解碼回原文。

DeepSeek-OCR的架構(gòu)分為兩部分。一是DeepEncoder,一個(gè)專為高壓縮、高分辨率文檔處理設(shè)計(jì)的視覺編碼器;二是DeepSeek3B-MoE,一個(gè)輕量級混合專家語言解碼器。


DeepEncoder:顯著壓縮vision token數(shù)量

DeepEncoder采用SAM + CLIP的雙結(jié)構(gòu)設(shè)計(jì),通過局部窗口注意力結(jié)合全局注意力實(shí)現(xiàn)高保真視覺理解,并用一個(gè)雙層的16×卷積壓縮模塊顯著減少vision token數(shù)量。

舉個(gè)例子,當(dāng)輸入1024×1024的文檔圖片時(shí),傳統(tǒng)視覺模型會生成4096個(gè)token,DeepEncoder能將其壓縮至僅256個(gè)token,讓激活內(nèi)存的數(shù)量更可控。

此外,它支持多種“分辨率模式”。從輕量的Tiny(64 token)到高保真的Gundam(795 token),模型可根據(jù)任務(wù)復(fù)雜度自動(dòng)選擇壓縮等級。

論文展示了不同分辨率的壓縮效果。對肉眼而言,Tiny模式下圖片中的文字略顯模糊,但基本能看清;而在高保真的Gundam模式下,圖中文字的閱讀體驗(yàn)基本和原文件的閱讀體驗(yàn)沒有差別。


▲實(shí)際閱讀效果需參照原論文中的圖片

在實(shí)際使用中,一頁普通論文或幻燈片僅需100個(gè)視覺token即可精準(zhǔn)識別;而密集文本的報(bào)紙或科學(xué)論文,則可通過Gundam模式實(shí)現(xiàn)高精度還原。

DeepSeek3B-MoE:激活參數(shù)僅5.7億

在解碼端,DeepSeek采用自研DeepSeek3B-MoE架構(gòu),推理時(shí)僅激活6個(gè)專家模塊,總激活參數(shù)量約5.7億。

這種“按需激活”的機(jī)制讓模型既具備強(qiáng)表達(dá)能力,又能保持低延遲和高能效,極其適合文檔OCR、圖文生成等場景。

數(shù)據(jù)引擎:從文檔到圖表、化學(xué)式、幾何圖

DeepSeek還搭建了一個(gè)龐大的數(shù)據(jù)數(shù)據(jù)集,包含四大數(shù)據(jù)類型:

(1)OCR 1.0數(shù)據(jù):3000萬頁多語言文檔與自然場景文字等;

(2)OCR 2.0數(shù)據(jù):圖表、化學(xué)公式、幾何圖形解析等;

(3)通用視覺數(shù)據(jù):為模型注入基礎(chǔ)圖像理解能力;

(4)純文本數(shù)據(jù):維持語言流暢度與上下文建模。

得益于這一體系,DeepSeek-OCR不僅能識字、斷句,還能看懂圖表、解讀化學(xué)式、識別幾何圖形,處理常見的圖文交錯(cuò)文檔。

二、10倍壓縮效果幾乎無損,數(shù)百token表示效果超7000 token

DeepSeek-OCR的訓(xùn)練流程整體上相對簡潔,主要分為兩個(gè)階段:獨(dú)立訓(xùn)練DeepEncoder和訓(xùn)練完整的 DeepSeek-OCR模型。

此外,所謂的“Gundam-master模式(超高分辨率)”是在預(yù)訓(xùn)練好的DeepSeek-OCR模型基礎(chǔ)上,繼續(xù)使用600萬條采樣數(shù)據(jù)進(jìn)行微調(diào)得到的。由于其訓(xùn)練協(xié)議與其他模式相同,DeepSeek-OCR團(tuán)隊(duì)省略了詳細(xì)描述。

DeepEncoder的訓(xùn)練遵循Vary的做法,使用一個(gè)輕量級語言模型,并基于下一token預(yù)測框架進(jìn)行訓(xùn)練。在此階段,模型使用了前述的OCR 1.0與OCR 2.0數(shù)據(jù),以及從LAION 數(shù)據(jù)集中采樣的1億條通用圖像數(shù)據(jù)。

當(dāng)DeepEncoder訓(xùn)練完成后,DeepSeek-OCR團(tuán)隊(duì)使用多模態(tài)數(shù)據(jù)和純文本數(shù)據(jù),采用流水線并行策略來訓(xùn)練完整的模型。

為驗(yàn)證DeepSeek-OCR在文本密集型文檔中的壓縮與解壓能力,研究團(tuán)隊(duì)選取了Fox基準(zhǔn)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,在10×壓縮率下,DeepSeek-OCR的解碼精度可達(dá)約97%。這表明未來有望實(shí)現(xiàn)近乎無損的10×文本壓縮。

當(dāng)壓縮率超過10×?xí)r,性能有所下降,主要原因包括文檔版式復(fù)雜度的提升,以及長文本在512×512或640×640分辨率下出現(xiàn)模糊。前者可通過將文本渲染為統(tǒng)一版面解決,而后者則可能成為未來“遺忘機(jī)制”的研究特征。


即便在近20×壓縮時(shí),模型仍能保持約60%的精度。這些結(jié)果充分說明,光學(xué)上下文壓縮是一條前景廣闊的研究方向,且無需額外計(jì)算開銷,因?yàn)槎嗄B(tài)系統(tǒng)本身已具備視覺編碼器結(jié)構(gòu)。

除實(shí)驗(yàn)驗(yàn)證外,DeepSeek-OCR在實(shí)際場景中同樣表現(xiàn)出不錯(cuò)的能力,可為LLM/VLM的預(yù)訓(xùn)練構(gòu)建高質(zhì)量數(shù)據(jù)。在OmniDocBench上,DeepSeek-OCR僅使用100個(gè)視覺toke(640×640 分辨率)的情況下,超越使用256個(gè)token的GOT-OCR 2.0。而在少于800個(gè)tokens(Gundam 模式)的條件下,DeepSeek-OCR甚至超越了需約7000個(gè)視覺token的MinerU 2.0。

進(jìn)一步分析顯示,不同類型文檔對token數(shù)量的需求存在差異:幻燈片類文檔僅需約64個(gè)視覺token即可獲得良好效果;書籍與報(bào)告在100個(gè)視覺token下即可實(shí)現(xiàn)穩(wěn)定性能;報(bào)紙類文檔由于文本量龐大,需采用Gundam或Gundam-master模式才能實(shí)現(xiàn)可接受的效果。

三、從金融圖表到化學(xué)表達(dá)式,各類文檔均可深度解析

DeepSeek-OCR團(tuán)隊(duì)在論文中展示了DeepSeek-OCR在具體場景的能力。DeepSeek-OCR具備版面識別與OCR 2.0能力,可通過二次模型調(diào)用實(shí)現(xiàn)文檔圖像的進(jìn)一步解析。DeepSeek將這一功能稱為“深度解析(Deep Parsing)”。模型可在圖像中識別不同類型的內(nèi)容,包括圖表、幾何圖形、化學(xué)結(jié)構(gòu)式及自然圖像等。

在金融研究報(bào)告中,DeepSeek-OCR能自動(dòng)提取文檔中圖表的結(jié)構(gòu)化信息,這一功能對金融與科學(xué)領(lǐng)域尤為重要。


在書籍與論文場景中,深度解析模式能夠生成密集的圖像描述,實(shí)現(xiàn)自動(dòng)化的圖文內(nèi)容識別與轉(zhuǎn)寫。


對于化學(xué)文獻(xiàn),模型不僅可識別化學(xué)結(jié)構(gòu)式,還能將其轉(zhuǎn)化為SMILES格式,展現(xiàn)出在STEM(科學(xué)、技術(shù)、工程與數(shù)學(xué))領(lǐng)域的潛在應(yīng)用價(jià)值。


此外,DeepSeek-OCR還能解析平面幾何圖形的結(jié)構(gòu),盡管當(dāng)前任務(wù)仍具有較高難度,但模型已顯示出對幾何要素與空間關(guān)系的初步理解能力。


互聯(lián)網(wǎng)上的PDF數(shù)據(jù)涵蓋多種語言,包括中文、英文以及大量多語種內(nèi)容,這對訓(xùn)練具備全球通用性的大語言模型至關(guān)重要。DeepSeek-OCR已具備處理近百種語言的OCR能力,支持帶版面與非版面兩種輸出格式。

在多語言測試中,DeepSeek-OCR對阿拉伯語與僧伽羅語等小語種文檔同樣能夠生成高質(zhì)量識別結(jié)果。該能力確保DeepSeek-OCR能在多語言環(huán)境下穩(wěn)定運(yùn)行,為多語種文檔解析與跨語言知識提取奠定基礎(chǔ)。

除專注于文檔解析外,DeepSeek-OCR還保留了一定的通用視覺理解能力,包括圖像描述、物體檢測、目標(biāo)定位(grounding)等任務(wù)。在提供相應(yīng)提示詞后,模型能夠詳細(xì)描述圖像內(nèi)容、定位特定對象,甚至在包含文本的圖像中執(zhí)行OCR識別任務(wù)。


此外,由于訓(xùn)練中融入了大量純文本數(shù)據(jù),DeepSeek-OCR也保留了較強(qiáng)的語言理解與生成能力。需要指出的是,DeepSeek-OCR尚未經(jīng)過監(jiān)督微調(diào)(SFT)階段,因此并非對話模型,部分功能需通過特定提示詞激活。

結(jié)語:高效信息表示或成大模型潛在優(yōu)化方向

“上下文光學(xué)壓縮”驗(yàn)證了視覺模態(tài)在文本壓縮中的有效性,為大語言模型處理超長上下文提供了新的解決路徑。DeepSeek-OCR團(tuán)隊(duì)計(jì)劃在后續(xù)研究中進(jìn)一步探索數(shù)字與光學(xué)混合的文本預(yù)訓(xùn)練方式,并通過更細(xì)粒度的“needle-in-a-haystack”測試評估光學(xué)壓縮在真實(shí)長文本環(huán)境下的表現(xiàn)。

從行業(yè)視角看,DeepSeek-OCR展示了另一種提高模型效率的可能路徑——優(yōu)化信息表達(dá)方式。通過視覺壓縮減少token數(shù)量,模型可以在相同算力下處理更長的上下文內(nèi)容。這一思路為未來在VLM視覺token優(yōu)化、上下文壓縮機(jī)制以及大模型遺忘機(jī)制等方向的研究提供了有價(jià)值的參考。

DeepSeek團(tuán)隊(duì)在論文最后寫道:“光學(xué)上下文壓縮仍有廣闊的研究空間,它代表了一個(gè)新的方向。”這項(xiàng)從OCR任務(wù)出發(fā)的研究,或許已經(jīng)超越了文字識別本身。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一年連虧三部電影,最多接近6億,巨星黃渤因何被棄

一年連虧三部電影,最多接近6億,巨星黃渤因何被棄

影視高原說
2025-10-19 08:51:50
10月21日俄烏:波克羅夫斯克危急?

10月21日俄烏:波克羅夫斯克危急?

山河路口
2025-10-21 18:34:57
翁帆相伴21年,楊振寧去世后,繼子楊光諾一句感謝話讓她口碑暴漲

翁帆相伴21年,楊振寧去世后,繼子楊光諾一句感謝話讓她口碑暴漲

阿訊說天下
2025-10-20 15:09:32
演技爛得像混子《沉默的榮耀》里混進(jìn)關(guān)系戶,于和偉都帶不動(dòng)

演技爛得像混子《沉默的榮耀》里混進(jìn)關(guān)系戶,于和偉都帶不動(dòng)

洲洲影視娛評
2025-10-14 15:04:37
贅婿靠“大鳥”上位!宋伊人被一剪沒!

贅婿靠“大鳥”上位!宋伊人被一剪沒!

八卦瘋叔
2025-10-21 10:56:06
多家銀行下調(diào)存款利率:有的直降80個(gè)基點(diǎn) 有的“存三年不如存一年”

多家銀行下調(diào)存款利率:有的直降80個(gè)基點(diǎn) 有的“存三年不如存一年”

財(cái)聯(lián)社
2025-10-21 12:24:19
等你老了,切記遠(yuǎn)離黑色、棕色,換成3種“年輕色”更減齡顯氣質(zhì)

等你老了,切記遠(yuǎn)離黑色、棕色,換成3種“年輕色”更減齡顯氣質(zhì)

小陳聊搭配
2025-10-21 19:38:25
埃及不買了,印尼不買了,泰國也不買了,怎么這事像是在玩一樣?

埃及不買了,印尼不買了,泰國也不買了,怎么這事像是在玩一樣?

百態(tài)人間
2025-10-07 15:01:34
90年代北美空姐,世界級美女,絕世容顏,世間竟有如此美貌的人

90年代北美空姐,世界級美女,絕世容顏,世間竟有如此美貌的人

TVB的四小花
2025-10-01 13:15:04
官宣生子不到一小時(shí)就迎來大反轉(zhuǎn),何穗人品遭質(zhì)疑,陳偉霆被牽連

官宣生子不到一小時(shí)就迎來大反轉(zhuǎn),何穗人品遭質(zhì)疑,陳偉霆被牽連

桑葚愛動(dòng)畫
2025-10-21 23:19:18
潘石屹再次預(yù)判我國樓市!若無意外,未來3年樓市或迎來3大走向

潘石屹再次預(yù)判我國樓市!若無意外,未來3年樓市或迎來3大走向

山丘樓評
2025-10-20 13:41:38
NBA官網(wǎng)發(fā)布首期實(shí)力榜:雷霆力壓掘金高居第一,湖人第十

NBA官網(wǎng)發(fā)布首期實(shí)力榜:雷霆力壓掘金高居第一,湖人第十

雷速體育
2025-10-21 08:26:07
美國 RIVIERA 號豪華郵輪,拒交 1167 萬港務(wù)費(fèi)急轉(zhuǎn)韓國,中方反制政策立竿見影

美國 RIVIERA 號豪華郵輪,拒交 1167 萬港務(wù)費(fèi)急轉(zhuǎn)韓國,中方反制政策立竿見影

流年拾光
2025-10-20 20:49:22
最新UFO證據(jù),前美國官員曝光新線索,牽扯馬斯克火箭!

最新UFO證據(jù),前美國官員曝光新線索,牽扯馬斯克火箭!

哥譚重案組
2025-10-21 22:42:34
張靈甫回家想吃餃子,妻子吳海蘭起身去準(zhǔn)備,然后被丈夫開了一槍

張靈甫回家想吃餃子,妻子吳海蘭起身去準(zhǔn)備,然后被丈夫開了一槍

興趣知識
2025-10-20 22:29:48
賦0+罰款!孫穎莎王楚欽等5大超巨退賽,可能會遭遇國際乒聯(lián)處罰

賦0+罰款!孫穎莎王楚欽等5大超巨退賽,可能會遭遇國際乒聯(lián)處罰

嘴炮體壇
2025-10-21 22:31:02
內(nèi)科主任提醒:過了60歲后,寧可打打麻將,也別在家隨意做5件事

內(nèi)科主任提醒:過了60歲后,寧可打打麻將,也別在家隨意做5件事

今日養(yǎng)生之道
2025-10-14 11:03:53
把烏克蘭地圖甩一邊,川普氣的爆發(fā)了:等著被俄羅斯毀滅吧

把烏克蘭地圖甩一邊,川普氣的爆發(fā)了:等著被俄羅斯毀滅吧

銳器
2025-10-21 22:40:41
關(guān)于陳志和太子集團(tuán),網(wǎng)友們發(fā)現(xiàn)我們媒體曾經(jīng)這樣報(bào)道過

關(guān)于陳志和太子集團(tuán),網(wǎng)友們發(fā)現(xiàn)我們媒體曾經(jīng)這樣報(bào)道過

清暉有墨
2025-10-19 11:00:21
難掩激動(dòng)之情!NBA官方更新社媒狂發(fā)23次“NBA回來了”

難掩激動(dòng)之情!NBA官方更新社媒狂發(fā)23次“NBA回來了”

雷速體育
2025-10-21 19:15:20
2025-10-22 00:03:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10607文章數(shù) 116878關(guān)注度
往期回顧 全部

科技要聞

追思楊振寧,潘建偉饒毅等首次披露哪些細(xì)節(jié)

頭條要聞

特朗普稱"1年后美國將擁有大量稀土" 分析人士發(fā)聲

頭條要聞

特朗普稱"1年后美國將擁有大量稀土" 分析人士發(fā)聲

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

陳柏霖已承認(rèn)逃兵役,他知道跑不掉了

財(cái)經(jīng)要聞

黃金白銀高臺跳水,什么原因?

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

家居
手機(jī)
數(shù)碼
游戲
公開課

家居要聞

秩序自由 在規(guī)則中創(chuàng)新

手機(jī)要聞

華為Mate70 Air突然上架電信庫:超薄新機(jī)+三色任選!

數(shù)碼要聞

閃極唱片三合一充電寶入選《時(shí)代》2025年度最佳發(fā)明

《巫師》游戲交響視聽音樂會官宣 / 《忍者龍劍傳 4》發(fā)售

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲综合不卡一区二区三区| 色欲天天婬色婬香综合网完整版| 亚洲婷婷成人| 亚洲裸男gv网站| 粉嫩蜜臀av一区二区三区| 狼友av永久网站免费观看孕交| 婷婷丁香五月社区| 日本中文字幕亚洲乱码| 精品成人电影| 扒开双腿疯狂进出爽爽爽视频| 精品91亚洲高清在线观看| 大学生疯狂高潮呻吟免费视频| 午夜精品久久久AV| 免费国产va在线观看视频| 中华少妇午夜毛片儿| 久久伊人开心激情综合| 欧美成人免费全部| 色婷婷久久啪啪一区二区| 亚洲av福利院在线观看| 一区二区亚洲人妻精品| 日韩熟女专区一区| 国产刺激一区二区三区| 中文字幕第一页亚洲精品| 嗯,啊,好舒服,视频| 视一乱一交一做一爱| 色欲av第一区| 久热在线这里只有精品国产| 国产一区二区三四区| 亚洲尤物超碰| 99视频精品全部在线观看| 国产熟女叫精品| 亚洲AV无码AV成人下药| 久久久久免费看成人影片| Av好色Av熟妇Av| 亚洲成av人在线观看天堂无码| 亚洲日本韩在线观看| 高潮videosorgasm抽搐合集| 国产AV不卡一区| 久久中文字幕一区二区| 另类乱码在线| 日韩淫片免费看|