網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek新模型被硅谷瘋夸！用二維視覺壓縮一維文字，單GPU能跑

2025-10-21 07:44:55　來源: 量子位

北京舉報(bào)

分享至

DeepSeek最新開源的模型，已經(jīng)被硅谷夸瘋了！

因?yàn)閷?shí)在太DeepSeek了。3B規(guī)模、指數(shù)級(jí)效能變革、大道至簡(jiǎn)，甚至被認(rèn)為把谷歌Gemini嚴(yán)防死守的商業(yè)機(jī)密開源了。

唯一的問題可能就是被“OCR”命名耽誤了。

是的，DeepSeek剛剛開源即火爆的模型就叫：DeepSeek-OCR。

這個(gè)模型瞄準(zhǔn)的是大模型處理長(zhǎng)文本時(shí)的算力爆炸難題……雖然模型參數(shù)很小，但四兩撥千斤，其背后所代表的“用視覺方式壓縮一切”的思想，大道至簡(jiǎn)，既是人類智能的現(xiàn)實(shí)，也不斷出現(xiàn)在諸如《三體》的科幻作品中。

簡(jiǎn)單來說，由于一張圖能包含大量文字（用的token還更少），所以他們想到并驗(yàn)證了“將視覺作為文本壓縮媒介”這一方法——就好比優(yōu)秀的人看書都是掃一眼就知道內(nèi)容，不必一字一句讀完才理解內(nèi)容。

一圖勝千言。

而且DeepSeek研究后發(fā)現(xiàn)，當(dāng)壓縮率小于10倍時(shí)（即文本token數(shù)是視覺token數(shù)的10倍以內(nèi)），模型OCR解碼準(zhǔn)確率高達(dá)97%；即使壓縮率高達(dá)20倍，準(zhǔn)確率依舊能保持在60%左右，效果相當(dāng)能打。

更主要的是，DeepSeek再次展現(xiàn)了高效能風(fēng)格，他們的方法之下，生成訓(xùn)練數(shù)據(jù)——僅憑一塊A100-40G GPU，每天就能生成超過20萬頁的優(yōu)質(zhì)LLM/VLM訓(xùn)練數(shù)據(jù)。

所以這個(gè)研究一經(jīng)公布，已經(jīng)快速在GitHub斬獲了3.3K star。HuggingFace則已經(jīng)熱榜第二……X上熱議，好評(píng)聲一片。

剛“尖銳”評(píng)價(jià)過AI現(xiàn)狀的卡帕西說：我很喜歡……特別是圖像比文字更適合LLM輸入，妙啊。

還有人認(rèn)為這是“AI的JPEG時(shí)刻”，AI記憶架構(gòu)打開了新路徑。

還有爆料猜測(cè)，谷歌Gemini的核心商業(yè)機(jī)密被開源了：

當(dāng)然，如此火爆的工作還帶了更多思考——不少人看過論文后，認(rèn)為這種統(tǒng)一視覺與語言的方法，或許是通往AGI的大門之一。

以及DeepSeek還在論文中，談到了AI的記憶和“遺忘”機(jī)制。

所以，DeepSeek的新模型，論文究竟是怎么說的？

DeepSeek新研究：兩大核心組件實(shí)現(xiàn)“以小博大”

概括而言，DeepSeek這次提出了一種名為“上下文光學(xué)壓縮”（Contexts Optical Compression）的思路。

其靈感來自這樣一個(gè)巧妙的逆向思維：

既然一張圖片能“裝下”成千上萬個(gè)字，那我們能不能把文字信息壓縮到圖片里，讓模型通過“看圖”來理解內(nèi)容呢？

本質(zhì)上來說，這就是一種視覺-文本壓縮范式，通過用少量的視覺token來表示原本需要大量文本token的內(nèi)容，以此降低大模型的計(jì)算開銷。

為驗(yàn)證這一想法，他們構(gòu)建了3B大小的DeepSeek-OCR模型，結(jié)果發(fā)現(xiàn)它在主流文檔解析基準(zhǔn)OmniDocBench上取得了新SOTA。

下圖顯示，DeepSeek-OCR（紅色圓點(diǎn)）在“平均每張圖的視覺token數(shù)”（橫軸）上位于最右側(cè)，這說明它使用的token數(shù)量最少；而在“整體性能”（縱軸，越低越好）上，它卻達(dá)到了SOTA水平，而且大多還是“以小博大”。

更具體的對(duì)比如下：

僅用100個(gè)視覺token，DeepSeek-OCR就超過了每頁使用256個(gè)token的GOT-OCR2.0；
當(dāng)使用400個(gè)視覺token時(shí)（其中有效token為285），DeepSeek-OCR就能和之前的SOTA模型表現(xiàn)相當(dāng)；
使用不到800個(gè)視覺token，DeepSeek-OCR便大大超過了平均每頁近7000個(gè)視覺token的MinerU2.0。

這一切背后都不開DeepSeek-OCR架構(gòu)的兩大核心組件：

編碼器DeepEncoder：負(fù)責(zé)把圖片轉(zhuǎn)成高度壓縮的視覺token；
解碼器DeepSeek3B-MoE-A570M：負(fù)責(zé)從壓縮的視覺token里重建文字。

這里重點(diǎn)說一下整個(gè)系統(tǒng)的創(chuàng)新關(guān)鍵——編碼器DeepEncoder。

其核心使命為，在處理高分辨率圖像時(shí)，能夠產(chǎn)出數(shù)量極少但信息密度極高的視覺token。

為此它采用了“先局部處理，再壓縮，后全局理解”的串行設(shè)計(jì)：

局部處理：利用僅使用“窗口注意力”機(jī)制的SAM-base模型（8000萬參數(shù)），第一步先在高分辨率圖像上進(jìn)行細(xì)粒度的局部特征提取。盡管此時(shí)生成的視覺token數(shù)量龐大，但由于窗口注意力的高效性，內(nèi)存開銷仍在可控范圍內(nèi)；
再壓縮：然后在中間部分加一個(gè)16倍卷積壓縮器，從而在特征進(jìn)入全局注意力模塊前大幅砍掉token數(shù)量，比如一張1024x1024的圖片，經(jīng)過第一階段會(huì)產(chǎn)生4096個(gè)token，但經(jīng)過壓縮機(jī)后，只剩下256個(gè)token進(jìn)入第二階段；
后全局理解：最后利用使用“全局注意力”機(jī)制的CLIP-large模型（3億參數(shù)），更深入地理解這些經(jīng)過濃縮后的少量token，此時(shí)由于輸入的token數(shù)量已經(jīng)大幅減少，所以這里的計(jì)算開銷也變得可以接受。

此外值得一提的是，為了靈活應(yīng)對(duì)不同的壓縮比需求和實(shí)際應(yīng)用場(chǎng)景，DeepEncoder被訓(xùn)練成支持從“Tiny”（512x512, 64token）到“Gundam”（動(dòng)態(tài)分塊，近800token）等多種輸入模式。

就是說，同一個(gè)模型可以根據(jù)任務(wù)需要，隨機(jī)應(yīng)變地調(diào)整其“壓縮強(qiáng)度”。

總之，基于以上原理和組件搭配，目前DeepSeek-OCR除了具備常規(guī)識(shí)別能力，還支持對(duì)金融報(bào)表、化學(xué)分子式、數(shù)學(xué)幾何圖、100多種語言等更為復(fù)雜的圖像進(jìn)行深度解析。

三位作者亮相

如此被夸贊的新研究，來自三位研究人員，依然很DeepSeek——幾人都相對(duì)低調(diào)，網(wǎng)上公開資料很少。

Haoran Wei，曾就職于階躍星辰，當(dāng)時(shí)還主導(dǎo)開發(fā)了意在實(shí)現(xiàn)“第二代OCR”的GOT-OCR2.0系統(tǒng)。

（2024年9月發(fā)表的這篇論文顯示，身為論文一作的Haoran Wei所處單位為階躍。）

此次DeepSeek-OCR的工作也可謂延續(xù)了GOT-OCR2.0之前的技術(shù)路徑，即致力于通過端到端模型解決復(fù)雜文檔解析問題。

Yaofeng Sun，從去年開始就陸續(xù)參與DeepSeek多款模型研發(fā)，包括R1、V3中都有他的身影。

Yukun Li（李宇琨），谷歌學(xué)術(shù)論文近萬引研究員，也持續(xù)參與了包括DeepSeek V2/V3在內(nèi)的多款模型研發(fā)。

有意思的是，這三人在提出DeepSeek-OCR之后，還貢獻(xiàn)了一個(gè)腦洞大開的想法——

用光學(xué)壓縮模擬人類的遺忘機(jī)制。

只需將上下文光學(xué)壓縮與人類記憶的衰退過程進(jìn)行類比，我們就能發(fā)現(xiàn)二者高度相似：

近期記憶：就像近處的物體，清晰可見。所以可以將其渲染成高分辨率圖像，用較多的視覺token來保留高保真信息。
遠(yuǎn)期記憶：就像遠(yuǎn)處的物體，逐漸模糊。所以可以將其漸進(jìn)式地縮放成更小、更模糊的圖像，用更少的視覺token來表示，從而實(shí)現(xiàn)信息的自然遺忘和壓縮。

這樣一來，理論上模型就可以在處理超長(zhǎng)對(duì)話或文檔時(shí)，動(dòng)態(tài)地為不同時(shí)期的上下文分配不同數(shù)量的計(jì)算資源，從而可能構(gòu)建出一種無限長(zhǎng)上下文的架構(gòu)。

團(tuán)隊(duì)表示，雖然這還是個(gè)早期研究方向，但不失為模型處理超長(zhǎng)上下文的一種新思路。

這個(gè)思路確實(shí)也更像人類的智能。

之前AI的上下文研究，對(duì)于短期中期遠(yuǎn)期的都是一視同仁，機(jī)器味兒十足，但計(jì)算資源和響應(yīng)問題也會(huì)相應(yīng)暴漲……

而現(xiàn)在，DeepSeek提出新思路，是時(shí)候讓AI記憶更像人了。

傳送門：
Hugging Face：
https://huggingface.co/deepseek-ai/DeepSeek-OCR
GitHub：
https://github.com/deepseek-ai/DeepSeek-OCR

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.