DeepSeek最新開源的模型,已經(jīng)被硅谷夸瘋了!
因?yàn)閷?shí)在太DeepSeek了。3B規(guī)模、指數(shù)級(jí)效能變革、大道至簡(jiǎn),甚至被認(rèn)為把谷歌Gemini嚴(yán)防死守的商業(yè)機(jī)密開源了。
唯一的問題可能就是被“OCR”命名耽誤了。
是的,DeepSeek剛剛開源即火爆的模型就叫:DeepSeek-OCR。
這個(gè)模型瞄準(zhǔn)的是大模型處理長(zhǎng)文本時(shí)的算力爆炸難題……雖然模型參數(shù)很小,但四兩撥千斤,其背后所代表的“用視覺方式壓縮一切”的思想,大道至簡(jiǎn),既是人類智能的現(xiàn)實(shí),也不斷出現(xiàn)在諸如《三體》的科幻作品中。
簡(jiǎn)單來說,由于一張圖能包含大量文字(用的token還更少),所以他們想到并驗(yàn)證了“將視覺作為文本壓縮媒介”這一方法——就好比優(yōu)秀的人看書都是掃一眼就知道內(nèi)容,不必一字一句讀完才理解內(nèi)容。
一圖勝千言。
而且DeepSeek研究后發(fā)現(xiàn),當(dāng)壓縮率小于10倍時(shí)(即文本token數(shù)是視覺token數(shù)的10倍以內(nèi)),模型OCR解碼準(zhǔn)確率高達(dá)97%;即使壓縮率高達(dá)20倍,準(zhǔn)確率依舊能保持在60%左右,效果相當(dāng)能打。
更主要的是,DeepSeek再次展現(xiàn)了高效能風(fēng)格,他們的方法之下,生成訓(xùn)練數(shù)據(jù)——僅憑一塊A100-40G GPU,每天就能生成超過20萬頁的優(yōu)質(zhì)LLM/VLM訓(xùn)練數(shù)據(jù)。
所以這個(gè)研究一經(jīng)公布,已經(jīng)快速在GitHub斬獲了3.3K star。HuggingFace則已經(jīng)熱榜第二……X上熱議,好評(píng)聲一片。
剛“尖銳”評(píng)價(jià)過AI現(xiàn)狀的卡帕西說:我很喜歡……特別是圖像比文字更適合LLM輸入,妙啊。
還有人認(rèn)為這是“AI的JPEG時(shí)刻”,AI記憶架構(gòu)打開了新路徑。
還有爆料猜測(cè),谷歌Gemini的核心商業(yè)機(jī)密被開源了:
當(dāng)然,如此火爆的工作還帶了更多思考——不少人看過論文后,認(rèn)為這種統(tǒng)一視覺與語言的方法,或許是通往AGI的大門之一。
以及DeepSeek還在論文中,談到了AI的記憶和“遺忘”機(jī)制。
所以,DeepSeek的新模型,論文究竟是怎么說的?
DeepSeek新研究:兩大核心組件實(shí)現(xiàn)“以小博大”
概括而言,DeepSeek這次提出了一種名為“上下文光學(xué)壓縮”(Contexts Optical Compression)的思路。
其靈感來自這樣一個(gè)巧妙的逆向思維:
既然一張圖片能“裝下”成千上萬個(gè)字,那我們能不能把文字信息壓縮到圖片里,讓模型通過“看圖”來理解內(nèi)容呢?
本質(zhì)上來說,這就是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內(nèi)容,以此降低大模型的計(jì)算開銷。
為驗(yàn)證這一想法,他們構(gòu)建了3B大小的DeepSeek-OCR模型,結(jié)果發(fā)現(xiàn)它在主流文檔解析基準(zhǔn)OmniDocBench上取得了新SOTA。
下圖顯示,DeepSeek-OCR(紅色圓點(diǎn))在“平均每張圖的視覺token數(shù)”(橫軸)上位于最右側(cè),這說明它使用的token數(shù)量最少;而在“整體性能”(縱軸,越低越好)上,它卻達(dá)到了SOTA水平,而且大多還是“以小博大”。
更具體的對(duì)比如下:
- 僅用100個(gè)視覺token,DeepSeek-OCR就超過了每頁使用256個(gè)token的GOT-OCR2.0;
- 當(dāng)使用400個(gè)視覺token時(shí)(其中有效token為285),DeepSeek-OCR就能和之前的SOTA模型表現(xiàn)相當(dāng);
- 使用不到800個(gè)視覺token,DeepSeek-OCR便大大超過了平均每頁近7000個(gè)視覺token的MinerU2.0。
這一切背后都不開DeepSeek-OCR架構(gòu)的兩大核心組件:
- 編碼器DeepEncoder:負(fù)責(zé)把圖片轉(zhuǎn)成高度壓縮的視覺token;
- 解碼器DeepSeek3B-MoE-A570M:負(fù)責(zé)從壓縮的視覺token里重建文字。
這里重點(diǎn)說一下整個(gè)系統(tǒng)的創(chuàng)新關(guān)鍵——編碼器DeepEncoder。
其核心使命為,在處理高分辨率圖像時(shí),能夠產(chǎn)出數(shù)量極少但信息密度極高的視覺token。
為此它采用了“先局部處理,再壓縮,后全局理解”的串行設(shè)計(jì):
- 局部處理:利用僅使用“窗口注意力”機(jī)制的SAM-base模型(8000萬參數(shù)),第一步先在高分辨率圖像上進(jìn)行細(xì)粒度的局部特征提取。盡管此時(shí)生成的視覺token數(shù)量龐大,但由于窗口注意力的高效性,內(nèi)存開銷仍在可控范圍內(nèi);
- 再壓縮:然后在中間部分加一個(gè)16倍卷積壓縮器,從而在特征進(jìn)入全局注意力模塊前大幅砍掉token數(shù)量,比如一張1024x1024的圖片,經(jīng)過第一階段會(huì)產(chǎn)生4096個(gè)token,但經(jīng)過壓縮機(jī)后,只剩下256個(gè)token進(jìn)入第二階段;
- 后全局理解:最后利用使用“全局注意力”機(jī)制的CLIP-large模型(3億參數(shù)),更深入地理解這些經(jīng)過濃縮后的少量token,此時(shí)由于輸入的token數(shù)量已經(jīng)大幅減少,所以這里的計(jì)算開銷也變得可以接受。
此外值得一提的是,為了靈活應(yīng)對(duì)不同的壓縮比需求和實(shí)際應(yīng)用場(chǎng)景,DeepEncoder被訓(xùn)練成支持從“Tiny”(512x512, 64token)到“Gundam”(動(dòng)態(tài)分塊,近800token)等多種輸入模式。
就是說,同一個(gè)模型可以根據(jù)任務(wù)需要,隨機(jī)應(yīng)變地調(diào)整其“壓縮強(qiáng)度”。
總之,基于以上原理和組件搭配,目前DeepSeek-OCR除了具備常規(guī)識(shí)別能力,還支持對(duì)金融報(bào)表、化學(xué)分子式、數(shù)學(xué)幾何圖、100多種語言等更為復(fù)雜的圖像進(jìn)行深度解析。
三位作者亮相
如此被夸贊的新研究,來自三位研究人員,依然很DeepSeek——幾人都相對(duì)低調(diào),網(wǎng)上公開資料很少。
Haoran Wei,曾就職于階躍星辰,當(dāng)時(shí)還主導(dǎo)開發(fā)了意在實(shí)現(xiàn)“第二代OCR”的GOT-OCR2.0系統(tǒng)。
(2024年9月發(fā)表的這篇論文顯示,身為論文一作的Haoran Wei所處單位為階躍。)
此次DeepSeek-OCR的工作也可謂延續(xù)了GOT-OCR2.0之前的技術(shù)路徑,即致力于通過端到端模型解決復(fù)雜文檔解析問題。
Yaofeng Sun,從去年開始就陸續(xù)參與DeepSeek多款模型研發(fā),包括R1、V3中都有他的身影。
Yukun Li(李宇琨),谷歌學(xué)術(shù)論文近萬引研究員,也持續(xù)參與了包括DeepSeek V2/V3在內(nèi)的多款模型研發(fā)。
有意思的是,這三人在提出DeepSeek-OCR之后,還貢獻(xiàn)了一個(gè)腦洞大開的想法——
用光學(xué)壓縮模擬人類的遺忘機(jī)制。
只需將上下文光學(xué)壓縮與人類記憶的衰退過程進(jìn)行類比,我們就能發(fā)現(xiàn)二者高度相似:
- 近期記憶:就像近處的物體,清晰可見。所以可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息。
- 遠(yuǎn)期記憶 :就像遠(yuǎn)處的物體,逐漸模糊。所以可以將其漸進(jìn)式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實(shí)現(xiàn)信息的自然遺忘和壓縮。
這樣一來,理論上模型就可以在處理超長(zhǎng)對(duì)話或文檔時(shí),動(dòng)態(tài)地為不同時(shí)期的上下文分配不同數(shù)量的計(jì)算資源,從而可能構(gòu)建出一種無限長(zhǎng)上下文的架構(gòu)。
團(tuán)隊(duì)表示,雖然這還是個(gè)早期研究方向,但不失為模型處理超長(zhǎng)上下文的一種新思路。
這個(gè)思路確實(shí)也更像人類的智能。
之前AI的上下文研究,對(duì)于短期中期遠(yuǎn)期的都是一視同仁,機(jī)器味兒十足,但計(jì)算資源和響應(yīng)問題也會(huì)相應(yīng)暴漲……
而現(xiàn)在,DeepSeek提出新思路,是時(shí)候讓AI記憶更像人了。
傳送門:
Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.