夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek新模型被硅谷瘋夸!用二維視覺壓縮一維文字,單GPU能跑

0
分享至

DeepSeek最新開源的模型,已經(jīng)被硅谷夸瘋了!

因?yàn)閷?shí)在太DeepSeek了。3B規(guī)模、指數(shù)級(jí)效能變革、大道至簡,甚至被認(rèn)為把谷歌Gemini嚴(yán)防死守的商業(yè)機(jī)密開源了。

唯一的問題可能就是被“OCR”命名耽誤了。

是的,DeepSeek剛剛開源即火爆的模型就叫:DeepSeek-OCR



這個(gè)模型瞄準(zhǔn)的是大模型處理長文本時(shí)的算力爆炸難題……雖然模型參數(shù)很小,但四兩撥千斤,其背后所代表的“用視覺方式壓縮一切”的思想,大道至簡,既是人類智能的現(xiàn)實(shí),也不斷出現(xiàn)在諸如《三體》的科幻作品中。

簡單來說,由于一張圖能包含大量文字(用的token還更少),所以他們想到并驗(yàn)證了“將視覺作為文本壓縮媒介”這一方法——就好比優(yōu)秀的人看書都是掃一眼就知道內(nèi)容,不必一字一句讀完才理解內(nèi)容。

一圖勝千言。

而且DeepSeek研究后發(fā)現(xiàn),當(dāng)壓縮率小于10倍時(shí)(即文本token數(shù)是視覺token數(shù)的10倍以內(nèi)),模型OCR解碼準(zhǔn)確率高達(dá)97%;即使壓縮率高達(dá)20倍,準(zhǔn)確率依舊能保持在60%左右,效果相當(dāng)能打。

更主要的是,DeepSeek再次展現(xiàn)了高效能風(fēng)格,他們的方法之下,生成訓(xùn)練數(shù)據(jù)——僅憑一塊A100-40G GPU,每天就能生成超過20萬頁的優(yōu)質(zhì)LLM/VLM訓(xùn)練數(shù)據(jù)。

所以這個(gè)研究一經(jīng)公布,已經(jīng)快速在GitHub斬獲了3.3K star。HuggingFace則已經(jīng)熱榜第二……X上熱議,好評(píng)聲一片。

剛“尖銳”評(píng)價(jià)過AI現(xiàn)狀的卡帕西說:我很喜歡……特別是圖像比文字更適合LLM輸入,妙啊。

還有人認(rèn)為這是“AI的JPEG時(shí)刻”,AI記憶架構(gòu)打開了新路徑。



還有爆料猜測(cè),谷歌Gemini的核心商業(yè)機(jī)密被開源了:



當(dāng)然,如此火爆的工作還帶了更多思考——不少人看過論文后,認(rèn)為這種統(tǒng)一視覺與語言的方法,或許是通往AGI的大門之一。

以及DeepSeek還在論文中,談到了AI的記憶和“遺忘”機(jī)制。

所以,DeepSeek的新模型,論文究竟是怎么說的?

DeepSeek新研究:兩大核心組件實(shí)現(xiàn)“以小博大”

概括而言,DeepSeek這次提出了一種名為“上下文光學(xué)壓縮”(Contexts Optical Compression)的思路。

其靈感來自這樣一個(gè)巧妙的逆向思維:

既然一張圖片能“裝下”成千上萬個(gè)字,那我們能不能把文字信息壓縮到圖片里,讓模型通過“看圖”來理解內(nèi)容呢?



本質(zhì)上來說,這就是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內(nèi)容,以此降低大模型的計(jì)算開銷。

為驗(yàn)證這一想法,他們構(gòu)建了3B大小的DeepSeek-OCR模型,結(jié)果發(fā)現(xiàn)它在主流文檔解析基準(zhǔn)OmniDocBench上取得了新SOTA。

下圖顯示,DeepSeek-OCR(紅色圓點(diǎn))在“平均每張圖的視覺token數(shù)”(橫軸)上位于最右側(cè),這說明它使用的token數(shù)量最少;而在“整體性能”(縱軸,越低越好)上,它卻達(dá)到了SOTA水平,而且大多還是“以小博大”。



更具體的對(duì)比如下:

  • 僅用100個(gè)視覺token,DeepSeek-OCR就超過了每頁使用256個(gè)token的GOT-OCR2.0;
  • 當(dāng)使用400個(gè)視覺token時(shí)(其中有效token為285),DeepSeek-OCR就能和之前的SOTA模型表現(xiàn)相當(dāng);
  • 使用不到800個(gè)視覺token,DeepSeek-OCR便大大超過了平均每頁近7000個(gè)視覺token的MinerU2.0。



這一切背后都不開DeepSeek-OCR架構(gòu)的兩大核心組件:

  • 編碼器DeepEncoder:負(fù)責(zé)把圖片轉(zhuǎn)成高度壓縮的視覺token;
  • 解碼器DeepSeek3B-MoE-A570M:負(fù)責(zé)從壓縮的視覺token里重建文字。



這里重點(diǎn)說一下整個(gè)系統(tǒng)的創(chuàng)新關(guān)鍵——編碼器DeepEncoder。

其核心使命為,在處理高分辨率圖像時(shí),能夠產(chǎn)出數(shù)量極少但信息密度極高的視覺token。

為此它采用了“先局部處理,再壓縮,后全局理解”的串行設(shè)計(jì):

  • 局部處理:利用僅使用“窗口注意力”機(jī)制的SAM-base模型(8000萬參數(shù)),第一步先在高分辨率圖像上進(jìn)行細(xì)粒度的局部特征提取。盡管此時(shí)生成的視覺token數(shù)量龐大,但由于窗口注意力的高效性,內(nèi)存開銷仍在可控范圍內(nèi);
  • 再壓縮:然后在中間部分加一個(gè)16倍卷積壓縮器,從而在特征進(jìn)入全局注意力模塊前大幅砍掉token數(shù)量,比如一張1024x1024的圖片,經(jīng)過第一階段會(huì)產(chǎn)生4096個(gè)token,但經(jīng)過壓縮機(jī)后,只剩下256個(gè)token進(jìn)入第二階段;
  • 后全局理解:最后利用使用“全局注意力”機(jī)制的CLIP-large模型(3億參數(shù)),更深入地理解這些經(jīng)過濃縮后的少量token,此時(shí)由于輸入的token數(shù)量已經(jīng)大幅減少,所以這里的計(jì)算開銷也變得可以接受。

此外值得一提的是,為了靈活應(yīng)對(duì)不同的壓縮比需求和實(shí)際應(yīng)用場(chǎng)景,DeepEncoder被訓(xùn)練成支持從“Tiny”(512x512, 64token)到“Gundam”(動(dòng)態(tài)分塊,近800token)等多種輸入模式。

就是說,同一個(gè)模型可以根據(jù)任務(wù)需要,隨機(jī)應(yīng)變地調(diào)整其“壓縮強(qiáng)度”。



總之,基于以上原理和組件搭配,目前DeepSeek-OCR除了具備常規(guī)識(shí)別能力,還支持對(duì)金融報(bào)表、化學(xué)分子式、數(shù)學(xué)幾何圖、100多種語言等更為復(fù)雜的圖像進(jìn)行深度解析。



三位作者亮相

如此被夸贊的新研究,來自三位研究人員,依然很DeepSeek——幾人都相對(duì)低調(diào),網(wǎng)上公開資料很少。



Haoran Wei,曾就職于階躍星辰,當(dāng)時(shí)還主導(dǎo)開發(fā)了意在實(shí)現(xiàn)“第二代OCR”的GOT-OCR2.0系統(tǒng)。

(2024年9月發(fā)表的這篇論文顯示,身為論文一作的Haoran Wei所處單位為階躍。)

此次DeepSeek-OCR的工作也可謂延續(xù)了GOT-OCR2.0之前的技術(shù)路徑,即致力于通過端到端模型解決復(fù)雜文檔解析問題。



Yaofeng Sun,從去年開始就陸續(xù)參與DeepSeek多款模型研發(fā),包括R1、V3中都有他的身影。



Yukun Li(李宇琨),谷歌學(xué)術(shù)論文近萬引研究員,也持續(xù)參與了包括DeepSeek V2/V3在內(nèi)的多款模型研發(fā)。



有意思的是,這三人在提出DeepSeek-OCR之后,還貢獻(xiàn)了一個(gè)腦洞大開的想法——

用光學(xué)壓縮模擬人類的遺忘機(jī)制。



只需將上下文光學(xué)壓縮與人類記憶的衰退過程進(jìn)行類比,我們就能發(fā)現(xiàn)二者高度相似:

  • 近期記憶:就像近處的物體,清晰可見。所以可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息。
  • 遠(yuǎn)期記憶 :就像遠(yuǎn)處的物體,逐漸模糊。所以可以將其漸進(jìn)式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實(shí)現(xiàn)信息的自然遺忘和壓縮。

這樣一來,理論上模型就可以在處理超長對(duì)話或文檔時(shí),動(dòng)態(tài)地為不同時(shí)期的上下文分配不同數(shù)量的計(jì)算資源,從而可能構(gòu)建出一種無限長上下文的架構(gòu)

團(tuán)隊(duì)表示,雖然這還是個(gè)早期研究方向,但不失為模型處理超長上下文的一種新思路。

這個(gè)思路確實(shí)也更像人類的智能。

之前AI的上下文研究,對(duì)于短期中期遠(yuǎn)期的都是一視同仁,機(jī)器味兒十足,但計(jì)算資源和響應(yīng)問題也會(huì)相應(yīng)暴漲……

而現(xiàn)在,DeepSeek提出新思路,是時(shí)候讓AI記憶更像人了。

傳送門:
Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一年連虧三部電影,最多接近6億,巨星黃渤因何被棄

一年連虧三部電影,最多接近6億,巨星黃渤因何被棄

影視高原說
2025-10-19 08:51:50
10月21日俄烏:波克羅夫斯克危急?

10月21日俄烏:波克羅夫斯克危急?

山河路口
2025-10-21 18:34:57
翁帆相伴21年,楊振寧去世后,繼子楊光諾一句感謝話讓她口碑暴漲

翁帆相伴21年,楊振寧去世后,繼子楊光諾一句感謝話讓她口碑暴漲

阿訊說天下
2025-10-20 15:09:32
演技爛得像混子《沉默的榮耀》里混進(jìn)關(guān)系戶,于和偉都帶不動(dòng)

演技爛得像混子《沉默的榮耀》里混進(jìn)關(guān)系戶,于和偉都帶不動(dòng)

洲洲影視娛評(píng)
2025-10-14 15:04:37
贅婿靠“大鳥”上位!宋伊人被一剪沒!

贅婿靠“大鳥”上位!宋伊人被一剪沒!

八卦瘋叔
2025-10-21 10:56:06
多家銀行下調(diào)存款利率:有的直降80個(gè)基點(diǎn) 有的“存三年不如存一年”

多家銀行下調(diào)存款利率:有的直降80個(gè)基點(diǎn) 有的“存三年不如存一年”

財(cái)聯(lián)社
2025-10-21 12:24:19
等你老了,切記遠(yuǎn)離黑色、棕色,換成3種“年輕色”更減齡顯氣質(zhì)

等你老了,切記遠(yuǎn)離黑色、棕色,換成3種“年輕色”更減齡顯氣質(zhì)

小陳聊搭配
2025-10-21 19:38:25
埃及不買了,印尼不買了,泰國也不買了,怎么這事像是在玩一樣?

埃及不買了,印尼不買了,泰國也不買了,怎么這事像是在玩一樣?

百態(tài)人間
2025-10-07 15:01:34
90年代北美空姐,世界級(jí)美女,絕世容顏,世間竟有如此美貌的人

90年代北美空姐,世界級(jí)美女,絕世容顏,世間竟有如此美貌的人

TVB的四小花
2025-10-01 13:15:04
官宣生子不到一小時(shí)就迎來大反轉(zhuǎn),何穗人品遭質(zhì)疑,陳偉霆被牽連

官宣生子不到一小時(shí)就迎來大反轉(zhuǎn),何穗人品遭質(zhì)疑,陳偉霆被牽連

桑葚愛動(dòng)畫
2025-10-21 23:19:18
潘石屹再次預(yù)判我國樓市!若無意外,未來3年樓市或迎來3大走向

潘石屹再次預(yù)判我國樓市!若無意外,未來3年樓市或迎來3大走向

山丘樓評(píng)
2025-10-20 13:41:38
NBA官網(wǎng)發(fā)布首期實(shí)力榜:雷霆力壓掘金高居第一,湖人第十

NBA官網(wǎng)發(fā)布首期實(shí)力榜:雷霆力壓掘金高居第一,湖人第十

雷速體育
2025-10-21 08:26:07
美國 RIVIERA 號(hào)豪華郵輪,拒交 1167 萬港務(wù)費(fèi)急轉(zhuǎn)韓國,中方反制政策立竿見影

美國 RIVIERA 號(hào)豪華郵輪,拒交 1167 萬港務(wù)費(fèi)急轉(zhuǎn)韓國,中方反制政策立竿見影

流年拾光
2025-10-20 20:49:22
最新UFO證據(jù),前美國官員曝光新線索,牽扯馬斯克火箭!

最新UFO證據(jù),前美國官員曝光新線索,牽扯馬斯克火箭!

哥譚重案組
2025-10-21 22:42:34
張靈甫回家想吃餃子,妻子吳海蘭起身去準(zhǔn)備,然后被丈夫開了一槍

張靈甫回家想吃餃子,妻子吳海蘭起身去準(zhǔn)備,然后被丈夫開了一槍

興趣知識(shí)
2025-10-20 22:29:48
賦0+罰款!孫穎莎王楚欽等5大超巨退賽,可能會(huì)遭遇國際乒聯(lián)處罰

賦0+罰款!孫穎莎王楚欽等5大超巨退賽,可能會(huì)遭遇國際乒聯(lián)處罰

嘴炮體壇
2025-10-21 22:31:02
內(nèi)科主任提醒:過了60歲后,寧可打打麻將,也別在家隨意做5件事

內(nèi)科主任提醒:過了60歲后,寧可打打麻將,也別在家隨意做5件事

今日養(yǎng)生之道
2025-10-14 11:03:53
把烏克蘭地圖甩一邊,川普氣的爆發(fā)了:等著被俄羅斯毀滅吧

把烏克蘭地圖甩一邊,川普氣的爆發(fā)了:等著被俄羅斯毀滅吧

銳器
2025-10-21 22:40:41
關(guān)于陳志和太子集團(tuán),網(wǎng)友們發(fā)現(xiàn)我們媒體曾經(jīng)這樣報(bào)道過

關(guān)于陳志和太子集團(tuán),網(wǎng)友們發(fā)現(xiàn)我們媒體曾經(jīng)這樣報(bào)道過

清暉有墨
2025-10-19 11:00:21
難掩激動(dòng)之情!NBA官方更新社媒狂發(fā)23次“NBA回來了”

難掩激動(dòng)之情!NBA官方更新社媒狂發(fā)23次“NBA回來了”

雷速體育
2025-10-21 19:15:20
2025-10-22 00:03:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11542文章數(shù) 176309關(guān)注度
往期回顧 全部

科技要聞

追思楊振寧,潘建偉饒毅等首次披露哪些細(xì)節(jié)

頭條要聞

特朗普稱"1年后美國將擁有大量稀土" 分析人士發(fā)聲

頭條要聞

特朗普稱"1年后美國將擁有大量稀土" 分析人士發(fā)聲

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

陳柏霖已承認(rèn)逃兵役,他知道跑不掉了

財(cái)經(jīng)要聞

黃金白銀高臺(tái)跳水,什么原因?

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
手機(jī)
數(shù)碼
旅游

連衣裙+運(yùn)動(dòng)鞋,今秋最美穿法!舒適又時(shí)髦!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機(jī)要聞

華為Mate70 Air突然上架電信庫:超薄新機(jī)+三色任選!

數(shù)碼要聞

閃極唱片三合一充電寶入選《時(shí)代》2025年度最佳發(fā)明

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 免费无码又爽又刺激激情视频 | 蜜桃久久久蜜芽精品户外| 被黑人玩到高潮十几次| 无码视频在线午夜福利| 国产农村乱人伦精品视频| 天天拍天天摸天天透| ww点狠狠操.com| 五月丁香综合激情六月久久| 欧美性爱视频网站| 国产又爽又黄又刺激的视频| 亚洲综合天堂婷婷五月| 亚洲精品中文字幕午夜福利| 一区二区免费少妇| 久久久久久久久久久妓女| 亚洲无码 国产精品| 日韩乱码卡一卡2卡三卡四| 久久精品免费一区二区| 中文字幕日韩精品亚洲七区| 无人区乱码一线二线| 奇米影视8888| 另类小说亚洲| 亚洲VR永久无码精品vr版| 亚洲偷啪自啪AV| 永久在线精品| 国产精品久久久久久无码红治院| 国产午夜亚洲精品午夜鲁丝片| 丰满人妻一区二区三区视频53| 久久蜜桃传媒| 久久国产精品免费一区| 乱人伦中文字幕成人网站在线| 国产在线观看xxx| 久久综合色图| 亚洲日韩精品一区二区无码| 亚洲熟女一区二区三区三| 少妇无码一区| 亚洲精品久久激情国产片| 99影视一区二区无码| av成人无码无在线观看| 极品人妻无码视频| www.亚洲精品.com| 草草影院精品一区二区三区|