夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek新模型被硅谷瘋夸!用二維視覺壓縮一維文字,單GPU能跑

0
分享至

DeepSeek最新開源的模型,已經(jīng)被硅谷夸瘋了!

因?yàn)閷?shí)在太DeepSeek了。3B規(guī)模、指數(shù)級(jí)效能變革、大道至簡(jiǎn),甚至被認(rèn)為把谷歌Gemini嚴(yán)防死守的商業(yè)機(jī)密開源了。

唯一的問題可能就是被“OCR”命名耽誤了。

是的,DeepSeek剛剛開源即火爆的模型就叫:DeepSeek-OCR。



這個(gè)模型瞄準(zhǔn)的是大模型處理長(zhǎng)文本時(shí)的算力爆炸難題……雖然模型參數(shù)很小,但四兩撥千斤,其背后所代表的“用視覺方式壓縮一切”的思想,大道至簡(jiǎn),既是人類智能的現(xiàn)實(shí),也不斷出現(xiàn)在諸如《三體》的科幻作品中。

簡(jiǎn)單來說,由于一張圖能包含大量文字(用的token還更少),所以他們想到并驗(yàn)證了“將視覺作為文本壓縮媒介”這一方法——就好比優(yōu)秀的人看書都是掃一眼就知道內(nèi)容,不必一字一句讀完才理解內(nèi)容。

一圖勝千言。

而且DeepSeek研究后發(fā)現(xiàn),當(dāng)壓縮率小于10倍時(shí)(即文本token數(shù)是視覺token數(shù)的10倍以內(nèi)),模型OCR解碼準(zhǔn)確率高達(dá)97%;即使壓縮率高達(dá)20倍,準(zhǔn)確率依舊能保持在60%左右,效果相當(dāng)能打。

更主要的是,DeepSeek再次展現(xiàn)了高效能風(fēng)格,他們的方法之下,生成訓(xùn)練數(shù)據(jù)——僅憑一塊A100-40G GPU,每天就能生成超過20萬頁的優(yōu)質(zhì)LLM/VLM訓(xùn)練數(shù)據(jù)。

所以這個(gè)研究一經(jīng)公布,已經(jīng)快速在GitHub斬獲了3.3K star。HuggingFace則已經(jīng)熱榜第二……X上熱議,好評(píng)聲一片。

剛“尖銳”評(píng)價(jià)過AI現(xiàn)狀的卡帕西說:我很喜歡……特別是圖像比文字更適合LLM輸入,妙啊。

還有人認(rèn)為這是“AI的JPEG時(shí)刻”,AI記憶架構(gòu)打開了新路徑。



還有爆料猜測(cè),谷歌Gemini的核心商業(yè)機(jī)密被開源了:



當(dāng)然,如此火爆的工作還帶了更多思考——不少人看過論文后,認(rèn)為這種統(tǒng)一視覺與語言的方法,或許是通往AGI的大門之一。

以及DeepSeek還在論文中,談到了AI的記憶和“遺忘”機(jī)制。

所以,DeepSeek的新模型,論文究竟是怎么說的?

DeepSeek新研究:兩大核心組件實(shí)現(xiàn)“以小博大”

概括而言,DeepSeek這次提出了一種名為“上下文光學(xué)壓縮”(Contexts Optical Compression)的思路。

其靈感來自這樣一個(gè)巧妙的逆向思維:

既然一張圖片能“裝下”成千上萬個(gè)字,那我們能不能把文字信息壓縮到圖片里,讓模型通過“看圖”來理解內(nèi)容呢?



本質(zhì)上來說,這就是一種視覺-文本壓縮范式,通過用少量的視覺token來表示原本需要大量文本token的內(nèi)容,以此降低大模型的計(jì)算開銷。

為驗(yàn)證這一想法,他們構(gòu)建了3B大小的DeepSeek-OCR模型,結(jié)果發(fā)現(xiàn)它在主流文檔解析基準(zhǔn)OmniDocBench上取得了新SOTA。

下圖顯示,DeepSeek-OCR(紅色圓點(diǎn))在“平均每張圖的視覺token數(shù)”(橫軸)上位于最右側(cè),這說明它使用的token數(shù)量最少;而在“整體性能”(縱軸,越低越好)上,它卻達(dá)到了SOTA水平,而且大多還是“以小博大”。



更具體的對(duì)比如下:

  • 僅用100個(gè)視覺token,DeepSeek-OCR就超過了每頁使用256個(gè)token的GOT-OCR2.0;
  • 當(dāng)使用400個(gè)視覺token時(shí)(其中有效token為285),DeepSeek-OCR就能和之前的SOTA模型表現(xiàn)相當(dāng);
  • 使用不到800個(gè)視覺token,DeepSeek-OCR便大大超過了平均每頁近7000個(gè)視覺token的MinerU2.0。



這一切背后都不開DeepSeek-OCR架構(gòu)的兩大核心組件:

  • 編碼器DeepEncoder:負(fù)責(zé)把圖片轉(zhuǎn)成高度壓縮的視覺token;
  • 解碼器DeepSeek3B-MoE-A570M:負(fù)責(zé)從壓縮的視覺token里重建文字。



這里重點(diǎn)說一下整個(gè)系統(tǒng)的創(chuàng)新關(guān)鍵——編碼器DeepEncoder。

其核心使命為,在處理高分辨率圖像時(shí),能夠產(chǎn)出數(shù)量極少但信息密度極高的視覺token。

為此它采用了“先局部處理,再壓縮,后全局理解”的串行設(shè)計(jì):

  • 局部處理:利用僅使用“窗口注意力”機(jī)制的SAM-base模型(8000萬參數(shù)),第一步先在高分辨率圖像上進(jìn)行細(xì)粒度的局部特征提取。盡管此時(shí)生成的視覺token數(shù)量龐大,但由于窗口注意力的高效性,內(nèi)存開銷仍在可控范圍內(nèi);
  • 再壓縮:然后在中間部分加一個(gè)16倍卷積壓縮器,從而在特征進(jìn)入全局注意力模塊前大幅砍掉token數(shù)量,比如一張1024x1024的圖片,經(jīng)過第一階段會(huì)產(chǎn)生4096個(gè)token,但經(jīng)過壓縮機(jī)后,只剩下256個(gè)token進(jìn)入第二階段;
  • 后全局理解:最后利用使用“全局注意力”機(jī)制的CLIP-large模型(3億參數(shù)),更深入地理解這些經(jīng)過濃縮后的少量token,此時(shí)由于輸入的token數(shù)量已經(jīng)大幅減少,所以這里的計(jì)算開銷也變得可以接受。

此外值得一提的是,為了靈活應(yīng)對(duì)不同的壓縮比需求和實(shí)際應(yīng)用場(chǎng)景,DeepEncoder被訓(xùn)練成支持從“Tiny”(512x512, 64token)到“Gundam”(動(dòng)態(tài)分塊,近800token)等多種輸入模式。

就是說,同一個(gè)模型可以根據(jù)任務(wù)需要,隨機(jī)應(yīng)變地調(diào)整其“壓縮強(qiáng)度”。



總之,基于以上原理和組件搭配,目前DeepSeek-OCR除了具備常規(guī)識(shí)別能力,還支持對(duì)金融報(bào)表、化學(xué)分子式、數(shù)學(xué)幾何圖、100多種語言等更為復(fù)雜的圖像進(jìn)行深度解析。



三位作者亮相

如此被夸贊的新研究,來自三位研究人員,依然很DeepSeek——幾人都相對(duì)低調(diào),網(wǎng)上公開資料很少。



Haoran Wei,曾就職于階躍星辰,當(dāng)時(shí)還主導(dǎo)開發(fā)了意在實(shí)現(xiàn)“第二代OCR”的GOT-OCR2.0系統(tǒng)。

(2024年9月發(fā)表的這篇論文顯示,身為論文一作的Haoran Wei所處單位為階躍。)

此次DeepSeek-OCR的工作也可謂延續(xù)了GOT-OCR2.0之前的技術(shù)路徑,即致力于通過端到端模型解決復(fù)雜文檔解析問題。



Yaofeng Sun,從去年開始就陸續(xù)參與DeepSeek多款模型研發(fā),包括R1、V3中都有他的身影。



Yukun Li(李宇琨),谷歌學(xué)術(shù)論文近萬引研究員,也持續(xù)參與了包括DeepSeek V2/V3在內(nèi)的多款模型研發(fā)。



有意思的是,這三人在提出DeepSeek-OCR之后,還貢獻(xiàn)了一個(gè)腦洞大開的想法——

用光學(xué)壓縮模擬人類的遺忘機(jī)制。



只需將上下文光學(xué)壓縮與人類記憶的衰退過程進(jìn)行類比,我們就能發(fā)現(xiàn)二者高度相似:

  • 近期記憶:就像近處的物體,清晰可見。所以可以將其渲染成高分辨率圖像,用較多的視覺token來保留高保真信息。
  • 遠(yuǎn)期記憶 :就像遠(yuǎn)處的物體,逐漸模糊。所以可以將其漸進(jìn)式地縮放成更小、更模糊的圖像,用更少的視覺token來表示,從而實(shí)現(xiàn)信息的自然遺忘和壓縮。

這樣一來,理論上模型就可以在處理超長(zhǎng)對(duì)話或文檔時(shí),動(dòng)態(tài)地為不同時(shí)期的上下文分配不同數(shù)量的計(jì)算資源,從而可能構(gòu)建出一種無限長(zhǎng)上下文的架構(gòu)

團(tuán)隊(duì)表示,雖然這還是個(gè)早期研究方向,但不失為模型處理超長(zhǎng)上下文的一種新思路。

這個(gè)思路確實(shí)也更像人類的智能。

之前AI的上下文研究,對(duì)于短期中期遠(yuǎn)期的都是一視同仁,機(jī)器味兒十足,但計(jì)算資源和響應(yīng)問題也會(huì)相應(yīng)暴漲……

而現(xiàn)在,DeepSeek提出新思路,是時(shí)候讓AI記憶更像人了。

傳送門:
Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
王家衛(wèi)事件持續(xù)發(fā)酵,陳道明靳東也被拖下水,娛樂圈到底有多亂?

王家衛(wèi)事件持續(xù)發(fā)酵,陳道明靳東也被拖下水,娛樂圈到底有多亂?

卷史
2025-09-24 20:04:06
蘋果新品官宣:10月22日,正式開售

蘋果新品官宣:10月22日,正式開售

科技堡壘
2025-10-20 10:55:35
魔鬼筋肉人續(xù)約步行者!未來四年6240萬 美記:明顯低于市場(chǎng)價(jià)

魔鬼筋肉人續(xù)約步行者!未來四年6240萬 美記:明顯低于市場(chǎng)價(jià)

顏小白的籃球夢(mèng)
2025-10-21 10:32:24
恐怖!連褲子都沒提就狂奔,江蘇一女子上廁所被蛇頂?shù)健捌ぱ嘧印?>
    </a>
        <h3>
      <a href=火山詩話
2025-10-21 12:38:14
臺(tái)灣黑幫大佬張安樂:如果“臺(tái)獨(dú)”挑起戰(zhàn)火,我們一定陣前起義

臺(tái)灣黑幫大佬張安樂:如果“臺(tái)獨(dú)”挑起戰(zhàn)火,我們一定陣前起義

文史旺旺旺
2025-10-03 22:56:05
翁帆也沒想到,楊振寧去世后,竟因生前一個(gè)“特殊”舉動(dòng)口碑暴漲

翁帆也沒想到,楊振寧去世后,竟因生前一個(gè)“特殊”舉動(dòng)口碑暴漲

去山野間追風(fēng)
2025-10-20 21:14:54
荷蘭緊急對(duì)華服軟,晚了!安世中國(guó)已官宣獨(dú)立,出手反擊斷供總部

荷蘭緊急對(duì)華服軟,晚了!安世中國(guó)已官宣獨(dú)立,出手反擊斷供總部

奉壹數(shù)碼
2025-10-21 14:10:17
“接受條件,否則將被俄羅斯摧毀”,特朗普正全力施壓烏克蘭

“接受條件,否則將被俄羅斯摧毀”,特朗普正全力施壓烏克蘭

山河路口
2025-10-20 12:39:47
吳石將軍擔(dān)任的“參謀次長(zhǎng)”,級(jí)別到底有多高?說明白嚇你一跳!

吳石將軍擔(dān)任的“參謀次長(zhǎng)”,級(jí)別到底有多高?說明白嚇你一跳!

老謝談史
2025-10-11 14:30:04
我在朝鮮生活一個(gè)月,徹底顛覆了認(rèn)知:800元月薪等于國(guó)內(nèi)8000?

我在朝鮮生活一個(gè)月,徹底顛覆了認(rèn)知:800元月薪等于國(guó)內(nèi)8000?

天下霸奇
2025-10-16 08:05:16
云南企業(yè)第一把交椅:年入1898.39億!新掌門人陸曉龍?jiān)胃睆d長(zhǎng)

云南企業(yè)第一把交椅:年入1898.39億!新掌門人陸曉龍?jiān)胃睆d長(zhǎng)

億通電子游戲
2025-10-21 13:14:07
深圳鵬瑞換法人:徐航的“金蟬脫殼”,一場(chǎng)安靜得離譜的逃跑

深圳鵬瑞換法人:徐航的“金蟬脫殼”,一場(chǎng)安靜得離譜的逃跑

校長(zhǎng)看廣州樓市
2025-10-21 10:48:51
中美談判終極的底牌:一旦談崩,中國(guó)真得會(huì)被踢出SWIFT?

中美談判終極的底牌:一旦談崩,中國(guó)真得會(huì)被踢出SWIFT?

現(xiàn)代小青青慕慕
2025-10-21 08:36:59
美國(guó)財(cái)長(zhǎng)破防了:中再不賣稀土,我就把幾十萬留學(xué)生全趕回去!

美國(guó)財(cái)長(zhǎng)破防了:中再不賣稀土,我就把幾十萬留學(xué)生全趕回去!

輝哥說動(dòng)漫
2025-10-21 06:52:46
寶馬的爛攤子:北京大經(jīng)銷商跑路,車主太難了

寶馬的爛攤子:北京大經(jīng)銷商跑路,車主太難了

西莫的藝術(shù)宮殿
2025-10-21 06:44:36
我國(guó)歷史上,至今下落不明的9位著名人物,無論怎么找都找不到人

我國(guó)歷史上,至今下落不明的9位著名人物,無論怎么找都找不到人

歷史求所知
2025-10-10 15:30:04
人民幣在朝鮮的購買力,超出了我的想象,平壤女售貨員的手在發(fā)抖

人民幣在朝鮮的購買力,超出了我的想象,平壤女售貨員的手在發(fā)抖

史閣
2025-10-10 10:54:33
雷軍被格力老總爆錘:“不群,這些水軍是你派來的嗎?”

雷軍被格力老總爆錘:“不群,這些水軍是你派來的嗎?”

吃瓜局
2025-10-19 20:28:24
四川天府銀行深陷“失血”循環(huán):不良率超行業(yè)、凈利潤(rùn)下滑

四川天府銀行深陷“失血”循環(huán):不良率超行業(yè)、凈利潤(rùn)下滑

九州商業(yè)觀察
2025-10-21 10:06:18
匈牙利外長(zhǎng):抵制歐盟軍援烏克蘭

匈牙利外長(zhǎng):抵制歐盟軍援烏克蘭

財(cái)聯(lián)社
2025-10-20 20:26:19
2025-10-21 15:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11539文章數(shù) 176309關(guān)注度
往期回顧 全部

科技要聞

歷史新高!市值3.9萬億美元,蘋果又行了?

頭條要聞

特朗普稱將于明年初訪問中國(guó) 外交部回應(yīng)

頭條要聞

特朗普稱將于明年初訪問中國(guó) 外交部回應(yīng)

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

婚姻中竇驍更強(qiáng)勢(shì),還幾乎零緋聞?

財(cái)經(jīng)要聞

保險(xiǎn)騙傭黑幕:靠高額返傭+短期退保牟利

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

旅游
親子
手機(jī)
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

我要是當(dāng)了話事人!我一定洗心革面!重振家風(fēng)!

手機(jī)要聞

vivo X300系列銷售創(chuàng)紀(jì)錄 兩杯銷量超越三杯

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯:解除武裝被提上議程

無障礙瀏覽 進(jìn)入關(guān)懷版 精品久久苍井空| 中文AV无码AV| 精品人妻无码| 桃色tv麻豆| 国产99久久久国产精品~~牛| 91久久久久无码精品露脸| 国产精品免费_区二区三区观看| 91九色丨PORNY拍自丨蝌蚪| 国产亚洲精品一区二区无| 99久久久精品免费观看国产| 亚洲熟妇熟女久久精品综合| 国产欧美一区二区精品久久久| 大码老熟女Av毛片免费看农村| 天堂www中文在线| 青青青国产精品国产精品美女| 黑人巨大精品欧美黑白配亚洲| 97超碰韩国| 国产三级黄色片在线观看| 国产伦理免费一区二区三区| 亚洲AV无码性色AV无码网站| 国产精品国产三级国AV麻豆| 少妇爆乳无码专区| 人人人人操人人玩妻| 亚洲一区二区三区自拍麻豆| 97国产视频| 欧美自慰在线| 亚洲熟妇完整视频| 四虎永久播放地址免费| 亚洲精品1区| 国产av地址| 国产精鲁鲁网在线视频| 亚洲无码人气| 中学生情侣在线一区二区| 美女爽到高潮嗷嗷嗷叫免费网站| 国产手机在线视频| 老师扒下内裤让我爽了一夜| 最新无码国产在线播放| 亚洲一区二区三区波多野结衣| 九九亚洲无码高清免费| 黑色丝袜国产精品| 色偷偷偷久久伊人大杳蕉|