夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek新模型很瘋狂:整個(gè)AI圈都研究視覺路線,Karpathy不裝了

0
分享至



機(jī)器之心報(bào)道

編輯:澤南、Panda

「我很喜歡新的 DeepSeek-OCR 論文…… 也許更合理的是,LLM 的所有輸入都應(yīng)該是圖像。即使碰巧有純文本輸入,你更應(yīng)該先渲染它,然后再輸入。」

一夜之間,大模型的范式仿佛被 DeepSeek 新推出的模型給打破了。

昨天下午,全新模型 DeepSeek-OCR 突然開源。在該模型的處理過程中,1000 個(gè)字的文章能被壓縮成 100 個(gè)視覺 token,十倍的壓縮下精度也可以達(dá)到 97%,一塊英偉達(dá) A100 每天就可以處理 20 萬頁的數(shù)據(jù)。

這種方式或許可以解決大模型領(lǐng)域目前頭疼的長上下文效率問題,更重要的是,如果「看」文本而不是「讀」文本最終被確定為正確的方向,也意味著大模型的范式會(huì)發(fā)生重要的轉(zhuǎn)變。



GitHub 上,DeepSeek-OCR 項(xiàng)目一晚收獲了超過 4000 個(gè) Star。

因?yàn)槭情_源的小模型,DeepSeek-OCR 第一時(shí)間經(jīng)歷了整個(gè) AI 社區(qū)的檢驗(yàn),很多大佬在看完論文之后紛紛發(fā)表了看法,興奮之情溢于言表。

OpenAI 聯(lián)合創(chuàng)始成員之一,前特斯拉自動(dòng)駕駛總監(jiān) Andrej Karpathy 表示,它是一個(gè)很好的 OCR 模型。



他表示,作為一個(gè)本質(zhì)上是研究計(jì)算機(jī)視覺,暫時(shí)偽裝成自然語言專家的人,他更感興趣的部分是:對(duì)于大語言模型來說,像素是否比文本更適合作為輸入?文本 token 在輸入端是否浪費(fèi)資源,甚至很糟糕?

也許更合理的是,LLM 的所有輸入都應(yīng)該是圖像。即使你碰巧有純文本輸入,也許你更愿意先渲染它,然后再輸入:

  • 更多信息壓縮(參見論文) => 更短的上下文窗口,更高的效率
  • 明顯更為通用的信息流 => 不僅僅是文本,還包括粗體文本、彩色文本、任意圖像。
  • 現(xiàn)在可以輕松地使用雙向注意力來處理輸入,并且默認(rèn)情況下,而不是自回歸注意力 - 功能更加強(qiáng)大。
  • 刪除(輸入端的)分詞器??!我已經(jīng)吐槽過我有多討厭分詞器了。分詞器很丑陋,獨(dú)立存在,而且不是端到端的。它「導(dǎo)入」了 Unicode 和字節(jié)編碼的所有丑陋之處,繼承了大量歷史包袱,以及安全 / 越獄風(fēng)險(xiǎn)(例如連續(xù)字節(jié))。它讓兩個(gè)肉眼看起來相同的字符在網(wǎng)絡(luò)內(nèi)部看起來像兩個(gè)完全不同的 token。一個(gè)微笑的表情符號(hào)看起來像一個(gè)奇怪的 token,而不是…… 一個(gè)真正的笑臉,包括像素等等,以及它帶來的所有遷移學(xué)習(xí)。分詞器必須移除。

OCR 只是眾多有用的視覺-文本任務(wù)之一。文本-文本任務(wù)可以轉(zhuǎn)換為視覺-文本任務(wù),反之則不行。

很多用戶信息都是圖像,但解碼器(智能助手的響應(yīng))仍然是文本。如何真實(shí)地輸出像素…… 或者說,如果你想要輸出像素,那就不那么明顯了。

紐約大學(xué)助理教授謝賽寧也發(fā)推對(duì) Karpathy 的評(píng)論給予了高度評(píng)價(jià),他尤其對(duì)其中「作為一個(gè)本質(zhì)上是研究計(jì)算機(jī)視覺,暫時(shí)偽裝成自然語言專家的人」這一句深感共鳴。



畢竟正是謝賽寧當(dāng)年首次將 Transformer 架構(gòu)與擴(kuò)散模型相結(jié)合,提出了擴(kuò)散 Transformer(DiT),為文生視頻開啟了新的道路。

也有研究者對(duì) DeepSeek-OCR 這項(xiàng)研究的潛在意義進(jìn)行了更引人入勝的解讀。



Emanuel 繼續(xù)寫道:傳統(tǒng)上,在多模態(tài)大語言模型中,視覺 token 幾乎像是事后添加的產(chǎn)物,或者說是「外掛」在語言模型框架之上的功能。而如果用可識(shí)別的圖像像素形式來表示文本,那么一萬英文單詞在多模態(tài) LLM 中所占的空間,將遠(yuǎn)遠(yuǎn)大于用文本 token 表示時(shí)的空間。

舉例來說,那一萬字的英文文本可能原本對(duì)應(yīng) 15,000 個(gè)文本 token,但如果轉(zhuǎn)換成視覺 token,可能就會(huì)變成 30,000 到 60,000 個(gè)視覺 token。由此可見,視覺 token 的效率低得多,因此過去它們只適用于那些無法用文字有效表達(dá)的數(shù)據(jù)(例如圖像或視覺場景)。

但這篇論文的提出,顛覆了這一切

DeepSeek 想出了一種方法,使得視覺 token 的壓縮效率比文本 token 高出 10 倍!

換句話說,原本需要 10,000 個(gè)單詞的文本,現(xiàn)在理論上只需約 1,500 個(gè)經(jīng)過特殊壓縮的視覺 token 即可完整表示。

如果你想一想人類大腦的運(yùn)作方式,這其實(shí)也并非完全出人意料。

畢竟,當(dāng)我們回憶一本讀過的書的某一部分時(shí),往往會(huì)以視覺的方式來定位:我們能記得那段內(nèi)容在書的哪一頁、哪一側(cè)、頁面的大致位置,這說明我們的大腦在使用某種視覺記憶表征機(jī)制。

不過,目前還不清楚這種機(jī)制在 LLM 的下游認(rèn)知能力中會(huì)如何表現(xiàn)。模型在使用這些壓縮后的視覺 token 時(shí),是否還能像使用普通文本 token 那樣進(jìn)行智能推理?或者,這種方式會(huì)不會(huì)讓模型變得不那么善于表達(dá)語言,因?yàn)樗黄雀嗟匾砸曈X方式來思考?

無論如何,可以想見:根據(jù)實(shí)際的性能權(quán)衡,這可能成為一個(gè)極具潛力的新方向,用于大幅擴(kuò)展模型的有效上下文長度(context size)。

尤其是如果與 DeepSeek 幾周前發(fā)布的另一篇關(guān)于稀疏注意力(sparse attention)的論文結(jié)合使用,前景將更加令人興奮。詳情可參閱機(jī)器之心報(bào)道《剛剛,DeepSeek 開源 V3.2-Exp,公開新稀疏注意力機(jī)制 DSA》。

他還提到:「據(jù)我們所知,谷歌也可能早就發(fā)現(xiàn)了類似的技術(shù),這或許能解釋為什么 Gemini 模型擁有如此巨大的上下文窗口,并在 OCR 任務(wù)上表現(xiàn)得又快又好。當(dāng)然,如果他們真的做到了,可能也不會(huì)公開說明 —— 畢竟這會(huì)被視為核心商業(yè)機(jī)密。而 DeepSeek 的可貴之處在于:他們選擇了完全開源,包括模型權(quán)重與方法細(xì)節(jié)。這意味著,任何人都可以試驗(yàn)、驗(yàn)證并進(jìn)一步探索這一突破?!?/p>

即使這些技巧可能讓注意力機(jī)制的表達(dá)變得略微「有損」(lossy),但如果它能讓前沿級(jí) LLM 擁有 一千萬甚至兩千萬 token 級(jí)別的上下文窗口,那無疑是令人振奮的。

設(shè)想一下:你可以把一家公司的所有關(guān)鍵內(nèi)部文檔都塞進(jìn)提示詞的前綴(prompt preamble)中,并緩存到 OpenAI 的系統(tǒng)里。之后只需在其上添加具體的問題或提示詞,無需搜索工具,就能快速且經(jīng)濟(jì)地完成查詢。

或者,你可以將整個(gè)代碼庫都放入上下文中并緩存,每次修改時(shí)只需追加相當(dāng)于 Git 有差異的部分內(nèi)容。

他還表示:「這讓我想起著名物理學(xué)家 Hans Bethe(漢斯?貝特) 的故事 —— 他以記憶力驚人著稱,能背下大量隨機(jī)的物理數(shù)據(jù)(例如整個(gè)元素周期表、各種物質(zhì)的沸點(diǎn)等),因此在思考與計(jì)算時(shí)幾乎從不需要中斷去查閱資料?!?/p>

毫無疑問,擁有大量與任務(wù)相關(guān)的知識(shí)并能隨時(shí)調(diào)用,是極其強(qiáng)大的能力。而DeepSeek 的這一方法,似乎正是一個(gè)聰明且可擴(kuò)展的路徑,有望讓模型的「工作記憶」容量提升 10 倍甚至更多。

在 Hacker News 等平臺(tái)上,DeepSeek-OCR 也引發(fā)了廣泛熱議。

Django Web 框架的聯(lián)合創(chuàng)建者 Simon Willison 甚至成功嘗試了讓 Claude Code 成功在英偉達(dá) Spark 硬件上運(yùn)行這個(gè)模型。整個(gè)過程僅使用了 4 個(gè)提示詞,時(shí)間也只不過 40 分鐘。



科技視頻播主 NiceKate AI 將成功將其部署到了 Mac 上。



不過,值得注意的是,有不少研究者指出,DeepSeek 新模型雖然在工程上取得了不可否認(rèn)的巨大成功,但其核心方法思路并非首創(chuàng)。

事實(shí)上,早在 2022 年,哥本哈根大學(xué)等機(jī)構(gòu)的論文《Language Modelling with Pixels》就已經(jīng)提出了類似的思想。其中提出了基于像素的語言編碼器(Pixel-based Encoder of Language),簡稱PIXEL,可望解決語言模型的詞匯瓶頸問題。



PIXEL 架構(gòu)概況,來自論文《Language Modelling with Pixels》,arXiv:2207.06991

具體來說,PIXEL 是一種預(yù)訓(xùn)練語言模型,可將文本渲染為圖像,從而能夠基于文字形態(tài)的相似性或像素共激活模式在不同語言之間實(shí)現(xiàn)表示的遷移。與傳統(tǒng)語言模型預(yù)測 token 分布的方式不同,PIXEL 的訓(xùn)練目標(biāo)是重建被遮蓋圖像塊的像素。

此后也有多篇研究成果對(duì)這一研究思路進(jìn)行了發(fā)展和改進(jìn),至少包括:

  • CVPR 2023 論文:CLIPPO: Image-and-Language Understanding from Pixels Only
  • NeurIPS 2024 論文:Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
  • 2024 年論文:Improving Language Understanding from Screenshots
  • NeurIPS 2025 論文:Vision-centric Token Compression in Large Language Model

不管怎樣,看起來 DeepSeek-OCR 確實(shí)是一個(gè)非常好用的模型,也已經(jīng)有不少先行者開始用起來了:





當(dāng)然,批評(píng)的聲音依然是存在的,比如現(xiàn)在 Meta 工作的前 OpenAI 和 DeepMind 研究者 Lucas Beyer 就毫不客氣地表示 DeepSeek-OCR 的方法并不存在漸進(jìn)性,不像人類。



最后,在 DeepSeek-OCR 熱烈的討論人群中,也有一群外國人注意到了其論文中有趣的 Prompt 示例,在研究什么叫「先天下之憂而憂,后天下之樂而樂」。



不論是對(duì) AI 還是對(duì)外國人來說,理解準(zhǔn)確的意思確實(shí)是個(gè)挑戰(zhàn)。

你是否已經(jīng)嘗試過 DeepSeek-OCR 模型?又怎么看待其背后的「以視覺方式壓縮一切」的研究思路?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全國地鐵運(yùn)營為何只有武漢等地盈利?武漢的運(yùn)營模式就不能模仿嗎

全國地鐵運(yùn)營為何只有武漢等地盈利?武漢的運(yùn)營模式就不能模仿嗎

愛江山更愛快樂
2025-10-21 11:09:05
江門糾錯(cuò)發(fā)布“22不”!日新增再現(xiàn)新低,兩市動(dòng)態(tài)清零,勝利在望

江門糾錯(cuò)發(fā)布“22不”!日新增再現(xiàn)新低,兩市動(dòng)態(tài)清零,勝利在望

火山詩話
2025-10-21 06:32:06
河南女孩尋找江蘇江陰的親生父母:我不想給自己留下遺憾

河南女孩尋找江蘇江陰的親生父母:我不想給自己留下遺憾

揚(yáng)子晚報(bào)
2025-10-21 12:14:35
龍洋紫外套配綠褲驚艷亮相,手提蟹籃的樣子,讓人越看越喜歡

龍洋紫外套配綠褲驚艷亮相,手提蟹籃的樣子,讓人越看越喜歡

暖心萌阿菇?jīng)?/span>
2025-10-20 15:37:55
回旋鏢,當(dāng)年“你們丁神”加入Falcons時(shí),小孩被踩得有多慘

回旋鏢,當(dāng)年“你們丁神”加入Falcons時(shí),小孩被踩得有多慘

街機(jī)時(shí)代
2025-10-20 15:00:03
婆婆大年三十不讓我上桌,我拎行李就走,一周后全家人都傻眼了

婆婆大年三十不讓我上桌,我拎行李就走,一周后全家人都傻眼了

小鬼頭體育
2025-10-21 09:26:15
港口費(fèi)雙征第1天,中國拿“首血”,但漏洞已出,第三國從中謀利

港口費(fèi)雙征第1天,中國拿“首血”,但漏洞已出,第三國從中謀利

奇思妙想生活家
2025-10-20 14:15:13
徹底不裝了?印度決定借鑒中國技術(shù)研發(fā)導(dǎo)彈,四大技術(shù)瓶頸難攻破

徹底不裝了?印度決定借鑒中國技術(shù)研發(fā)導(dǎo)彈,四大技術(shù)瓶頸難攻破

大圣點(diǎn)評(píng)
2025-10-21 14:20:03
秋天要滋陰,早餐把豆?jié){牛奶換成它,津液足了,內(nèi)熱沒了,特舒服

秋天要滋陰,早餐把豆?jié){牛奶換成它,津液足了,內(nèi)熱沒了,特舒服

江江食研社
2025-10-21 08:30:09
香港墜機(jī)后續(xù)!黑匣子位置鎖定,更多細(xì)節(jié)披露,波音黑歷史惹爭議

香港墜機(jī)后續(xù)!黑匣子位置鎖定,更多細(xì)節(jié)披露,波音黑歷史惹爭議

派大星紀(jì)錄片
2025-10-21 14:55:41
夏國寶接受紀(jì)律審查和監(jiān)察調(diào)查

夏國寶接受紀(jì)律審查和監(jiān)察調(diào)查

揚(yáng)子晚報(bào)
2025-10-21 10:56:12
誰在利用1068號(hào)段發(fā)送詐騙短信?央視起底

誰在利用1068號(hào)段發(fā)送詐騙短信?央視起底

澎湃新聞
2025-10-20 12:02:10
絕不姑息!國家出手逮捕的4位華人首富,原因曝光下才知罪有應(yīng)得

絕不姑息!國家出手逮捕的4位華人首富,原因曝光下才知罪有應(yīng)得

朗威談星座
2025-10-15 01:16:41
臺(tái)媒曝修杰楷承認(rèn)逃兵役,賈靜雯回應(yīng)老公被拘提,信息量太大

臺(tái)媒曝修杰楷承認(rèn)逃兵役,賈靜雯回應(yīng)老公被拘提,信息量太大

一盅情懷
2025-10-21 13:29:00
官宣:獨(dú)行俠正式執(zhí)行萊夫利2026-27賽季的球隊(duì)選項(xiàng)

官宣:獨(dú)行俠正式執(zhí)行萊夫利2026-27賽季的球隊(duì)選項(xiàng)

北青網(wǎng)-北京青年報(bào)
2025-10-21 10:28:03
人過五十歲,存款達(dá)到這2個(gè)數(shù)中的一個(gè)就夠了,多了反而沒意義

人過五十歲,存款達(dá)到這2個(gè)數(shù)中的一個(gè)就夠了,多了反而沒意義

有故事的人
2025-10-21 06:23:03
于和偉回應(yīng)臺(tái)灣觀眾看《沉默的榮耀》,感動(dòng)人心,字字淚下

于和偉回應(yīng)臺(tái)灣觀眾看《沉默的榮耀》,感動(dòng)人心,字字淚下

老呶侃史
2025-10-20 23:46:15
趙構(gòu)為何在56歲時(shí)主動(dòng)退位,將皇位還給太祖一脈?可不是良心發(fā)現(xiàn)

趙構(gòu)為何在56歲時(shí)主動(dòng)退位,將皇位還給太祖一脈?可不是良心發(fā)現(xiàn)

銘記歷史呀
2025-10-21 11:40:22
醫(yī)生嘆息:一旦查出高血脂,這4種食物馬上戒掉,再吃有中風(fēng)風(fēng)險(xiǎn)

醫(yī)生嘆息:一旦查出高血脂,這4種食物馬上戒掉,再吃有中風(fēng)風(fēng)險(xiǎn)

普陀動(dòng)物世界
2025-10-21 12:54:03
很多人,都低估了30年房貸的殺傷力

很多人,都低估了30年房貸的殺傷力

亞哥談古論今
2025-10-14 18:45:05
2025-10-21 15:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11521文章數(shù) 142489關(guān)注度
往期回顧 全部

科技要聞

歷史新高!市值3.9萬億美元,蘋果又行了?

頭條要聞

特朗普稱將于明年初訪問中國 外交部回應(yīng)

頭條要聞

特朗普稱將于明年初訪問中國 外交部回應(yīng)

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

婚姻中竇驍更強(qiáng)勢(shì),還幾乎零緋聞?

財(cái)經(jīng)要聞

保險(xiǎn)騙傭黑幕:靠高額返傭+短期退保牟利

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
數(shù)碼
健康
軍事航空

推廣|| 用了好幾年才推薦,這件單品真的值得投資

房產(chǎn)要聞

太強(qiáng)了!海南4天猛簽1000億,寧德時(shí)代、螞蟻瘋狂增資!

數(shù)碼要聞

2K珠峰屏+頂級(jí)性能!iQOO 15發(fā)布,還有Pad和TWS耳機(jī)

內(nèi)分泌科專家破解身高八大謠言

軍事要聞

哈馬斯:解除武裝被提上議程

無障礙瀏覽 進(jìn)入關(guān)懷版 久久久人妻视频| 91熟女露脸专区| a√在线视频| 欧美BBBBBXXXXX| 久久疯狂浆XXXⅩ高潮| 激情成人毛片免费看| 少妇把腿扒开让我舔18| 亚洲国产精品无码aaa片| 国产强奸乱伦2| 国产精品亚洲精品日韩己满十八小| 日韩午夜福利免费理论片秋秋| 夜先锋av资源网站| 你懂的国产精品| 日韩av一区二区中文字幕| ,国产yw8825免费观看网站| 少夫极品www| 777亚洲精品无码| Japanese人妻无码人妻| 精品卡通动漫亚洲AV第一页| 江苏极品身材白嫩少妇自拍| 亚洲欧美精品在线| 国产福利一区二区三区在线视频| 无码人妻精品专区在线视频| 国产AV日韩AV无码AV天堂| 99re亚洲精品| 黑人太大了太深了好痛 视频| 超碰100.www.com| 日韩AV一点不卡| 人妻少妇一区二区| 久久人人做人人妻人人玩精品va| 99re6在线视频精品免费下载| 亚洲VA中文字幕| 被男人吃奶添下面好舒服| 亚洲精品一区二区美女| 六月婷婷精品| 一本大道伊人av久久乱码| www亚洲精品久久久乳| av中文字幕潮喷人妻系列| 奶头和荫蒂添的好舒服囗交| 久久人人妻人人操人人爽| 色天使色偷偷色噜噜|