夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

文本已死,視覺當(dāng)立!Karpathy狂贊DeepSeek新模型,終結(jié)分詞器時(shí)代

0
分享至


新智元報(bào)道

編輯:KingHZ 好困

【新智元導(dǎo)讀】AI新突破!DeepSeek-OCR以像素處理文本,壓縮率小于1/10,基準(zhǔn)測試領(lǐng)跑。開源一夜4.4k星,Karpathy技癢難耐,展望視覺輸入的通用性。


DeepSeek再次讓全世界大吃一驚!

他們最新成果DeepSeek-OCR,從根本上改變了游戲規(guī)則——

文本并非通用的輸入。反而,視覺將取而代之!


此外,在光學(xué)文字識別OCR任務(wù)上,DeepSeek-OCR模型名副其實(shí),堪稱工程學(xué)的巔峰之作——

在單卡A100-40G上,可達(dá)每秒約2500 Token,跑得飛快。

在保持97% OCR準(zhǔn)確率的前提下,可將視覺上下文壓縮至原來的1/20,常規(guī)使用下壓縮比也能輕松小于1/10。

在OmniDocBench基準(zhǔn)測試中,使用更少的視覺Token,即可超越GOT-OCR2.0和MinerU2.0的表現(xiàn)。


到底效果多驚艷?

一整頁密密麻麻的文本,被壓成僅僅100個(gè)視覺Token,在 OmniDocBench上實(shí)現(xiàn)最多60倍壓縮!

DeepSeek-OCR簡直把文字變成了像素點(diǎn),就像把一本100頁的書壓縮成一張照片,AI依然能讀懂它。


參數(shù)少、壓縮率高、速度快、涵蓋100種語言……DeepSeek-OCR全都要。

不僅理論價(jià)值大,實(shí)用性還很高強(qiáng),好評如潮:





Github開源項(xiàng)目DeepSeek-OCR,一夜收獲4.4k星:


DeepSeek-OCR用事實(shí)證明,實(shí)體頁面(如縮微膠片、書籍)才是訓(xùn)練AI模型的更優(yōu)數(shù)據(jù)源——而非低質(zhì)量的互聯(lián)網(wǎng)文本。

「骨子里的計(jì)算機(jī)視覺研究者」、特斯拉前AI總監(jiān)、OpenAI創(chuàng)始團(tuán)隊(duì)成員Karpathy,難掩欣喜,力挺DeepSeek新模型。

Karpathy

技癢難耐,早已受不了分詞器

Karpathy相當(dāng)喜歡。


但更有趣的部分在于,對于大語言模型來說,像素輸入是否優(yōu)于文本輸入?在輸入端,文本Token會不會是一種既浪費(fèi)又糟糕透頂?shù)姆绞剑?/p>

DeepSeek-OCR在動(dòng)搖「文本作為AI的核心地位」,而視覺或?qū)⒃俅纬蔀橹髁鳎?/strong>

Karpathy自稱「骨子里搞計(jì)算機(jī)視覺」,只是暫時(shí)混跡在自然語言處理圈,自然對上述問題尤其感興趣。


或許,大語言模型的所有輸入都只應(yīng)該是圖像,這才更有道理。就算你手頭是純文本輸入,可能也最好先把它渲染成圖像再喂給模型:

  • 更高的信息壓縮率 => 更短的上下文窗口,更高的效率。

  • 信息流的通用性顯著增強(qiáng) => 不再局限于文本,還可以處理粗體、彩色文本乃至任意圖像。

  • 輸入現(xiàn)在可以輕松地、默認(rèn)地采用雙向注意力機(jī)制處理,而再是自回歸注意力——這可要強(qiáng)大得多。

  • 掉(輸入端的)分詞器tokenizer?。?/strong>

特別是最后一點(diǎn),Karpathy忍了很久了,早就多次吐槽分詞器太爛了——

分詞器丑陋、獨(dú)立,并非端到端的環(huán)節(jié)。

它「引入」了Unicode和字節(jié)編碼的所有糟粕,背負(fù)著沉重的歷史包袱,還帶來了安全/越獄風(fēng)險(xiǎn)(比如連續(xù)字節(jié)問題)。

它讓兩個(gè)肉眼看起來一模一樣的字符,在網(wǎng)絡(luò)內(nèi)部卻變成了兩個(gè)風(fēng)馬牛不相及的 Token。

一個(gè)微笑的表情符號,,而不是一個(gè)帶有像素、承載著豐富信息、能從中進(jìn)行遷移學(xué)習(xí)的真實(shí)笑臉。

總之,Karpathy認(rèn)為,分詞器「惡行累累」,這次必須趕走分詞器。


此外,他展望了視覺成為通用輸入的前景:

OCR只是「視覺到文本」眾多落地應(yīng)用中的一種。而「文本到文本」的任務(wù)也可以被改造為「視覺到文本」的任務(wù),反之則不行。

所以,或許用戶輸入的消息是圖像,但解碼器(即「智能助理」的響應(yīng))依然是文本。

至于,到底如何真實(shí)地輸出像素或者說你是否真想這么做,就遠(yuǎn)沒那么明朗了。

現(xiàn)在,Karpathy表示,他要拼命忍住,不去搞一個(gè)只用圖像輸入的「nanochat」的支線任務(wù)。

為什么圖像輸入對AI更友好?

有網(wǎng)友問:

首先,為什么圖像能輕易獲得雙向注意力,而文本卻不能?

另外,雖然圖像沒有像文本那樣的「Token化」過程,但我們把輸入圖像切割成一個(gè)個(gè)圖像塊(patches)時(shí),難道得到的不是類似,甚至可能更不理想的結(jié)果嗎?


對此,Karpathy表示,原則上可以,只不過為了追求效率,文本(的生成)通常采用簡單的自回歸方式進(jìn)行訓(xùn)練。

可以設(shè)想存在一個(gè)中間訓(xùn)練階段,利用雙向注意力機(jī)制,微調(diào)條件信息,比如那些我們不需要去預(yù)測或生成的代表用戶消息的Token。

原則上,你可以對整個(gè)上下文窗口進(jìn)行雙向編碼,而目的僅僅是為了預(yù)測下一個(gè) Token。但這么做的代價(jià)就是無法并行化訓(xùn)練。

至于第二個(gè)問題,他認(rèn)為,嚴(yán)格來說與「像素 vs. Token」無關(guān)。其核心更在于,像素通常是被編碼的(encoded),而 Token則是被解碼的(decoded)。

至于,Karpathy的「nanochat支線任務(wù)論」,網(wǎng)友并不認(rèn)可:

DeepSeekOCR證明這不僅關(guān)乎壓縮——更是語義的蒸餾。

分詞器時(shí)代意味著識字,像素時(shí)代則關(guān)乎感知。

Nanochat不該是支線任務(wù),它是「光學(xué)認(rèn)知」的開端。


帖子下面,網(wǎng)友懇求Karpathy:快搞個(gè)只用圖像輸入的「nanochat」吧!





Karpathy的前老板、「好兄弟」馬斯克給出了更科幻的猜想:

長期來看,AI模型超過99%的輸入和輸出將是光子。


馬斯克讓Grok估計(jì)了一下已知宇宙的光子總量:

1=估算可觀測宇宙中的光子總數(shù)是一項(xiàng)復(fù)雜的工作,但我們可以基于幾個(gè)主要組成部分得出一個(gè)大致數(shù)字:宇宙微波背景輻射(CMB)產(chǎn)生的光子、星光光子,以及其他一些微弱來源。

宇宙微波背景輻射(CMB)占據(jù)主導(dǎo)地位,使得可觀測宇宙中的光子總數(shù)約為1.5×10??個(gè) 。這個(gè)數(shù)字是一個(gè)粗略估算,具體數(shù)值取決于可觀測宇宙的精確體積以及其他微小來源的貢獻(xiàn),但整體上與宇宙學(xué)計(jì)算結(jié)果相符。

1.5×10??!沒有其他東西能達(dá)到這種規(guī)模。這就是馬斯克的邏輯。

畢竟,人類就是通用「光學(xué)計(jì)算系統(tǒng)」——眼睛來認(rèn)識世界的:


作者介紹

這次論文一共有三位作者:Haoran Wei、Yaofeng Sun、Yukun Li。


論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

論文一作Haoran Wei,此前也是GitHub 7.9k星爆火項(xiàng)目GOT-OCR2.0,即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。


項(xiàng)目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0


論文地址:https://arxiv.org/abs/2409.01704


Yaofeng Sun是DeepSeek的軟件工程師,于2023年加入幻方AI/DeepSeek。


谷歌學(xué)術(shù)顯示,他參與了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型的研究。


據(jù)悉,他本科畢業(yè)于北京大學(xué)圖靈班(Turing Class)計(jì)算機(jī)科學(xué)專業(yè)。

他代表北京大學(xué)參賽,獲得ACM-ICPC 亞洲區(qū)域賽金牌(2017–2019),獲獎(jiǎng)賽區(qū)包括:EC 總決賽 2017、青島 2017、西安 2017、上海 2019、南京 2019。

之前,他獲得全國信息學(xué)奧林匹克競賽(NOI)金牌(2015、2016)。


Yukun Li也是高產(chǎn)的AI從業(yè)者——

2020年至今,引用數(shù)已過9千;參與過DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等項(xiàng)目研究。


我們一起見證他們帶來的AI新突破,一起見證開源AI的崛起!

參考資料:

https://x.com/karpathy/status/1980397031542989305

https://x.com/teortaxesTex/status/198023417556435798

https://www.linkedin.com/in/sunyaofeng/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
文班40+15馬刺大勝獨(dú)行俠 濃眉22中7弗拉格兩雙0助攻

文班40+15馬刺大勝獨(dú)行俠 濃眉22中7弗拉格兩雙0助攻

醉臥浮生
2025-10-23 12:15:14
對于朝鮮戰(zhàn)爭,胡適怎么看?

對于朝鮮戰(zhàn)爭,胡適怎么看?

大國紀(jì)錄
2025-10-22 19:00:03
華為內(nèi)部批判:“過度高薪”養(yǎng)了一群閑人

華為內(nèi)部批判:“過度高薪”養(yǎng)了一群閑人

新浪財(cái)經(jīng)
2025-10-23 08:53:38
與老虎共舞?洛陽一動(dòng)物園5萬月薪招募“獸王駕駛員” 園區(qū):報(bào)名人數(shù)太多了

與老虎共舞?洛陽一動(dòng)物園5萬月薪招募“獸王駕駛員” 園區(qū):報(bào)名人數(shù)太多了

封面新聞
2025-10-23 12:29:28
王晶談大S:以前是小黑妹,打美白針才變白,在公眾面前很溫柔

王晶談大S:以前是小黑妹,打美白針才變白,在公眾面前很溫柔

丁丁鯉史紀(jì)
2025-10-23 08:22:29
部分小紅書網(wǎng)友的惡意讓其他人心里發(fā)寒了

部分小紅書網(wǎng)友的惡意讓其他人心里發(fā)寒了

清暉有墨
2025-10-23 10:59:19
高市早苗致歉:遲遲等不到北京賀電,日本陷難題

高市早苗致歉:遲遲等不到北京賀電,日本陷難題

現(xiàn)代小青青慕慕
2025-10-23 09:02:20
畢麗娜:費(fèi)翔母親,傳言是大陸特工,17歲赴臺,兩任丈夫身份特殊

畢麗娜:費(fèi)翔母親,傳言是大陸特工,17歲赴臺,兩任丈夫身份特殊

阿胡
2025-10-20 11:24:06
馬克西40+7三分76人險(xiǎn)勝綠軍 恩比德9中1探花34+7超詹姆斯

馬克西40+7三分76人險(xiǎn)勝綠軍 恩比德9中1探花34+7超詹姆斯

醉臥浮生
2025-10-23 10:11:34
大爆冷!快船最多落后37分慘負(fù)爵士 哈登15+11比爾首秀僅5分

大爆冷!快船最多落后37分慘負(fù)爵士 哈登15+11比爾首秀僅5分

醉臥浮生
2025-10-23 11:31:32
演都不演了,楊振寧去世僅3天,惡心的一幕出現(xiàn),結(jié)局大快人心

演都不演了,楊振寧去世僅3天,惡心的一幕出現(xiàn),結(jié)局大快人心

禾寒?dāng)?/span>
2025-10-22 23:01:56
你見過哪些令人窒息的騷操作?網(wǎng)友:為人老實(shí)的朋友強(qiáng)烈建議看看

你見過哪些令人窒息的騷操作?網(wǎng)友:為人老實(shí)的朋友強(qiáng)烈建議看看

解讀熱點(diǎn)事件
2025-10-23 00:20:03
不到48小時(shí),大陸同意鄭麗文請求!民進(jìn)黨慌了,加緊轉(zhuǎn)移島內(nèi)資產(chǎn)

不到48小時(shí),大陸同意鄭麗文請求!民進(jìn)黨慌了,加緊轉(zhuǎn)移島內(nèi)資產(chǎn)

小撇說事
2025-10-23 09:25:31
人不會無故患上帶狀皰疹?調(diào)查發(fā)現(xiàn):患帶狀皰疹,背后有4個(gè)原因

人不會無故患上帶狀皰疹?調(diào)查發(fā)現(xiàn):患帶狀皰疹,背后有4個(gè)原因

涵豆說娛
2025-10-23 09:31:22
王自如自曝負(fù)債約1億元,因限高坐綠皮火車出差

王自如自曝負(fù)債約1億元,因限高坐綠皮火車出差

大象新聞
2025-10-22 16:49:04
女兒花2888元給75歲父親辦歡樂谷年卡,父親每天早晨6點(diǎn)起床,坐一個(gè)半小時(shí)地鐵去玩

女兒花2888元給75歲父親辦歡樂谷年卡,父親每天早晨6點(diǎn)起床,坐一個(gè)半小時(shí)地鐵去玩

觀威海
2025-10-23 09:54:04
“分割頓巴斯”提議遇阻,北約秘書長赴美會談,美俄元首會晤生變引發(fā)猜測

“分割頓巴斯”提議遇阻,北約秘書長赴美會談,美俄元首會晤生變引發(fā)猜測

環(huán)球網(wǎng)資訊
2025-10-23 07:23:05
特朗普對華讓1步、提3個(gè)要求,不答應(yīng)就加稅157%,中方回應(yīng)6個(gè)字

特朗普對華讓1步、提3個(gè)要求,不答應(yīng)就加稅157%,中方回應(yīng)6個(gè)字

現(xiàn)代小青青慕慕
2025-10-23 07:44:20
“秤不離砣”具象化!長沙200歲老夫妻互寵76年從未吵過架,子女:我爸舍不得

“秤不離砣”具象化!長沙200歲老夫妻互寵76年從未吵過架,子女:我爸舍不得

瀟湘晨報(bào)
2025-10-22 20:44:15
決裂?33歲薩拉赫刪掉所有利物浦元素:剛淪為替補(bǔ) 空門不傳被罵

決裂?33歲薩拉赫刪掉所有利物浦元素:剛淪為替補(bǔ) 空門不傳被罵

風(fēng)過鄉(xiāng)
2025-10-23 12:49:29
2025-10-23 13:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
13687文章數(shù) 66221關(guān)注度
往期回顧 全部

科技要聞

價(jià)格戰(zhàn)開打 人形機(jī)器人比買iPhone還便宜了

頭條要聞

曾經(jīng)的"水果第一股"瀕臨退市 從上市到一地雞毛僅3年

頭條要聞

曾經(jīng)的"水果第一股"瀕臨退市 從上市到一地雞毛僅3年

體育要聞

只有1000多人的漁村,誕生了頂級聯(lián)賽冠軍

娛樂要聞

《再見愛人》:鄧莎被大19富商老公蔑視

財(cái)經(jīng)要聞

金價(jià)驚魂一夜后:"囤金大爺大媽"擠爆金店

汽車要聞

再次進(jìn)化 擁有DMO+的豹5和豹8更好開了

態(tài)度原創(chuàng)

家居
藝術(shù)
游戲
親子
教育

家居要聞

蛇口地標(biāo) 盡享山海全景

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《逃離鴨科夫》全球銷量強(qiáng)勢破百萬

親子要聞

給梅朵拍半歲照,有種養(yǎng)小時(shí)候自己的感覺,非常期待她每天的變化

教育要聞

代數(shù)式求值常見題型,學(xué)霸的做法值得收藏!

無障礙瀏覽 進(jìn)入關(guān)懷版 中国一级毛片免费观看| 欧美精品一区午夜小说| 成人性色生活片免费看爆迷你毛片 | 欧美精品黑人粗大视频| 天天躁日日躁狠狠躁停停高清| 国产精品久久久久久人妻无| 国产精品熟女视频一区二区| 日韩精品无码一区二区三区蜜桃| 日韩国产A V视频| 女人高潮抽搐喷液30分钟视频| 91密桃精品国产91久久| 亚洲欧美bt| 一本高清码二区三区不卡| 九色丨PORNY丨自拍娇妻| 亚洲欭美日韩颜射在线| 白嫩少妇高潮喷水| 欧美午夜久久| 奇米娱乐视频在线播放| 色偷偷av男人的天堂不卡| 国产色欲毛片无码A级无码Av| 精品国产亚洲av麻豆特色| 羞羞影院体验区| 国产噜噜噜| 2021久久超碰国产精品最新| 久久国产国内精品国语对白| 无码一区二区三区| 超碰97人人做人人爱少妇| 中文字幕乱妇无码av在线| 午夜福利视频| 久久久久久国产精品无码下载| 欧美精品久久久久久精品爆乳| 国产精品老熟女视频一区二区| 桃色精品视频在线| 亚洲精品国产av成拍色拍| 天堂久久久久| 国产人成无码视频在线| 毛片免登陆器免费播放| 亚洲中文字幕无码一区精品 | 国产精品天干天干综合网| 成人午夜在线| 国产成人亚洲欧美二区综合|