新智元報(bào)道
編輯:KingHZ 好困
【新智元導(dǎo)讀】AI新突破!DeepSeek-OCR以像素處理文本,壓縮率小于1/10,基準(zhǔn)測試領(lǐng)跑。開源一夜4.4k星,Karpathy技癢難耐,展望視覺輸入的通用性。
DeepSeek再次讓全世界大吃一驚!
他們最新成果DeepSeek-OCR,從根本上改變了游戲規(guī)則——
文本并非通用的輸入。反而,視覺將取而代之!
此外,在光學(xué)文字識別OCR任務(wù)上,DeepSeek-OCR模型名副其實(shí),堪稱工程學(xué)的巔峰之作——
在單卡A100-40G上,可達(dá)每秒約2500 Token,跑得飛快。
在保持97% OCR準(zhǔn)確率的前提下,可將視覺上下文壓縮至原來的1/20,常規(guī)使用下壓縮比也能輕松小于1/10。
在OmniDocBench基準(zhǔn)測試中,使用更少的視覺Token,即可超越GOT-OCR2.0和MinerU2.0的表現(xiàn)。
到底效果多驚艷?
一整頁密密麻麻的文本,被壓成僅僅100個(gè)視覺Token,在 OmniDocBench上實(shí)現(xiàn)最多60倍壓縮!
DeepSeek-OCR簡直把文字變成了像素點(diǎn),就像把一本100頁的書壓縮成一張照片,AI依然能讀懂它。
參數(shù)少、壓縮率高、速度快、涵蓋100種語言……DeepSeek-OCR全都要。
不僅理論價(jià)值大,實(shí)用性還很高強(qiáng),好評如潮:
Github開源項(xiàng)目DeepSeek-OCR,一夜收獲4.4k星:
DeepSeek-OCR用事實(shí)證明,實(shí)體頁面(如縮微膠片、書籍)才是訓(xùn)練AI模型的更優(yōu)數(shù)據(jù)源——而非低質(zhì)量的互聯(lián)網(wǎng)文本。
「骨子里的計(jì)算機(jī)視覺研究者」、特斯拉前AI總監(jiān)、OpenAI創(chuàng)始團(tuán)隊(duì)成員Karpathy,難掩欣喜,力挺DeepSeek新模型。
Karpathy
技癢難耐,早已受不了分詞器
Karpathy相當(dāng)喜歡。
但更有趣的部分在于,對于大語言模型來說,像素輸入是否優(yōu)于文本輸入?在輸入端,文本Token會不會是一種既浪費(fèi)又糟糕透頂?shù)姆绞剑?/p>
DeepSeek-OCR在動(dòng)搖「文本作為AI的核心地位」,而視覺或?qū)⒃俅纬蔀橹髁鳎?/strong>
Karpathy自稱「骨子里搞計(jì)算機(jī)視覺」,只是暫時(shí)混跡在自然語言處理圈,自然對上述問題尤其感興趣。
或許,大語言模型的所有輸入都只應(yīng)該是圖像,這才更有道理。就算你手頭是純文本輸入,可能也最好先把它渲染成圖像再喂給模型:
更高的信息壓縮率 => 更短的上下文窗口,更高的效率。
信息流的通用性顯著增強(qiáng) => 不再局限于文本,還可以處理粗體、彩色文本乃至任意圖像。
輸入現(xiàn)在可以輕松地、默認(rèn)地采用雙向注意力機(jī)制處理,而不再是自回歸注意力——這可要強(qiáng)大得多。
干掉(輸入端的)分詞器tokenizer?。?/strong>
特別是最后一點(diǎn),Karpathy忍了很久了,早就多次吐槽分詞器太爛了——
分詞器丑陋、獨(dú)立,并非端到端的環(huán)節(jié)。
它「引入」了Unicode和字節(jié)編碼的所有糟粕,背負(fù)著沉重的歷史包袱,還帶來了安全/越獄風(fēng)險(xiǎn)(比如連續(xù)字節(jié)問題)。
它讓兩個(gè)肉眼看起來一模一樣的字符,在網(wǎng)絡(luò)內(nèi)部卻變成了兩個(gè)風(fēng)馬牛不相及的 Token。
一個(gè)微笑的表情符號,,而不是一個(gè)帶有像素、承載著豐富信息、能從中進(jìn)行遷移學(xué)習(xí)的真實(shí)笑臉。
總之,Karpathy認(rèn)為,分詞器「惡行累累」,這次必須趕走分詞器。
此外,他展望了視覺成為通用輸入的前景:
OCR只是「視覺到文本」眾多落地應(yīng)用中的一種。而「文本到文本」的任務(wù)也可以被改造為「視覺到文本」的任務(wù),反之則不行。
所以,或許用戶輸入的消息是圖像,但解碼器(即「智能助理」的響應(yīng))依然是文本。
至于,到底如何真實(shí)地輸出像素或者說你是否真想這么做,就遠(yuǎn)沒那么明朗了。
現(xiàn)在,Karpathy表示,他要拼命忍住,不去搞一個(gè)只用圖像輸入的「nanochat」的支線任務(wù)。
為什么圖像輸入對AI更友好?
有網(wǎng)友問:
首先,為什么圖像能輕易獲得雙向注意力,而文本卻不能?
另外,雖然圖像沒有像文本那樣的「Token化」過程,但我們把輸入圖像切割成一個(gè)個(gè)圖像塊(patches)時(shí),難道得到的不是類似,甚至可能更不理想的結(jié)果嗎?
對此,Karpathy表示,原則上可以,只不過為了追求效率,文本(的生成)通常采用簡單的自回歸方式進(jìn)行訓(xùn)練。
可以設(shè)想存在一個(gè)中間訓(xùn)練階段,利用雙向注意力機(jī)制,微調(diào)條件信息,比如那些我們不需要去預(yù)測或生成的代表用戶消息的Token。
原則上,你可以對整個(gè)上下文窗口進(jìn)行雙向編碼,而目的僅僅是為了預(yù)測下一個(gè) Token。但這么做的代價(jià)就是無法并行化訓(xùn)練。
至于第二個(gè)問題,他認(rèn)為,嚴(yán)格來說與「像素 vs. Token」無關(guān)。其核心更在于,像素通常是被編碼的(encoded),而 Token則是被解碼的(decoded)。
至于,Karpathy的「nanochat支線任務(wù)論」,網(wǎng)友并不認(rèn)可:
DeepSeekOCR證明這不僅關(guān)乎壓縮——更是語義的蒸餾。
分詞器時(shí)代意味著識字,像素時(shí)代則關(guān)乎感知。
Nanochat不該是支線任務(wù),它是「光學(xué)認(rèn)知」的開端。
帖子下面,網(wǎng)友懇求Karpathy:快搞個(gè)只用圖像輸入的「nanochat」吧!
Karpathy的前老板、「好兄弟」馬斯克給出了更科幻的猜想:
長期來看,AI模型超過99%的輸入和輸出將是光子。
馬斯克讓Grok估計(jì)了一下已知宇宙的光子總量:
1=估算可觀測宇宙中的光子總數(shù)是一項(xiàng)復(fù)雜的工作,但我們可以基于幾個(gè)主要組成部分得出一個(gè)大致數(shù)字:宇宙微波背景輻射(CMB)產(chǎn)生的光子、星光光子,以及其他一些微弱來源。
宇宙微波背景輻射(CMB)占據(jù)主導(dǎo)地位,使得可觀測宇宙中的光子總數(shù)約為1.5×10??個(gè) 。這個(gè)數(shù)字是一個(gè)粗略估算,具體數(shù)值取決于可觀測宇宙的精確體積以及其他微小來源的貢獻(xiàn),但整體上與宇宙學(xué)計(jì)算結(jié)果相符。
1.5×10??!沒有其他東西能達(dá)到這種規(guī)模。這就是馬斯克的邏輯。
畢竟,人類就是通用「光學(xué)計(jì)算系統(tǒng)」——眼睛來認(rèn)識世界的:
作者介紹
這次論文一共有三位作者:Haoran Wei、Yaofeng Sun、Yukun Li。
論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
論文一作Haoran Wei,此前也是GitHub 7.9k星爆火項(xiàng)目GOT-OCR2.0,即「General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model」的一作。
項(xiàng)目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0
論文地址:https://arxiv.org/abs/2409.01704
Yaofeng Sun是DeepSeek的軟件工程師,于2023年加入幻方AI/DeepSeek。
谷歌學(xué)術(shù)顯示,他參與了DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-vl、DeepSeek LLM等模型的研究。
據(jù)悉,他本科畢業(yè)于北京大學(xué)圖靈班(Turing Class)計(jì)算機(jī)科學(xué)專業(yè)。
他代表北京大學(xué)參賽,獲得ACM-ICPC 亞洲區(qū)域賽金牌(2017–2019),獲獎(jiǎng)賽區(qū)包括:EC 總決賽 2017、青島 2017、西安 2017、上海 2019、南京 2019。
之前,他獲得全國信息學(xué)奧林匹克競賽(NOI)金牌(2015、2016)。
Yukun Li也是高產(chǎn)的AI從業(yè)者——
2020年至今,引用數(shù)已過9千;參與過DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2、DeepSeek-Coder、DeepSeek-MoE、DeepSeek LLM等項(xiàng)目研究。
我們一起見證他們帶來的AI新突破,一起見證開源AI的崛起!
參考資料:
https://x.com/karpathy/status/1980397031542989305
https://x.com/teortaxesTex/status/198023417556435798
https://www.linkedin.com/in/sunyaofeng/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.