衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
全球AI多模態(tài)競(jìng)速激戰(zhàn)正酣,百度又放了個(gè)大招!
旗下新模型憑借0.9B參數(shù)量,在最新OmniDocBench V1.5榜單上拿下92.6分的成績(jī),獲得綜合性能全球第一。
它就是百度剛剛發(fā)布并在Day 1就開(kāi)源的自研多模態(tài)文檔解析模型PaddleOCR-VL。
(ps:0.9B參數(shù)量,對(duì)開(kāi)發(fā)者的個(gè)人電腦真的炒雞友好?。?/p>
發(fā)布16小時(shí)內(nèi),該模型就登頂了抱抱臉Trending全球第一。
非常搶眼的是,這款模型不僅得分高,它還在文本識(shí)別、公式識(shí)別、表格理解、閱讀順序四大核心能力上全面拿下SOTA,成為當(dāng)前唯一在這四個(gè)維度全部排名第一的模型,刷新了全球OCR VL模型性能的新高線。
PaddleOCR-VL是一款面向復(fù)雜文檔結(jié)構(gòu)解析而設(shè)計(jì)的模型,是百度文心大模型體系下專注文檔解析任務(wù)的輕量化衍生產(chǎn)品,具備極強(qiáng)的行業(yè)落地導(dǎo)向和平臺(tái)集成能力,能輕松看懂令人頭禿的PDF和圖片。
敲黑板劃重點(diǎn):它真的能理解格式雜、長(zhǎng)度長(zhǎng)的文檔中的邏輯結(jié)構(gòu)、表格關(guān)系、數(shù)學(xué)表達(dá)等等。
和小紅書等平臺(tái)上,這個(gè)模型已經(jīng)被大家先用起來(lái)并分享使用體驗(yàn)。
實(shí)用又好用,已經(jīng)收獲“哇”聲一片。
在AI從感知到認(rèn)知不斷躍遷的當(dāng)下,當(dāng)模型不再只是識(shí)字工具,變成了具備結(jié)構(gòu)感知與語(yǔ)義還原能力的利器,OCR在AI時(shí)代的意義也被徹底改寫。
登頂OmniDocBench,四大核心能力全線SOTA
PaddleOCR-VL登頂?shù)腛mniDocBench V1.5是目前全球衡量文檔解析能力最具權(quán)威性,也最具挑戰(zhàn)性的評(píng)測(cè)體系之一。
它經(jīng)清華大學(xué)、阿里達(dá)摩院、上海人工智能實(shí)驗(yàn)室等聯(lián)合發(fā)布,由開(kāi)源社區(qū)推動(dòng)發(fā)展,主要面向真實(shí)場(chǎng)景中的PDF文檔解析任務(wù),包含1355頁(yè)P(yáng)DF,涵蓋9種文檔類型、4種布局類型和3種語(yǔ)言類型,以及文本、表格、公式、閱讀順序等多維任務(wù)。
在最新一期OmniDocBench V1.5榜單中,PaddleOCR-VL以92.6的綜合得分問(wèn)鼎榜首。
這頂全球桂冠背后,其實(shí)標(biāo)志著該模型在模型結(jié)構(gòu)設(shè)計(jì)、能力理解廣度和任務(wù)適配性上的整體優(yōu)勢(shì)。
尤其值得注意的是,PaddleOCR-VL核心模型參數(shù)僅0.9B——以輕量之身越級(jí)打怪,正面超越了Gemini-2.5 Pro、GPT-4o等與其體量懸殊的巨型多模態(tài)大模型,同時(shí)擊敗了OCR領(lǐng)域的垂直模型dots.ocr、MinerU等等。
更重要的是,PaddleOCR-VL以一己之身刷新了四項(xiàng)核心能力的SOTA。
第一項(xiàng),文本識(shí)別。
PaddleOCR-VL以96.5的成績(jī)拿下全場(chǎng)最高分。
技術(shù)報(bào)告顯示,PaddleOCR-VL模型支持109種語(yǔ)言,覆蓋中文、英文、法文、阿拉伯文等主流語(yǔ)種,并在手寫、豎排、藝術(shù)字體等復(fù)雜形態(tài)下也保持極高識(shí)別精度,打破了傳統(tǒng)OCR“只識(shí)打印體”的能力瓶頸。
需要注意的是,OmniDocBench主要評(píng)測(cè)還局限在中英文印刷體上。
如果拉齊到手寫、古籍、多語(yǔ)種這些更復(fù)雜的場(chǎng)景,PaddleOCR-VL能以更驚人的優(yōu)勢(shì)甩開(kāi)現(xiàn)有多模態(tài)和OCR模型。
再來(lái)看這張被騎手加點(diǎn)餐人“折磨”到皺皺巴巴的外賣單,部分文字因折角、單據(jù)變形而被遮擋;因?yàn)榕臄z光線不好,單據(jù)上產(chǎn)生了明暗陰影……
就算是面對(duì)外賣單的變形和拍攝環(huán)境光照不均,PaddleOCR-VL也沒(méi)在怕的:
第二項(xiàng),公式識(shí)別。
它CDM得分高達(dá)0.9453,遠(yuǎn)超其他對(duì)標(biāo)模型,能精準(zhǔn)還原論文、教材、試卷中復(fù)雜的數(shù)學(xué)公式,支持Latex格式生成——終于不用再手敲Latex了,抹淚。
在公式識(shí)別單項(xiàng)測(cè)評(píng)集上,PaddleOCR-VL的成績(jī)?yōu)?1.4,超過(guò)MinerU、MonkeyOCR-pro-3B等OCR界網(wǎng)紅模型,也是能力測(cè)試中唯一得分超過(guò)90的模型。
第三項(xiàng),表格理解。
PaddleOCR-VL能夠精準(zhǔn)解析財(cái)報(bào)、統(tǒng)計(jì)報(bào)表中的嵌套表格與合并單元格,將非結(jié)構(gòu)化圖像信息快速轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
單項(xiàng)評(píng)測(cè)中,該模型得分達(dá)到89.8,在真實(shí)場(chǎng)景適配性上表現(xiàn)優(yōu)異。
第四項(xiàng),閱讀順序。
這項(xiàng)能力讓它能夠像人一樣讀文檔,具體來(lái)說(shuō),PaddleOCR-VL可以自動(dòng)判斷頁(yè)面中標(biāo)題、正文、圖片、圖注的閱讀邏輯,實(shí)現(xiàn)智能還原人類閱讀習(xí)慣。
技術(shù)報(bào)告顯示,PaddleOCR-VL的閱讀順序預(yù)測(cè)誤差(Reading Order Edit Distance)僅有0.043,是該榜單所有模型中最優(yōu)的表現(xiàn)。
BTW,四項(xiàng)核心能力外的一些能力,PaddleOCR-VL也穩(wěn)穩(wěn)沒(méi)在怕的。
比如現(xiàn)在新聞、報(bào)表中經(jīng)常會(huì)碰到的圖表,處理起來(lái)同樣是小菜一碟:
從語(yǔ)言到公式,從表格到閱讀邏輯,多項(xiàng)評(píng)測(cè)中,PaddleOCR-VL幾乎在所有維度上實(shí)現(xiàn)了人類級(jí)理解——
不僅能夠還原多欄報(bào)紙的復(fù)雜排版,還能智能重建教材中的多頁(yè)筆記結(jié)構(gòu),準(zhǔn)確分辨內(nèi)容邏輯與版式結(jié)構(gòu)。
回到這個(gè)成績(jī)背后,我們看到的不止是模型能力的突破,更是AI逐步逼近人類文檔理解方式的一次真實(shí)躍遷。
小體量,大能量,創(chuàng)新設(shè)計(jì)突破逐行識(shí)別
傳統(tǒng)OCR系統(tǒng)大多采用逐行識(shí)別策略,面對(duì)多欄、嵌套、錯(cuò)行、圖文混排等復(fù)雜版面時(shí)往往力不從心,容易出現(xiàn)錯(cuò)位、信息遺漏等問(wèn)題。
PaddleOCR-VL之所以擁有“像人一樣理解結(jié)構(gòu)”的能力,一方面是其在數(shù)據(jù)構(gòu)建與訓(xùn)練策略上完成了優(yōu)秀的系統(tǒng)工程——
整個(gè)模型雖然只有0.9B參數(shù)量,但在訓(xùn)練過(guò)程中,共使用超3000萬(wàn)樣本。
這些訓(xùn)練數(shù)據(jù)涵蓋文本、表格、公式、圖表等多模態(tài)信息,數(shù)據(jù)來(lái)源包括公開(kāi)數(shù)據(jù)、自動(dòng)合成數(shù)據(jù)、互聯(lián)網(wǎng)采樣數(shù)據(jù)和百度自研數(shù)據(jù),輔以難例挖掘機(jī)制,保證訓(xùn)練集的多樣性和挑戰(zhàn)性。
另一方面,也是最重要的一方面,PaddleOCR-VL研發(fā)團(tuán)隊(duì)從底層架構(gòu)上進(jìn)行了革新。
從架構(gòu)層面來(lái)看,PaddleOCR-VL采用了創(chuàng)新性的兩階段架構(gòu):
第一階段由PP-DocLayoutV2模型負(fù)責(zé)對(duì)文檔版面進(jìn)行分析,定位語(yǔ)義區(qū)域,并預(yù)測(cè)閱讀順序。
第二階段則由PaddleOCR-VL-0.9B進(jìn)行細(xì)粒度識(shí)別,完成文本、表格、公式、圖表等多類內(nèi)容的結(jié)構(gòu)化輸出。
相較端到端黑盒式方案,這種模塊解耦、任務(wù)細(xì)化的設(shè)計(jì)讓模型在面對(duì)復(fù)雜版面任務(wù)時(shí),表現(xiàn)得更穩(wěn)定、更高效,有效避免了多模態(tài)模型常見(jiàn)的幻覺(jué)與錯(cuò)位問(wèn)題。
作為文心4.5衍生模型,PaddleOCR-VL-0.9B通過(guò)融合NaViT動(dòng)態(tài)分辨率視覺(jué)編碼器與ERNIE-4.5-0.3B語(yǔ)言模型,在效率與精度上取得了雙重突破。
推理方面,PaddleOCR-VL在單張A100上推理速度達(dá)1881token/s。
精度方面,PaddleOCR-VL實(shí)現(xiàn)了文本編輯距離僅0.035、公式識(shí)別CDM 91.43、表格 TEDS 89.76、閱讀順序預(yù)測(cè)誤差值0.043的紀(jì)錄級(jí)表現(xiàn)。
除上之外,PaddleOCR-VL還集成了四大技術(shù)突破。
- 高性能、資源高效的文檔解析能力:采用輕量化設(shè)計(jì)與異步推理機(jī)制,顯著領(lǐng)先同類模型。
- 復(fù)雜文檔內(nèi)容的高級(jí)解析能力:支持復(fù)雜公式、嵌套表格、手寫圖表等難度場(chǎng)景,適配真實(shí)業(yè)務(wù)流程。
- 圖表結(jié)構(gòu)化轉(zhuǎn)換能力:能將柱狀圖、餅圖等圖像信息結(jié)構(gòu)化為表格格式,支撐自動(dòng)化分析。
- 全面的多語(yǔ)種文本識(shí)別:涵蓋109種語(yǔ)言,特別強(qiáng)化對(duì)豎排、藝術(shù)字體、手寫字符等的識(shí)別能力。
看到這里,我們拿出了最近被網(wǎng)友在GitHub上扒出的宇樹(shù)科技創(chuàng)始人王興興的碩士畢業(yè)論文《新型電驅(qū)式四足機(jī)器人研制與測(cè)試》。
這篇近10年前的論文,里面含大量行內(nèi)或獨(dú)立的Latex公式,圖表交錯(cuò),插圖與文字混排,引用繁多,是一份非常合格的用來(lái)測(cè)試PaddleOCR-VL真實(shí)能力的超絕必勝技(doge)。
在Document Parsing模式(這個(gè)模式可識(shí)別具有結(jié)構(gòu)化布局的整頁(yè)文檔,例如報(bào)告、論文或雜志)下,無(wú)論是像人一樣自動(dòng)判斷頁(yè)面邏輯,并識(shí)別和分析原論文中的各項(xiàng)內(nèi)容——
還是傳統(tǒng)OCR模型難以正確提取的復(fù)雜流程圖——
亦或者集公式和圖像于一頁(yè)的case——
PaddleOCR-VL真的全部都完美處理了……
難怪PaddleOCR-VL在全球大模型混戰(zhàn)中,在OCR這條賽道上實(shí)現(xiàn)精度、速度、功耗的三贏。
它打破了“大模型才有好效果”的行業(yè)迷思,證明了架構(gòu)合理、任務(wù)聚焦的“小”模型同樣可以在實(shí)際應(yīng)用中跑贏大模型,具備更強(qiáng)的落地能力與部署價(jià)值。
這也使其成為文心4.5大模型家族中最具工程價(jià)值與產(chǎn)業(yè)可行性的代表之一,補(bǔ)足文心在復(fù)雜文檔解析任務(wù)上的關(guān)鍵拼圖。
全球大模型都在卷,百度派出文心最強(qiáng)衍生模型先跑一步
在產(chǎn)業(yè)智能化浪潮中,OCR早已成為各行業(yè)不可或缺的數(shù)字化基礎(chǔ)設(shè)施,是推動(dòng)萬(wàn)物智能化、流程自動(dòng)化、信息結(jié)構(gòu)化的關(guān)鍵底層能力。
生活中諸多現(xiàn)實(shí)場(chǎng)景,如金融商業(yè)、教育與科研、政務(wù)與公共服務(wù)、文化與歷史保護(hù)等,OCR都在起到降本增效的不可替代作用。
尤其在文檔密集型行業(yè),PaddleOCR-VL能看、能讀、能理解,可以作為“文檔工作助手”接入各種流程即刻上崗,真正幫企業(yè)提效、幫用戶省心。
大模型浪潮洶涌而來(lái)的當(dāng)下,PaddleOCR-VL的結(jié)構(gòu)化輸出能力還能與RAG系統(tǒng)深度融合,為大模型提供更高質(zhì)量、更可控的知識(shí)輸入,構(gòu)建起從“非結(jié)構(gòu)化文檔”到“可用知識(shí)”的閉環(huán)。這也意味著,它不僅是一款文檔解析工具,更是AI時(shí)代企業(yè)知識(shí)中臺(tái)建設(shè)中的關(guān)鍵基礎(chǔ)設(shè)施。
沒(méi)錯(cuò),進(jìn)入大模型技術(shù)洶涌澎湃的時(shí)代,OCR已經(jīng)被賦予了前所未有的戰(zhàn)略價(jià)值——它不再只是幫助或代替人識(shí)字的工具,而是進(jìn)階成為AI理解世界的入口。
首先可以看到,如今的現(xiàn)實(shí)世界,信息大多以非結(jié)構(gòu)化文檔、圖片、掃描件的形式存在,OCR承擔(dān)了“從真實(shí)世界到數(shù)字世界”的轉(zhuǎn)換職責(zé)。
與此同時(shí),在RAG、智能搜索、知識(shí)問(wèn)答等系統(tǒng)中,OCR識(shí)別質(zhì)量決定了輸入信息的保真度。輸入有多準(zhǔn),最終輸出才有多可靠。
不知不覺(jué)間,OCR其實(shí)已經(jīng)被時(shí)代技術(shù)浪潮推上了“AI新應(yīng)用鏈條的守門人”之位。
于是也就不難理解,成為底層語(yǔ)義理解的試金石的OCR,已成為全球科技巨頭大模型布局中不可或缺的一環(huán)。Mistral AI、Google、OpenAI、阿里、騰訊等均在此方向加大投入,試圖將視覺(jué)-語(yǔ)言模型延伸至文檔語(yǔ)義深層解析。
PaddleOCR-VL正是百度瞄準(zhǔn)這一趨勢(shì)對(duì)OCR能力進(jìn)行的革新性升級(jí)。
作為文心4.5體系中唯一以O(shè)CR為核心任務(wù)深度優(yōu)化的產(chǎn)品,它將文心的理解能力延展至最復(fù)雜、最具結(jié)構(gòu)挑戰(zhàn)的文檔領(lǐng)域,將文心的理解能力進(jìn)一步拓展到復(fù)雜文檔結(jié)構(gòu)解析任務(wù),在語(yǔ)義理解的精度與廣度上打開(kāi)了新邊界。
更重要的是,PaddleOCR-VL的領(lǐng)先并非大力出奇跡的參數(shù)優(yōu)勢(shì)或偶然的工程疊加。
PaddleOCR-VL綜合性能全球第一、四項(xiàng)核心能力拿下新SOTA的力量,源自百度在多模態(tài)智能方向上多年持續(xù)布局的系統(tǒng)性成果。通過(guò)融合NaViT動(dòng)態(tài)分辨率視覺(jué)編碼器與ERNIE-4.5-0.3B語(yǔ)言模型,從文心主干模型到衍生垂類模型,這一體系化建設(shè)終于在OCR領(lǐng)域結(jié)出碩果。
AI正在重構(gòu)信息的入口,而格式繁復(fù)內(nèi)容豐富的文檔,是世界最難被理解的一種語(yǔ)言。誰(shuí)能讀懂現(xiàn)實(shí)世界的文檔,誰(shuí)就掌握了理解現(xiàn)實(shí)的鑰匙。
PaddleOCR-VL的出現(xiàn),把這把鑰匙從參數(shù)堆砌的巨獸手中,交還給真正理解場(chǎng)景的設(shè)計(jì)者。
它的誕生還標(biāo)志著中國(guó)模型第一次以“劃線者”的姿態(tài),在全球多模態(tài)文檔解析賽道上寫下自己的標(biāo)準(zhǔn)答案。
GitHub:
https://github.com/PaddlePaddle/PaddleOCR
技術(shù)報(bào)告:
https://arxiv.org/pdf/2510.14528
體驗(yàn)Demo地址:
https://aistudio.baidu.com/application/detail/98365
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.