近年來,多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)在圖文理解、視覺問答等任務(wù)上取得了令人矚目的進(jìn)展。然而,當(dāng)面對需要精細(xì)空間感知的任務(wù) —— 比如目標(biāo)檢測、實(shí)例分割或指代表達(dá)理解時(shí),現(xiàn)有模型卻常?!噶Σ粡男摹埂F涓驹蛟谟冢寒?dāng)前主流 MLLMs 仍依賴將視覺目標(biāo)「翻譯」成文本坐標(biāo)(如 [x1, y1, x2, y2] )的方式進(jìn)行輸出。
這種方式不僅存在格式混亂、解析困難,還容易因數(shù)字被拆分成多個(gè)獨(dú)立文本 token(如 489 -> 4, 8, 9),導(dǎo)致語義丟失、圖文脫節(jié),從而出現(xiàn)重復(fù)生成甚至「幻覺」現(xiàn)象。
針對這一核心瓶頸,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊(duì),攜同華南理工大學(xué)、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了一種全新的統(tǒng)一范式 —— Patch-as-Decodable Token(PaDT)。
PaDT 的核心思想很簡單但顛覆性:
- 把圖像劃分成多個(gè)視覺小塊(patch),并讓模型可以直接生成這些小塊對應(yīng)的視覺令牌(Visual Reference Tokens, VRTs)。
- 在 MLLMs 的輸入和輸出端中,實(shí)現(xiàn)文本令牌與視覺令牌的無縫交替出現(xiàn),讓模型「說」圖像內(nèi)容就像「說」文字一樣自然。
- 從而使模型不再「猜坐標(biāo)」,而能在生成句子中直接指出圖像目標(biāo)。
憑借這一設(shè)計(jì),PaDT 在檢測、分割、指代表達(dá)等任務(wù)上全面刷新 SOTA,甚至以僅 3B 參數(shù)的小模型超越了 78B 的 InternVL3!
- 論文鏈接:https://huggingface.co/papers/2510.01954
- 代碼地址:https://github.com/Gorilla-Lab-SCUT/PaDT
- 模型權(quán)重:https://huggingface.co/PaDT-MLLM
- PaperScope 解讀:https://www.paperscope.ai/hf/2510.01954
PaDT 的核心思想:從「說坐標(biāo)」到「指圖像」
傳統(tǒng) MLLMs(如 Qwen2.5-VL、InternVL3)在處理視覺任務(wù)時(shí),通常將檢測框的坐標(biāo)以字符串形式輸出。例如,模型可能會生成 「 [489, 120, 600, 300] 」。然而,這種做法存在三大痛點(diǎn):
- 格式不一致:同一 Prompt 作為輸入,不同樣本可能生成絕對坐標(biāo)、歸一化坐標(biāo)、甚至非結(jié)構(gòu)化文本格式,極大地增加目標(biāo)解析難度;
- 語義斷裂:數(shù)字「489」會被拆成「4」「8」「9」三個(gè)獨(dú)立 token,破壞了空間連續(xù)性;
- 圖文關(guān)聯(lián)弱:坐標(biāo)數(shù)字 token 本身不含語義,難以與圖像內(nèi)容建立深層關(guān)聯(lián),從而容易導(dǎo)致重復(fù)或幻覺生成。
圖 1:(a) 傳統(tǒng)方法輸出格式混亂;(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標(biāo) token 與圖像區(qū)域關(guān)聯(lián)弱;(c) PaDT 的 VRTs 與目標(biāo)區(qū)域高度對齊;(d) 單個(gè) VRT 的熱力圖顯示其預(yù)測具有空間連續(xù)性。
PaDT 的突破在于:不再讓模型「描述」位置,而是讓它「指向」圖像中的具體區(qū)域。
具體而言,PaDT 引入了Visual Reference Tokens(VRTs)—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中,模型會動態(tài)地將當(dāng)前圖像的 patch 特征擴(kuò)展進(jìn)文本詞表,形成一個(gè)「圖文一體」的動態(tài)嵌入表。這樣,模型在生成過程中,既可以輸出文字(如類別名),也可以插入 VRT(如
),后者直接對應(yīng)圖像中的某個(gè)局部區(qū)域。
圖 2:PaDT 實(shí)現(xiàn)了文本 token 與視覺 patch token 的統(tǒng)一預(yù)測,使 MLLM 能同時(shí)輸出語義描述與空間定位。
這種設(shè)計(jì)巧妙地避開了傳統(tǒng)方法依賴全局視覺碼本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物體,且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs僅來自當(dāng)前圖像,天然具備唯一性和空間一致性。
輕量解碼器 + 魯棒訓(xùn)練:讓 VRTs 真正「生效」
僅有 VRTs 還不夠,如何將其轉(zhuǎn)化為具體的檢測框或分割掩碼?PaDT 設(shè)計(jì)了一個(gè)輕量級的 PaDT Decoder,僅由三個(gè)雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態(tài),通過注入任務(wù)特定的可學(xué)習(xí) token(如 box token、mask token 和 score token),即可統(tǒng)一解碼出 bounding box、segmentation mask 和置信度分?jǐn)?shù)。
更關(guān)鍵的是,PaDT 提出了一套魯棒的訓(xùn)練策略。傳統(tǒng)方法往往要求模型預(yù)測目標(biāo)區(qū)域內(nèi)的所有前景 patch,但這會導(dǎo)致訓(xùn)練偏差和過擬合。PaDT 則在每次訓(xùn)練時(shí)隨機(jī)采樣少量(如 5 個(gè))前景 VRTs 作為監(jiān)督信號,并通過一種掩碼交叉熵?fù)p失,動態(tài)屏蔽未選中的 VRT logits,從而鼓勵(lì)模型探索多樣化的有效視覺參考。
這種「少而精」的監(jiān)督方式,不僅提升了模型泛化能力,還顯著降低了推理時(shí)的 token 消耗 —— 每個(gè)目標(biāo)僅需 5 個(gè) VRTs,遠(yuǎn)少于逐字符生成坐標(biāo)的開銷。
圖 3:PaDT 整體框架。圖像 patch 特征經(jīng)動態(tài)嵌入模塊擴(kuò)展為 VRTs,與文本 token 一同輸入 LLM;輸出序列中的 VRTs 被輕量解碼器轉(zhuǎn)換為結(jié)構(gòu)化視覺結(jié)果。
性能炸裂:3B 模型干翻 78B 巨無霸
PaDT 的實(shí)驗(yàn)結(jié)果堪稱驚艷。在RefCOCO/+/g的指代表達(dá)理解(REC)任務(wù)上,PaDT Pro(3B)以 93.6 的平均準(zhǔn)確率,超越了參數(shù)量高達(dá) 78B 的 InternVL3(91.4)。而在指代表達(dá)分割(RES)任務(wù)中,PaDT 同樣大幅領(lǐng)先,即便對比使用 SAM 等強(qiáng)大分割基礎(chǔ)模型的方法(如 Text4Seg+SAM),依然保持優(yōu)勢。
更令人震撼的是在COCO 開放詞匯檢測任務(wù)上的表現(xiàn)。傳統(tǒng) MLLMs 在此任務(wù)上 mAP 普遍低于 20,而PaDT Pro(3B)一舉將 mAP 推高至 38.2,幾乎翻倍! 7B 版本更是達(dá)到 39.0 mAP,展現(xiàn)出極強(qiáng)的可擴(kuò)展性。
圖 4:PaDT 在 RefCOCO/+/g 的指代表達(dá)理解(REC)任務(wù)結(jié)果。PaDT Pro (3B) 以 93.6 的平均準(zhǔn)確率,超越了參數(shù)量高達(dá) 78B 的 InternVL3(91.4)。
圖 5:PaDT 在 RefCOCO/+/g 的指代表達(dá)分割(RES)任務(wù)結(jié)果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強(qiáng)大分割基礎(chǔ)模型的方法。
圖 6:PaDT 在 COCO 開放詞匯檢測上的結(jié)果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。
此外,團(tuán)隊(duì)還構(gòu)建了一個(gè)新的Referring Image Captioning(RIC)數(shù)據(jù)集,要求模型在生成描述時(shí)顯式關(guān)聯(lián)對象 ID。PaDT 在此任務(wù)上同樣大幅領(lǐng)先,CIDEr-D 分?jǐn)?shù)從基線的 0.386 提升至 1.450,同時(shí)檢測指標(biāo)(GreedyPrecision 達(dá) 82.3%)也證明其生成的 caption 具備極強(qiáng)的視覺 grounding 能力。
圖 7:Referring Image Captioning (RIC) 數(shù)據(jù)集。
為什么 PaDT 如此有效?
PaDT 的成功,源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內(nèi)「擬合」視覺信息,而是將視覺 patch 本身作為可生成的 token,實(shí)現(xiàn)了模態(tài)間的原生對齊。
首先,動態(tài)嵌入機(jī)制確保了 VRTs 與當(dāng)前圖像的強(qiáng)綁定,避免了跨圖像混淆;其次,統(tǒng)一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息,簡化了訓(xùn)練;最后,輕量解碼器將復(fù)雜的 dense prediction 任務(wù)從 LLM 中解耦,既保留了 LLM 的語義推理能力,又賦予了其精準(zhǔn)的空間輸出能力。
值得一提的是,PaDT 還展現(xiàn)出強(qiáng)大的多任務(wù)泛化能力。通過聯(lián)合訓(xùn)練 REC、RES、OVD 和 RIC 任務(wù)得到的PaDT Pro模型,僅通過切換 prompt 即可無縫切換任務(wù),且性能普遍優(yōu)于單任務(wù)模型,證明了該范式的通用性。
結(jié)語:邁向真正的通用多模態(tài)智能
PaDT 的提出,標(biāo)志著 MLLMs 在細(xì)粒度視覺理解上邁出了關(guān)鍵一步。它不再滿足于「看圖說話」,而是能夠「指圖說話」—— 精準(zhǔn)地指出圖像中的每一個(gè)相關(guān)區(qū)域,并生成對應(yīng)的結(jié)構(gòu)化輸出。
這項(xiàng)工作不僅在技術(shù)上實(shí)現(xiàn)了突破,更在理念上啟發(fā)我們:未來的通用人工智能,或許不應(yīng)強(qiáng)行將一切信息壓縮到文本空間,而應(yīng)允許不同模態(tài)以其最自然的形式共存與交互。
目前,PaDT 的代碼和 checkpoints(模型權(quán)重)已開源。對于關(guān)注多模態(tài)、計(jì)算機(jī)視覺與大模型融合的研究者和工程師而言,這無疑是一個(gè)值得關(guān)注和嘗試的新范式。
作者信息
蘇永怡 (第一作者)
華南理工大學(xué)博四研究生,A*STAR I2R 訪問學(xué)者,主要研究多模態(tài)大語言模型、基礎(chǔ)視覺模型、測試時(shí)領(lǐng)域適應(yīng)課題。
- 作者個(gè)人主頁:https://yysu.site/
張浩杰 (共同一作)
華南理工大學(xué)三年級研究生,微信視覺團(tuán)隊(duì)實(shí)習(xí)生。主要研究多模態(tài)大模型、視頻生成模型、基礎(chǔ)視覺模型。
- 作者個(gè)人主頁:https://zhang-haojie.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.