顏水成團(tuán)隊(duì)等聯(lián)合發(fā)布PaDT多模態(tài)大模型：實(shí)現(xiàn)真正多模態(tài)表征輸出

2025-10-16 12:07:31　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

近年來，多模態(tài)大語言模型（Multimodal Large Language Models, MLLMs）在圖文理解、視覺問答等任務(wù)上取得了令人矚目的進(jìn)展。然而，當(dāng)面對需要精細(xì)空間感知的任務(wù) —— 比如目標(biāo)檢測、實(shí)例分割或指代表達(dá)理解時(shí)，現(xiàn)有模型卻常?！噶Σ粡男摹埂Ｆ涓驹蛟谟冢寒?dāng)前主流 MLLMs 仍依賴將視覺目標(biāo)「翻譯」成文本坐標(biāo)（如 [x1, y1, x2, y2] ）的方式進(jìn)行輸出。

這種方式不僅存在格式混亂、解析困難，還容易因數(shù)字被拆分成多個(gè)獨(dú)立文本 token（如 489 -> 4, 8, 9），導(dǎo)致語義丟失、圖文脫節(jié)，從而出現(xiàn)重復(fù)生成甚至「幻覺」現(xiàn)象。

針對這一核心瓶頸，新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊(duì)，攜同華南理工大學(xué)、新加坡科技研究局（A*STAR）I2R 研究所、騰訊 WeChat Vision 等機(jī)構(gòu)的研究團(tuán)隊(duì)，提出了一種全新的統(tǒng)一范式 —— Patch-as-Decodable Token（PaDT）。

PaDT 的核心思想很簡單但顛覆性：

把圖像劃分成多個(gè)視覺小塊（patch），并讓模型可以直接生成這些小塊對應(yīng)的視覺令牌（Visual Reference Tokens, VRTs）。
在 MLLMs 的輸入和輸出端中，實(shí)現(xiàn)文本令牌與視覺令牌的無縫交替出現(xiàn)，讓模型「說」圖像內(nèi)容就像「說」文字一樣自然。
從而使模型不再「猜坐標(biāo)」，而能在生成句子中直接指出圖像目標(biāo)。

憑借這一設(shè)計(jì)，PaDT 在檢測、分割、指代表達(dá)等任務(wù)上全面刷新 SOTA，甚至以僅 3B 參數(shù)的小模型超越了 78B 的 InternVL3！

論文鏈接：https://huggingface.co/papers/2510.01954
代碼地址：https://github.com/Gorilla-Lab-SCUT/PaDT
模型權(quán)重：https://huggingface.co/PaDT-MLLM
PaperScope 解讀：https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想：從「說坐標(biāo)」到「指圖像」

傳統(tǒng) MLLMs（如 Qwen2.5-VL、InternVL3）在處理視覺任務(wù)時(shí)，通常將檢測框的坐標(biāo)以字符串形式輸出。例如，模型可能會生成「 [489, 120, 600, 300] 」。然而，這種做法存在三大痛點(diǎn)：

格式不一致：同一 Prompt 作為輸入，不同樣本可能生成絕對坐標(biāo)、歸一化坐標(biāo)、甚至非結(jié)構(gòu)化文本格式，極大地增加目標(biāo)解析難度；
語義斷裂：數(shù)字「489」會被拆成「4」「8」「9」三個(gè)獨(dú)立 token，破壞了空間連續(xù)性；
圖文關(guān)聯(lián)弱：坐標(biāo)數(shù)字 token 本身不含語義，難以與圖像內(nèi)容建立深層關(guān)聯(lián)，從而容易導(dǎo)致重復(fù)或幻覺生成。

圖 1：(a) 傳統(tǒng)方法輸出格式混亂；(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標(biāo) token 與圖像區(qū)域關(guān)聯(lián)弱；(c) PaDT 的 VRTs 與目標(biāo)區(qū)域高度對齊；(d) 單個(gè) VRT 的熱力圖顯示其預(yù)測具有空間連續(xù)性。

PaDT 的突破在于：不再讓模型「描述」位置，而是讓它「指向」圖像中的具體區(qū)域。

具體而言，PaDT 引入了Visual Reference Tokens（VRTs）—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中，模型會動態(tài)地將當(dāng)前圖像的 patch 特征擴(kuò)展進(jìn)文本詞表，形成一個(gè)「圖文一體」的動態(tài)嵌入表。這樣，模型在生成過程中，既可以輸出文字（如類別名），也可以插入 VRT（如

），后者直接對應(yīng)圖像中的某個(gè)局部區(qū)域。

圖 2：PaDT 實(shí)現(xiàn)了文本 token 與視覺 patch token 的統(tǒng)一預(yù)測，使 MLLM 能同時(shí)輸出語義描述與空間定位。

這種設(shè)計(jì)巧妙地避開了傳統(tǒng)方法依賴全局視覺碼本（如 ClawMachine）的缺陷 —— 后者容易混淆相似物體，且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs僅來自當(dāng)前圖像，天然具備唯一性和空間一致性。

輕量解碼器 + 魯棒訓(xùn)練：讓 VRTs 真正「生效」

僅有 VRTs 還不夠，如何將其轉(zhuǎn)化為具體的檢測框或分割掩碼？PaDT 設(shè)計(jì)了一個(gè)輕量級的 PaDT Decoder，僅由三個(gè)雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態(tài)，通過注入任務(wù)特定的可學(xué)習(xí) token（如 box token、mask token 和 score token），即可統(tǒng)一解碼出 bounding box、segmentation mask 和置信度分?jǐn)?shù)。

更關(guān)鍵的是，PaDT 提出了一套魯棒的訓(xùn)練策略。傳統(tǒng)方法往往要求模型預(yù)測目標(biāo)區(qū)域內(nèi)的所有前景 patch，但這會導(dǎo)致訓(xùn)練偏差和過擬合。PaDT 則在每次訓(xùn)練時(shí)隨機(jī)采樣少量（如 5 個(gè)）前景 VRTs 作為監(jiān)督信號，并通過一種掩碼交叉熵?fù)p失，動態(tài)屏蔽未選中的 VRT logits，從而鼓勵(lì)模型探索多樣化的有效視覺參考。

這種「少而精」的監(jiān)督方式，不僅提升了模型泛化能力，還顯著降低了推理時(shí)的 token 消耗 —— 每個(gè)目標(biāo)僅需 5 個(gè) VRTs，遠(yuǎn)少于逐字符生成坐標(biāo)的開銷。

圖 3：PaDT 整體框架。圖像 patch 特征經(jīng)動態(tài)嵌入模塊擴(kuò)展為 VRTs，與文本 token 一同輸入 LLM；輸出序列中的 VRTs 被輕量解碼器轉(zhuǎn)換為結(jié)構(gòu)化視覺結(jié)果。

性能炸裂：3B 模型干翻 78B 巨無霸

PaDT 的實(shí)驗(yàn)結(jié)果堪稱驚艷。在RefCOCO/+/g的指代表達(dá)理解（REC）任務(wù)上，PaDT Pro（3B）以 93.6 的平均準(zhǔn)確率，超越了參數(shù)量高達(dá) 78B 的 InternVL3（91.4）。而在指代表達(dá)分割（RES）任務(wù)中，PaDT 同樣大幅領(lǐng)先，即便對比使用 SAM 等強(qiáng)大分割基礎(chǔ)模型的方法（如 Text4Seg+SAM），依然保持優(yōu)勢。

更令人震撼的是在COCO 開放詞匯檢測任務(wù)上的表現(xiàn)。傳統(tǒng) MLLMs 在此任務(wù)上 mAP 普遍低于 20，而PaDT Pro（3B）一舉將 mAP 推高至 38.2，幾乎翻倍！ 7B 版本更是達(dá)到 39.0 mAP，展現(xiàn)出極強(qiáng)的可擴(kuò)展性。

圖 4：PaDT 在 RefCOCO/+/g 的指代表達(dá)理解（REC）任務(wù)結(jié)果。PaDT Pro (3B) 以 93.6 的平均準(zhǔn)確率，超越了參數(shù)量高達(dá) 78B 的 InternVL3（91.4）。

圖 5：PaDT 在 RefCOCO/+/g 的指代表達(dá)分割（RES）任務(wù)結(jié)果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強(qiáng)大分割基礎(chǔ)模型的方法。

圖 6：PaDT 在 COCO 開放詞匯檢測上的結(jié)果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。

此外，團(tuán)隊(duì)還構(gòu)建了一個(gè)新的Referring Image Captioning（RIC）數(shù)據(jù)集，要求模型在生成描述時(shí)顯式關(guān)聯(lián)對象 ID。PaDT 在此任務(wù)上同樣大幅領(lǐng)先，CIDEr-D 分?jǐn)?shù)從基線的 0.386 提升至 1.450，同時(shí)檢測指標(biāo)（GreedyPrecision 達(dá) 82.3%）也證明其生成的 caption 具備極強(qiáng)的視覺 grounding 能力。

圖 7：Referring Image Captioning (RIC) 數(shù)據(jù)集。

為什么 PaDT 如此有效？

PaDT 的成功，源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內(nèi)「擬合」視覺信息，而是將視覺 patch 本身作為可生成的 token，實(shí)現(xiàn)了模態(tài)間的原生對齊。

首先，動態(tài)嵌入機(jī)制確保了 VRTs 與當(dāng)前圖像的強(qiáng)綁定，避免了跨圖像混淆；其次，統(tǒng)一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息，簡化了訓(xùn)練；最后，輕量解碼器將復(fù)雜的 dense prediction 任務(wù)從 LLM 中解耦，既保留了 LLM 的語義推理能力，又賦予了其精準(zhǔn)的空間輸出能力。

值得一提的是，PaDT 還展現(xiàn)出強(qiáng)大的多任務(wù)泛化能力。通過聯(lián)合訓(xùn)練 REC、RES、OVD 和 RIC 任務(wù)得到的PaDT Pro模型，僅通過切換 prompt 即可無縫切換任務(wù)，且性能普遍優(yōu)于單任務(wù)模型，證明了該范式的通用性。

結(jié)語：邁向真正的通用多模態(tài)智能

PaDT 的提出，標(biāo)志著 MLLMs 在細(xì)粒度視覺理解上邁出了關(guān)鍵一步。它不再滿足于「看圖說話」，而是能夠「指圖說話」—— 精準(zhǔn)地指出圖像中的每一個(gè)相關(guān)區(qū)域，并生成對應(yīng)的結(jié)構(gòu)化輸出。

這項(xiàng)工作不僅在技術(shù)上實(shí)現(xiàn)了突破，更在理念上啟發(fā)我們：未來的通用人工智能，或許不應(yīng)強(qiáng)行將一切信息壓縮到文本空間，而應(yīng)允許不同模態(tài)以其最自然的形式共存與交互。

目前，PaDT 的代碼和 checkpoints（模型權(quán)重）已開源。對于關(guān)注多模態(tài)、計(jì)算機(jī)視覺與大模型融合的研究者和工程師而言，這無疑是一個(gè)值得關(guān)注和嘗試的新范式。

作者信息

蘇永怡（第一作者）

華南理工大學(xué)博四研究生，A*STAR I2R 訪問學(xué)者，主要研究多模態(tài)大語言模型、基礎(chǔ)視覺模型、測試時(shí)領(lǐng)域適應(yīng)課題。

作者個(gè)人主頁：https://yysu.site/

張浩杰（共同一作）

華南理工大學(xué)三年級研究生，微信視覺團(tuán)隊(duì)實(shí)習(xí)生。主要研究多模態(tài)大模型、視頻生成模型、基礎(chǔ)視覺模型。

作者個(gè)人主頁：https://zhang-haojie.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.