夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

顏水成團(tuán)隊(duì)等聯(lián)合發(fā)布PaDT多模態(tài)大模型:實(shí)現(xiàn)真正多模態(tài)表征輸出

0
分享至



近年來,多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)在圖文理解、視覺問答等任務(wù)上取得了令人矚目的進(jìn)展。然而,當(dāng)面對需要精細(xì)空間感知的任務(wù) —— 比如目標(biāo)檢測、實(shí)例分割或指代表達(dá)理解時(shí),現(xiàn)有模型卻常?!噶Σ粡男摹埂F涓驹蛟谟冢寒?dāng)前主流 MLLMs 仍依賴將視覺目標(biāo)「翻譯」成文本坐標(biāo)(如 [x1, y1, x2, y2] )的方式進(jìn)行輸出。

這種方式不僅存在格式混亂、解析困難,還容易因數(shù)字被拆分成多個(gè)獨(dú)立文本 token(如 489 -> 4, 8, 9),導(dǎo)致語義丟失、圖文脫節(jié),從而出現(xiàn)重復(fù)生成甚至「幻覺」現(xiàn)象。

針對這一核心瓶頸,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊(duì),攜同華南理工大學(xué)、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了一種全新的統(tǒng)一范式 —— Patch-as-Decodable Token(PaDT)。

PaDT 的核心思想很簡單但顛覆性:

  1. 把圖像劃分成多個(gè)視覺小塊(patch),并讓模型可以直接生成這些小塊對應(yīng)的視覺令牌(Visual Reference Tokens, VRTs)。
  2. 在 MLLMs 的輸入和輸出端中,實(shí)現(xiàn)文本令牌與視覺令牌的無縫交替出現(xiàn),讓模型「說」圖像內(nèi)容就像「說」文字一樣自然。
  3. 從而使模型不再「猜坐標(biāo)」,而能在生成句子中直接指出圖像目標(biāo)。

憑借這一設(shè)計(jì),PaDT 在檢測、分割、指代表達(dá)等任務(wù)上全面刷新 SOTA,甚至以僅 3B 參數(shù)的小模型超越了 78B 的 InternVL3!



  • 論文鏈接:https://huggingface.co/papers/2510.01954
  • 代碼地址:https://github.com/Gorilla-Lab-SCUT/PaDT
  • 模型權(quán)重:https://huggingface.co/PaDT-MLLM
  • PaperScope 解讀:https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想:從「說坐標(biāo)」到「指圖像」

傳統(tǒng) MLLMs(如 Qwen2.5-VL、InternVL3)在處理視覺任務(wù)時(shí),通常將檢測框的坐標(biāo)以字符串形式輸出。例如,模型可能會生成 「 [489, 120, 600, 300] 」。然而,這種做法存在三大痛點(diǎn):

  1. 格式不一致:同一 Prompt 作為輸入,不同樣本可能生成絕對坐標(biāo)、歸一化坐標(biāo)、甚至非結(jié)構(gòu)化文本格式,極大地增加目標(biāo)解析難度;
  2. 語義斷裂:數(shù)字「489」會被拆成「4」「8」「9」三個(gè)獨(dú)立 token,破壞了空間連續(xù)性;
  3. 圖文關(guān)聯(lián)弱:坐標(biāo)數(shù)字 token 本身不含語義,難以與圖像內(nèi)容建立深層關(guān)聯(lián),從而容易導(dǎo)致重復(fù)或幻覺生成。



圖 1:(a) 傳統(tǒng)方法輸出格式混亂;(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標(biāo) token 與圖像區(qū)域關(guān)聯(lián)弱;(c) PaDT 的 VRTs 與目標(biāo)區(qū)域高度對齊;(d) 單個(gè) VRT 的熱力圖顯示其預(yù)測具有空間連續(xù)性。

PaDT 的突破在于:不再讓模型「描述」位置,而是讓它「指向」圖像中的具體區(qū)域。

具體而言,PaDT 引入了Visual Reference Tokens(VRTs)—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中,模型會動態(tài)地將當(dāng)前圖像的 patch 特征擴(kuò)展進(jìn)文本詞表,形成一個(gè)「圖文一體」的動態(tài)嵌入表。這樣,模型在生成過程中,既可以輸出文字(如類別名),也可以插入 VRT(如

),后者直接對應(yīng)圖像中的某個(gè)局部區(qū)域。



圖 2:PaDT 實(shí)現(xiàn)了文本 token 與視覺 patch token 的統(tǒng)一預(yù)測,使 MLLM 能同時(shí)輸出語義描述與空間定位。

這種設(shè)計(jì)巧妙地避開了傳統(tǒng)方法依賴全局視覺碼本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物體,且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs僅來自當(dāng)前圖像,天然具備唯一性和空間一致性。

輕量解碼器 + 魯棒訓(xùn)練:讓 VRTs 真正「生效」

僅有 VRTs 還不夠,如何將其轉(zhuǎn)化為具體的檢測框或分割掩碼?PaDT 設(shè)計(jì)了一個(gè)輕量級的 PaDT Decoder,僅由三個(gè)雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態(tài),通過注入任務(wù)特定的可學(xué)習(xí) token(如 box token、mask token 和 score token),即可統(tǒng)一解碼出 bounding box、segmentation mask 和置信度分?jǐn)?shù)。

更關(guān)鍵的是,PaDT 提出了一套魯棒的訓(xùn)練策略。傳統(tǒng)方法往往要求模型預(yù)測目標(biāo)區(qū)域內(nèi)的所有前景 patch,但這會導(dǎo)致訓(xùn)練偏差和過擬合。PaDT 則在每次訓(xùn)練時(shí)隨機(jī)采樣少量(如 5 個(gè))前景 VRTs 作為監(jiān)督信號,并通過一種掩碼交叉熵?fù)p失,動態(tài)屏蔽未選中的 VRT logits,從而鼓勵(lì)模型探索多樣化的有效視覺參考。

這種「少而精」的監(jiān)督方式,不僅提升了模型泛化能力,還顯著降低了推理時(shí)的 token 消耗 —— 每個(gè)目標(biāo)僅需 5 個(gè) VRTs,遠(yuǎn)少于逐字符生成坐標(biāo)的開銷。



圖 3:PaDT 整體框架。圖像 patch 特征經(jīng)動態(tài)嵌入模塊擴(kuò)展為 VRTs,與文本 token 一同輸入 LLM;輸出序列中的 VRTs 被輕量解碼器轉(zhuǎn)換為結(jié)構(gòu)化視覺結(jié)果。

性能炸裂:3B 模型干翻 78B 巨無霸

PaDT 的實(shí)驗(yàn)結(jié)果堪稱驚艷。在RefCOCO/+/g的指代表達(dá)理解(REC)任務(wù)上,PaDT Pro(3B)以 93.6 的平均準(zhǔn)確率,超越了參數(shù)量高達(dá) 78B 的 InternVL3(91.4)。而在指代表達(dá)分割(RES)任務(wù)中,PaDT 同樣大幅領(lǐng)先,即便對比使用 SAM 等強(qiáng)大分割基礎(chǔ)模型的方法(如 Text4Seg+SAM),依然保持優(yōu)勢。

更令人震撼的是在COCO 開放詞匯檢測任務(wù)上的表現(xiàn)。傳統(tǒng) MLLMs 在此任務(wù)上 mAP 普遍低于 20,而PaDT Pro(3B)一舉將 mAP 推高至 38.2,幾乎翻倍! 7B 版本更是達(dá)到 39.0 mAP,展現(xiàn)出極強(qiáng)的可擴(kuò)展性。



圖 4:PaDT 在 RefCOCO/+/g 的指代表達(dá)理解(REC)任務(wù)結(jié)果。PaDT Pro (3B) 以 93.6 的平均準(zhǔn)確率,超越了參數(shù)量高達(dá) 78B 的 InternVL3(91.4)。



圖 5:PaDT 在 RefCOCO/+/g 的指代表達(dá)分割(RES)任務(wù)結(jié)果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強(qiáng)大分割基礎(chǔ)模型的方法。



圖 6:PaDT 在 COCO 開放詞匯檢測上的結(jié)果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。

此外,團(tuán)隊(duì)還構(gòu)建了一個(gè)新的Referring Image Captioning(RIC)數(shù)據(jù)集,要求模型在生成描述時(shí)顯式關(guān)聯(lián)對象 ID。PaDT 在此任務(wù)上同樣大幅領(lǐng)先,CIDEr-D 分?jǐn)?shù)從基線的 0.386 提升至 1.450,同時(shí)檢測指標(biāo)(GreedyPrecision 達(dá) 82.3%)也證明其生成的 caption 具備極強(qiáng)的視覺 grounding 能力。



圖 7:Referring Image Captioning (RIC) 數(shù)據(jù)集。

為什么 PaDT 如此有效?

PaDT 的成功,源于其對 MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內(nèi)「擬合」視覺信息,而是將視覺 patch 本身作為可生成的 token,實(shí)現(xiàn)了模態(tài)間的原生對齊。

首先,動態(tài)嵌入機(jī)制確保了 VRTs 與當(dāng)前圖像的強(qiáng)綁定,避免了跨圖像混淆;其次,統(tǒng)一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息,簡化了訓(xùn)練;最后,輕量解碼器將復(fù)雜的 dense prediction 任務(wù)從 LLM 中解耦,既保留了 LLM 的語義推理能力,又賦予了其精準(zhǔn)的空間輸出能力。

值得一提的是,PaDT 還展現(xiàn)出強(qiáng)大的多任務(wù)泛化能力。通過聯(lián)合訓(xùn)練 REC、RES、OVD 和 RIC 任務(wù)得到的PaDT Pro模型,僅通過切換 prompt 即可無縫切換任務(wù),且性能普遍優(yōu)于單任務(wù)模型,證明了該范式的通用性。

結(jié)語:邁向真正的通用多模態(tài)智能

PaDT 的提出,標(biāo)志著 MLLMs 在細(xì)粒度視覺理解上邁出了關(guān)鍵一步。它不再滿足于「看圖說話」,而是能夠「指圖說話」—— 精準(zhǔn)地指出圖像中的每一個(gè)相關(guān)區(qū)域,并生成對應(yīng)的結(jié)構(gòu)化輸出。

這項(xiàng)工作不僅在技術(shù)上實(shí)現(xiàn)了突破,更在理念上啟發(fā)我們:未來的通用人工智能,或許不應(yīng)強(qiáng)行將一切信息壓縮到文本空間,而應(yīng)允許不同模態(tài)以其最自然的形式共存與交互。

目前,PaDT 的代碼和 checkpoints(模型權(quán)重)已開源。對于關(guān)注多模態(tài)、計(jì)算機(jī)視覺與大模型融合的研究者和工程師而言,這無疑是一個(gè)值得關(guān)注和嘗試的新范式。

作者信息

蘇永怡 (第一作者)



華南理工大學(xué)博四研究生,A*STAR I2R 訪問學(xué)者,主要研究多模態(tài)大語言模型、基礎(chǔ)視覺模型、測試時(shí)領(lǐng)域適應(yīng)課題。

  • 作者個(gè)人主頁:https://yysu.site/

張浩杰 (共同一作)



華南理工大學(xué)三年級研究生,微信視覺團(tuán)隊(duì)實(shí)習(xí)生。主要研究多模態(tài)大模型、視頻生成模型、基礎(chǔ)視覺模型。

  • 作者個(gè)人主頁:https://zhang-haojie.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
火藥味升級!格力空調(diào)總監(jiān)完全收不住了,吐槽的博文是一條接一條

火藥味升級!格力空調(diào)總監(jiān)完全收不住了,吐槽的博文是一條接一條

火山詩話
2025-10-21 18:43:01
剛剛確認(rèn):氣溫創(chuàng)新低!浙江又將大轉(zhuǎn)折,溫差近10℃…

剛剛確認(rèn):氣溫創(chuàng)新低!浙江又將大轉(zhuǎn)折,溫差近10℃…

FM93浙江交通之聲
2025-10-21 16:40:46
和丈夫離婚兩個(gè)月后,突然查出懷孕,我正糾結(jié)當(dāng)中,前婆婆找來了

和丈夫離婚兩個(gè)月后,突然查出懷孕,我正糾結(jié)當(dāng)中,前婆婆找來了

五元講堂
2025-08-20 11:36:33
2025年,5國被踢出發(fā)達(dá)國家行列,分別都是誰?

2025年,5國被踢出發(fā)達(dá)國家行列,分別都是誰?

泠泠說史
2025-10-12 17:40:53
取代克林根+逼退楊瀚森!開拓者第一中鋒已敲定,曾是總決賽首發(fā)

取代克林根+逼退楊瀚森!開拓者第一中鋒已敲定,曾是總決賽首發(fā)

緋雨兒
2025-10-21 11:24:55
李政道和秦惠?:從一而終的愛情,比諾貝爾獎(jiǎng)更動人

李政道和秦惠?:從一而終的愛情,比諾貝爾獎(jiǎng)更動人

粵語音樂噴泉
2025-10-21 07:27:51
島內(nèi)最新民調(diào)出爐,國民黨情況不妙;鄭麗文要先訪陸?楊永明表態(tài)

島內(nèi)最新民調(diào)出爐,國民黨情況不妙;鄭麗文要先訪陸?楊永明表態(tài)

知法而形
2025-10-21 12:13:59
和老伴去越南河內(nèi),住了一年半,我實(shí)話實(shí)說:和其它地方真不一樣

和老伴去越南河內(nèi),住了一年半,我實(shí)話實(shí)說:和其它地方真不一樣

寶哥精彩賽事
2025-10-19 01:06:36
不查不知道,一查嚇一跳!翁帆竟然有過婚史,楊瀾一個(gè)字都沒說錯(cuò)

不查不知道,一查嚇一跳!翁帆竟然有過婚史,楊瀾一個(gè)字都沒說錯(cuò)

仙味少女心
2025-10-20 17:31:51
共1200人!湖南省2026年選調(diào)生選拔公告

共1200人!湖南省2026年選調(diào)生選拔公告

懷化新聞網(wǎng)
2025-10-16 21:01:44
NBA官網(wǎng)發(fā)布首期實(shí)力榜:雷霆力壓掘金高居第一,湖人第十

NBA官網(wǎng)發(fā)布首期實(shí)力榜:雷霆力壓掘金高居第一,湖人第十

雷速體育
2025-10-21 08:26:07
哇塞 劉若英都55歲咯 瞅見她的手,才感覺到歲月在她身上留下印子啦

哇塞 劉若英都55歲咯 瞅見她的手,才感覺到歲月在她身上留下印子啦

鄉(xiāng)野小珥
2025-10-21 12:51:02
深度詳解!盧浮宮劫案真相:高科技沒用,輸給了最原始的漏洞!

深度詳解!盧浮宮劫案真相:高科技沒用,輸給了最原始的漏洞!

徐德文科學(xué)頻道
2025-10-20 15:53:25
今晚開播!央視又一40集年代大劇來襲,演員陣容不錯(cuò),想不火都難

今晚開播!央視又一40集年代大劇來襲,演員陣容不錯(cuò),想不火都難

東方不敗然多多
2025-10-21 15:12:02
剛剛!深圳全市預(yù)警升級!

剛剛!深圳全市預(yù)警升級!

魯中晨報(bào)
2025-10-20 22:48:05
關(guān)稅突發(fā)!特朗普簽令:25%新關(guān)稅11月1日起征收!中美即將重返談判桌?。?>
    </a>
        <h3>
      <a href=關(guān)稅突發(fā)!特朗普簽令:25%新關(guān)稅11月1日起征收!中美即將重返談判桌?。?/a> 新浪財(cái)經(jīng)
2025-10-21 10:50:48
正式簽約加盟!班巴!

正式簽約加盟!班巴!

技巧君侃球
2025-10-21 18:11:06
關(guān)于陳志和太子集團(tuán),網(wǎng)友們終于發(fā)現(xiàn)他們起家和暴露內(nèi)幕

關(guān)于陳志和太子集團(tuán),網(wǎng)友們終于發(fā)現(xiàn)他們起家和暴露內(nèi)幕

清暉有墨
2025-10-21 09:05:06
楊振寧長子楊光諾:感謝繼母翁帆,這些年她是全家最溫暖的依靠

楊振寧長子楊光諾:感謝繼母翁帆,這些年她是全家最溫暖的依靠

幸福生活每一天
2025-10-20 16:28:58
天吶,這是黃曉明?不得不說,差點(diǎn)沒認(rèn)出來啊

天吶,這是黃曉明?不得不說,差點(diǎn)沒認(rèn)出來啊

鄉(xiāng)野小珥
2025-10-21 14:40:30
2025-10-21 19:27:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11524文章數(shù) 142489關(guān)注度
往期回顧 全部

科技要聞

新能源又降價(jià)了!六年來均價(jià)首次跌破16萬

頭條要聞

特朗普:一年后美國將擁有大量關(guān)鍵礦物和稀土

頭條要聞

特朗普:一年后美國將擁有大量關(guān)鍵礦物和稀土

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂要聞

陳柏霖已承認(rèn)逃兵役,他知道跑不掉了

財(cái)經(jīng)要聞

多家銀行發(fā)布公告:下調(diào)存款利率!

汽車要聞

試駕江鈴羿馳05S 底盤扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

房產(chǎn)
家居
教育
游戲
公開課

房產(chǎn)要聞

22.95億!三亞海昌不夜城正式易主!

家居要聞

秩序自由 在規(guī)則中創(chuàng)新

教育要聞

父母堅(jiān)決不能為兒女做的3件事

夢幻西游旭旭寶寶一錘定音拿下狀元,暢玩服第一靈犀神劍出鞘

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 视频网站无码专区遭暴露| 欧美成人亚洲综合精品欧美激情| 俺也去奇米777第四色影视| 国产老熟妇精品观看| 亚洲人妻自慰自拍| 久久久精品国产免大香伊| 国产天堂亚洲国产碰碰| 日韩AV网淫乱| 四虎影视4hu4虎成人| 中文字幕精品无码| 五月婷婷影院| 人妖一区二区三区@无毛| 亚洲尤物av一区| 熟妇高潮喷沈阳45熟| 人人干人人看人人摸| 91视频爱爱| 国产成人a亚洲精v品无码| 亚洲色图7777| 69XX老熟女| 亚洲精品辣妞| 国内精品综合久久久40p| 全免费a级毛片| 久久99国产综合精品| 国产精品2区| 亚洲AV激情无码专区| 青青操国产视频| 嗯啊好爽视频| 好色妞一区二区三区| 亚洲色无码中文字幕yy51999| 国产精品日韩| 在厨房被C到高潮a毛片奶水91| 国产亚洲精品a在线看| 亚洲欧美日韩综合久久久久| 精品国产av 无码一区二区三区 | 亚洲欧美偷自乱图片| 欧洲美熟女乱又伦| 色一情一乱一伦一区二区三区| 东北熟女chinses| 日本熟妇浓毛| 亚洲AV女人的天堂在线观看| 狠狠躁夜夜躁人人躁婷婷91|