夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AGILE:自監(jiān)督+交互式強(qiáng)化學(xué)習(xí)助力VLMs感知與推理全面提升

0
分享至



現(xiàn)有視覺語言大模型(VLMs)在多模態(tài)感知和推理任務(wù)上仍存在明顯短板:1. 對圖像中的細(xì)粒度視覺信息理解有限,視覺感知和推理能力未被充分激發(fā);2. 強(qiáng)化學(xué)習(xí)雖能帶來改進(jìn),但缺乏高質(zhì)量、易擴(kuò)展的 RL 數(shù)據(jù)。

AGILE 提出一種全新的自監(jiān)督學(xué)習(xí)范式,將「智能體交互」遷移至多模態(tài)大模型的強(qiáng)化學(xué)習(xí)訓(xùn)練中,通過「模型生成動作代碼 + 視覺環(huán)境反饋」的循環(huán)式交互過程,讓模型像人一樣邊觀察、邊推理、邊學(xué)習(xí),從而顯著提升模型視覺感知與邏輯推理能力。



  • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
  • Paper:https://arxiv.org/pdf/2510.01304
  • Project Page:https://yuzeng0-0.github.io/AGILE/
  • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
  • Code:https://github.com/yuzeng0-0/AGILE
  • 作者單位:中科大、上海 AI Lab、華東師大、港中文



圖 1:AGILE 主要工作框架

方法核心:

交互式智能體 + 拼圖代理任務(wù)

為了克服數(shù)據(jù)瓶頸與可擴(kuò)展性問題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務(wù),提出 AGILE。將拼圖過程建模為「可控、可驗(yàn)證」的交互式形式:

  • 模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom);
  • 環(huán)境執(zhí)行代碼、返回視覺反饋;
  • 模型根據(jù)環(huán)境反饋繼續(xù)規(guī)劃調(diào)整拼圖,該循環(huán)重復(fù)至拼圖完成。

這一閉環(huán)交互形成了「觀察–交互–反饋–學(xué)習(xí)」的智能體訓(xùn)練范式,使 VLMs 能在自監(jiān)督方式下持續(xù)提升感知和推理能力。

AGILE 的完整流程分為兩個階段:

Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質(zhì)量專家拼圖交互軌跡,教會模型如何正確生成動作代碼與交互邏輯,解決初期模型「不會動手」的問題;

Reinforcement Learning 階段,在 15.6K 張圖像上訓(xùn)練拼圖任務(wù),采用 GRPO 算法,通過準(zhǔn)確率、格式規(guī)范與交互輪數(shù)三重獎勵信號優(yōu)化策略。



圖 2:模型拼圖過程中激發(fā)出來的感知和推理行為

實(shí)驗(yàn)

研究者們進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了 AGILE 的有效性,并得到了多條富有啟發(fā)意義的結(jié)論:

  • 研究者們設(shè)計了系統(tǒng)的拼圖評估數(shù)據(jù)集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(shù)(L0–L7)。模型性能以兩種指標(biāo)衡量:Acc,所有塊完全放對的比例;Score,正確拼塊數(shù)占總拼塊數(shù)的比例。在最簡單的 2×2 任務(wù)中,AGILE 使準(zhǔn)確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個百分點(diǎn)。在更具挑戰(zhàn)性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標(biāo)志著模型感知和推理能力大幅躍升。



表 1:拼圖 Acc 結(jié)果。LN 表示難度級別,N 表示初始正確拼圖塊數(shù)。N 值越小,拼圖越亂,難度越高。最佳結(jié)果以粗體顯示,次佳結(jié)果以下劃線顯示。

  • 通用能力即泛化性評測:經(jīng)過拼圖訓(xùn)練,模型在 9 項(xiàng)通用視覺任務(wù)中(涵蓋真實(shí)世界場景、高分辨率場景、細(xì)粒度感知、幻覺和多模態(tài)推理)平均提升 3.1%,展現(xiàn)出強(qiáng)大的泛化能力。進(jìn)一步驗(yàn)證了拼圖任務(wù)作為代理任務(wù)對于通用視覺能力的泛化價值。



表 2:不同模型在 9 個基準(zhǔn)測試上的性能比較??s寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個基準(zhǔn)測試的平均性能。? 表示強(qiáng)化學(xué)習(xí)相對于基礎(chǔ)模型 Qwen2.5-VL-7B 獲得的相對性能提升。最佳結(jié)果以粗體突出顯示,次佳結(jié)果以下劃線標(biāo)出。

  • Scaling 實(shí)驗(yàn):數(shù)據(jù)規(guī)模帶來的持續(xù)增益。研究者們進(jìn)一步探究了拼圖數(shù)據(jù)規(guī)模對性能的影響。當(dāng)訓(xùn)練數(shù)據(jù)從 0 擴(kuò)展至 16K 時:拼圖任務(wù)準(zhǔn)確率從 22.0% → 82.8%;HRBench4K 準(zhǔn)確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓(xùn)練在數(shù)據(jù)量擴(kuò)增下持續(xù)有效。由于拼圖環(huán)境可自動生成,AGILE 的數(shù)據(jù)擴(kuò)展幾乎零成本、無限擴(kuò)容,為多模態(tài) RL 提供了可持續(xù)的自監(jiān)督范式。



圖 3:(左圖)訓(xùn)練數(shù)據(jù)規(guī)模的影響。左側(cè) y 軸表示 HRBench4K 和 RealWorldQA 的準(zhǔn)確率,右側(cè) y 軸表示拼圖任務(wù)的準(zhǔn)確率。(右圖)與常規(guī) QA 數(shù)據(jù)的比較,在兩種實(shí)驗(yàn)設(shè)置中,樣本總數(shù)始終保持在 20K。

  • 與常規(guī) QA 數(shù)據(jù)的對比實(shí)驗(yàn):研究者們替換 20K 常規(guī) QA 數(shù)據(jù)中的其中 10K 為拼圖數(shù)據(jù),發(fā)現(xiàn)模型可以表現(xiàn)出更好的性能。這說明拼圖任務(wù)提供了更強(qiáng)的結(jié)構(gòu)感知與監(jiān)督信號。這一發(fā)現(xiàn)凸顯了拼圖任務(wù)在緩解多模態(tài)強(qiáng)化學(xué)習(xí)數(shù)據(jù)稀缺方面的潛力,并為推進(jìn)多模態(tài)模型開發(fā)開辟了一個充滿前景的新方向。

意義與未來

AGILE = 交互式拼圖代理 + 自監(jiān)督 RL,在無需額外人工標(biāo)注的前提下,持續(xù)提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務(wù)」作為突破數(shù)據(jù)瓶頸、強(qiáng)化 VLMs 的可行性和自監(jiān)督強(qiáng)化學(xué)習(xí)范式的潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
61歲演員何晴離世!曾與劉威相戀5年,是許亞軍前妻,兒子才24歲

61歲演員何晴離世!曾與劉威相戀5年,是許亞軍前妻,兒子才24歲

可樂談情感
2025-12-14 10:44:52
職業(yè)生涯首次替補(bǔ)?文班表示在NBA杯半決賽復(fù)出但不在首發(fā)名單

職業(yè)生涯首次替補(bǔ)?文班表示在NBA杯半決賽復(fù)出但不在首發(fā)名單

懂球帝
2025-12-14 10:09:12
華為nova15系列曝光,橫排鏡頭設(shè)計,麒麟9系處理器,鴻蒙6系統(tǒng)

華為nova15系列曝光,橫排鏡頭設(shè)計,麒麟9系處理器,鴻蒙6系統(tǒng)

老孫說科技
2025-12-14 09:46:04
臺海還沒開戰(zhàn),另一場惡仗已逼近中國?美撕下偽裝,基辛格沒說錯

臺海還沒開戰(zhàn),另一場惡仗已逼近中國?美撕下偽裝,基辛格沒說錯

Ck的蜜糖
2025-12-14 10:44:52
日本激進(jìn)分子“開槍”,美國自縛手腳,中方亮明三點(diǎn)“絕不允許”

日本激進(jìn)分子“開槍”,美國自縛手腳,中方亮明三點(diǎn)“絕不允許”

牛鍋巴小釩
2025-12-14 10:53:15
浙江籍演員何晴因病離世,她曾留下了諸多經(jīng)典角色

浙江籍演員何晴因病離世,她曾留下了諸多經(jīng)典角色

瀟湘晨報
2025-12-14 11:17:27
豬肝再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會收獲4大好處

豬肝再次成為關(guān)注對象!醫(yī)生發(fā)現(xiàn):常吃豬肝,可能會收獲4大好處

搖感軍事
2025-11-30 18:57:30
意外嗎?國腳級王牌中場剛從國安離隊,就將火速加盟深圳新鵬城!

意外嗎?國腳級王牌中場剛從國安離隊,就將火速加盟深圳新鵬城!

羅掌柜體育
2025-12-13 11:10:52
國籍爭議不到1年,人民日報公開點(diǎn)名谷愛凌,鄧亞萍的話有人信了

國籍爭議不到1年,人民日報公開點(diǎn)名谷愛凌,鄧亞萍的話有人信了

徐幫陽
2025-12-13 00:27:20
五旬男子按摩店猝死,知情人爆料:老板娘年輕漂亮,小孩才幾歲!

五旬男子按摩店猝死,知情人爆料:老板娘年輕漂亮,小孩才幾歲!

椰青美食分享
2025-12-14 09:53:56
總司令沒“兵權(quán)”?建國后朱老總為何從不主持軍委工作?這原因太真實(shí)了

總司令沒“兵權(quán)”?建國后朱老總為何從不主持軍委工作?這原因太真實(shí)了

史海孤雁
2025-12-11 15:56:04
茅臺祭出“非常手段”:12月全面暫停發(fā)貨為經(jīng)銷商“減壓”

茅臺祭出“非常手段”:12月全面暫停發(fā)貨為經(jīng)銷商“減壓”

消費(fèi)日曝1
2025-12-14 09:24:18
華為份額重回中國第一!Mate 80系列銷量達(dá)75.49萬

華為份額重回中國第一!Mate 80系列銷量達(dá)75.49萬

安兔兔
2025-12-13 22:03:11
第一個力挺中國的戰(zhàn)友出現(xiàn)!只要日本敢出兵,立馬使出一大絕招

第一個力挺中國的戰(zhàn)友出現(xiàn)!只要日本敢出兵,立馬使出一大絕招

凡知
2025-11-19 21:28:17
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

李健政觀察
2025-12-11 09:22:16
杜蘭特與大一時期女同學(xué)重逢 KD媽媽也與其合影 網(wǎng)友調(diào)侃:結(jié)婚吧

杜蘭特與大一時期女同學(xué)重逢 KD媽媽也與其合影 網(wǎng)友調(diào)侃:結(jié)婚吧

Emily說個球
2025-12-13 17:05:38
隊記:開拓者開始后悔選楊瀚森 為他錯過奎因+科沃德兩位新星

隊記:開拓者開始后悔選楊瀚森 為他錯過奎因+科沃德兩位新星

醉臥浮生
2025-12-13 16:04:31
日本揚(yáng)言擊沉福建艦,俄軍前飛行員發(fā)問:擊沉四川艦要多少導(dǎo)彈?

日本揚(yáng)言擊沉福建艦,俄軍前飛行員發(fā)問:擊沉四川艦要多少導(dǎo)彈?

東方點(diǎn)兵
2025-12-13 14:17:43
少女時代Tiffany公開戀情:與卞耀漢交往一年,婚期在考慮

少女時代Tiffany公開戀情:與卞耀漢交往一年,婚期在考慮

星野娛樂天地
2025-12-13 13:18:14
新騙局來了!不需要轉(zhuǎn)賬、也不用輸密碼,騙子就能輕松轉(zhuǎn)走你的錢

新騙局來了!不需要轉(zhuǎn)賬、也不用輸密碼,騙子就能輕松轉(zhuǎn)走你的錢

牛牛叨史
2025-12-02 21:58:51
2025-12-14 12:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11907文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

當(dāng)人形機(jī)器人有了App Store,宇樹在賭什么

頭條要聞

女演員何晴去世:享年61歲 唯一演遍四大名著的女演員

頭條要聞

女演員何晴去世:享年61歲 唯一演遍四大名著的女演員

體育要聞

有了風(fēng)騷白人禿頭,忘掉談了10年的前任

娛樂要聞

“仙女歸班”!演員何晴去世,享年61歲

財經(jīng)要聞

重大違法強(qiáng)制退市!10人被判刑

汽車要聞

硬核敞篷巴士?擲彈兵Game Viewer 2026年初量產(chǎn)

態(tài)度原創(chuàng)

教育
房產(chǎn)
游戲
本地
公開課

教育要聞

請假自己調(diào)課,被扣錢!老師為何請不起假?教育制度困境亟待破局

房產(chǎn)要聞

車程5分鐘價差300萬 海棠灣的這個盤要火!

《控制:Resonant》創(chuàng)意總監(jiān)訪談:新主角新故事"/> 主站 商城 論壇 自運(yùn)營 登錄 注冊 《控制:Resonant》創(chuàng)意總監(jiān)訪談:新主角新故事 ...

本地新聞

云游安徽|阜陽三朝風(fēng)骨,傳承千年墨香

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美日本在线| av一区二区三区久久久| 国产成人aaaaa级毛片| 国产午夜精品一区二区| 无码免费中文字幕视频| 亚洲色av天天天天天天| 精品嫖娼av| av无码久久久精品免费| 最新无码在线播放| 理论片87福利理论电影| 亚洲国产天堂久久综合| 国产精品无码245hd| 激情文学AV| 久久精品一本到99热免费| 一本大道久久A久久综合| 亚洲综合色在线观看一区二区| 日韩a无v码在线播放| 色欲国产精品一区成人精品| 极品少妇av无码无套免费播放| 亚洲va久久久噜噜噜久久男同 | 亚洲人成人网站18禁| 亚洲国产精品高清久久久| 国产精品怡红院在线观看| 无码人妻精品一区二区三批| 久久6热视频| 午夜热门精品一区二区三区| 在线播放偷拍一区精品| 越南自拍微拍一区二区三区小视频 | 夜夜澡天天碰人人爱av| 操BBB精品| 亚洲中文字幕综合小综合| 牲交欧美兽交欧美| 国产极品视频一区二区三区 | 欧美日本护士| 咪咪成人一区二区三区| 久久国产亚洲AV无码四区色欲| 亚洲AV无码日韩AV无码中文| 丰满爆乳无码一区二区三区动图| 国产成人精品亚洲精品日日| 亚洲BT 欧美BT 日本BT| 麻豆亚洲自偷拍精品日韩另|