夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

RL新思路!復(fù)旦用游戲增強(qiáng)VLM通用推理,性能匹敵幾何數(shù)據(jù)

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】復(fù)旦大學(xué)NLP實(shí)驗(yàn)室研發(fā)Game-RL,利用游戲豐富視覺(jué)元素和明確規(guī)則生成多模態(tài)可驗(yàn)證推理數(shù)據(jù),通過(guò)強(qiáng)化訓(xùn)練提升視覺(jué)語(yǔ)言模型的推理能力。創(chuàng)新性地提出Code2Logic方法,系統(tǒng)化合成游戲任務(wù)數(shù)據(jù),構(gòu)建GameQA數(shù)據(jù)集,驗(yàn)證了游戲數(shù)據(jù)在復(fù)雜推理訓(xùn)練中的優(yōu)勢(shì)。

現(xiàn)有工作利用RL提升了視覺(jué)語(yǔ)言模型(VLM)的推理能力,但其任務(wù)場(chǎng)景往往是幾何或者圖表推理。這種領(lǐng)域上的局限,制約了VLM的探索和學(xué)習(xí)。

如何拓展VLM的RL訓(xùn)練領(lǐng)域呢?

電子游戲視覺(jué)元素豐富,且規(guī)則明確而可驗(yàn)證,因而是理想的多模態(tài)推理數(shù)據(jù)源。

由此,復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了Game-RL——構(gòu)造多模態(tài)可驗(yàn)證的游戲任務(wù)來(lái)強(qiáng)化訓(xùn)練VLM。


論文鏈接:https://arxiv.org/abs/2505.13886

代碼倉(cāng)庫(kù):https://github.com/tongjingqi/Game-RL

數(shù)據(jù)和模型:https://huggingface.co/Code2Logic

為獲得訓(xùn)練數(shù)據(jù)(如圖1的示例),研究人員還提出了新穎的Code2Logic方法,通過(guò)游戲代碼系統(tǒng)化合成數(shù)據(jù)。


圖1:GameQA數(shù)據(jù)集中各游戲類(lèi)別的代表性游戲:3D重建、七巧板(變體)、數(shù)獨(dú)和推箱子。各游戲展示兩個(gè)視覺(jué)問(wèn)答示例,包含當(dāng)前游戲狀態(tài)圖片,相應(yīng)的問(wèn)題,以及逐步推理過(guò)程和答案。

Code2Logic方法創(chuàng)新性地基于游戲代碼合成多模態(tài)可驗(yàn)證游戲任務(wù)數(shù)據(jù)。

如圖2,利用強(qiáng)LLM生成游戲代碼、設(shè)計(jì)任務(wù)及其模板、構(gòu)建數(shù)據(jù)引擎代碼,最后只要執(zhí)行代碼便能自動(dòng)生成數(shù)據(jù)。


圖2:Code2Logic方法,借助LLM通過(guò)三個(gè)核心步驟將游戲代碼轉(zhuǎn)換為推理數(shù)據(jù)。第一步:游戲代碼構(gòu)建;第二步:游戲任務(wù)及其QA模板設(shè)計(jì);第三步:數(shù)據(jù)引擎構(gòu)建,基于前兩步構(gòu)建自動(dòng)化程序,然后只要執(zhí)行代碼就能自動(dòng)批量生成數(shù)據(jù)。

GameQA

豐富的游戲任務(wù)數(shù)據(jù)集

利用Code2Logic方法構(gòu)建了GameQA數(shù)據(jù)集,這些多模態(tài)可驗(yàn)證游戲數(shù)據(jù)可以用于VLM推理能力的訓(xùn)練和評(píng)測(cè)。

GameQA有:4大認(rèn)知能力類(lèi)別、30個(gè)游戲(如圖3)、158個(gè)推理任務(wù)、14萬(wàn)個(gè)問(wèn)答對(duì)。

難度分級(jí):任務(wù)按難度分三級(jí);樣本按視覺(jué)輸入復(fù)雜度分三級(jí)。


圖3:GameQA的30個(gè)游戲,分為4個(gè)認(rèn)知能力類(lèi)別,涵蓋3D空間推理、模式識(shí)別與匹配、多步推理、策略規(guī)劃。20個(gè)域內(nèi)游戲用于訓(xùn)練和測(cè)試,而10個(gè)域外游戲不參與訓(xùn)練,用于測(cè)試模型在未見(jiàn)游戲場(chǎng)景下的泛化能力。

核心發(fā)現(xiàn)

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO訓(xùn)練,4個(gè)開(kāi)源VLM在7個(gè)完全域外的通用視覺(jué)語(yǔ)言推理基準(zhǔn)上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展現(xiàn)出跨領(lǐng)域泛化,如表1。


表1:通用視覺(jué)語(yǔ)言推理基準(zhǔn)上的評(píng)測(cè)結(jié)果

訓(xùn)練效果

GameQA匹敵幾何數(shù)據(jù)集

研究團(tuán)隊(duì)用GameQA和幾何與圖表推理數(shù)據(jù)集進(jìn)行對(duì)比訓(xùn)練,發(fā)現(xiàn)GameQA可與之匹敵。

如表2,盡管訓(xùn)練數(shù)據(jù)量更少且領(lǐng)域不匹配,但GameQA訓(xùn)的模型在通用基準(zhǔn)上總體表現(xiàn)很有競(jìng)爭(zhēng)力。而且在MathVista與MathVerse這兩個(gè)和幾何與函數(shù)推理有關(guān)的基準(zhǔn)上,Game竟能匹敵更「對(duì)口」的幾何推理數(shù)據(jù)訓(xùn)練。

這表明游戲中的認(rèn)知多樣性和推理復(fù)雜性,具有通用性和遷移能力。


表2:對(duì)比訓(xùn)練,5K GameQA樣本 vs. 8K MAVIS(幾何與函數(shù)視覺(jué)推理)vs. 8K Multimodal-Open-R1(以幾何推理為主)vs. 8K MultiMath(綜合的數(shù)學(xué)領(lǐng)域多模態(tài)推理),GameQA訓(xùn)練的模型總體很有競(jìng)爭(zhēng)力,實(shí)驗(yàn)也顯示混合訓(xùn)練(MultiMath中加入GameQA數(shù)據(jù))能助力模型提得更多。

Scaling Effect

訓(xùn)練數(shù)據(jù)量和游戲個(gè)數(shù)的影響

數(shù)據(jù)量的Scaling Effect:加大訓(xùn)練的GameQA數(shù)據(jù)量至20K,實(shí)驗(yàn)顯示,模型在通用推理基準(zhǔn)上的表現(xiàn)總體呈持續(xù)提升,如圖4。


圖4:訓(xùn)練數(shù)據(jù)量的Scaling Effect

游戲個(gè)數(shù)的Scaling Effect:隨著訓(xùn)練的游戲種類(lèi)變多,域外泛化效果增強(qiáng),如圖5。


圖5:使用20種游戲的任務(wù)訓(xùn)練,模型在域外通用基準(zhǔn)上的提升優(yōu)于使用4種或10種游戲的配置。

深度剖析

Game-RL后模型能力提升在哪?

為更好理解Game-RL對(duì)VLM推理能力的提升,研究團(tuán)隊(duì)隨機(jī)采樣了案例進(jìn)行了細(xì)致的人工分析。結(jié)果顯示,Game-RL后,模型在視覺(jué)感知和文本推理兩個(gè)方面都有提升,如圖6。


圖6:人工定性分析得知模型的視覺(jué)感知和文本推理能力均有提升。上方的兩個(gè)餅圖分別是域外通用基準(zhǔn)上,視覺(jué)感知和文本推理能力的變化情況,下方是視覺(jué)感知能力提升的一個(gè)案例。

結(jié)論

研究提出了Game-RL以及游戲數(shù)據(jù)合成方法Code2Logic,構(gòu)建了GameQA數(shù)據(jù)集,將VLM強(qiáng)化訓(xùn)練領(lǐng)域拓展到游戲場(chǎng)景。

通過(guò)實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了Game-RL能提升VLM的通用推理。

進(jìn)一步而言,也揭示了游戲場(chǎng)景可以提供多模態(tài)、可控、可驗(yàn)證數(shù)據(jù),具有重要價(jià)值。

參考資料:

https://arxiv.org/abs/2505.13886

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蔣介石晚年最后悔的三件事,愛(ài)錯(cuò)一個(gè)人,殺錯(cuò)一個(gè)人,放錯(cuò)一個(gè)人

蔣介石晚年最后悔的三件事,愛(ài)錯(cuò)一個(gè)人,殺錯(cuò)一個(gè)人,放錯(cuò)一個(gè)人

風(fēng)飄飄而吹衣
2024-12-08 14:07:17
骨折肺塌陷!46歲曼聯(lián)名宿弗蘭重傷,曾率大阪櫻花亞冠1比5廣州隊(duì)

骨折肺塌陷!46歲曼聯(lián)名宿弗蘭重傷,曾率大阪櫻花亞冠1比5廣州隊(duì)

籃球國(guó)度
2025-10-21 15:58:40
與李政道決裂,楊振寧聲譽(yù)更大!被貼“精致利己”標(biāo)簽,他冤嗎?

與李政道決裂,楊振寧聲譽(yù)更大!被貼“精致利己”標(biāo)簽,他冤嗎?

大江看潮
2025-10-20 07:06:50
比肩蘇神謝震業(yè)!中國(guó)選手百米9字頭第3人,連續(xù)兩槍打開(kāi)10秒大關(guān)

比肩蘇神謝震業(yè)!中國(guó)選手百米9字頭第3人,連續(xù)兩槍打開(kāi)10秒大關(guān)

全景體育V
2025-10-21 08:13:56
95年我被部隊(duì)除名,祖父來(lái)營(yíng)區(qū)接我,團(tuán)長(zhǎng)眼含熱淚:我尋您15年

95年我被部隊(duì)除名,祖父來(lái)營(yíng)區(qū)接我,團(tuán)長(zhǎng)眼含熱淚:我尋您15年

蘭姐說(shuō)故事
2025-10-02 17:05:05
島內(nèi)最新民調(diào)出爐,國(guó)民黨情況不妙;鄭麗文要先訪陸?楊永明表態(tài)

島內(nèi)最新民調(diào)出爐,國(guó)民黨情況不妙;鄭麗文要先訪陸?楊永明表態(tài)

知法而形
2025-10-21 12:13:59
延長(zhǎng)至2030年10月19日!天津最新通知!

延長(zhǎng)至2030年10月19日!天津最新通知!

天津生活通
2025-10-21 16:05:06
省著用!就算古斯塔沃紅牌停賽!海港主帥也舍不得讓萊昂納多首發(fā)

省著用!就算古斯塔沃紅牌停賽!海港主帥也舍不得讓萊昂納多首發(fā)

80后體育大蜀黍
2025-10-21 23:25:45
95后博士佘欣藝,已任福建一市局副局長(zhǎng)(附簡(jiǎn)歷)

95后博士佘欣藝,已任福建一市局副局長(zhǎng)(附簡(jiǎn)歷)

新浪財(cái)經(jīng)
2025-10-21 19:46:07
鬧大了!何超蓮與竇驍婚變風(fēng)波持續(xù)發(fā)酵,女方評(píng)論區(qū)已淪陷!

鬧大了!何超蓮與竇驍婚變風(fēng)波持續(xù)發(fā)酵,女方評(píng)論區(qū)已淪陷!

娛樂(lè)圈筆娛君
2025-10-21 14:26:58
不顧眾人反對(duì)執(zhí)意下嫁,“日化”嚴(yán)重的林志玲,終是嘗到了苦果

不顧眾人反對(duì)執(zhí)意下嫁,“日化”嚴(yán)重的林志玲,終是嘗到了苦果

悠悠說(shuō)世界
2025-10-22 05:41:43
壞消息,湖人馬克西·克萊伯因斜肌拉傷將缺席2025-26賽季初比賽

壞消息,湖人馬克西·克萊伯因斜肌拉傷將缺席2025-26賽季初比賽

好火子
2025-10-22 00:21:32
5部尺度驚人R級(jí)限制級(jí)韓影!女主突破自我...一部比一部敢拍!!

5部尺度驚人R級(jí)限制級(jí)韓影!女主突破自我...一部比一部敢拍!!

i書(shū)與房
2025-10-13 20:34:26
11月12日放假3天!四川兩地中小學(xué)確定放“春秋假”!綿陽(yáng)會(huì)放嗎

11月12日放假3天!四川兩地中小學(xué)確定放“春秋假”!綿陽(yáng)會(huì)放嗎

綿學(xué)堂
2025-10-21 19:04:49
歐冠慘案誕生!孔蒂不敢相信,締造職業(yè)生涯恥辱紀(jì)錄

歐冠慘案誕生!孔蒂不敢相信,締造職業(yè)生涯恥辱紀(jì)錄

足球狗說(shuō)
2025-10-22 05:34:26
北愛(ài)爾蘭賽戰(zhàn)報(bào):世界第16爆冷1-4無(wú)緣八強(qiáng),第2險(xiǎn)勝,第17大勝

北愛(ài)爾蘭賽戰(zhàn)報(bào):世界第16爆冷1-4無(wú)緣八強(qiáng),第2險(xiǎn)勝,第17大勝

求球不落諦
2025-10-22 05:48:06
雅加達(dá)體操世錦賽 鄒敬園刷新本屆單項(xiàng)最高分

雅加達(dá)體操世錦賽 鄒敬園刷新本屆單項(xiàng)最高分

廣東體育頻道
2025-10-21 11:23:25
落槌!全部劃歸國(guó)資!追隨許家印6年,江蘇第一包工頭賠得精光

落槌!全部劃歸國(guó)資!追隨許家印6年,江蘇第一包工頭賠得精光

一只番茄魚(yú)
2025-10-19 17:11:16
12個(gè)督察組,已全部進(jìn)駐

12個(gè)督察組,已全部進(jìn)駐

政知新媒體
2025-10-21 22:28:13
京東首款汽車(chē)定了!埃安UT迎潑天流量,能否逆天改命?

京東首款汽車(chē)定了!埃安UT迎潑天流量,能否逆天改命?

雷科技
2025-10-21 22:13:59
2025-10-22 07:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13675文章數(shù) 66221關(guān)注度
往期回顧 全部

科技要聞

追思楊振寧,潘建偉饒毅等首次披露哪些細(xì)節(jié)

頭條要聞

特朗普與普京被指將同乘一架飛機(jī)赴會(huì)晤地點(diǎn) 俄方回應(yīng)

頭條要聞

特朗普與普京被指將同乘一架飛機(jī)赴會(huì)晤地點(diǎn) 俄方回應(yīng)

體育要聞

感謝黑幕狀元簽,讓我們看到最強(qiáng)弗拉格

娛樂(lè)要聞

陳柏霖已承認(rèn)逃兵役,他知道跑不掉了

財(cái)經(jīng)要聞

黃金白銀高臺(tái)跳水,什么原因?

汽車(chē)要聞

試駕江鈴羿馳05S 底盤(pán)扎實(shí)可靠/還有大空間

態(tài)度原創(chuàng)

時(shí)尚
本地
旅游
房產(chǎn)
健康

連衣裙+運(yùn)動(dòng)鞋,今秋最美穿法!舒適又時(shí)髦!

本地新聞

云游中國(guó)|一腳踏入萬(wàn)州,才懂煙火江城的真意

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

房產(chǎn)要聞

22.95億!三亞海昌不夜城正式易主!

內(nèi)分泌科專(zhuān)家破解身高八大謠言

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 精品妇女一区二区三区下囿高潮 | 成人又黄又爽又色的网站| 最新国语自产精品视频在| 日韩欧美一区二区三区推特| 国产成人精品一区二区秒拍| 免费不卡毛片| 婷婷开心激情综| 久久996re热这里只有精品无码| 日韩一区二区视频播放| 看免费的无码区特aa毛片| 欧美疯狂做受xxxx高潮| 色综合久久夜色精品国产| 暗呦网一区二区三区| 国产成人丝袜精品视频app| 亚洲AV无码乱码国产精品色l| 中国国模一区| 精品国产精品国产偷麻豆| 少妇另类首页| 国产四区在线观看| 超碰97人人射妻| 欧洲中文字幕一区二区| 天干天干啦夜天干天2017| 俺也去国产精品| 久热在线这里只有精品国产| 搜索欧美日本| 外国美女搞鸡网站| 国产精品爽爽v在线观看无码| 日本午夜福利片| 东北老熟女被爆操贵在真实| 国产精品18久久久| 亚洲乱码中文字幕在线| 琪琪视频在线观看| 国产天堂AV网| 久久精品视频一| 永久免费看一区二区看片| 久久久久亚洲精品无码网址蜜桃| 久久婷婷六月综合色液啪| 久久久精品成人| 国产激情强制V一区二区| 色图小说激情文学| 人妻丝袜中文无码av影音先锋|