網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

RL新思路！復(fù)旦用游戲增強(qiáng)VLM通用推理，性能匹敵幾何數(shù)據(jù)

2025-10-21 09:07:45　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】復(fù)旦大學(xué)NLP實(shí)驗(yàn)室研發(fā)Game-RL，利用游戲豐富視覺(jué)元素和明確規(guī)則生成多模態(tài)可驗(yàn)證推理數(shù)據(jù)，通過(guò)強(qiáng)化訓(xùn)練提升視覺(jué)語(yǔ)言模型的推理能力。創(chuàng)新性地提出Code2Logic方法，系統(tǒng)化合成游戲任務(wù)數(shù)據(jù)，構(gòu)建GameQA數(shù)據(jù)集，驗(yàn)證了游戲數(shù)據(jù)在復(fù)雜推理訓(xùn)練中的優(yōu)勢(shì)。

現(xiàn)有工作利用RL提升了視覺(jué)語(yǔ)言模型（VLM）的推理能力，但其任務(wù)場(chǎng)景往往是幾何或者圖表推理。這種領(lǐng)域上的局限，制約了VLM的探索和學(xué)習(xí)。

如何拓展VLM的RL訓(xùn)練領(lǐng)域呢？

電子游戲視覺(jué)元素豐富，且規(guī)則明確而可驗(yàn)證，因而是理想的多模態(tài)推理數(shù)據(jù)源。

由此，復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了Game-RL——構(gòu)造多模態(tài)可驗(yàn)證的游戲任務(wù)來(lái)強(qiáng)化訓(xùn)練VLM。

論文鏈接：https://arxiv.org/abs/2505.13886

代碼倉(cāng)庫(kù)：https://github.com/tongjingqi/Game-RL

數(shù)據(jù)和模型：https://huggingface.co/Code2Logic

為獲得訓(xùn)練數(shù)據(jù)（如圖1的示例），研究人員還提出了新穎的Code2Logic方法，通過(guò)游戲代碼系統(tǒng)化合成數(shù)據(jù)。

圖1：GameQA數(shù)據(jù)集中各游戲類(lèi)別的代表性游戲：3D重建、七巧板（變體）、數(shù)獨(dú)和推箱子。各游戲展示兩個(gè)視覺(jué)問(wèn)答示例，包含當(dāng)前游戲狀態(tài)圖片，相應(yīng)的問(wèn)題，以及逐步推理過(guò)程和答案。

Code2Logic方法創(chuàng)新性地基于游戲代碼合成多模態(tài)可驗(yàn)證游戲任務(wù)數(shù)據(jù)。

如圖2，利用強(qiáng)LLM生成游戲代碼、設(shè)計(jì)任務(wù)及其模板、構(gòu)建數(shù)據(jù)引擎代碼，最后只要執(zhí)行代碼便能自動(dòng)生成數(shù)據(jù)。

圖2：Code2Logic方法，借助LLM通過(guò)三個(gè)核心步驟將游戲代碼轉(zhuǎn)換為推理數(shù)據(jù)。第一步：游戲代碼構(gòu)建；第二步：游戲任務(wù)及其QA模板設(shè)計(jì)；第三步：數(shù)據(jù)引擎構(gòu)建，基于前兩步構(gòu)建自動(dòng)化程序，然后只要執(zhí)行代碼就能自動(dòng)批量生成數(shù)據(jù)。

GameQA

豐富的游戲任務(wù)數(shù)據(jù)集

利用Code2Logic方法構(gòu)建了GameQA數(shù)據(jù)集，這些多模態(tài)可驗(yàn)證游戲數(shù)據(jù)可以用于VLM推理能力的訓(xùn)練和評(píng)測(cè)。

GameQA有：4大認(rèn)知能力類(lèi)別、30個(gè)游戲（如圖3）、158個(gè)推理任務(wù)、14萬(wàn)個(gè)問(wèn)答對(duì)。

難度分級(jí)：任務(wù)按難度分三級(jí)；樣本按視覺(jué)輸入復(fù)雜度分三級(jí)。

圖3：GameQA的30個(gè)游戲，分為4個(gè)認(rèn)知能力類(lèi)別，涵蓋3D空間推理、模式識(shí)別與匹配、多步推理、策略規(guī)劃。20個(gè)域內(nèi)游戲用于訓(xùn)練和測(cè)試，而10個(gè)域外游戲不參與訓(xùn)練，用于測(cè)試模型在未見(jiàn)游戲場(chǎng)景下的泛化能力。

核心發(fā)現(xiàn)

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO訓(xùn)練，4個(gè)開(kāi)源VLM在7個(gè)完全域外的通用視覺(jué)語(yǔ)言推理基準(zhǔn)上均取得提升（Qwen2.5-VL-7B平均提升2.33%），展現(xiàn)出跨領(lǐng)域泛化，如表1。

表1：通用視覺(jué)語(yǔ)言推理基準(zhǔn)上的評(píng)測(cè)結(jié)果

訓(xùn)練效果

GameQA匹敵幾何數(shù)據(jù)集

研究團(tuán)隊(duì)用GameQA和幾何與圖表推理數(shù)據(jù)集進(jìn)行對(duì)比訓(xùn)練，發(fā)現(xiàn)GameQA可與之匹敵。

如表2，盡管訓(xùn)練數(shù)據(jù)量更少且領(lǐng)域不匹配，但GameQA訓(xùn)的模型在通用基準(zhǔn)上總體表現(xiàn)很有競(jìng)爭(zhēng)力。而且在MathVista與MathVerse這兩個(gè)和幾何與函數(shù)推理有關(guān)的基準(zhǔn)上，Game竟能匹敵更「對(duì)口」的幾何推理數(shù)據(jù)訓(xùn)練。

這表明游戲中的認(rèn)知多樣性和推理復(fù)雜性，具有通用性和遷移能力。

表2：對(duì)比訓(xùn)練，5K GameQA樣本 vs. 8K MAVIS（幾何與函數(shù)視覺(jué)推理）vs. 8K Multimodal-Open-R1（以幾何推理為主）vs. 8K MultiMath（綜合的數(shù)學(xué)領(lǐng)域多模態(tài)推理），GameQA訓(xùn)練的模型總體很有競(jìng)爭(zhēng)力，實(shí)驗(yàn)也顯示混合訓(xùn)練（MultiMath中加入GameQA數(shù)據(jù)）能助力模型提得更多。

Scaling Effect

訓(xùn)練數(shù)據(jù)量和游戲個(gè)數(shù)的影響

數(shù)據(jù)量的Scaling Effect：加大訓(xùn)練的GameQA數(shù)據(jù)量至20K，實(shí)驗(yàn)顯示，模型在通用推理基準(zhǔn)上的表現(xiàn)總體呈持續(xù)提升，如圖4。

圖4：訓(xùn)練數(shù)據(jù)量的Scaling Effect

游戲個(gè)數(shù)的Scaling Effect：隨著訓(xùn)練的游戲種類(lèi)變多，域外泛化效果增強(qiáng)，如圖5。

圖5：使用20種游戲的任務(wù)訓(xùn)練，模型在域外通用基準(zhǔn)上的提升優(yōu)于使用4種或10種游戲的配置。

深度剖析

Game-RL后模型能力提升在哪？

為更好理解Game-RL對(duì)VLM推理能力的提升，研究團(tuán)隊(duì)隨機(jī)采樣了案例進(jìn)行了細(xì)致的人工分析。結(jié)果顯示，Game-RL后，模型在視覺(jué)感知和文本推理兩個(gè)方面都有提升，如圖6。

圖6：人工定性分析得知模型的視覺(jué)感知和文本推理能力均有提升。上方的兩個(gè)餅圖分別是域外通用基準(zhǔn)上，視覺(jué)感知和文本推理能力的變化情況，下方是視覺(jué)感知能力提升的一個(gè)案例。

結(jié)論

研究提出了Game-RL以及游戲數(shù)據(jù)合成方法Code2Logic，構(gòu)建了GameQA數(shù)據(jù)集，將VLM強(qiáng)化訓(xùn)練領(lǐng)域拓展到游戲場(chǎng)景。

通過(guò)實(shí)驗(yàn)，研究團(tuán)隊(duì)驗(yàn)證了Game-RL能提升VLM的通用推理。

進(jìn)一步而言，也揭示了游戲場(chǎng)景可以提供多模態(tài)、可控、可驗(yàn)證數(shù)據(jù)，具有重要價(jià)值。

參考資料：

https://arxiv.org/abs/2505.13886

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.