本本研究由上海AI Lab前沿探索中心石博天老師帶領(lǐng)的數(shù)據(jù)前沿團隊、浙江大學(xué)EagleLab和上海創(chuàng)智學(xué)院等單位聯(lián)合完成。第一作者陳楊是浙江大學(xué)碩士生,研究方向為多模態(tài)大模型和推理,本工作完成于她在上海AI Lab實習(xí)期間,實習(xí)所在團隊以Agent-Ready的知識為核心,實現(xiàn)「提取->結(jié)構(gòu)化->推理」全鏈路,包括基于MLLM的文檔理解、基于異質(zhì)圖網(wǎng)絡(luò)的多模態(tài)知識表征、自主終身學(xué)習(xí)智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab,正在全身心探索下一代 MLLM 學(xué)習(xí)范式和高效的多模態(tài)智能體。論文的共同通訊作者于智是浙江大學(xué) EagleLab 副教授,曾任浙大 ACM 教練并執(zhí)教獲世界總冠軍。功成身退之后,長期致力于用 AI 改善殘障人群生活,在信息無障礙和人工智能領(lǐng)域有深厚造詣。
一個任務(wù)有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?
這,就是驗證非對稱性(Asymmetry of Verification)—— 一個古老但正在重塑 AI 未來的深刻原則。它的核心思想是:對很多任務(wù)而言,驗證一個解的好壞,遠比從頭創(chuàng)造一個解要容易得多
這一思想,正是近期從 OpenAI 跳槽至 Meta 的思維鏈(CoT)開山作者 Jason Wei 在其最新博客中提出的「驗證者法則」(Verifier's Law)的基石。他斷言:「所有可能被解決且易于驗證的任務(wù),都將被 AI 解決?!?/strong>
為什么?因為一個任務(wù)如果具備客觀真理、可快速驗證、可規(guī)?;炞C、低噪音、連續(xù)獎勵等特性,就相當(dāng)于為強化學(xué)習(xí)(RL)創(chuàng)造了一個完美的訓(xùn)練場。AI 可以在這個場中進行海量的、高效率的「猜測 - 檢驗」(guess-and-check),通過不斷的迭代優(yōu)化,最終逼近最優(yōu)解。
而這一法則的最佳實踐,已經(jīng)悄然出現(xiàn)在了多模態(tài)領(lǐng)域。上海AILAB和浙江大學(xué)EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美詮釋了如何利用「驗證的非對稱性」來攻克復(fù)雜的視覺推理難題。
- 論文標(biāo)題:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
- 論文地址:https://arxiv.org/pdf/2507.20766
RRVF:Image2code 的「驗證者法則」訓(xùn)練場
在傳統(tǒng) AI 訓(xùn)練中,我們依賴昂貴的「圖像 - 文本」配對數(shù)據(jù)來教模型進行視覺推理。這不僅成本高昂,而且很多時候限制了 AI 的創(chuàng)造力,例如使用特定的 code 來訓(xùn)練還原 image。
圖 1: RRVF vs 通用訓(xùn)練方法,只需輸入圖片,利用推理、渲染、反饋進行強化學(xué)習(xí)
RRVF 框架則另辟蹊徑,它沒有去教模型「怎么做」,而是構(gòu)建了一個讓模型可以自我驗證的環(huán)境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 視覺反饋),這三個詞精準地概括了其核心工作流。它構(gòu)建了一個端到端優(yōu)化的閉環(huán)系統(tǒng),讓模型在「自我糾正」中學(xué)習(xí)。
圖2: RRVF框架圖
第一步:迭代式視覺推理 (Iterative Visual Reasoning)
- 面對一張目標(biāo)圖像(如數(shù)據(jù)圖表),它會進行迭代式多輪思考。在每一輪,模型都會在 < think > 中先寫下自己的思考過程,然后調(diào)用外部工具進行渲染和獲取反饋,在后續(xù)輪次中根據(jù)反饋修正自己的代碼。
圖 3: 迭代視覺推理算法
第二步:視覺反饋 (Visual Feedback)
- 外部工具(如 Matplotlib 或 Playwright 瀏覽器)執(zhí)行代碼后,會渲染生成圖片。此時,一個更強大的「視覺裁判」模型(論文中使用了 72B 的 Qwen2.5-VL)會介入,對比渲染圖和原圖,并生成定性的、結(jié)構(gòu)化的自然語言反饋,例如:「圖表類型正確,但顏色不匹配」、「網(wǎng)頁布局基本正確,但缺少了一個按鈕」。這些反饋會作為新的輸入,指導(dǎo)模型進行下一輪的代碼修正。
第三步:視覺裁判 (Visual Judge) & 混合獎勵
- 在整個迭代過程結(jié)束后,模型會輸出最終的代碼。此時,「視覺裁判」會再次出場,但這次它扮演的是「法官」角色,給出一個定量的視覺相似度分數(shù)R_vision。
- 但僅僅有視覺分是不夠的。為了讓模型學(xué)得更好,研究者設(shè)計了混合獎勵函數(shù) (Hybrid Reward Design)
- 視覺相似度獎勵 (R_vision):核心獎勵,分數(shù)越高獎勵越大。
- 格式正確性獎勵 (R_format):代碼能否跑通?思考和工具調(diào)用的格式對不對?如果出錯,直接給予懲罰。
- 工具使用獎勵 (R_tool):為了鼓勵模型探索和使用反饋循環(huán),每次成功的工具調(diào)用都會獲得少量獎勵,直到模型表現(xiàn)得足夠好(視覺分超過 0.95)或達到最大次數(shù)。
這三個獎勵通過加權(quán)組合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),構(gòu)成最終的驅(qū)動力。
最后一步:GRPO 算法優(yōu)化
- 有了精確的獎勵信號,如何高效地更新模型?RRVF 采用了GRPO(Group Relative Policy Optimization)算法。相比傳統(tǒng)的 PPO,GRPO 更高效,它不需要一個獨立的價值函數(shù),而是通過對一組(論文中是 8 個)候選答案進行比較和打分,直接優(yōu)化策略。
這個設(shè)計,完美地將一個復(fù)雜的「代碼生成」任務(wù),轉(zhuǎn)化成了一個極易被驗證(視覺相似度)和優(yōu)化(混合獎勵 + GRPO)的工程問題。
圖 4:迭代推理的 case,模型一步步學(xué)會如何準確重建一張餅圖
實驗結(jié)果:驗證的力量,讓 7B 模型超越 72B 老師
RRVF 的實驗結(jié)果,有力地證明了「驗證者法則」的力量。模型基于Qwen2.5-VL-7B進行訓(xùn)練,并在圖表生成(ChartMimic, Plot2Code)和網(wǎng)頁生成(WebSight)三個數(shù)據(jù)集上進行了全面評測。
1. 性能碾壓:SFT 學(xué)的是「模仿」,RRVF 學(xué)的是「理解」
在 ChartMimic 上,傳統(tǒng)的監(jiān)督微調(diào)(SFT)雖然有標(biāo)準代碼答案,但執(zhí)行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下,代碼執(zhí)行率達到了97.83%,在其他各項指標(biāo)上均有明顯提升。這證明了 RRVF 真正理解了圖像的結(jié)構(gòu),而非死記硬背。
2. 「學(xué)生」超越「老師」:自學(xué)習(xí)效應(yīng)的驚人體現(xiàn)
出乎意料的是,通過 RRVF 訓(xùn)練的 7B 模型,最終的綜合得分(64.36)不僅遠超其基礎(chǔ)模型(38.17),甚至超越了在訓(xùn)練中為它提供反饋和評分的、更強大的 72B 模型(47.30)。這證明 RRVF 不是簡單的知識蒸餾,而是讓模型在自我探索中發(fā)現(xiàn)了比「老師」更優(yōu)的策略,實現(xiàn)了能力的「進化」。
3. 泛化能力:真學(xué)霸從不畏懼新考卷
為了考驗?zāi)P褪欠裾娴膶W(xué)到了通用能力,研究者在未訓(xùn)練的 Plot2Code 數(shù)據(jù)集上進行了零樣本測試。結(jié)果顯示,SFT 模型性能急劇下降(例如執(zhí)行率從 69% 暴跌至 49%),暴露出其「偏科」和「過擬合」的本質(zhì)。
相比之下,RRVF 模型的執(zhí)行率幾乎沒有衰減(例如執(zhí)行率從 97.83% 穩(wěn)定在 96.21%)。這強有力地證明,通過視覺反饋學(xué)習(xí)到的,是可遷移的、底層的視覺到代碼的生成邏輯。
這項研究是「驗證者法則」的一次響亮宣告。它告訴我們,未來 AI 發(fā)展的瓶頸,可能不在于模型本身有多大,而在于我們能否為 AI 想解決的任務(wù),設(shè)計出足夠簡單、高效的「驗證環(huán)境」。
一旦我們學(xué)會了如何將復(fù)雜問題轉(zhuǎn)化為易于驗證的問題,那么正如 Jason Wei 所預(yù)言的,一個智能的「鋸齒狀前沿」將會出現(xiàn):在所有可被清晰驗證的領(lǐng)域,AI 將展現(xiàn)出超乎想象的強大能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.