夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上海AI Lab與浙大EagleLab推出RRVF,助力視覺推理新突破。

0
分享至



本本研究由上海AI Lab前沿探索中心石博天老師帶領(lǐng)的數(shù)據(jù)前沿團隊、浙江大學(xué)EagleLab和上海創(chuàng)智學(xué)院等單位聯(lián)合完成。第一作者陳楊是浙江大學(xué)碩士生,研究方向為多模態(tài)大模型和推理,本工作完成于她在上海AI Lab實習(xí)期間,實習(xí)所在團隊以Agent-Ready的知識為核心,實現(xiàn)「提取->結(jié)構(gòu)化->推理」全鏈路,包括基于MLLM的文檔理解、基于異質(zhì)圖網(wǎng)絡(luò)的多模態(tài)知識表征、自主終身學(xué)習(xí)智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab,正在全身心探索下一代 MLLM 學(xué)習(xí)范式和高效的多模態(tài)智能體。論文的共同通訊作者于智是浙江大學(xué) EagleLab 副教授,曾任浙大 ACM 教練并執(zhí)教獲世界總冠軍。功成身退之后,長期致力于用 AI 改善殘障人群生活,在信息無障礙和人工智能領(lǐng)域有深厚造詣。

一個任務(wù)有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?

這,就是驗證非對稱性(Asymmetry of Verification)—— 一個古老但正在重塑 AI 未來的深刻原則。它的核心思想是:對很多任務(wù)而言,驗證一個解的好壞,遠比從頭創(chuàng)造一個解要容易得多

這一思想,正是近期從 OpenAI 跳槽至 Meta 的思維鏈(CoT)開山作者 Jason Wei 在其最新博客中提出的「驗證者法則」(Verifier's Law)的基石。他斷言:「所有可能被解決且易于驗證的任務(wù),都將被 AI 解決?!?/strong>

為什么?因為一個任務(wù)如果具備客觀真理、可快速驗證、可規(guī)?;炞C、低噪音、連續(xù)獎勵等特性,就相當(dāng)于為強化學(xué)習(xí)(RL)創(chuàng)造了一個完美的訓(xùn)練場。AI 可以在這個場中進行海量的、高效率的「猜測 - 檢驗」(guess-and-check),通過不斷的迭代優(yōu)化,最終逼近最優(yōu)解。

而這一法則的最佳實踐,已經(jīng)悄然出現(xiàn)在了多模態(tài)領(lǐng)域。上海AILAB和浙江大學(xué)EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美詮釋了如何利用「驗證的非對稱性」來攻克復(fù)雜的視覺推理難題。



  • 論文標(biāo)題:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
  • 論文地址:https://arxiv.org/pdf/2507.20766

RRVF:Image2code 的「驗證者法則」訓(xùn)練場

在傳統(tǒng) AI 訓(xùn)練中,我們依賴昂貴的「圖像 - 文本」配對數(shù)據(jù)來教模型進行視覺推理。這不僅成本高昂,而且很多時候限制了 AI 的創(chuàng)造力,例如使用特定的 code 來訓(xùn)練還原 image。



圖 1: RRVF vs 通用訓(xùn)練方法,只需輸入圖片,利用推理、渲染、反饋進行強化學(xué)習(xí)

RRVF 框架則另辟蹊徑,它沒有去教模型「怎么做」,而是構(gòu)建了一個讓模型可以自我驗證的環(huán)境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 視覺反饋),這三個詞精準地概括了其核心工作流。它構(gòu)建了一個端到端優(yōu)化的閉環(huán)系統(tǒng),讓模型在「自我糾正」中學(xué)習(xí)。



圖2: RRVF框架圖

第一步:迭代式視覺推理 (Iterative Visual Reasoning)

  • 面對一張目標(biāo)圖像(如數(shù)據(jù)圖表),它會進行迭代式多輪思考。在每一輪,模型都會在 < think > 中先寫下自己的思考過程,然后調(diào)用外部工具進行渲染和獲取反饋,在后續(xù)輪次中根據(jù)反饋修正自己的代碼。



圖 3: 迭代視覺推理算法

第二步:視覺反饋 (Visual Feedback)

  • 外部工具(如 Matplotlib 或 Playwright 瀏覽器)執(zhí)行代碼后,會渲染生成圖片。此時,一個更強大的「視覺裁判」模型(論文中使用了 72B 的 Qwen2.5-VL)會介入,對比渲染圖和原圖,并生成定性的、結(jié)構(gòu)化的自然語言反饋,例如:「圖表類型正確,但顏色不匹配」、「網(wǎng)頁布局基本正確,但缺少了一個按鈕」。這些反饋會作為新的輸入,指導(dǎo)模型進行下一輪的代碼修正。

第三步:視覺裁判 (Visual Judge) & 混合獎勵

  • 在整個迭代過程結(jié)束后,模型會輸出最終的代碼。此時,「視覺裁判」會再次出場,但這次它扮演的是「法官」角色,給出一個定量的視覺相似度分數(shù)R_vision。
  • 但僅僅有視覺分是不夠的。為了讓模型學(xué)得更好,研究者設(shè)計了混合獎勵函數(shù) (Hybrid Reward Design)
  • 視覺相似度獎勵 (R_vision):核心獎勵,分數(shù)越高獎勵越大。
  • 格式正確性獎勵 (R_format):代碼能否跑通?思考和工具調(diào)用的格式對不對?如果出錯,直接給予懲罰。
  • 工具使用獎勵 (R_tool):為了鼓勵模型探索和使用反饋循環(huán),每次成功的工具調(diào)用都會獲得少量獎勵,直到模型表現(xiàn)得足夠好(視覺分超過 0.95)或達到最大次數(shù)。

這三個獎勵通過加權(quán)組合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),構(gòu)成最終的驅(qū)動力。

最后一步:GRPO 算法優(yōu)化

  • 有了精確的獎勵信號,如何高效地更新模型?RRVF 采用了GRPO(Group Relative Policy Optimization)算法。相比傳統(tǒng)的 PPO,GRPO 更高效,它不需要一個獨立的價值函數(shù),而是通過對一組(論文中是 8 個)候選答案進行比較和打分,直接優(yōu)化策略。

這個設(shè)計,完美地將一個復(fù)雜的「代碼生成」任務(wù),轉(zhuǎn)化成了一個極易被驗證(視覺相似度)和優(yōu)化(混合獎勵 + GRPO)的工程問題。



圖 4:迭代推理的 case,模型一步步學(xué)會如何準確重建一張餅圖

實驗結(jié)果:驗證的力量,讓 7B 模型超越 72B 老師

RRVF 的實驗結(jié)果,有力地證明了「驗證者法則」的力量。模型基于Qwen2.5-VL-7B進行訓(xùn)練,并在圖表生成(ChartMimic, Plot2Code)和網(wǎng)頁生成(WebSight)三個數(shù)據(jù)集上進行了全面評測。







1. 性能碾壓:SFT 學(xué)的是「模仿」,RRVF 學(xué)的是「理解」

在 ChartMimic 上,傳統(tǒng)的監(jiān)督微調(diào)(SFT)雖然有標(biāo)準代碼答案,但執(zhí)行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下,代碼執(zhí)行率達到了97.83%,在其他各項指標(biāo)上均有明顯提升。這證明了 RRVF 真正理解了圖像的結(jié)構(gòu),而非死記硬背。

2. 「學(xué)生」超越「老師」:自學(xué)習(xí)效應(yīng)的驚人體現(xiàn)

出乎意料的是,通過 RRVF 訓(xùn)練的 7B 模型,最終的綜合得分(64.36)不僅遠超其基礎(chǔ)模型(38.17),甚至超越了在訓(xùn)練中為它提供反饋和評分的、更強大的 72B 模型(47.30)。這證明 RRVF 不是簡單的知識蒸餾,而是讓模型在自我探索中發(fā)現(xiàn)了比「老師」更優(yōu)的策略,實現(xiàn)了能力的「進化」。

3. 泛化能力:真學(xué)霸從不畏懼新考卷

為了考驗?zāi)P褪欠裾娴膶W(xué)到了通用能力,研究者在未訓(xùn)練的 Plot2Code 數(shù)據(jù)集上進行了零樣本測試。結(jié)果顯示,SFT 模型性能急劇下降(例如執(zhí)行率從 69% 暴跌至 49%),暴露出其「偏科」和「過擬合」的本質(zhì)。

相比之下,RRVF 模型的執(zhí)行率幾乎沒有衰減(例如執(zhí)行率從 97.83% 穩(wěn)定在 96.21%)。這強有力地證明,通過視覺反饋學(xué)習(xí)到的,是可遷移的、底層的視覺到代碼的生成邏輯。

這項研究是「驗證者法則」的一次響亮宣告。它告訴我們,未來 AI 發(fā)展的瓶頸,可能不在于模型本身有多大,而在于我們能否為 AI 想解決的任務(wù),設(shè)計出足夠簡單、高效的「驗證環(huán)境」。

一旦我們學(xué)會了如何將復(fù)雜問題轉(zhuǎn)化為易于驗證的問題,那么正如 Jason Wei 所預(yù)言的,一個智能的「鋸齒狀前沿」將會出現(xiàn):在所有可被清晰驗證的領(lǐng)域,AI 將展現(xiàn)出超乎想象的強大能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
電影《蛟龍行動(特別版)》定檔8月30日,票房失利后再戰(zhàn)院線

電影《蛟龍行動(特別版)》定檔8月30日,票房失利后再戰(zhàn)院線

IT之家
2025-08-11 10:24:09
亞馬爾第二!最新金球獎賠率出爐,姆巴佩第七,C羅順利上榜

亞馬爾第二!最新金球獎賠率出爐,姆巴佩第七,C羅順利上榜

祥談體育
2025-08-11 19:17:09
2投0中砍0分0板!李月汝又被WNBA拋棄了:女籃王牌被邊緣化?

2投0中砍0分0板!李月汝又被WNBA拋棄了:女籃王牌被邊緣化?

籃球快餐車
2025-08-11 15:11:06
善惡終有報!國家一級演員丁勇岱出事?網(wǎng)友翻出金星舊預(yù)言:一語成讖?

善惡終有報!國家一級演員丁勇岱出事?網(wǎng)友翻出金星舊預(yù)言:一語成讖?

鄉(xiāng)野小珥
2025-08-12 00:19:07
首屆青運會陳妤頡11秒29百米奪冠 平個人最好成績碾壓式登頂

首屆青運會陳妤頡11秒29百米奪冠 平個人最好成績碾壓式登頂

勁爆體壇
2025-08-11 21:22:28
美國不愿為烏克蘭掏錢了,北約稱,俄羅斯控制侵占領(lǐng)土難免

美國不愿為烏克蘭掏錢了,北約稱,俄羅斯控制侵占領(lǐng)土難免

萍聚德國
2025-08-12 00:04:18
2025年了,還有人完全依賴撥號上網(wǎng)

2025年了,還有人完全依賴撥號上網(wǎng)

電腦報
2025-08-11 18:46:45
迪亞斯:我和梅西一起成為最佳射手!這是歷史的一部分!

迪亞斯:我和梅西一起成為最佳射手!這是歷史的一部分!

氧氣是個地鐵
2025-08-11 11:00:14
歌頌苦難的人,正是苦難的締造者

歌頌苦難的人,正是苦難的締造者

律法刑道
2025-08-06 09:38:45
破案了!鹿晗關(guān)曉彤“小鹿甜筒”掛件暗藏玄機,這波低調(diào)糖我嗑哭了!

破案了!鹿晗關(guān)曉彤“小鹿甜筒”掛件暗藏玄機,這波低調(diào)糖我嗑哭了!

動物奇奇怪怪
2025-08-12 01:12:42
巴基斯坦請印度打擂臺  敢不敢把殲10和陣風(fēng)拉出來直播

巴基斯坦請印度打擂臺 敢不敢把殲10和陣風(fēng)拉出來直播

洪超飛軍事
2025-08-11 23:11:28
原子彈炸后百年內(nèi)寸草不生,今廣島卻住滿了人,看看專家怎么說?

原子彈炸后百年內(nèi)寸草不生,今廣島卻住滿了人,看看專家怎么說?

阿器談史
2025-08-11 19:59:37
毛主席的稿費到底有多少?2013年“管家”吳連登道出不為人知真相

毛主席的稿費到底有多少?2013年“管家”吳連登道出不為人知真相

冰雅憶史
2025-08-04 08:24:30
網(wǎng)曝宗慶后猛料!13年被砍是出軌被抓,宗馥莉為此扇杜建英一巴掌

網(wǎng)曝宗慶后猛料!13年被砍是出軌被抓,宗馥莉為此扇杜建英一巴掌

史書無明
2025-07-21 14:16:21
輕斷食再立功!北京大學(xué)最新:限時飲食可幫助控糖,只需3個月,效果可持續(xù)一年

輕斷食再立功!北京大學(xué)最新:限時飲食可幫助控糖,只需3個月,效果可持續(xù)一年

醫(yī)諾維
2025-08-11 17:08:37
深圳首家免稅店8月底開業(yè)

深圳首家免稅店8月底開業(yè)

界面新聞
2025-08-11 10:12:55
又不能潤滑,又不能加進發(fā)動機,大貨車天天加的尿素是干嘛用的?

又不能潤滑,又不能加進發(fā)動機,大貨車天天加的尿素是干嘛用的?

全金貓眼
2025-08-11 15:55:08
恭喜大巴黎!22歲天才官宣!5年長約+頂級薪水,未來10年無憂

恭喜大巴黎!22歲天才官宣!5年長約+頂級薪水,未來10年無憂

阿泰希特
2025-08-11 11:20:35
媒體人:昨天澳大利亞和卡塔爾的比賽入場觀眾39人 就離譜

媒體人:昨天澳大利亞和卡塔爾的比賽入場觀眾39人 就離譜

直播吧
2025-08-11 15:26:05
第二波罷免風(fēng)云再起,韓國瑜洪秀柱發(fā)聲,館長向黃智賢發(fā)起較量

第二波罷免風(fēng)云再起,韓國瑜洪秀柱發(fā)聲,館長向黃智賢發(fā)起較量

貓眼觀史
2025-08-11 00:16:26
2025-08-12 02:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11061文章數(shù) 142415關(guān)注度
往期回顧 全部

科技要聞

馬斯克xAI官宣:Grok 4向用戶免費開放!

頭條要聞

三架飛機在俄羅斯被扣 山河智能:收到1.6億保險賠款

頭條要聞

三架飛機在俄羅斯被扣 山河智能:收到1.6億保險賠款

體育要聞

戰(zhàn)勝王楚欽 張本智賽后脫衣瘋狂慶祝

娛樂要聞

姚笛疑似坐文章副駕?再回看當(dāng)年

財經(jīng)要聞

增值稅法實施條例征求意見 有哪些看點?

汽車要聞

綜合續(xù)航超1500km 智己LS9續(xù)航信息曝光

態(tài)度原創(chuàng)

房產(chǎn)
健康
手機
數(shù)碼
家居

房產(chǎn)要聞

重磅!海南安居房擬出新政!申購條件,交易時間大幅調(diào)整!

呼吸科專家破解呼吸道九大謠言!

手機要聞

學(xué)生買蘋果怎么最便宜?

數(shù)碼要聞

vivo Vision官方預(yù)熱,真的要來啦

家居要聞

現(xiàn)代溫馨 灰咖營造現(xiàn)代感

無障礙瀏覽 進入關(guān)懷版 国产性夜夜春夜夜爽1a片| 91丝袜精品久久久久久无码人妻| 丁香激情五月婷婷| 内射东北熟女| 久久久四虎成人永久免费网站| 国产黄色av| 色婷婷丁香九月激情综合视频 | 一本色道久久88综合亚洲精品| 少妇高潮惨叫久久久久久电影| 一区二区三区资源在线观看| 岳双腿间已经湿成一片视频| 99国产精品久久久蜜芽| 精品久久久久久成人影院免费| 完美搭档国产精品久久久久久女人| 中文字幕无线码中文字幕| 亚洲最大的福利视频| 成人国产亚洲精品天堂av| 五月天激情小说| 欧美一区二区在线播放| 亚洲成a人片在线视频| www,色哟哟| 40岁大乳的熟妇在线观看| 韩国精品一区| 咪咪av电影一区二区三区| 伊人777影院| 色噜噜人妻丝袜aV先锋影音先| 亚洲欧美综合在线天堂| 国产日本欧美在线视频一区| 丰满人妻性爱视频| 国产精品vⅰdeoxxxx国产| 特级毛片在线大全免费播放| 国产精品久久久一区二区三区| 激情黄色小说视频| 熟女69714| 国产对白国语对白| 国乒女团1比3日本获亚军| 女同性恋一区二区三区视频| 久久久久久亚洲综合影院| 一本色道久久88加勒比—综合 | 99人妻在线| 午夜精品久久久久久99热|