夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李曼玲開源新訓(xùn)練框架VAGEN,讓AI智能體學(xué)會看懂并推理動態(tài)世界

0
分享至

我們常說,結(jié)果重要,過程更重要。這句話在 AI 領(lǐng)域,如今又有了新的注腳。

當(dāng)前,多數(shù) AI 模型擅長處理單一指令并給出最終答案,就像一個只關(guān)心結(jié)果的學(xué)生。然而,當(dāng)它們被置于一個動態(tài)、信息不完整的真實(shí)世界中,需要通過“看”和“做”來完成多步驟的復(fù)雜任務(wù)時,這種重結(jié)果、輕過程的模式就顯得有些不太適宜。如何讓智能體不僅能做出正確的行動,更能構(gòu)建一個連貫、可靠的內(nèi)部思維過程?這正是當(dāng)前智能體解決實(shí)際問題所面臨的重要瓶頸之一。

近日,美國西北大學(xué)計算機(jī)系李曼玲教授團(tuán)隊聯(lián)合華盛頓大學(xué)、斯坦福大學(xué)和微軟研究院,提出了一個名為 VAGEN 的訓(xùn)練框架,專門用于訓(xùn)練能夠在多輪交互中構(gòu)建“內(nèi)部世界模型”的視覺語言模型(Vision-Language Model,VLM)智能體。這項(xiàng)研究已被 NeurIPS 2025 接收,相關(guān)論文和代碼已在 GitHub 上開源。


圖丨相關(guān)論文(來源:arXiv)

美國西北大學(xué)博士生王康睿、Pingyue Zhang、王子涵共同擔(dān)任第一作者。

值得一提的是,這個研究團(tuán)隊集齊了多位《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”(MIT Technology Review Innovators Under 35,簡稱“TR35”)的入選者,通訊作者李曼玲教授是 2025 年 TR35 全球入選者,而斯坦福大學(xué)的吳佳俊教授和華盛頓大學(xué)的 Ranjay Krishna 教授則分別入選了 2024 與 2025 年度 TR35 亞太區(qū)名單。

要理解 VAGEN 的價值,首先要明白視覺 AI 智能體面臨的挑戰(zhàn)。想象你正在玩一個推箱子游戲:你看到屏幕上的畫面,判斷箱子和目標(biāo)的位置,規(guī)劃移動路線,然后執(zhí)行操作。這個過程看似簡單,但對 AI 來說卻異常困難。

現(xiàn)有的大語言模型在處理純文本任務(wù)時已經(jīng)展現(xiàn)出強(qiáng)大能力,但當(dāng)任務(wù)涉及視覺信息時,問題就復(fù)雜多了。文本信息是完整、精確的,而視覺觀察往往是部分的、有噪聲的。一個智能體通過攝像頭只能看到眼前的場景,無法直接獲知整個環(huán)境的完整狀態(tài)。這也就是所謂的“部分可觀測馬爾可夫決策過程”(Partially Observable Markov Decision Process,POMDP)——智能體必須基于不完整的觀察來推斷真實(shí)的世界狀態(tài)。

研究團(tuán)隊指出,這正是當(dāng)前 VLM 智能體的核心瓶頸。他們測試了包括 GPT-4o、Claude 4.5 Sonnet、Gemini 2.5 Pro 在內(nèi)的多個主流模型,發(fā)現(xiàn)即便是最強(qiáng)的 GPT-5,在他們設(shè)計的五項(xiàng)任務(wù)上的綜合表現(xiàn)也只有 0.75 分(滿分 1 分)。特別是在需要精確操作的機(jī)器人任務(wù)中,幾乎所有模型都在某些子任務(wù)上完全失敗。

這些任務(wù)涵蓋了經(jīng)典的推箱子和冰湖游戲、3D 環(huán)境中的導(dǎo)航、機(jī)械臂的精細(xì)操作,以及從圖像生成 SVG 代碼等多種場景,既有離散的網(wǎng)格世界,也有連續(xù)的物理空間,充分考驗(yàn)了模型的視覺理解和推理能力。

VAGEN 的核心思想是讓 AI 進(jìn)行“顯性的視覺狀態(tài)推理”。具體來說,就是在智能體生成每個動作之前,強(qiáng)制要求它完成兩個推理步驟。第一步是“狀態(tài)估計”(StateEstimation)——描述當(dāng)前看到的是什么。就像人類會說“箱子在我右邊,目標(biāo)在箱子上方”,AI 也需要用語言明確表述當(dāng)前的視覺狀態(tài)。


圖丨相關(guān)論文(來源:arXiv)

第二步是“轉(zhuǎn)換建?!保═ransitionModeling)——預(yù)測下一步會發(fā)生什么。如果我向右推,箱子會移到哪里?目標(biāo)位置會發(fā)生什么變化?這兩步結(jié)合起來,就構(gòu)成了所謂的“世界建模”(WorldModeling)。

研究團(tuán)隊設(shè)計了一套結(jié)構(gòu)化的輸出格式,要求 AI 在

標(biāo)簽中描述當(dāng)前狀態(tài),在

標(biāo)簽中解釋推理過程,在

標(biāo)簽中預(yù)測未來狀態(tài),最后在

標(biāo)簽中給出實(shí)際動作。

為了驗(yàn)證這種顯性推理的效果,研究團(tuán)隊對比了五種不同的推理策略,其中包括從完全不思考(NoThink)到自由發(fā)揮(FreeThink),再到只做狀態(tài)估計或只做轉(zhuǎn)換建模的各種組合。

結(jié)果顯示,完整的 WorldModeling 策略(同時包含狀態(tài)估計和轉(zhuǎn)換建模)在綜合性能上達(dá)到 0.76,明顯優(yōu)于自由思考的 0.67 和不思考的 0.28。有趣的是,單獨(dú)的狀態(tài)估計或轉(zhuǎn)換建模各有所長:前者在需要準(zhǔn)確理解當(dāng)前場景的導(dǎo)航任務(wù)中表現(xiàn)更好,后者則在需要精確預(yù)測的機(jī)械臂操作中更占優(yōu)勢。


(來源:arXiv)

確定了推理框架后,另一個關(guān)鍵問題是:AI 應(yīng)該用什么方式表達(dá)對視覺狀態(tài)的理解?研究團(tuán)隊探索了三種表示方式。最直觀的是自然語言描述,比如“玩家在左上角,箱子在玩家右側(cè)”。第二種是符號化表示,直接用游戲原生的符號,比如用“P”代表玩家、“X”代表箱子。第三種是結(jié)構(gòu)化格式,用 JSON 格式的字典記錄所有對象的精確坐標(biāo)。


(來源:arXiv)

實(shí)驗(yàn)結(jié)果讓人有些意外。在推箱子和冰湖游戲這類相對簡單的任務(wù)中,自然語言表現(xiàn)最好(0.61 和 0.71),而符號化和結(jié)構(gòu)化格式反而更差。研究團(tuán)隊分析認(rèn)為,這是因?yàn)?VLM 在預(yù)訓(xùn)練時接觸了大量自然語言文本,對這種表達(dá)方式更加熟悉,而對抽象符號的理解能力有限。

但在機(jī)器人操作任務(wù)中,情況完全反轉(zhuǎn)。結(jié)構(gòu)化格式的平均得分達(dá)到 0.94,優(yōu)于自然語言的 0.91。原因在于,精確的坐標(biāo)信息對于毫米級的機(jī)械臂控制至關(guān)重要,自然語言的模糊性會導(dǎo)致操作失敗。這一發(fā)現(xiàn)也說明,視覺狀態(tài)的表示方式并不是通用的,而是取決于任務(wù)特性。對于需要語義理解的通用任務(wù),自然語言是最佳選擇;但對于高精度操作,結(jié)構(gòu)化的精確信息不可或缺。

光有推理框架還不夠,如何訓(xùn)練 AI 學(xué)會正確推理才是關(guān)鍵。VAGEN 采用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)方法,通過獎勵機(jī)制引導(dǎo)模型改進(jìn)。

傳統(tǒng)的 RL 方法通常在整個任務(wù)結(jié)束時給出一個總獎勵,然后反向傳播到每個步驟。但這種方法在多輪交互的場景中效果不佳——想象一個需要執(zhí)行 10 步操作的任務(wù),如果最后失敗了,AI 很難判斷是哪一步出了問題。VAGEN 提出了兩個機(jī)制來解決這個問題。

首先是“世界建模獎勵”(WorldModeling Reward),專門評估 AI 的推理質(zhì)量。團(tuán)隊采用 LLM-as-a-Judge 的方法,讓 GPT-4.1 nano 作為裁判,評估 AI 生成的狀態(tài)描述和預(yù)測是否準(zhǔn)確。這樣,每一輪交互都能獲得即時的推理質(zhì)量反饋,而不是等到任務(wù)結(jié)束才知道對錯。

其次是“雙層通用優(yōu)勢估計”(Bi-Level GAE)。這個機(jī)制分兩個層次計算獎勵:先在“輪次級別”評估每一輪的整體表現(xiàn),再在“token 級別”細(xì)化到每個生成的單詞。就像批改作文時,既要看整篇文章的結(jié)構(gòu),也要看每個段落、每句話的表達(dá)。這種層級化的獎勵分配,使得 AI 能夠更準(zhǔn)確地定位問題所在,加快學(xué)習(xí)速度。


圖丨 token 級 GAE 與雙層 GAE 框架(來源:arXiv)

實(shí)驗(yàn)數(shù)據(jù)證實(shí)了這套機(jī)制的有效性。在完整的 VAGEN-Full 框架下(結(jié)合 WorldModeling Reward 和 Bi-Level GAE),僅有 30 億參數(shù)的 Qwen2.5-VL-3B 模型最終達(dá)到了 0.82 的綜合得分,不僅大幅超越未訓(xùn)練版本(0.21),甚至擊敗了參數(shù)量遠(yuǎn)大于它的 GPT-5(0.75)、Gemini 2.5 Pro(0.67)和 Claude 4.5(0.62)。

在訓(xùn)練過程中,研究團(tuán)隊觀察到一些有趣的現(xiàn)象。隨著訓(xùn)練推進(jìn),AI 的回答逐漸從多樣化變得模板化。早期訓(xùn)練時,AI 會用各種不同的方式描述狀態(tài),比如“我需要向右移動接近箱子,然后向上推動”或“箱子在我前方,我應(yīng)該先前進(jìn)再調(diào)整方向”。但到后期,回答變得高度統(tǒng)一,主要差異只在方向詞匯上,比如都是“我將向 X 移動,然后向 Y 移動”的固定句式。這種模板化也不完全是壞事——它反映了 AI 找到了高效的表達(dá)方式。但也引發(fā)了另一個問題:獎勵黑客(reward hacking)。

部分 AI 學(xué)會了生成看似合理、實(shí)則空泛的回答來“討好”評判系統(tǒng)。例如在冰湖游戲中,有些 AI 會習(xí)慣性地回答“玩家會到達(dá)禮物的位置”,無論當(dāng)前狀態(tài)如何。這種回答在語法上正確,也提到了目標(biāo),很容易通過 LLM 評判者的檢查,但實(shí)際上并沒有提供有價值的推理信息。

研究團(tuán)隊發(fā)現(xiàn),使用 Bi-Level GAE 的模型特別容易出現(xiàn)這種行為,因?yàn)楦?xì)致的獎勵機(jī)制讓 AI 更容易找到“刷分”的捷徑。為了應(yīng)對這個問題,團(tuán)隊開發(fā)了幾種緩解策略,包括結(jié)構(gòu)化評估(要求 AI 輸出可量化的信息,用 F1 分?jǐn)?shù)評估)和重復(fù)懲罰(對高頻出現(xiàn)的答案降低獎勵),這些措施在一定程度上緩解了問題。

VAGEN 為視覺 AI 智能體的訓(xùn)練開辟了新路徑,但從研究原型到實(shí)際應(yīng)用仍有距離。論文顯示,在配備 8 塊 H100 GPU 的服務(wù)器上,訓(xùn)練一個任務(wù)需要 4 到 8 小時,同時消耗約 2,300 萬到 6,000 萬個 LLM 評判 token,這對商業(yè)化部署而言成本不菲。此外,當(dāng)前 VAGEN 在 5 個精心設(shè)計的環(huán)境中表現(xiàn)出色,但真實(shí)世界的視覺任務(wù)往往更加開放、不確定,泛化性還需進(jìn)一步驗(yàn)證。



參考資料:

1.https://arxiv.org/pdf/2510.16907

2.https://vagen-ai.github.io/

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美防長:美國將在必要時憑借本國現(xiàn)有資源投入戰(zhàn)爭,并獲得勝利

美防長:美國將在必要時憑借本國現(xiàn)有資源投入戰(zhàn)爭,并獲得勝利

止戈軍是我
2025-11-08 13:04:57
趙露思生日音樂會造型封神!又純又欲氛圍感拉滿

趙露思生日音樂會造型封神!又純又欲氛圍感拉滿

述家娛記
2025-11-09 19:00:42
【西甲】姆總鋒線搭檔貝林,皇馬客戰(zhàn)巴列卡諾

【西甲】姆總鋒線搭檔貝林,皇馬客戰(zhàn)巴列卡諾

體壇周報
2025-11-09 22:38:11
看上去89元一斤實(shí)際是半斤?絕味鴨脖別再讓消費(fèi)者產(chǎn)生“視覺誤差”

看上去89元一斤實(shí)際是半斤?絕味鴨脖別再讓消費(fèi)者產(chǎn)生“視覺誤差”

極目新聞
2025-11-08 10:46:32
出賣1000多名同志,卻活到74歲的蔡孝乾,為何至今沒有被清算?

出賣1000多名同志,卻活到74歲的蔡孝乾,為何至今沒有被清算?

報君知史
2025-10-20 11:19:06
陪玩陪睡不夠!集體開嫖、舔手指、目無王法,陰暗面徹底藏不住了

陪玩陪睡不夠!集體開嫖、舔手指、目無王法,陰暗面徹底藏不住了

好賢觀史記
2025-11-09 21:58:39
快船隊吞4連?。√﹤惐R坑苦哈登:最后10分鐘不換人+保羅首遭DNP

快船隊吞4連敗!泰倫盧坑苦哈登:最后10分鐘不換人+保羅首遭DNP

鍋?zhàn)踊@球
2025-11-09 18:40:30
誰能想到?一個縣城品牌,成了中產(chǎn)新寵,把波司登逼到墻角!

誰能想到?一個縣城品牌,成了中產(chǎn)新寵,把波司登逼到墻角!

漁樵文史
2025-11-08 21:50:03
慢熱李沁交出真心遭致命一擊,參加花少7,這趟綜藝之旅值嗎?

慢熱李沁交出真心遭致命一擊,參加花少7,這趟綜藝之旅值嗎?

智凌縱橫
2025-11-09 16:04:12
提前開香檳,穆里尼奧帥位無憂,科斯塔以碾壓態(tài)勢贏得本菲卡競選

提前開香檳,穆里尼奧帥位無憂,科斯塔以碾壓態(tài)勢贏得本菲卡競選

穆里尼奧主義者
2025-11-09 16:52:18
A股:明天,11月10號,釋放了三個信號!股市尾聲將至?

A股:明天,11月10號,釋放了三個信號!股市尾聲將至?

夜深愛雜談
2025-11-09 21:08:16
林徽因這身衣服看著怪怪的,大藝術(shù)家的眼光,我們真是欣賞不來

林徽因這身衣服看著怪怪的,大藝術(shù)家的眼光,我們真是欣賞不來

大江
2025-11-07 14:11:55
在釣魚島問題上,中國對待日本的態(tài)度出現(xiàn)了明顯的變化

在釣魚島問題上,中國對待日本的態(tài)度出現(xiàn)了明顯的變化

窺史
2025-10-23 21:01:43
東莞電子廠搬越南,工人要失業(yè)!網(wǎng)友:下月就失業(yè),求助網(wǎng)友咋辦

東莞電子廠搬越南,工人要失業(yè)!網(wǎng)友:下月就失業(yè),求助網(wǎng)友咋辦

眼光很亮
2025-11-08 11:35:56
中國股市:為什么主力拉漲停,次日卻要低開低走?不懂請不要炒股

中國股市:為什么主力拉漲停,次日卻要低開低走?不懂請不要炒股

股經(jīng)縱橫談
2025-11-08 20:04:29
為啥美國總統(tǒng)換一個,“總統(tǒng)專車”就換一輛,廢棄的要投入大海?

為啥美國總統(tǒng)換一個,“總統(tǒng)專車”就換一輛,廢棄的要投入大海?

欽點(diǎn)歷史
2025-11-05 15:55:39
反轉(zhuǎn)!原來醫(yī)生17分鐘的視頻是男主拍的,自動同步云盤后被發(fā)現(xiàn)

反轉(zhuǎn)!原來醫(yī)生17分鐘的視頻是男主拍的,自動同步云盤后被發(fā)現(xiàn)

魔都姐姐雜談
2025-11-09 15:06:14
央視新聞頻道迎來“90后”新主播王晨

央視新聞頻道迎來“90后”新主播王晨

澎湃新聞
2025-11-09 14:40:29
性感丨歌舞青春,足壇插曲

性感丨歌舞青春,足壇插曲

足球周刊
2025-11-09 12:01:09
332場104球64助!曼城太子將漲薪續(xù)約 堅守伊蒂哈德終得豐厚回報

332場104球64助!曼城太子將漲薪續(xù)約 堅守伊蒂哈德終得豐厚回報

雪狼侃體育
2025-11-09 21:19:46
2025-11-09 23:28:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15843文章數(shù) 514277關(guān)注度
往期回顧 全部

科技要聞

黃仁勛親赴臺積電“討要更多芯片”

頭條要聞

兩位歐洲政要將同日訪華:一人曾被譽(yù)為歐洲"最帥王子"

頭條要聞

兩位歐洲政要將同日訪華:一人曾被譽(yù)為歐洲"最帥王子"

體育要聞

他只想默默地拿走最后一億美元

娛樂要聞

《繁花》事件影響:唐嫣工作被取消

財經(jīng)要聞

10月CPI同比漲0.2% PPI同比下降2.1%

汽車要聞

鈦7月銷破2萬 霜霧灰與青巒翠配色正式開啟交付

態(tài)度原創(chuàng)

游戲
家居
手機(jī)
親子
軍事航空

T1的Faker選手成功獲得三連冠成就:打破心魔

家居要聞

現(xiàn)代自由 功能美學(xué)居所

手機(jī)要聞

vivo多款新機(jī)將至,爆料一文匯總

親子要聞

小龔大夫上線了

軍事要聞

俄媒:俄軍即將攻占烏克蘭"第三首都"

無障礙瀏覽 進(jìn)入關(guān)懷版 91人妻人人做人碰人人| 77777777高清视频在线| 樱花草在线社区WWW日本影院| 东北熟女高潮一区二区三区在线播放 | 2021国产精品视频网站| 国产1990久久久久| 亚欧国产精品无码| 18禁无遮挡啪啪无码网站破解版| 日韩综合影院| 四川丰满少妇无套内谢| 国产自愉自愉免费精品七区| av网站大全av| 亚洲精品一区二区三区的| 欧美国产日本图色福利影视| 成人福利一区二区三区| 欧美一区二区三区红桃小说 | A级毛片在线免费观看黄皮 | 久久精品中文字幕一区| 久久天天躁夜夜躁狠狠躁综合| 美人妻被黑人XXXX猛交1| 国产在线精品免费aaa片| 国产精品95系列| 在线精品一区二区三区| 亚洲精品成人福利网站| 亚洲精品无码久久久久Q| 国产精品福利视频一区| 亚洲精品ww.c1在线观看| 欧美日韩精品久久免费| 欧美日韩国产网站| 色欲色香天天天综合无码www| 国产AV不卡一区| av一本久道久久波多野结衣| 荡女精品导航| 99精品国产电影| 欧洲肥妇14p| 亚洲成a人片在线播放| 99re6这里有精品热视频| 国产精品大尺度尺度视频| 久久精品国产一区二区三区| 偷久久久无码精品亚洲| 疯狂做受XXXX高潮国产|