夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李曼玲開源新訓(xùn)練框架VAGEN,讓AI智能體學(xué)會看懂并推理動態(tài)世界

0
分享至

我們常說,結(jié)果重要,過程更重要。這句話在 AI 領(lǐng)域,如今又有了新的注腳。

當(dāng)前,多數(shù) AI 模型擅長處理單一指令并給出最終答案,就像一個(gè)只關(guān)心結(jié)果的學(xué)生。然而,當(dāng)它們被置于一個(gè)動態(tài)、信息不完整的真實(shí)世界中,需要通過“看”和“做”來完成多步驟的復(fù)雜任務(wù)時(shí),這種重結(jié)果、輕過程的模式就顯得有些不太適宜。如何讓智能體不僅能做出正確的行動,更能構(gòu)建一個(gè)連貫、可靠的內(nèi)部思維過程?這正是當(dāng)前智能體解決實(shí)際問題所面臨的重要瓶頸之一。

近日,美國西北大學(xué)計(jì)算機(jī)系李曼玲教授團(tuán)隊(duì)聯(lián)合華盛頓大學(xué)、斯坦福大學(xué)和微軟研究院,提出了一個(gè)名為 VAGEN 的訓(xùn)練框架,專門用于訓(xùn)練能夠在多輪交互中構(gòu)建“內(nèi)部世界模型”的視覺語言模型(Vision-Language Model,VLM)智能體。這項(xiàng)研究已被 NeurIPS 2025 接收,相關(guān)論文和代碼已在 GitHub 上開源。


圖丨相關(guān)論文(來源:arXiv)

美國西北大學(xué)博士生王康睿、Pingyue Zhang、王子涵共同擔(dān)任第一作者。

值得一提的是,這個(gè)研究團(tuán)隊(duì)集齊了多位《麻省理工科技評論》“35 歲以下科技創(chuàng)新 35 人”(MIT Technology Review Innovators Under 35,簡稱“TR35”)的入選者,通訊作者李曼玲教授是 2025 年 TR35 全球入選者,而斯坦福大學(xué)的吳佳俊教授和華盛頓大學(xué)的 Ranjay Krishna 教授則分別入選了 2024 與 2025 年度 TR35 亞太區(qū)名單。

要理解 VAGEN 的價(jià)值,首先要明白視覺 AI 智能體面臨的挑戰(zhàn)。想象你正在玩一個(gè)推箱子游戲:你看到屏幕上的畫面,判斷箱子和目標(biāo)的位置,規(guī)劃移動路線,然后執(zhí)行操作。這個(gè)過程看似簡單,但對 AI 來說卻異常困難。

現(xiàn)有的大語言模型在處理純文本任務(wù)時(shí)已經(jīng)展現(xiàn)出強(qiáng)大能力,但當(dāng)任務(wù)涉及視覺信息時(shí),問題就復(fù)雜多了。文本信息是完整、精確的,而視覺觀察往往是部分的、有噪聲的。一個(gè)智能體通過攝像頭只能看到眼前的場景,無法直接獲知整個(gè)環(huán)境的完整狀態(tài)。這也就是所謂的“部分可觀測馬爾可夫決策過程”(Partially Observable Markov Decision Process,POMDP)——智能體必須基于不完整的觀察來推斷真實(shí)的世界狀態(tài)。

研究團(tuán)隊(duì)指出,這正是當(dāng)前 VLM 智能體的核心瓶頸。他們測試了包括 GPT-4o、Claude 4.5 Sonnet、Gemini 2.5 Pro 在內(nèi)的多個(gè)主流模型,發(fā)現(xiàn)即便是最強(qiáng)的 GPT-5,在他們設(shè)計(jì)的五項(xiàng)任務(wù)上的綜合表現(xiàn)也只有 0.75 分(滿分 1 分)。特別是在需要精確操作的機(jī)器人任務(wù)中,幾乎所有模型都在某些子任務(wù)上完全失敗。

這些任務(wù)涵蓋了經(jīng)典的推箱子和冰湖游戲、3D 環(huán)境中的導(dǎo)航、機(jī)械臂的精細(xì)操作,以及從圖像生成 SVG 代碼等多種場景,既有離散的網(wǎng)格世界,也有連續(xù)的物理空間,充分考驗(yàn)了模型的視覺理解和推理能力。

VAGEN 的核心思想是讓 AI 進(jìn)行“顯性的視覺狀態(tài)推理”。具體來說,就是在智能體生成每個(gè)動作之前,強(qiáng)制要求它完成兩個(gè)推理步驟。第一步是“狀態(tài)估計(jì)”(StateEstimation)——描述當(dāng)前看到的是什么。就像人類會說“箱子在我右邊,目標(biāo)在箱子上方”,AI 也需要用語言明確表述當(dāng)前的視覺狀態(tài)。


圖丨相關(guān)論文(來源:arXiv)

第二步是“轉(zhuǎn)換建?!保═ransitionModeling)——預(yù)測下一步會發(fā)生什么。如果我向右推,箱子會移到哪里?目標(biāo)位置會發(fā)生什么變化?這兩步結(jié)合起來,就構(gòu)成了所謂的“世界建模”(WorldModeling)。

研究團(tuán)隊(duì)設(shè)計(jì)了一套結(jié)構(gòu)化的輸出格式,要求 AI 在

標(biāo)簽中描述當(dāng)前狀態(tài),在

標(biāo)簽中解釋推理過程,在

標(biāo)簽中預(yù)測未來狀態(tài),最后在

標(biāo)簽中給出實(shí)際動作。

為了驗(yàn)證這種顯性推理的效果,研究團(tuán)隊(duì)對比了五種不同的推理策略,其中包括從完全不思考(NoThink)到自由發(fā)揮(FreeThink),再到只做狀態(tài)估計(jì)或只做轉(zhuǎn)換建模的各種組合。

結(jié)果顯示,完整的 WorldModeling 策略(同時(shí)包含狀態(tài)估計(jì)和轉(zhuǎn)換建模)在綜合性能上達(dá)到 0.76,明顯優(yōu)于自由思考的 0.67 和不思考的 0.28。有趣的是,單獨(dú)的狀態(tài)估計(jì)或轉(zhuǎn)換建模各有所長:前者在需要準(zhǔn)確理解當(dāng)前場景的導(dǎo)航任務(wù)中表現(xiàn)更好,后者則在需要精確預(yù)測的機(jī)械臂操作中更占優(yōu)勢。


(來源:arXiv)

確定了推理框架后,另一個(gè)關(guān)鍵問題是:AI 應(yīng)該用什么方式表達(dá)對視覺狀態(tài)的理解?研究團(tuán)隊(duì)探索了三種表示方式。最直觀的是自然語言描述,比如“玩家在左上角,箱子在玩家右側(cè)”。第二種是符號化表示,直接用游戲原生的符號,比如用“P”代表玩家、“X”代表箱子。第三種是結(jié)構(gòu)化格式,用 JSON 格式的字典記錄所有對象的精確坐標(biāo)。


(來源:arXiv)

實(shí)驗(yàn)結(jié)果讓人有些意外。在推箱子和冰湖游戲這類相對簡單的任務(wù)中,自然語言表現(xiàn)最好(0.61 和 0.71),而符號化和結(jié)構(gòu)化格式反而更差。研究團(tuán)隊(duì)分析認(rèn)為,這是因?yàn)?VLM 在預(yù)訓(xùn)練時(shí)接觸了大量自然語言文本,對這種表達(dá)方式更加熟悉,而對抽象符號的理解能力有限。

但在機(jī)器人操作任務(wù)中,情況完全反轉(zhuǎn)。結(jié)構(gòu)化格式的平均得分達(dá)到 0.94,優(yōu)于自然語言的 0.91。原因在于,精確的坐標(biāo)信息對于毫米級的機(jī)械臂控制至關(guān)重要,自然語言的模糊性會導(dǎo)致操作失敗。這一發(fā)現(xiàn)也說明,視覺狀態(tài)的表示方式并不是通用的,而是取決于任務(wù)特性。對于需要語義理解的通用任務(wù),自然語言是最佳選擇;但對于高精度操作,結(jié)構(gòu)化的精確信息不可或缺。

光有推理框架還不夠,如何訓(xùn)練 AI 學(xué)會正確推理才是關(guān)鍵。VAGEN 采用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)方法,通過獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型改進(jìn)。

傳統(tǒng)的 RL 方法通常在整個(gè)任務(wù)結(jié)束時(shí)給出一個(gè)總獎(jiǎng)勵(lì),然后反向傳播到每個(gè)步驟。但這種方法在多輪交互的場景中效果不佳——想象一個(gè)需要執(zhí)行 10 步操作的任務(wù),如果最后失敗了,AI 很難判斷是哪一步出了問題。VAGEN 提出了兩個(gè)機(jī)制來解決這個(gè)問題。

首先是“世界建模獎(jiǎng)勵(lì)”(WorldModeling Reward),專門評估 AI 的推理質(zhì)量。團(tuán)隊(duì)采用 LLM-as-a-Judge 的方法,讓 GPT-4.1 nano 作為裁判,評估 AI 生成的狀態(tài)描述和預(yù)測是否準(zhǔn)確。這樣,每一輪交互都能獲得即時(shí)的推理質(zhì)量反饋,而不是等到任務(wù)結(jié)束才知道對錯(cuò)。

其次是“雙層通用優(yōu)勢估計(jì)”(Bi-Level GAE)。這個(gè)機(jī)制分兩個(gè)層次計(jì)算獎(jiǎng)勵(lì):先在“輪次級別”評估每一輪的整體表現(xiàn),再在“token 級別”細(xì)化到每個(gè)生成的單詞。就像批改作文時(shí),既要看整篇文章的結(jié)構(gòu),也要看每個(gè)段落、每句話的表達(dá)。這種層級化的獎(jiǎng)勵(lì)分配,使得 AI 能夠更準(zhǔn)確地定位問題所在,加快學(xué)習(xí)速度。


圖丨 token 級 GAE 與雙層 GAE 框架(來源:arXiv)

實(shí)驗(yàn)數(shù)據(jù)證實(shí)了這套機(jī)制的有效性。在完整的 VAGEN-Full 框架下(結(jié)合 WorldModeling Reward 和 Bi-Level GAE),僅有 30 億參數(shù)的 Qwen2.5-VL-3B 模型最終達(dá)到了 0.82 的綜合得分,不僅大幅超越未訓(xùn)練版本(0.21),甚至擊敗了參數(shù)量遠(yuǎn)大于它的 GPT-5(0.75)、Gemini 2.5 Pro(0.67)和 Claude 4.5(0.62)。

在訓(xùn)練過程中,研究團(tuán)隊(duì)觀察到一些有趣的現(xiàn)象。隨著訓(xùn)練推進(jìn),AI 的回答逐漸從多樣化變得模板化。早期訓(xùn)練時(shí),AI 會用各種不同的方式描述狀態(tài),比如“我需要向右移動接近箱子,然后向上推動”或“箱子在我前方,我應(yīng)該先前進(jìn)再調(diào)整方向”。但到后期,回答變得高度統(tǒng)一,主要差異只在方向詞匯上,比如都是“我將向 X 移動,然后向 Y 移動”的固定句式。這種模板化也不完全是壞事——它反映了 AI 找到了高效的表達(dá)方式。但也引發(fā)了另一個(gè)問題:獎(jiǎng)勵(lì)黑客(reward hacking)。

部分 AI 學(xué)會了生成看似合理、實(shí)則空泛的回答來“討好”評判系統(tǒng)。例如在冰湖游戲中,有些 AI 會習(xí)慣性地回答“玩家會到達(dá)禮物的位置”,無論當(dāng)前狀態(tài)如何。這種回答在語法上正確,也提到了目標(biāo),很容易通過 LLM 評判者的檢查,但實(shí)際上并沒有提供有價(jià)值的推理信息。

研究團(tuán)隊(duì)發(fā)現(xiàn),使用 Bi-Level GAE 的模型特別容易出現(xiàn)這種行為,因?yàn)楦?xì)致的獎(jiǎng)勵(lì)機(jī)制讓 AI 更容易找到“刷分”的捷徑。為了應(yīng)對這個(gè)問題,團(tuán)隊(duì)開發(fā)了幾種緩解策略,包括結(jié)構(gòu)化評估(要求 AI 輸出可量化的信息,用 F1 分?jǐn)?shù)評估)和重復(fù)懲罰(對高頻出現(xiàn)的答案降低獎(jiǎng)勵(lì)),這些措施在一定程度上緩解了問題。

VAGEN 為視覺 AI 智能體的訓(xùn)練開辟了新路徑,但從研究原型到實(shí)際應(yīng)用仍有距離。論文顯示,在配備 8 塊 H100 GPU 的服務(wù)器上,訓(xùn)練一個(gè)任務(wù)需要 4 到 8 小時(shí),同時(shí)消耗約 2,300 萬到 6,000 萬個(gè) LLM 評判 token,這對商業(yè)化部署而言成本不菲。此外,當(dāng)前 VAGEN 在 5 個(gè)精心設(shè)計(jì)的環(huán)境中表現(xiàn)出色,但真實(shí)世界的視覺任務(wù)往往更加開放、不確定,泛化性還需進(jìn)一步驗(yàn)證。



參考資料:

1.https://arxiv.org/pdf/2510.16907

2.https://vagen-ai.github.io/

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
社評:安世半導(dǎo)體事件要塵埃落定了

社評:安世半導(dǎo)體事件要塵埃落定了

在新加坡生活
2025-10-26 20:06:56
決賽大爆冷!頭號種子2:3輸球,無緣冠軍,決勝局心態(tài)崩盤只得1分

決賽大爆冷!頭號種子2:3輸球,無緣冠軍,決勝局心態(tài)崩盤只得1分

國乒二三事
2025-10-26 09:13:22
70歲為壽命的決定期,如果走路有這6個(gè)表現(xiàn),一般會長壽!

70歲為壽命的決定期,如果走路有這6個(gè)表現(xiàn),一般會長壽!

醫(yī)學(xué)原創(chuàng)故事會
2025-10-25 23:34:07
美論壇:如果中國再遭到日本的侵略,中國人會為自己的國家而戰(zhàn)嗎

美論壇:如果中國再遭到日本的侵略,中國人會為自己的國家而戰(zhàn)嗎

策略述
2025-10-23 19:24:00
互黑式宣發(fā):趙麗穎、黃曉明互動宣傳《陽光俱樂部》

互黑式宣發(fā):趙麗穎、黃曉明互動宣傳《陽光俱樂部》

孟一宜
2025-10-26 09:19:27
梅德韋杰夫一語驚人,公開跟普京唱反調(diào),也絲毫沒顧及中國的立場

梅德韋杰夫一語驚人,公開跟普京唱反調(diào),也絲毫沒顧及中國的立場

博覽歷史
2025-10-25 22:44:22
全新路虎攬勝轎車曝光,V8動力,純電續(xù)航600km+,軸距超3.1米

全新路虎攬勝轎車曝光,V8動力,純電續(xù)航600km+,軸距超3.1米

OOTD猜電影
2025-10-26 17:05:14
“引蛇出洞”!時(shí)隔41天,宗馥莉回娃娃上班,撕下了宗澤后的體面

“引蛇出洞”!時(shí)隔41天,宗馥莉回娃娃上班,撕下了宗澤后的體面

鋭娛之樂
2025-10-25 13:06:55
廣州豹2-2絕平陜西聯(lián)合,落后銅梁龍2分,羅薩補(bǔ)時(shí)絕平

廣州豹2-2絕平陜西聯(lián)合,落后銅梁龍2分,羅薩補(bǔ)時(shí)絕平

懂球帝
2025-10-26 21:46:25
炮決張成澤絕密真相:拍三俗影片 與金正恩槍戰(zhàn) 只為一個(gè)女人!

炮決張成澤絕密真相:拍三俗影片 與金正恩槍戰(zhàn) 只為一個(gè)女人!

貳文
2023-12-09 22:30:08
格魯吉亞逮捕三名中國公民 涉嫌企圖購買2公斤“核材料”鈾

格魯吉亞逮捕三名中國公民 涉嫌企圖購買2公斤“核材料”鈾

華人生活網(wǎng)
2025-10-26 04:04:04
連降噪都沒有的耳機(jī),華為憑啥敢賣到一千多塊?

連降噪都沒有的耳機(jī),華為憑啥敢賣到一千多塊?

差評XPIN
2025-10-26 00:11:49
糖友須知:6種水果升血糖,建議少吃,6種水果降血糖,或可常吃

糖友須知:6種水果升血糖,建議少吃,6種水果降血糖,或可常吃

落葉玫瑰
2025-08-20 12:51:01
北京市民深夜舉報(bào),警方迅速查處,兩男子被拘!

北京市民深夜舉報(bào),警方迅速查處,兩男子被拘!

BRTV新聞
2025-10-26 20:00:21
中超爭冠形勢:還剩2輪海港蓉城申花僅差2分,國安徹底掉隊(duì)

中超爭冠形勢:還剩2輪海港蓉城申花僅差2分,國安徹底掉隊(duì)

雷速體育
2025-10-26 21:56:30
李政道與楊振寧后人在美長大,他卻勸兒孫回國,今孫子成北大教授

李政道與楊振寧后人在美長大,他卻勸兒孫回國,今孫子成北大教授

攬星河的筆記
2025-10-24 16:40:47
小學(xué)女生化“濃妝”競選大隊(duì)委,父母被罵慘了:怎么不給兒子化

小學(xué)女生化“濃妝”競選大隊(duì)委,父母被罵慘了:怎么不給兒子化

熙熙說教
2025-10-26 19:55:08
活久見!網(wǎng)傳東莞一工廠因廁所漏水沒員工反映,處罰18人引發(fā)爭議

活久見!網(wǎng)傳東莞一工廠因廁所漏水沒員工反映,處罰18人引發(fā)爭議

火山詩話
2025-10-26 09:26:41
塵埃落定!彩禮全退,跳河新郎表姐曝當(dāng)天差點(diǎn)打起來,網(wǎng)友態(tài)度徹底反轉(zhuǎn)

塵埃落定!彩禮全退,跳河新郎表姐曝當(dāng)天差點(diǎn)打起來,網(wǎng)友態(tài)度徹底反轉(zhuǎn)

冬天來旅游
2025-10-25 14:14:22
吉隆坡談判,中方給貝森特備了份大禮,美方:無法忍受不對等

吉隆坡談判,中方給貝森特備了份大禮,美方:無法忍受不對等

博覽歷史
2025-10-25 21:57:57
2025-10-26 22:44:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15781文章數(shù) 514233關(guān)注度
往期回顧 全部

科技要聞

誰“殺死”了新能源汽車周榜?

頭條要聞

媒體:美海軍對付中國有新絕招 考慮"復(fù)活"被淘汰戰(zhàn)艦

頭條要聞

媒體:美海軍對付中國有新絕招 考慮"復(fù)活"被淘汰戰(zhàn)艦

體育要聞

曼聯(lián):計(jì)劃有變!目標(biāo)爭冠!

娛樂要聞

邁克爾·杰克遜女兒拿到4.6億仍要索賠

財(cái)經(jīng)要聞

李成鋼:中美就有關(guān)議題形成了初步共識

汽車要聞

兩條腿走得更遠(yuǎn) 哈弗H6L為燃油SUV上分

態(tài)度原創(chuàng)

游戲
房產(chǎn)
健康
親子
公開課

《大鏢客2》亞瑟演員祝賀游戲7周年:終生無悔!

房產(chǎn)要聞

十年冠領(lǐng)三亞,三亞灣心百億大盤煥新再領(lǐng)航!

骨頭"咔咔響"?肌骨超聲到底有何用

親子要聞

你都是最好的自己

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 淫荡人妻系列| 国产精品老熟女久久久久| 日本1区2区3区资源| 爱爱一二专区| 亚洲无码影音先锋| 亚洲啊V天堂在线观看2021| 玩弄邻居少妇高潮大叫| 国产av午夜精品一区二区三区 | 校园春色另类小说视频| 免费看刺激毛片在线播放| 性色A∨色欲AV浪潮AV| 777日韩无码| 日本在线看片免费人成视频| 黑人一级毛片| 乌克兰av手机在线| 99精品国产在热久久无码| 国产片婬乱一级毛片a按摩| 米奇777超碰欧美日韩亚洲| 国产亚洲av在线| 18禁男女爽爽爽午夜网站免费 | 毛片24种姿势无遮无拦| 黑人巨大精品欧美一区二区免费| av免费观看网址| 午夜亚洲福利在线老司机| 天天综合网久久| 片毛片免费看| 樱花草www在线观看| 国产一区二区精品福利| 欧美在线观看R级一区二区三区四区密桃视频 | 少妇伦子伦情品无吗| 精品久久人人做人人爽综合| 无码国产午夜福利片在线观看| 男人狂桶女人出白浆免费视频| 又爽又色禁片1000视频免费看| 人人超碰人摸人爱| 丁香五月欧美成人| 在线观看午夜看亚太视频| 日韩精品福利视频在线观看 | 最近2019免费中文第一页| 亚洲熟妇丰满多毛XXXX牛仔裤| 国内丰满少妇猛烈精品播|