夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智能體如何學(xué)會(huì)想象?深度解析世界模型嵌入具身系統(tǒng)三大技術(shù)范式

0
分享至



長期以來,具身智能系統(tǒng)主要依賴「感知 - 行動(dòng)」的反應(yīng)式回路,缺乏對(duì)未來的預(yù)測能力。而世界模型的引入,讓智能體擁有了「想象」未來的能力。



具身智能機(jī)器人通過世界模型想象抓杯子任務(wù)

那么關(guān)鍵問題來了:世界模型應(yīng)該如何「放進(jìn)」具身系統(tǒng)中?是作為一個(gè)獨(dú)立的模擬器?還是作為策略網(wǎng)絡(luò)的一部分?

近日,依托北京中關(guān)村學(xué)院,來自中科大、哈工大、南開大學(xué)、清華大學(xué)、寧波東方理工大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)布了一篇全面綜述,首次從架構(gòu)集成(Architectural Integration) 的視角,將現(xiàn)有研究劃分為三大范式。



  • 論文標(biāo)題: Integrating World Models into Vision Language Action and Navigation: A Comprehensive Survey
  • 原文鏈接: https://doi.org/10.36227/techrxiv.176531987.77979037/v1

本文將帶你一覽這篇硬核綜述的核心精華。



基于世界模型的具身智能體框架

為什么具身智能需要「世界模型」?


在 LLM 爆發(fā)之前,具身指令跟隨系統(tǒng)通常將語言、感知和動(dòng)作視為分離的組件。雖然端到端(End-to-End)模型不僅簡化了流程,但純反應(yīng)式(Reactive)的方法面臨兩大瓶頸:

  • 缺乏前瞻性:無法預(yù)測未來狀態(tài),難以處理長程規(guī)劃任務(wù);
  • 泛化性差:難以適應(yīng)未見過的環(huán)境或任務(wù)配置。

世界模型的核心思想源于認(rèn)知科學(xué):人類不僅是對(duì)刺激做出反應(yīng),更是在腦海中構(gòu)建了一個(gè)能夠預(yù)測未來的「內(nèi)部模型」。引入世界模型,能為具身智能體帶來樣本效率提升、長程推理能力、安全性增強(qiáng)以及主動(dòng)規(guī)劃能力。



人類認(rèn)知科學(xué) → 具身智能的世界模型

核心分類:三種架構(gòu)融合范式


作者認(rèn)為,世界模型(World Model, WM)與策略(Policy or Policy Model, PM)之間的架構(gòu)關(guān)系,其實(shí)可以看作是一條「耦合強(qiáng)度光譜」。簡單來說,不同方法在多大程度上讓「世界模型」和「策略」互相依賴、互相影響,是可以從弱到強(qiáng)排成一條線的。作者將這種耦合強(qiáng)度分成兩個(gè)相互獨(dú)立的維度來理解:

  • 梯度流動(dòng)(G:Gradient Flow):策略的優(yōu)化目標(biāo)產(chǎn)生的梯度,能不能直接反向傳播到世界模型里,從而更新 WM 的參數(shù)?
  • 信息依賴(I:Information Dependency):在推理的一個(gè)前向過程中,策略輸出動(dòng)作時(shí),是否顯式依賴于世界模型預(yù)測的狀態(tài)?也就是,策略做決策的時(shí)候,是不是「要先看看世界模型怎么預(yù)測下一步世界會(huì)怎樣」。

基于這兩個(gè)維度,作者將相關(guān)工作分為了三個(gè)類別:耦合強(qiáng)度從弱到強(qiáng)為模塊化架構(gòu)(Modular),順序架構(gòu)(Sequential)以及統(tǒng)一架構(gòu)(Unified),如下表。



深度拆解:三種范式的權(quán)衡與博弈




分類架構(gòu)圖

范式一:模塊化架構(gòu) (Modular Architecture)

關(guān)鍵詞:獨(dú)立、互操作、弱耦合

模塊化架構(gòu)將世界模型和策略作為兩個(gè)獨(dú)立的單元,二者之間沒有梯度流動(dòng),策略輸出動(dòng)作時(shí)也不依賴于未來狀態(tài)。世界模型在這個(gè)架構(gòu)中作為世界模擬器,關(guān)注動(dòng)作與狀態(tài)間的因果變化。

在這樣的設(shè)計(jì)中,世界模型更像是一個(gè)「思考環(huán)境的內(nèi)在模擬器」。給定當(dāng)前觀察(或抽象狀態(tài))以及候選動(dòng)作,世界模型會(huì)根據(jù)學(xué)習(xí)到的因果規(guī)律預(yù)測下一個(gè)狀態(tài) —— 可以是像素級(jí)的圖像,也可以是結(jié)構(gòu)化的潛空間表示。這讓智能體能夠在內(nèi)部「根據(jù)動(dòng)作預(yù)演未來」:如果現(xiàn)在采取某個(gè)動(dòng)作,會(huì)發(fā)生什么?這種能力讓策略模型能夠更好地判斷哪些動(dòng)作可行、哪些風(fēng)險(xiǎn)更大以及哪些方案能帶來長遠(yuǎn)收益。

范式二:順序架構(gòu) (Sequential Architecture)

關(guān)鍵詞:分層、意圖生成、中等耦合

順序化架構(gòu)先利用世界模型預(yù)測出未來狀態(tài),策略基于該未來狀態(tài)預(yù)測未來動(dòng)作。在該架構(gòu)中,梯度傳遞分為兩個(gè)階段,第一階段由世界模型預(yù)測未來狀態(tài)的訓(xùn)練目標(biāo)決定,用于優(yōu)化世界模型參數(shù);第二階段由策略輸出動(dòng)作的訓(xùn)練目標(biāo)決定,用于統(tǒng)一優(yōu)化世界模型和策略參數(shù)。在該范式中,世界模型作為決策生成器,它的核心任務(wù),是為智能體生成一個(gè)未來的目標(biāo)狀態(tài),并把復(fù)雜的長時(shí)序任務(wù)拆分成兩個(gè)更容易解決的子問題:

1. 生成一個(gè)有價(jià)值的目標(biāo)(Goal Generation)

2. 根據(jù)目標(biāo)執(zhí)行行動(dòng)(Goal-conditioned Execution)

在這種框架中,世界模型負(fù)責(zé)「想象」一個(gè)有意義的終點(diǎn),例如未來的視覺觀察、場景狀態(tài)或抽象規(guī)劃;而真正找到抵達(dá)該目標(biāo)的行動(dòng)序列,則由底層模塊完成,比如逆動(dòng)力學(xué)模型或點(diǎn)目標(biāo)控制器。

換句話說,世界模型最重要的貢獻(xiàn),就是生成一個(gè)「夠好」的目標(biāo),從而讓后續(xù)的控制問題變得更簡單。

范式三:統(tǒng)一架構(gòu) (Unified End-to-End Architecture)

關(guān)鍵詞:端到端、聯(lián)合優(yōu)化、強(qiáng)耦合

統(tǒng)一架構(gòu)則將世界模型和策略集成到一個(gè)端到端網(wǎng)絡(luò)當(dāng)中。在這一配置下:

1. 世界模型不再單獨(dú)負(fù)責(zé)預(yù)測未來、建模環(huán)境;

2. 策略模型也不再單獨(dú)負(fù)責(zé)決策與行動(dòng)生成,兩者被融合為一個(gè)統(tǒng)一的大網(wǎng)絡(luò),共同參與訓(xùn)練、共同被優(yōu)化。

整個(gè)模型在同一個(gè)損失目標(biāo)下進(jìn)行端到端訓(xùn)練,使網(wǎng)絡(luò)能夠在同一條計(jì)算路徑中:

1. 預(yù)測未來狀態(tài)(anticipate future states)

2. 輸出合適的動(dòng)作(produce appropriate actions)

這意味著智能體不再需要顯式地區(qū)分「模擬」與「決策」兩個(gè)步驟,而是在統(tǒng)一的結(jié)構(gòu)中自然涌現(xiàn)出這兩項(xiàng)能力。

未來展望:通往通用具身智能之路


綜述最后指出了幾個(gè)極具潛力的研究方向 :

1. 世界模型的表征空間選擇與耦合:視覺空間具備語義豐富度,但成本高且穩(wěn)定性弱;狀態(tài)空間更緊湊高效,但表達(dá)能力似乎有限。未來趨勢是融合二者,通過統(tǒng)一潛變量實(shí)現(xiàn)表達(dá)能力與推理效率的平衡,為跨任務(wù)泛化奠基。

2. 世界模型的想象應(yīng)該是結(jié)構(gòu)化意圖的生成與表達(dá):未來的世界模型應(yīng)生可解釋的未來結(jié)構(gòu)(目標(biāo)、軌跡、成因、時(shí)空信息等表征),而非僅預(yù)測下一步狀態(tài),并且是其是否具備可約束的、物理一致的想象結(jié)構(gòu),可指導(dǎo)跨任務(wù)遷移并促進(jìn)策略有效泛化。未來應(yīng)該加入與語言和符號(hào)推理結(jié)合,若想象可在語言或符號(hào)空間中表達(dá),則世界模型能夠顯式刻畫任務(wù)分解、物體關(guān)系與因果依賴,而這些信息在像素預(yù)測中沒有被直觀的表達(dá)和理解。

3. 世界模型表征和想象對(duì)于指導(dǎo)具身智能的脆弱性:想象與執(zhí)行解耦帶來可理解性提升,但也可能產(chǎn)生超出具身本體能力的目標(biāo)。未來研究重點(diǎn)是引入可達(dá)性判別、可行性過濾、物理一致性評(píng)估,以降低失效風(fēng)險(xiǎn)。另外,通過顯式分離想象與控制,系統(tǒng)暴露中間表征,如目標(biāo)假設(shè)、潛在軌跡、視覺推演等,使調(diào)試、干預(yù)和人類理解更加容易。但若模塊間缺乏對(duì)齊機(jī)制,也可能削弱終端性能,因此解釋性與最優(yōu)性存在固有權(quán)衡。

4. 統(tǒng)一的世界 - 策略模型構(gòu)建范式:大規(guī)模預(yù)訓(xùn)練模型天然具備世界建模與策略生成潛力,未來需探索如何以最小代價(jià)將其轉(zhuǎn)化為統(tǒng)一決策系統(tǒng),關(guān)鍵難點(diǎn)在于狀態(tài)空間對(duì)齊、表示粒度選擇、避免視覺或語言表征偏置,構(gòu)建有效、高效的統(tǒng)一世界 - 策略模型范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
十六子倒脫靴,《江南春》的流向線索,或許可以從“得于龐氏后人”中倒推

十六子倒脫靴,《江南春》的流向線索,或許可以從“得于龐氏后人”中倒推

一口娛樂
2025-12-23 00:52:06
特朗普任命格陵蘭島特使 引發(fā)丹麥方面高度警惕

特朗普任命格陵蘭島特使 引發(fā)丹麥方面高度警惕

財(cái)聯(lián)社
2025-12-22 19:45:56
浙江12名省管干部任前公示

浙江12名省管干部任前公示

浙江發(fā)布
2025-12-22 18:37:54
隨著中國男足3-0,日本0-3,東亞錦標(biāo)賽終極積分榜出爐:中國第三

隨著中國男足3-0,日本0-3,東亞錦標(biāo)賽終極積分榜出爐:中國第三

側(cè)身凌空斬
2025-12-22 16:47:16
柬埔寨“電詐”被泰國炸平后,我們個(gè)人存取現(xiàn)金出新規(guī),放松啦!

柬埔寨“電詐”被泰國炸平后,我們個(gè)人存取現(xiàn)金出新規(guī),放松啦!

我心縱橫天地間
2025-12-22 20:46:29
主板存嚴(yán)重漏洞用于作弊:拳頭封殺所有未更新BIOS玩家!

主板存嚴(yán)重漏洞用于作弊:拳頭封殺所有未更新BIOS玩家!

快科技
2025-12-21 18:33:05
11%中轉(zhuǎn)量蒸發(fā)!海南封關(guān)首日,新加坡碼頭現(xiàn)空箱危機(jī)!

11%中轉(zhuǎn)量蒸發(fā)!海南封關(guān)首日,新加坡碼頭現(xiàn)空箱危機(jī)!

李砍柴
2025-12-22 18:58:27
已不再拆遷?建議:明年起房齡超過20年的老房子統(tǒng)一這樣處理

已不再拆遷?建議:明年起房齡超過20年的老房子統(tǒng)一這樣處理

靚仔情感
2025-12-23 04:27:07
緊急!已在山東出現(xiàn)!兩名未成年人被拘!

緊急!已在山東出現(xiàn)!兩名未成年人被拘!

瑯琊新聞網(wǎng)
2025-12-22 16:19:33
2.8-4.9!這就是杰倫威的改變,拒投致雷霆一周兩敗

2.8-4.9!這就是杰倫威的改變,拒投致雷霆一周兩敗

奕辰說球
2025-12-22 14:11:39
第一次見牛仔褲這么會(huì)穿的小姐姐,腰細(xì)臀翹,讓人忍不住多看幾眼

第一次見牛仔褲這么會(huì)穿的小姐姐,腰細(xì)臀翹,讓人忍不住多看幾眼

小喬古裝漢服
2025-12-21 07:56:28
體操女神吳柳芳紅毯復(fù)出,剛被評(píng)體壇最美女神,人氣只增不減

體操女神吳柳芳紅毯復(fù)出,剛被評(píng)體壇最美女神,人氣只增不減

藝兔體壇
2025-12-20 17:20:52
男子去試駕往家里開,副駕還坐著銷售小姐姐,男生:白撿一個(gè)媳婦

男子去試駕往家里開,副駕還坐著銷售小姐姐,男生:白撿一個(gè)媳婦

唐小糖說情感
2025-11-10 10:40:56
遼寧3名校長被紀(jì)委帶走!

遼寧3名校長被紀(jì)委帶走!

本賬號(hào)停運(yùn)
2025-12-22 14:18:23
從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

科普100克克
2025-11-30 21:24:29
回歸母校:湖南省教育廳副廳長蘭勇任湖南農(nóng)業(yè)大學(xué)黨委書記

回歸母校:湖南省教育廳副廳長蘭勇任湖南農(nóng)業(yè)大學(xué)黨委書記

澎湃新聞
2025-12-22 18:46:27
不愧是諾蘭!這部斥巨資打造的美劇,終于回歸

不愧是諾蘭!這部斥巨資打造的美劇,終于回歸

來看美劇
2025-12-22 20:04:15
常冰玉被8連鞭無緣首冠,更新社媒用7個(gè)字做總結(jié),顏丙濤暖心回復(fù)

常冰玉被8連鞭無緣首冠,更新社媒用7個(gè)字做總結(jié),顏丙濤暖心回復(fù)

球場沒跑道
2025-12-22 11:26:37
比光刻機(jī)厲害,中國科技黑馬誕生:三大重器領(lǐng)跑全球,彰顯硬實(shí)力

比光刻機(jī)厲害,中國科技黑馬誕生:三大重器領(lǐng)跑全球,彰顯硬實(shí)力

瘋狂小菠蘿
2025-12-13 13:32:23
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點(diǎn)
2025-10-09 12:19:42
2025-12-23 06:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11971文章數(shù) 142516關(guān)注度
往期回顧 全部

科技要聞

商湯聯(lián)創(chuàng)親自下場 痛批主流機(jī)器人技術(shù)大錯(cuò)

頭條要聞

高市早苗政府創(chuàng)下一項(xiàng)27年來最差紀(jì)錄

頭條要聞

高市早苗政府創(chuàng)下一項(xiàng)27年來最差紀(jì)錄

體育要聞

戴琳,中國足球的反向代言人

娛樂要聞

張柏芝不再隱瞞,三胎生父早有答案?

財(cái)經(jīng)要聞

央行信用新政:為失信者提供"糾錯(cuò)"通道

汽車要聞

可享88元抵2000元等多重權(quán)益 昊鉑A800開啟盲訂

態(tài)度原創(chuàng)

藝術(shù)
親子
健康
數(shù)碼
公開課

藝術(shù)要聞

Pavle Paja Jovanovic:塞爾維亞現(xiàn)實(shí)主義繪畫的巔峰代表

親子要聞

小孩便秘,家長很苦惱?!中醫(yī)分享豬油洗澡

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

華為MatePad 11.5 2026平板搭載麒麟T82B / T82處理器

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲国产激情一区二区三区| 伊人色在线视频| 日韩 色 结衣| 丰满人妻熟妇乱又伦精品软件 | 久久高清无码视频| 久久无码性爱| 国产精品一国产精品一k频道| 尤物99国产成人精品视频| 亚洲AV一二三| 国产女人18毛片水真多18精品| 色婷婷狠狠18禁| ql精品91久久久久无码| 欧洲精品99毛片免费高清观看| 色噜噜日韩精品欧美。二区| 欧美成人18禁| 欧美日韩性生活视频| 天堂资源中文网| 中文字幕人妻av12| 亚洲性爱网址| 日日不卡AV| 精品亚洲国产成人av在线| 波多野结衣在线看| 制服 中文 人妻 字幕| 久久美女夜夜骚骚免费视频| 国产稚嫩高中生呻吟激情在线视频| 日韩免费一区二区三区高清 | 亚洲成人精品在线伊人网| 中文字幕乱码熟女| 色欲av无码一区二区| 国产a√精品区二区三区四区| 亚洲国产精品性Jk| 岛国免费一区二区| 小说亚洲色图| 亚洲av永久无码天堂影院 | 亚洲日韩久久综合中文字幕| 亚洲爆乳无码一区| 久久大香萑太香蕉av| 亞洲一区二区成人片| 免费无码影视| 丰满岳跪趴高撅肥臀尤物在线观看 | 成年av一区|