浙大、港中文提出EgoAgent：第一人稱感知-行動-預(yù)測一體化智能體

2025-10-16 15:43:32　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

如何讓 AI 像人類一樣從對世界的觀察和互動中自然地學(xué)會理解世界？在今年的國際計(jì)算機(jī)視覺大會（ICCV 2025）上，來自浙江大學(xué)、香港中文大學(xué)、上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究人員聯(lián)合提出了第一人稱聯(lián)合預(yù)測智能體 EgoAgent。受人類認(rèn)知學(xué)習(xí)機(jī)制和 “共同編碼理論（Common Coding Theory）” 啟發(fā)，EgoAgent 首次成功地讓模型在統(tǒng)一的潛空間中同時學(xué)習(xí)視覺表征（Visual representation）、人體行動（Human action）和世界預(yù)測（World state prediction）三大核心任務(wù)，打破了傳統(tǒng) AI 中 “感知”、“控制” 和 “預(yù)測” 分離的壁壘。這種聯(lián)合學(xué)習(xí)方式能讓模型在三項(xiàng)任務(wù)間自然形成協(xié)同效應(yīng)，并成功遷移到具身操作等任務(wù)之中。

論文題目：EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
接收會議：ICCV 2025
項(xiàng)目主頁：https://egoagent.github.io
論文鏈接：https://arxiv.org/abs/2502.05857
代碼地址：https://github.com/zju3dv/EgoAgent

靈感來源：模擬人類的具身認(rèn)知過程與感知 - 動作的統(tǒng)一表征

想象你是怎么打籃球的？你需要從第一人稱視角去感知球的位置，同時迅速準(zhǔn)備好起跳或攔截的動作，并不斷預(yù)判不同動作對球場局勢的影響。而每做出一個動作又會反過來改變環(huán)境，觸發(fā)新一輪的感知 - 行動 - 預(yù)測循環(huán)。這一循環(huán)在人類的成長早期就開始了，嬰兒通過在真實(shí)世界中不斷地觀察與交互，形成一個高度耦合的視覺 - 動作系統(tǒng)。這一系統(tǒng)比語言系統(tǒng)更早 “上線”—— 人類在會說話之前，就已經(jīng)能通過感知和行動來理解和改變周圍環(huán)境。然而，在 AI 領(lǐng)域，對這一系統(tǒng)的學(xué)習(xí)卻落后于語言模型的發(fā)展。

在認(rèn)知科學(xué)中，這一系統(tǒng)的形成機(jī)制被稱為具身認(rèn)知（Embodied Cognition）與共同編碼理論（Common Coding Theory）：感知與行動不是相互獨(dú)立的過程，而是在共享的表征空間中協(xié)同工作、相互強(qiáng)化。EgoAgent 正是受到這一機(jī)制的啟發(fā)。它旨在模擬這種人類大腦、身體和環(huán)境之間持續(xù)的互動，使得 AI 能夠像人類一樣學(xué)習(xí) —— 不是僅僅通過觀看圖片，而是通過親身經(jīng)歷世界，去預(yù)測未來、采取行動，并理解行動如何改變環(huán)境。

技術(shù)揭秘：EgoAgent 如何實(shí)現(xiàn) “1+1+1 > 3”？

以往的 AI 模型往往將 “感知 - 行動 - 預(yù)測” 循環(huán)拆解為三個獨(dú)立任務(wù)，分別訓(xùn)練，從而割裂了它們之間的內(nèi)在聯(lián)系。EgoAgent 則在大規(guī)模的第一人稱視角視頻與同步采集的三維人體運(yùn)動數(shù)據(jù)上，實(shí)現(xiàn)了三項(xiàng)任務(wù)的聯(lián)合學(xué)習(xí)。

為此，研究團(tuán)隊(duì)設(shè)計(jì)了一個名為JEAP（Joint Embedding-Action-Prediction）的核心架構(gòu)。該架構(gòu)基于聯(lián)合嵌入預(yù)測架構(gòu)世界模型（JEPA World Model）進(jìn)行擴(kuò)展，對其中的 teacher–student 框架進(jìn)行了創(chuàng)新改造：在保留 JEPA 自監(jiān)督預(yù)測條件表征的能力基礎(chǔ)上，進(jìn)一步引入對世界狀態(tài)和三維人體動作的多模態(tài)自回歸預(yù)測，使模型能夠在一個統(tǒng)一的 Transformer 框架內(nèi)，同時學(xué)習(xí)三項(xiàng)任務(wù)。JEAP 的核心設(shè)計(jì)包括：

“狀態(tài) - 動作” 交錯式聯(lián)合預(yù)測： EgoAgent 將第一人稱視頻幀和三維人體動作交替編碼為一串統(tǒng)一的 “狀態(tài) - 動作 - 狀態(tài) - 動作” 序列，并通過 Transformer 的因果自注意力機(jī)制進(jìn)行建模。這種設(shè)計(jì)使得模型能夠在時間維度上同時捕捉兩種關(guān)系：感知如何驅(qū)動動作，以及動作如何影響未來世界。

“預(yù)言家” 與 “觀察者” 的協(xié)作機(jī)制： EgoAgent 內(nèi)部包含兩個分支：預(yù)測器（Predictor）從過去的 “狀態(tài) - 動作” 序列中預(yù)測未來的世界狀態(tài)和人體動作；而觀察器（Observer）則僅對未來幀進(jìn)行編碼，生成目標(biāo)表征，用于監(jiān)督預(yù)測器的學(xué)習(xí)。類似于 teacher–student 框架，觀察器的參數(shù)通過指數(shù)滑動平均（EMA）從預(yù)測器更新。這一機(jī)制不僅拓展了傳統(tǒng)學(xué)習(xí)框架在時間序列上的自監(jiān)督學(xué)習(xí)能力，使模型能夠在時間維度上對未來進(jìn)行預(yù)測與對齊；同時也保留了在靜態(tài)圖像上的自監(jiān)督學(xué)習(xí)能力：在同一時刻，觀察器與預(yù)測器可分別編碼不同增強(qiáng)方式下生成的圖像特征并進(jìn)行對比學(xué)習(xí)，進(jìn)一步強(qiáng)化視覺表征的一致性與穩(wěn)定性。

此外，EgoAgent 還在兩個分支中引入了Query Tokens作為可學(xué)習(xí)的提示詞，用于在共享的潛空間中調(diào)度不同任務(wù)的注意力。這些 query tokens 可以主動 “提問” 模型的潛在空間，從而分別抽取與視覺表征或動作生成相關(guān)的特征，并在反向傳播中解耦各任務(wù)的梯度流，避免不同任務(wù)之間的相互干擾。

與以往一些依賴像素重建的方法不同，EgoAgent 在連續(xù)語義嵌入空間中進(jìn)行學(xué)習(xí)。這一點(diǎn)非常重要，因?yàn)槿祟悓κ澜绲念A(yù)測并不是像素級的還原，而是基于抽象概念和高層語義進(jìn)行推理。這種方法使 EgoAgent 的學(xué)習(xí)方式更接近人類的認(rèn)知方式，并提升了模型在未來狀態(tài)預(yù)測方面的性能。

EgoAgent 的能力展示與實(shí)驗(yàn)分析

EgoAgent 在三項(xiàng)關(guān)鍵任務(wù)上均取得了優(yōu)異表現(xiàn)，而現(xiàn)有模型通常僅能在其中一至兩項(xiàng)任務(wù)上實(shí)現(xiàn)有效學(xué)習(xí)。

第一視角世界狀態(tài)預(yù)測：給定過往的第一人稱視角圖片和三維人類動作，EgoAgent 能夠準(zhǔn)確預(yù)測未來的世界狀態(tài)特征。模型的預(yù)測結(jié)果可通過檢索驗(yàn)證其真實(shí)性 —— 若 EgoAgent 預(yù)測的未來世界狀態(tài)能在由所有視頻幀構(gòu)成的圖庫中成功檢索到對應(yīng)的真實(shí)狀態(tài)時，即可視為一次成功的預(yù)測）。在性能方面，EgoAgent 大幅超越了現(xiàn)有的第一視角視覺表征模型。例如，3 億參數(shù)的 EgoAgent 較最新的第一視角視覺表征模型 DoRA（ICLR 2024）在 Top1 準(zhǔn)確率上提升了 12.86% ，在 mAP 指標(biāo)上提升了 13.05% 。這表明 EgoAgent 不局限于基于圖像語義相似性進(jìn)行未來狀態(tài)預(yù)測，更能理解世界的時序演化以及動作與環(huán)境間的因果關(guān)系。進(jìn)一步擴(kuò)展至 10 億參數(shù)規(guī)模后，EgoAgent 的性能實(shí)現(xiàn)了持續(xù)提升。

三維人體動作預(yù)測：EgoAgent 能夠根據(jù)第一人稱視角觀察和歷史動作序列，生成連貫且逼真的未來三維人體運(yùn)動。在定量評估中，EgoAgent 在三維動作預(yù)測任務(wù)上取得了領(lǐng)先的性能，相比 Diffusion Policy 以及專用的人體運(yùn)動預(yù)測模型，在 MPJPE（平均每關(guān)節(jié)位置誤差）上達(dá)到最低誤差，在 MPJVE（平均每關(guān)節(jié)速度誤差）指標(biāo)上也表現(xiàn)出高度競爭力。值得注意的是，EgoAgent 在預(yù)測視頻中不可見的人體關(guān)節(jié)時同樣保持了較高的準(zhǔn)確度，展現(xiàn)出其在潛空間中對人體運(yùn)動結(jié)構(gòu)的優(yōu)秀建模能力。

視覺表征：EgoAgent 從第一人稱視頻中學(xué)習(xí)到了魯棒而通用的視覺表征，在基礎(chǔ)的圖像分類和具身操作任務(wù)中均表現(xiàn)出良好的遷移能力。在 ImageNet-1K 上，EgoAgent-1B 的 Top-1 準(zhǔn)確率比 DoRA 提高了 1.32%，表明感知、預(yù)測與行動的聯(lián)合學(xué)習(xí)有助于獲得更具判別力的視覺特征。進(jìn)一步地，在 TriFinger 機(jī)器人操作模擬器中，EgoAgent 使用 100 段演示數(shù)據(jù)，通過 3 層 MLP 微調(diào)，在 “抓取方塊” 和 “移動方塊” 兩項(xiàng)任務(wù)中均取得最高成功率，分別超越 DoRA 3.32% 和 3.9%。這說明將人體動作預(yù)測融入視覺學(xué)習(xí)，有助于模型獲得更具可操作性的表征，從而在具身任務(wù)中展現(xiàn)出更強(qiáng)的泛化與控制能力。

消融實(shí)驗(yàn)：為了驗(yàn)證各任務(wù)間的相互作用，研究團(tuán)隊(duì)對 EgoAgent 進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn)。結(jié)果表明，視覺表征、動作預(yù)測與世界預(yù)測三項(xiàng)任務(wù)相互支撐、缺一不可。當(dāng)去掉其中任意一項(xiàng)任務(wù)時，其余任務(wù)的性能都會下降。相反，當(dāng)三項(xiàng)任務(wù)在統(tǒng)一框架下聯(lián)合優(yōu)化時，模型在各項(xiàng)評估指標(biāo)上均獲得最優(yōu)結(jié)果。這一現(xiàn)象表明，多任務(wù)的聯(lián)合學(xué)習(xí)能夠形成正向反饋機(jī)制：視覺任務(wù)提供感知語義，動作任務(wù)引導(dǎo)動態(tài)建模，而世界預(yù)測任務(wù)通過時間連續(xù)性約束整體的潛在空間。這種任務(wù)間的協(xié)同優(yōu)化，使 EgoAgent 能夠更穩(wěn)定地捕捉感知 - 行動之間的關(guān)聯(lián)，在整體表現(xiàn)上超越單任務(wù)模型。進(jìn)一步的消融結(jié)果表明，在語義特征空間中進(jìn)行學(xué)習(xí)的模型，在世界預(yù)測的準(zhǔn)確性和視覺表征的有效性方面均顯著優(yōu)于基于像素級重建的潛空間建模。

未來：AI 的 “第一人稱” 進(jìn)階

EgoAgent 不僅僅是一個強(qiáng)大的模型，它代表了一種新的 AI 學(xué)習(xí)范式：讓模型像人類一樣，在充滿動態(tài)和交互的第一人稱視角下，同時學(xué)習(xí)視覺表征、運(yùn)動控制和世界模型。它的應(yīng)用前景極其廣闊：

機(jī)器人：有望提升機(jī)器人的場景感知和操作能力，在復(fù)雜環(huán)境中精準(zhǔn)預(yù)判物體動態(tài)和自身動作對環(huán)境的影響，實(shí)現(xiàn)更自然的交互和協(xié)作。
AR/VR：基于第一人稱視角的學(xué)習(xí)機(jī)制，可能幫助系統(tǒng)更好地理解用戶的動作語義與環(huán)境動態(tài)，增強(qiáng)體驗(yàn)的沉浸感。
智能眼鏡：這類模型有潛力在連續(xù)視覺流中識別用戶意圖或環(huán)境變化，全天候分析動作和環(huán)境的潛在危險并提供輔助性決策支持。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.