如何讓 AI 像人類一樣從對世界的觀察和互動中自然地學(xué)會理解世界?在今年的國際計(jì)算機(jī)視覺大會(ICCV 2025)上,來自浙江大學(xué)、香港中文大學(xué)、上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究人員聯(lián)合提出了第一人稱聯(lián)合預(yù)測智能體 EgoAgent。受人類認(rèn)知學(xué)習(xí)機(jī)制和 “共同編碼理論(Common Coding Theory)” 啟發(fā),EgoAgent 首次成功地讓模型在統(tǒng)一的潛空間中同時學(xué)習(xí)視覺表征(Visual representation)、人體行動(Human action)和世界預(yù)測 (World state prediction)三大核心任務(wù),打破了傳統(tǒng) AI 中 “感知”、“控制” 和 “預(yù)測” 分離的壁壘。這種聯(lián)合學(xué)習(xí)方式能讓模型在三項(xiàng)任務(wù)間自然形成協(xié)同效應(yīng),并成功遷移到具身操作等任務(wù)之中。
- 論文題目:EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
- 接收會議:ICCV 2025
- 項(xiàng)目主頁:https://egoagent.github.io
- 論文鏈接:https://arxiv.org/abs/2502.05857
- 代碼地址:https://github.com/zju3dv/EgoAgent
靈感來源:模擬人類的具身認(rèn)知過程與感知 - 動作的統(tǒng)一表征
想象你是怎么打籃球的?你需要從第一人稱視角去感知球的位置,同時迅速準(zhǔn)備好起跳或攔截的動作,并不斷預(yù)判不同動作對球場局勢的影響。而每做出一個動作又會反過來改變環(huán)境,觸發(fā)新一輪的感知 - 行動 - 預(yù)測循環(huán)。這一循環(huán)在人類的成長早期就開始了,嬰兒通過在真實(shí)世界中不斷地觀察與交互,形成一個高度耦合的視覺 - 動作系統(tǒng)。這一系統(tǒng)比語言系統(tǒng)更早 “上線”—— 人類在會說話之前,就已經(jīng)能通過感知和行動來理解和改變周圍環(huán)境。然而,在 AI 領(lǐng)域,對這一系統(tǒng)的學(xué)習(xí)卻落后于語言模型的發(fā)展。
在認(rèn)知科學(xué)中,這一系統(tǒng)的形成機(jī)制被稱為具身認(rèn)知(Embodied Cognition)與共同編碼理論(Common Coding Theory):感知與行動不是相互獨(dú)立的過程,而是在共享的表征空間中協(xié)同工作、相互強(qiáng)化。EgoAgent 正是受到這一機(jī)制的啟發(fā)。它旨在模擬這種人類大腦、身體和環(huán)境之間持續(xù)的互動,使得 AI 能夠像人類一樣學(xué)習(xí) —— 不是僅僅通過觀看圖片,而是通過親身經(jīng)歷世界,去預(yù)測未來、采取行動,并理解行動如何改變環(huán)境。
技術(shù)揭秘:EgoAgent 如何實(shí)現(xiàn) “1+1+1 > 3”?
以往的 AI 模型往往將 “感知 - 行動 - 預(yù)測” 循環(huán)拆解為三個獨(dú)立任務(wù),分別訓(xùn)練,從而割裂了它們之間的內(nèi)在聯(lián)系。EgoAgent 則在大規(guī)模的第一人稱視角視頻與同步采集的三維人體運(yùn)動數(shù)據(jù)上,實(shí)現(xiàn)了三項(xiàng)任務(wù)的聯(lián)合學(xué)習(xí)。
為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個名為JEAP(Joint Embedding-Action-Prediction)的核心架構(gòu)。該架構(gòu)基于聯(lián)合嵌入預(yù)測架構(gòu)世界模型(JEPA World Model)進(jìn)行擴(kuò)展,對其中的 teacher–student 框架進(jìn)行了創(chuàng)新改造:在保留 JEPA 自監(jiān)督預(yù)測條件表征的能力基礎(chǔ)上,進(jìn)一步引入對世界狀態(tài)和三維人體動作的多模態(tài)自回歸預(yù)測,使模型能夠在一個統(tǒng)一的 Transformer 框架內(nèi),同時學(xué)習(xí)三項(xiàng)任務(wù)。JEAP 的核心設(shè)計(jì)包括:
“狀態(tài) - 動作” 交錯式聯(lián)合預(yù)測: EgoAgent 將第一人稱視頻幀和三維人體動作交替編碼為一串統(tǒng)一的 “狀態(tài) - 動作 - 狀態(tài) - 動作” 序列 ,并通過 Transformer 的因果自注意力機(jī)制進(jìn)行建模。這種設(shè)計(jì)使得模型能夠在時間維度上同時捕捉兩種關(guān)系:感知如何驅(qū)動動作,以及動作如何影響未來世界。
“預(yù)言家” 與 “觀察者” 的協(xié)作機(jī)制: EgoAgent 內(nèi)部包含兩個分支:預(yù)測器(Predictor)從過去的 “狀態(tài) - 動作” 序列中預(yù)測未來的世界狀態(tài)和人體動作;而觀察器(Observer)則僅對未來幀進(jìn)行編碼,生成目標(biāo)表征,用于監(jiān)督預(yù)測器的學(xué)習(xí)。類似于 teacher–student 框架,觀察器的參數(shù)通過指數(shù)滑動平均(EMA)從預(yù)測器更新。這一機(jī)制不僅拓展了傳統(tǒng)學(xué)習(xí)框架在時間序列上的自監(jiān)督學(xué)習(xí)能力,使模型能夠在時間維度上對未來進(jìn)行預(yù)測與對齊;同時也保留了在靜態(tài)圖像上的自監(jiān)督學(xué)習(xí)能力:在同一時刻,觀察器與預(yù)測器可分別編碼不同增強(qiáng)方式下生成的圖像特征并進(jìn)行對比學(xué)習(xí),進(jìn)一步強(qiáng)化視覺表征的一致性與穩(wěn)定性。
此外,EgoAgent 還在兩個分支中引入了Query Tokens作為可學(xué)習(xí)的提示詞,用于在共享的潛空間中調(diào)度不同任務(wù)的注意力。這些 query tokens 可以主動 “提問” 模型的潛在空間,從而分別抽取與視覺表征或動作生成相關(guān)的特征,并在反向傳播中解耦各任務(wù)的梯度流,避免不同任務(wù)之間的相互干擾。
與以往一些依賴像素重建的方法不同,EgoAgent 在連續(xù)語義嵌入空間中進(jìn)行學(xué)習(xí)。這一點(diǎn)非常重要,因?yàn)槿祟悓κ澜绲念A(yù)測并不是像素級的還原,而是基于抽象概念和高層語義進(jìn)行推理。這種方法使 EgoAgent 的學(xué)習(xí)方式更接近人類的認(rèn)知方式,并提升了模型在未來狀態(tài)預(yù)測方面的性能。
EgoAgent 的能力展示與實(shí)驗(yàn)分析
EgoAgent 在三項(xiàng)關(guān)鍵任務(wù)上均取得了優(yōu)異表現(xiàn),而現(xiàn)有模型通常僅能在其中一至兩項(xiàng)任務(wù)上實(shí)現(xiàn)有效學(xué)習(xí)。
第一視角世界狀態(tài)預(yù)測:給定過往的第一人稱視角圖片和三維人類動作,EgoAgent 能夠準(zhǔn)確預(yù)測未來的世界狀態(tài)特征。模型的預(yù)測結(jié)果可通過檢索驗(yàn)證其真實(shí)性 —— 若 EgoAgent 預(yù)測的未來世界狀態(tài)能在由所有視頻幀構(gòu)成的圖庫中成功檢索到對應(yīng)的真實(shí)狀態(tài)時,即可視為一次成功的預(yù)測)。在性能方面,EgoAgent 大幅超越了現(xiàn)有的第一視角視覺表征模型 。例如,3 億參數(shù)的 EgoAgent 較最新的第一視角視覺表征模型 DoRA(ICLR 2024) 在 Top1 準(zhǔn)確率上提升了 12.86% ,在 mAP 指標(biāo)上提升了 13.05% 。這表明 EgoAgent 不局限于基于圖像語義相似性進(jìn)行未來狀態(tài)預(yù)測,更能理解世界的時序演化以及動作與環(huán)境間的因果關(guān)系。進(jìn)一步擴(kuò)展至 10 億參數(shù)規(guī)模后,EgoAgent 的性能實(shí)現(xiàn)了持續(xù)提升。
三維人體動作預(yù)測:EgoAgent 能夠根據(jù)第一人稱視角觀察和歷史動作序列,生成連貫且逼真的未來三維人體運(yùn)動。在定量評估中,EgoAgent 在三維動作預(yù)測任務(wù)上取得了領(lǐng)先的性能,相比 Diffusion Policy 以及專用的人體運(yùn)動預(yù)測模型,在 MPJPE(平均每關(guān)節(jié)位置誤差)上達(dá)到最低誤差,在 MPJVE(平均每關(guān)節(jié)速度誤差)指標(biāo)上也表現(xiàn)出高度競爭力。值得注意的是,EgoAgent 在預(yù)測視頻中不可見的人體關(guān)節(jié)時同樣保持了較高的準(zhǔn)確度,展現(xiàn)出其在潛空間中對人體運(yùn)動結(jié)構(gòu)的優(yōu)秀建模能力。
視覺表征:EgoAgent 從第一人稱視頻中學(xué)習(xí)到了魯棒而通用的視覺表征,在基礎(chǔ)的圖像分類和具身操作任務(wù)中均表現(xiàn)出良好的遷移能力。在 ImageNet-1K 上,EgoAgent-1B 的 Top-1 準(zhǔn)確率比 DoRA 提高了 1.32%,表明感知、預(yù)測與行動的聯(lián)合學(xué)習(xí)有助于獲得更具判別力的視覺特征。進(jìn)一步地,在 TriFinger 機(jī)器人操作模擬器中,EgoAgent 使用 100 段演示數(shù)據(jù),通過 3 層 MLP 微調(diào),在 “抓取方塊” 和 “移動方塊” 兩項(xiàng)任務(wù)中均取得最高成功率,分別超越 DoRA 3.32% 和 3.9%。這說明將人體動作預(yù)測融入視覺學(xué)習(xí),有助于模型獲得更具可操作性的表征,從而在具身任務(wù)中展現(xiàn)出更強(qiáng)的泛化與控制能力。
消融實(shí)驗(yàn):為了驗(yàn)證各任務(wù)間的相互作用,研究團(tuán)隊(duì)對 EgoAgent 進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn)。結(jié)果表明,視覺表征、動作預(yù)測與世界預(yù)測三項(xiàng)任務(wù)相互支撐、缺一不可。當(dāng)去掉其中任意一項(xiàng)任務(wù)時,其余任務(wù)的性能都會下降。相反,當(dāng)三項(xiàng)任務(wù)在統(tǒng)一框架下聯(lián)合優(yōu)化時,模型在各項(xiàng)評估指標(biāo)上均獲得最優(yōu)結(jié)果。這一現(xiàn)象表明,多任務(wù)的聯(lián)合學(xué)習(xí)能夠形成正向反饋機(jī)制:視覺任務(wù)提供感知語義,動作任務(wù)引導(dǎo)動態(tài)建模,而世界預(yù)測任務(wù)通過時間連續(xù)性約束整體的潛在空間。這種任務(wù)間的協(xié)同優(yōu)化,使 EgoAgent 能夠更穩(wěn)定地捕捉感知 - 行動之間的關(guān)聯(lián),在整體表現(xiàn)上超越單任務(wù)模型。進(jìn)一步的消融結(jié)果表明,在語義特征空間中進(jìn)行學(xué)習(xí)的模型,在世界預(yù)測的準(zhǔn)確性和視覺表征的有效性方面均顯著優(yōu)于基于像素級重建的潛空間建模。
未來:AI 的 “第一人稱” 進(jìn)階
EgoAgent 不僅僅是一個強(qiáng)大的模型,它代表了一種新的 AI 學(xué)習(xí)范式:讓模型像人類一樣,在充滿動態(tài)和交互的第一人稱視角下,同時學(xué)習(xí)視覺表征、運(yùn)動控制和世界模型。它的應(yīng)用前景極其廣闊:
- 機(jī)器人: 有望提升機(jī)器人的場景感知和操作能力,在復(fù)雜環(huán)境中精準(zhǔn)預(yù)判物體動態(tài)和自身動作對環(huán)境的影響,實(shí)現(xiàn)更自然的交互和協(xié)作。
- AR/VR: 基于第一人稱視角的學(xué)習(xí)機(jī)制,可能幫助系統(tǒng)更好地理解用戶的動作語義與環(huán)境動態(tài),增強(qiáng)體驗(yàn)的沉浸感。
- 智能眼鏡:這類模型有潛力在連續(xù)視覺流中識別用戶意圖或環(huán)境變化,全天候分析動作和環(huán)境的潛在危險并提供輔助性決策支持。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.