夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

浙大、港中文提出EgoAgent:第一人稱感知-行動-預(yù)測一體化智能體

0
分享至



如何讓 AI 像人類一樣從對世界的觀察和互動中自然地學(xué)會理解世界?在今年的國際計(jì)算機(jī)視覺大會(ICCV 2025)上,來自浙江大學(xué)、香港中文大學(xué)、上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究人員聯(lián)合提出了第一人稱聯(lián)合預(yù)測智能體 EgoAgent。受人類認(rèn)知學(xué)習(xí)機(jī)制和 “共同編碼理論(Common Coding Theory)” 啟發(fā),EgoAgent 首次成功地讓模型在統(tǒng)一的潛空間中同時學(xué)習(xí)視覺表征(Visual representation)、人體行動(Human action)和世界預(yù)測 (World state prediction)三大核心任務(wù),打破了傳統(tǒng) AI 中 “感知”、“控制” 和 “預(yù)測” 分離的壁壘。這種聯(lián)合學(xué)習(xí)方式能讓模型在三項(xiàng)任務(wù)間自然形成協(xié)同效應(yīng),并成功遷移到具身操作等任務(wù)之中。



  • 論文題目:EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds
  • 接收會議:ICCV 2025
  • 項(xiàng)目主頁:https://egoagent.github.io
  • 論文鏈接:https://arxiv.org/abs/2502.05857
  • 代碼地址:https://github.com/zju3dv/EgoAgent

靈感來源:模擬人類的具身認(rèn)知過程與感知 - 動作的統(tǒng)一表征

想象你是怎么打籃球的?你需要從第一人稱視角去感知球的位置,同時迅速準(zhǔn)備好起跳或攔截的動作,并不斷預(yù)判不同動作對球場局勢的影響。而每做出一個動作又會反過來改變環(huán)境,觸發(fā)新一輪的感知 - 行動 - 預(yù)測循環(huán)。這一循環(huán)在人類的成長早期就開始了,嬰兒通過在真實(shí)世界中不斷地觀察與交互,形成一個高度耦合的視覺 - 動作系統(tǒng)。這一系統(tǒng)比語言系統(tǒng)更早 “上線”—— 人類在會說話之前,就已經(jīng)能通過感知和行動來理解和改變周圍環(huán)境。然而,在 AI 領(lǐng)域,對這一系統(tǒng)的學(xué)習(xí)卻落后于語言模型的發(fā)展。

在認(rèn)知科學(xué)中,這一系統(tǒng)的形成機(jī)制被稱為具身認(rèn)知(Embodied Cognition)與共同編碼理論(Common Coding Theory):感知與行動不是相互獨(dú)立的過程,而是在共享的表征空間中協(xié)同工作、相互強(qiáng)化。EgoAgent 正是受到這一機(jī)制的啟發(fā)。它旨在模擬這種人類大腦、身體和環(huán)境之間持續(xù)的互動,使得 AI 能夠像人類一樣學(xué)習(xí) —— 不是僅僅通過觀看圖片,而是通過親身經(jīng)歷世界,去預(yù)測未來、采取行動,并理解行動如何改變環(huán)境。



技術(shù)揭秘:EgoAgent 如何實(shí)現(xiàn) “1+1+1 > 3”?

以往的 AI 模型往往將 “感知 - 行動 - 預(yù)測” 循環(huán)拆解為三個獨(dú)立任務(wù),分別訓(xùn)練,從而割裂了它們之間的內(nèi)在聯(lián)系。EgoAgent 則在大規(guī)模的第一人稱視角視頻與同步采集的三維人體運(yùn)動數(shù)據(jù)上,實(shí)現(xiàn)了三項(xiàng)任務(wù)的聯(lián)合學(xué)習(xí)。

為此,研究團(tuán)隊(duì)設(shè)計(jì)了一個名為JEAP(Joint Embedding-Action-Prediction)的核心架構(gòu)。該架構(gòu)基于聯(lián)合嵌入預(yù)測架構(gòu)世界模型(JEPA World Model)進(jìn)行擴(kuò)展,對其中的 teacher–student 框架進(jìn)行了創(chuàng)新改造:在保留 JEPA 自監(jiān)督預(yù)測條件表征的能力基礎(chǔ)上,進(jìn)一步引入對世界狀態(tài)和三維人體動作的多模態(tài)自回歸預(yù)測,使模型能夠在一個統(tǒng)一的 Transformer 框架內(nèi),同時學(xué)習(xí)三項(xiàng)任務(wù)。JEAP 的核心設(shè)計(jì)包括:



“狀態(tài) - 動作” 交錯式聯(lián)合預(yù)測: EgoAgent 將第一人稱視頻幀和三維人體動作交替編碼為一串統(tǒng)一的 “狀態(tài) - 動作 - 狀態(tài) - 動作” 序列 ,并通過 Transformer 的因果自注意力機(jī)制進(jìn)行建模。這種設(shè)計(jì)使得模型能夠在時間維度上同時捕捉兩種關(guān)系:感知如何驅(qū)動動作,以及動作如何影響未來世界。

“預(yù)言家” 與 “觀察者” 的協(xié)作機(jī)制: EgoAgent 內(nèi)部包含兩個分支:預(yù)測器(Predictor)從過去的 “狀態(tài) - 動作” 序列中預(yù)測未來的世界狀態(tài)和人體動作;而觀察器(Observer)則僅對未來幀進(jìn)行編碼,生成目標(biāo)表征,用于監(jiān)督預(yù)測器的學(xué)習(xí)。類似于 teacher–student 框架,觀察器的參數(shù)通過指數(shù)滑動平均(EMA)從預(yù)測器更新。這一機(jī)制不僅拓展了傳統(tǒng)學(xué)習(xí)框架在時間序列上的自監(jiān)督學(xué)習(xí)能力,使模型能夠在時間維度上對未來進(jìn)行預(yù)測與對齊;同時也保留了在靜態(tài)圖像上的自監(jiān)督學(xué)習(xí)能力:在同一時刻,觀察器與預(yù)測器可分別編碼不同增強(qiáng)方式下生成的圖像特征并進(jìn)行對比學(xué)習(xí),進(jìn)一步強(qiáng)化視覺表征的一致性與穩(wěn)定性。

此外,EgoAgent 還在兩個分支中引入了Query Tokens作為可學(xué)習(xí)的提示詞,用于在共享的潛空間中調(diào)度不同任務(wù)的注意力。這些 query tokens 可以主動 “提問” 模型的潛在空間,從而分別抽取與視覺表征或動作生成相關(guān)的特征,并在反向傳播中解耦各任務(wù)的梯度流,避免不同任務(wù)之間的相互干擾。

與以往一些依賴像素重建的方法不同,EgoAgent 在連續(xù)語義嵌入空間中進(jìn)行學(xué)習(xí)。這一點(diǎn)非常重要,因?yàn)槿祟悓κ澜绲念A(yù)測并不是像素級的還原,而是基于抽象概念和高層語義進(jìn)行推理。這種方法使 EgoAgent 的學(xué)習(xí)方式更接近人類的認(rèn)知方式,并提升了模型在未來狀態(tài)預(yù)測方面的性能。

EgoAgent 的能力展示與實(shí)驗(yàn)分析

EgoAgent 在三項(xiàng)關(guān)鍵任務(wù)上均取得了優(yōu)異表現(xiàn),而現(xiàn)有模型通常僅能在其中一至兩項(xiàng)任務(wù)上實(shí)現(xiàn)有效學(xué)習(xí)。



第一視角世界狀態(tài)預(yù)測:給定過往的第一人稱視角圖片和三維人類動作,EgoAgent 能夠準(zhǔn)確預(yù)測未來的世界狀態(tài)特征。模型的預(yù)測結(jié)果可通過檢索驗(yàn)證其真實(shí)性 —— 若 EgoAgent 預(yù)測的未來世界狀態(tài)能在由所有視頻幀構(gòu)成的圖庫中成功檢索到對應(yīng)的真實(shí)狀態(tài)時,即可視為一次成功的預(yù)測)。在性能方面,EgoAgent 大幅超越了現(xiàn)有的第一視角視覺表征模型 。例如,3 億參數(shù)的 EgoAgent 較最新的第一視角視覺表征模型 DoRA(ICLR 2024) 在 Top1 準(zhǔn)確率上提升了 12.86% ,在 mAP 指標(biāo)上提升了 13.05% 。這表明 EgoAgent 不局限于基于圖像語義相似性進(jìn)行未來狀態(tài)預(yù)測,更能理解世界的時序演化以及動作與環(huán)境間的因果關(guān)系。進(jìn)一步擴(kuò)展至 10 億參數(shù)規(guī)模后,EgoAgent 的性能實(shí)現(xiàn)了持續(xù)提升。



三維人體動作預(yù)測:EgoAgent 能夠根據(jù)第一人稱視角觀察和歷史動作序列,生成連貫且逼真的未來三維人體運(yùn)動。在定量評估中,EgoAgent 在三維動作預(yù)測任務(wù)上取得了領(lǐng)先的性能,相比 Diffusion Policy 以及專用的人體運(yùn)動預(yù)測模型,在 MPJPE(平均每關(guān)節(jié)位置誤差)上達(dá)到最低誤差,在 MPJVE(平均每關(guān)節(jié)速度誤差)指標(biāo)上也表現(xiàn)出高度競爭力。值得注意的是,EgoAgent 在預(yù)測視頻中不可見的人體關(guān)節(jié)時同樣保持了較高的準(zhǔn)確度,展現(xiàn)出其在潛空間中對人體運(yùn)動結(jié)構(gòu)的優(yōu)秀建模能力。



視覺表征:EgoAgent 從第一人稱視頻中學(xué)習(xí)到了魯棒而通用的視覺表征,在基礎(chǔ)的圖像分類和具身操作任務(wù)中均表現(xiàn)出良好的遷移能力。在 ImageNet-1K 上,EgoAgent-1B 的 Top-1 準(zhǔn)確率比 DoRA 提高了 1.32%,表明感知、預(yù)測與行動的聯(lián)合學(xué)習(xí)有助于獲得更具判別力的視覺特征。進(jìn)一步地,在 TriFinger 機(jī)器人操作模擬器中,EgoAgent 使用 100 段演示數(shù)據(jù),通過 3 層 MLP 微調(diào),在 “抓取方塊” 和 “移動方塊” 兩項(xiàng)任務(wù)中均取得最高成功率,分別超越 DoRA 3.32% 和 3.9%。這說明將人體動作預(yù)測融入視覺學(xué)習(xí),有助于模型獲得更具可操作性的表征,從而在具身任務(wù)中展現(xiàn)出更強(qiáng)的泛化與控制能力。



消融實(shí)驗(yàn):為了驗(yàn)證各任務(wù)間的相互作用,研究團(tuán)隊(duì)對 EgoAgent 進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn)。結(jié)果表明,視覺表征、動作預(yù)測與世界預(yù)測三項(xiàng)任務(wù)相互支撐、缺一不可。當(dāng)去掉其中任意一項(xiàng)任務(wù)時,其余任務(wù)的性能都會下降。相反,當(dāng)三項(xiàng)任務(wù)在統(tǒng)一框架下聯(lián)合優(yōu)化時,模型在各項(xiàng)評估指標(biāo)上均獲得最優(yōu)結(jié)果。這一現(xiàn)象表明,多任務(wù)的聯(lián)合學(xué)習(xí)能夠形成正向反饋機(jī)制:視覺任務(wù)提供感知語義,動作任務(wù)引導(dǎo)動態(tài)建模,而世界預(yù)測任務(wù)通過時間連續(xù)性約束整體的潛在空間。這種任務(wù)間的協(xié)同優(yōu)化,使 EgoAgent 能夠更穩(wěn)定地捕捉感知 - 行動之間的關(guān)聯(lián),在整體表現(xiàn)上超越單任務(wù)模型。進(jìn)一步的消融結(jié)果表明,在語義特征空間中進(jìn)行學(xué)習(xí)的模型,在世界預(yù)測的準(zhǔn)確性和視覺表征的有效性方面均顯著優(yōu)于基于像素級重建的潛空間建模。



未來:AI 的 “第一人稱” 進(jìn)階

EgoAgent 不僅僅是一個強(qiáng)大的模型,它代表了一種新的 AI 學(xué)習(xí)范式:讓模型像人類一樣,在充滿動態(tài)和交互的第一人稱視角下,同時學(xué)習(xí)視覺表征、運(yùn)動控制和世界模型。它的應(yīng)用前景極其廣闊:

  • 機(jī)器人: 有望提升機(jī)器人的場景感知和操作能力,在復(fù)雜環(huán)境中精準(zhǔn)預(yù)判物體動態(tài)和自身動作對環(huán)境的影響,實(shí)現(xiàn)更自然的交互和協(xié)作。
  • AR/VR: 基于第一人稱視角的學(xué)習(xí)機(jī)制,可能幫助系統(tǒng)更好地理解用戶的動作語義與環(huán)境動態(tài),增強(qiáng)體驗(yàn)的沉浸感。
  • 智能眼鏡:這類模型有潛力在連續(xù)視覺流中識別用戶意圖或環(huán)境變化,全天候分析動作和環(huán)境的潛在危險并提供輔助性決策支持。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
否認(rèn)楊振寧逝世,施一公付出透支信用的代價

否認(rèn)楊振寧逝世,施一公付出透支信用的代價

每日一見
2025-10-20 00:01:41
丹麥賽:國羽1金3銀收官,鳳凰組合三連冠,石宇奇崩盤王祉怡慘敗

丹麥賽:國羽1金3銀收官,鳳凰組合三連冠,石宇奇崩盤王祉怡慘敗

釘釘陌上花開
2025-10-20 00:17:34
封鎖失???美稀土分離技術(shù)重大突破,2026年可擺脫稀土礦依賴

封鎖失?。棵老⊥练蛛x技術(shù)重大突破,2026年可擺脫稀土礦依賴

白夢日記
2025-10-18 20:12:22
跳河新郎母親發(fā)聲!輿論大反轉(zhuǎn),不只是錢這么簡單,更多隱情曝光

跳河新郎母親發(fā)聲!輿論大反轉(zhuǎn),不只是錢這么簡單,更多隱情曝光

凡知
2025-10-18 17:29:28
利物浦4連敗崩盤 連續(xù)3輪英超被絕殺 斯洛特用廢11.5億豪陣該下課

利物浦4連敗崩盤 連續(xù)3輪英超被絕殺 斯洛特用廢11.5億豪陣該下課

我愛英超
2025-10-20 01:40:15
看她頭像漂亮,浙江小伙想去店里和她“發(fā)展一下”,記者靈魂發(fā)問:你覺得這家店正規(guī)嗎?

看她頭像漂亮,浙江小伙想去店里和她“發(fā)展一下”,記者靈魂發(fā)問:你覺得這家店正規(guī)嗎?

FM93浙江交通之聲
2025-10-19 23:25:49
印度民間囤積的2.4萬噸黃金,終于成了印度官方的噩夢!

印度民間囤積的2.4萬噸黃金,終于成了印度官方的噩夢!

南宮一二
2025-10-19 11:31:53
打破29個月冠軍荒!梅總苦戰(zhàn)結(jié)束決賽6連敗,奪個人生涯第21冠

打破29個月冠軍荒!梅總苦戰(zhàn)結(jié)束決賽6連敗,奪個人生涯第21冠

全景體育V
2025-10-19 20:54:59
西南聯(lián)大五大才子

西南聯(lián)大五大才子

祁州校尉
2025-10-19 14:23:07
實(shí)在交不起了!由于中國對等反制,大量美國船放棄??恐袊劭冢?>
    </a>
        <h3>
      <a href=青青子衿
2025-10-19 16:08:58
雷軍發(fā)言,讓自己加速崩塌!

雷軍發(fā)言,讓自己加速崩塌!

周一叨
2025-10-18 16:15:10
沉寂24小時后,大陸致賀電,鄭麗文遞出三句話,兩岸同屬中華民族

沉寂24小時后,大陸致賀電,鄭麗文遞出三句話,兩岸同屬中華民族

影孖看世界
2025-10-19 20:14:37
豪門悲喜夜 利物浦1-2曼聯(lián)吞4連敗 米蘭2-1登頂 皇馬1-0德比8連勝

豪門悲喜夜 利物浦1-2曼聯(lián)吞4連敗 米蘭2-1登頂 皇馬1-0德比8連勝

狍子歪解體壇
2025-10-20 05:13:48
竇驍婚變升級!何超蓮被曝已有新歡,兩人結(jié)婚沒領(lǐng)證,竇驍虧慘了

竇驍婚變升級!何超蓮被曝已有新歡,兩人結(jié)婚沒領(lǐng)證,竇驍虧慘了

萌神木木
2025-10-19 12:29:53
指導(dǎo)員張偉同志,不幸因公犧牲

指導(dǎo)員張偉同志,不幸因公犧牲

新京報(bào)政事兒
2025-10-19 14:08:28
左宗棠堪稱封神的千古名句:值得你抄寫100遍,讀懂受益一生

左宗棠堪稱封神的千古名句:值得你抄寫100遍,讀懂受益一生

長風(fēng)文史
2025-10-18 10:01:47
別再扯外星人了,三星堆的真相是:一個主動刪號跑路的頂級文明

別再扯外星人了,三星堆的真相是:一個主動刪號跑路的頂級文明

史意生活
2025-10-18 20:41:09
5-0!3-0!亞洲四強(qiáng)驚艷世界杯:首輪3勝1平 中國女足創(chuàng)26年歷史

5-0!3-0!亞洲四強(qiáng)驚艷世界杯:首輪3勝1平 中國女足創(chuàng)26年歷史

侃球熊弟
2025-10-19 23:11:04
曼聯(lián)2-1利物浦終獲英超連勝!阿莫林創(chuàng)百年紀(jì)錄,或成執(zhí)教轉(zhuǎn)折點(diǎn)

曼聯(lián)2-1利物浦終獲英超連勝!阿莫林創(chuàng)百年紀(jì)錄,或成執(zhí)教轉(zhuǎn)折點(diǎn)

羅米的曼聯(lián)博客
2025-10-20 07:18:23
盜竊盧浮宮一共4人

盜竊盧浮宮一共4人

環(huán)球網(wǎng)資訊
2025-10-19 20:51:51
2025-10-20 07:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11495文章數(shù) 142486關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|楊振寧:最頂尖的學(xué)生不是教出來的

頭條要聞

澤連斯基:愿意參加特朗普與普京在匈牙利的會晤

頭條要聞

澤連斯基:愿意參加特朗普與普京在匈牙利的會晤

體育要聞

正在爆火的"拼好球" 馬斯克和樊振東也在玩

娛樂要聞

竇驍婚變升級!何超蓮被曝已有新歡

財(cái)經(jīng)要聞

星巴克中國股權(quán)出售進(jìn)入倒計(jì)時

汽車要聞

最高15000元兜底 智界R7/S7推出購置稅補(bǔ)貼方案

態(tài)度原創(chuàng)

藝術(shù)
本地
教育
家居
房產(chǎn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

教育要聞

手機(jī)沒奪走孩子,焦慮才奪走童年

家居要聞

因異而生 古今文脈交融

房產(chǎn)要聞

北方大面積降溫上熱搜!華潤置地出手,在三亞CBD重塑熱帶度假人居格局!

無障礙瀏覽 進(jìn)入關(guān)懷版 人成午夜免费大片| 狼狼人妻久久久久久蜜AV| 波多野结衣的av电影| 欧美成人网站在线| 老少交欧美另类| 四房色播网站| 亚洲av无码电影在线播放| 中文字幕精品久久天堂一区| 毛片久久99| 操老熟女免费视频| 日韩精品区一区二区三区激情| 制服肉丝袜亚洲中文字幕| 18岁美女操逼片| 欲ー交ー乱一区二区三区| 日韩AV无码精品一二三区| 国产aⅴ无码专区亚洲av麻豆| 日韩vr在线视频| 亚洲精品岛国片在线观看| 午夜欧美ab| 中文无码亚洲精品制服丝袜| 无遮挡裸体免费视频尤物| 俺来啦俺也去www色官网| 国产成人A区在线观看| 丁香婷婷二月| 丰满少妇被猛烈进出69影院| 99日韩精品在线观看| 久久人妻激情四射| 成年永久一区二区三区免费视频| 7777欧美| 久久成人av| 日韩av 丝袜人妻| 精品国产迷系列在线观看| 日韩精品卡2卡3卡4卡5| 爆乳无码尤物Av蜜臀av | 国产精品无码av天天爽播放器| 亚洲欧美,国产精品| 精品国产精品中文字幕| 好男人社区WWW在线观看| 精品少妇无码一区二区三批| 樱花草视频www日本韩国| 无码国内精品久久人妻毛片|