整理 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
讓 AI 像人一樣理解世界并與環(huán)境互動。
Meta 重磅發(fā)布了 V-JEPA 2(Video Joint Embedding Predictive Architecture 2) 世界模型,并同時發(fā)布了三個全新的基準(zhǔn)測試,用于評估現(xiàn)有模型通過視頻對物理世界進(jìn)行推理的能力。
這次,Meta 首席 AI 科學(xué)家 Yann LeCun 親自出鏡,并介紹了世界模型與其他模型的不同之處。
V-JEPA 2 是一款基于視頻訓(xùn)練的先進(jìn) AI 系統(tǒng),旨在賦予機(jī)器更深層次的物理世界理解、預(yù)測及交互能力,向著構(gòu)建更通用的AI智能體邁出關(guān)鍵一步。
一經(jīng)發(fā)布,便在 X 上引發(fā)了眾多關(guān)注與討論。
目前 V-JEPA 2 在 Hugging Face 物理推理能力排行榜上排行第一,已超過 GPT-4o。
用百萬小時視頻打造「世界模型」只靠 62 小時機(jī)器人數(shù)據(jù)就能上手控制
Meta 團(tuán)隊(duì)認(rèn)為,未來 AI 的關(guān)鍵在于具備對現(xiàn)實(shí)世界進(jìn)行計(jì)劃與推理的能力,而“世界模型(World Models)”正是實(shí)現(xiàn)這一目標(biāo)的核心路徑。
此次,他們不僅開放了 V-JEPA 2 的模型代碼與權(quán)重檢查點(diǎn),供研究與商業(yè)用途自由使用,也希望借此構(gòu)建起更廣泛的開源社區(qū)生態(tài),推動世界模型領(lǐng)域的持續(xù)進(jìn)展,加速 AI 與物理世界交互方式的革新。
V-JEPA 2 相關(guān)鏈接:
論文地址:https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/ GitHub:https://github.com/facebookresearch/vjepa2 HuggingFace:https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6
V-JEPA 2 基于聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)構(gòu)建,核心由兩大組件組成:
編碼器(Encoder):接收原始視頻輸入,并輸出嵌入表示,捕捉所觀察世界狀態(tài)中的關(guān)鍵語義信息;
預(yù)測器(Predictor):結(jié)合視頻嵌入與具體的預(yù)測任務(wù)上下文,生成對應(yīng)的預(yù)測嵌入結(jié)果。
V-JEPA 2 的訓(xùn)練過程分為兩個階段:
第一階段:無動作預(yù)訓(xùn)練
Meta 使用了來自多個來源的超過 100 萬小時視頻和 100 萬張圖像,為模型構(gòu)建了豐富的感知語義基礎(chǔ)。該階段的核心目標(biāo)是學(xué)習(xí)物體、人與環(huán)境之間的交互邏輯,不涉及任何控制指令。
在完成這一階段后,V-JEPA 2 就已展現(xiàn)出出色的理解與預(yù)測能力:
在 Something-Something v2 動作識別任務(wù)中,僅通過凍結(jié)編碼器特征并訓(xùn)練輕量注意力讀出模型,V-JEPA 2 就取得了優(yōu)異成績。該任務(wù)強(qiáng)調(diào)對運(yùn)動和操作行為的理解。
在 Epic-Kitchens-100 動作預(yù)測任務(wù) 中,通過凍結(jié)編碼器和預(yù)測器,再訓(xùn)練注意力讀出模塊,V-JEPA 2 創(chuàng)造了新的 SOTA 紀(jì)錄。該任務(wù)需要模型從第一人稱視頻中預(yù)測接下來 1 秒可能的動作(包括名詞與動詞)。
此外,將 V-JEPA 2 與語言模型結(jié)合,在視頻問答基準(zhǔn)任務(wù)上(如 Perception Test 和 TempCompass)也實(shí)現(xiàn)了領(lǐng)先的性能。
第二階段:動作條件訓(xùn)練
在掌握世界如何變化的通用模式后,V-JEPA 2 進(jìn)入了更貼近真實(shí) Agent 的訓(xùn)練階段——結(jié)合動作信息進(jìn)行規(guī)劃學(xué)習(xí)。
Meta 使用機(jī)器人數(shù)據(jù)(包括視頻觀察和控制動作)引導(dǎo)預(yù)測器進(jìn)行有條件推理:模型在預(yù)測未來時,會考慮當(dāng)前執(zhí)行的動作,從而具備可控性。令人驚訝的是,這一階段僅使用了 62 小時的機(jī)器人數(shù)據(jù),就能訓(xùn)練出一個具備控制能力的模型。
超 3000 人的「AI 產(chǎn)品及應(yīng)用交流」社群,不錯過 AI 產(chǎn)品風(fēng)云!誠邀所有 AI 產(chǎn)品及應(yīng)用從業(yè)者、產(chǎn)品經(jīng)理、開發(fā)者和創(chuàng)業(yè)者,掃碼加群:
進(jìn)群后,您將有機(jī)會得到:
· 最新、最值得關(guān)注的 AI 產(chǎn)品資訊及大咖洞見
· 獨(dú)家視頻及文章解讀 AGI 時代的產(chǎn)品方法論及實(shí)戰(zhàn)經(jīng)驗(yàn)
· 不定期贈送熱門 AI 產(chǎn)品邀請碼
從理解到執(zhí)行:零樣本機(jī)器人控制能力驗(yàn)證
Meta 在實(shí)際環(huán)境中驗(yàn)證了 V-JEPA 2 的遷移與泛化能力。團(tuán)隊(duì)在開源 DROID 數(shù)據(jù)集上完成模型訓(xùn)練后,直接部署到實(shí)驗(yàn)室機(jī)器人,無需針對部署場景再進(jìn)行微調(diào)。
在多個演示中,V-JEPA 2 展示了強(qiáng)大的零樣本任務(wù)規(guī)劃能力,尤其在此前從未見過的物體和環(huán)境中,完成了以下任務(wù):
短期任務(wù)(如物體 拾取與放置):以圖像形式設(shè)定目標(biāo),模型通過對當(dāng)前狀態(tài)與目標(biāo)狀態(tài)的嵌入,預(yù)測一系列動作后果,并實(shí)時重規(guī)劃,執(zhí)行最優(yōu)動作。
長期任務(wù)(如將物體移動至指定位置):系統(tǒng)會設(shè)定一系列視覺子目標(biāo),機(jī)器人按順序完成各階段目標(biāo),類似人類的模仿學(xué)習(xí)過程。
最終,在完全新環(huán)境中,V-JEPA 2 在 新物體的拾取與放置任務(wù)中達(dá)成 65%~80% 的成功率,展示了“世界模型”在實(shí)現(xiàn)通用機(jī)器人智能方面的廣闊潛力。
什么是世界模型?
與此同時,Meta 團(tuán)隊(duì)還向大家詳細(xì)介紹了什么是世界模型。
人們對于物理世界的直觀理解根深蒂固。例如,人們普遍認(rèn)知到,拋向空 中的網(wǎng)球會被重力拉回地面,若其懸停、驟然轉(zhuǎn)向或變?yōu)樗?,則會令人感到詫異。這種物理直覺并非成年人教育的產(chǎn)物,而是幼兒在掌握語言之前,通過觀察周圍環(huán)境便已逐漸形成的本能認(rèn)知。
預(yù)測世界對自身或他人行為的反應(yīng),是人類在日常生活中持續(xù)運(yùn)用的一項(xiàng)核心能力,尤其在規(guī)劃行動路徑和應(yīng)對陌生情境時至關(guān)重要。
正是這種內(nèi)化的“世界模型”賦予了人類直覺,并如同一個內(nèi)部模擬器,使人能夠預(yù)估假設(shè)行為的后果,從而選擇最能達(dá)成目標(biāo)的行動方案。
在實(shí)際行動前,人類會運(yùn)用其內(nèi)在的世界模型來構(gòu)想潛在結(jié)果。因此,在構(gòu)建能夠“三思而后行”的AI智能體時,一個核心目標(biāo)便是讓它們學(xué)習(xí)到同樣強(qiáng)大的世界模型。這樣的世界模型應(yīng)具備以下關(guān)鍵能力:
理解(Understanding):AI的世界模型需能透徹理解對客觀世界的觀察,包括但不限于識別視頻中的物體、行為及 運(yùn)動模式。
預(yù)測(Predicting):該模型應(yīng)能準(zhǔn)確預(yù)測世界的自然演化趨勢,以及在智能體采取特定行動后世界可能發(fā)生的變化。
規(guī)劃(Planning):基于其預(yù)測能力,世界模型必須能夠有效地規(guī)劃出一系列連貫行動,以實(shí)現(xiàn)預(yù)設(shè)的目標(biāo)。
三大物理理解基準(zhǔn)測試
與此同時,Meta 還發(fā)布了三項(xiàng)全新的物理理解基準(zhǔn)測試: IntPhys 2、MVPBench、CausalVQA, 來評估當(dāng)前 AI 模型對物理世界理解的合理性、因果關(guān)系和反事實(shí)的理解能力。
雖然人類在這些任務(wù)中的準(zhǔn)確率高達(dá) 85%~95%,但包括 V-JEPA 2 在內(nèi)的領(lǐng)先模型仍與人類存在明顯差距,也為下一階段模型演進(jìn)提供了清晰目標(biāo)。
IntPhys 2:判斷“哪一段違反了物理規(guī)律”,專注于測試模型是否具備直覺物理常識。
MVPBench 識別“細(xì)微差異下的真實(shí)因果”:通過構(gòu)造一對幾乎一致的視頻和問題,迫使模型跳脫表層線索,真正理解視頻中的物理因果關(guān)系。
CausalVQA:回答“如果、接下來、為了什么”,旨在測試視頻模型對物理世界因果關(guān)系的理解深度
V-JEPA 2 代表了 Meta 在實(shí)現(xiàn)高級機(jī)器智能(AMI)及構(gòu)建能在物理世界中運(yùn)行的實(shí)用 AI 智能體目標(biāo)上的又一重要進(jìn)展。
下一步
目前 V-JEPA 2 仍以單一時間尺度進(jìn)行預(yù)測,而現(xiàn)實(shí)任務(wù)往往需要跨時間與空間的復(fù)雜規(guī)劃。
下一階段,Meta 團(tuán)隊(duì)將重點(diǎn)探索分層式世界模型,讓 AI 能夠像人類一樣,將復(fù)雜任務(wù)拆解為多個步驟并進(jìn)行推理與執(zhí)行。
同時,還將推進(jìn)多模態(tài)建模能力,融合視覺、聽覺、觸覺等多種感知信息,提升 AI 對世界的理解與預(yù)測水平。團(tuán)隊(duì)也將持續(xù)開源成果,推動這一方向的發(fā)展。
參考鏈接:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
2025 全球產(chǎn)品經(jīng)理大會
8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計(jì)、用戶體驗(yàn)、增長運(yùn)營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報(bào)名,請掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.