LeCun親自官宣！Meta世界模型V-JEPA 2登場！僅用62小時機(jī)器人數(shù)據(jù)，就能實(shí)現(xiàn)零樣本控制！

2025-06-12 19:42:21　來源: AI科技大本營

北京舉報(bào)

分享至

整理 | 夢依丹

出品丨AI 科技大本營（ID：rgznai100）

讓 AI 像人一樣理解世界并與環(huán)境互動。

Meta 重磅發(fā)布了 V-JEPA 2（Video Joint Embedding Predictive Architecture 2）世界模型，并同時發(fā)布了三個全新的基準(zhǔn)測試，用于評估現(xiàn)有模型通過視頻對物理世界進(jìn)行推理的能力。

這次，Meta 首席 AI 科學(xué)家 Yann LeCun 親自出鏡，并介紹了世界模型與其他模型的不同之處。

V-JEPA 2 是一款基于視頻訓(xùn)練的先進(jìn) AI 系統(tǒng)，旨在賦予機(jī)器更深層次的物理世界理解、預(yù)測及交互能力，向著構(gòu)建更通用的AI智能體邁出關(guān)鍵一步。

一經(jīng)發(fā)布，便在 X 上引發(fā)了眾多關(guān)注與討論。

目前 V-JEPA 2 在 Hugging Face 物理推理能力排行榜上排行第一，已超過 GPT-4o。

用百萬小時視頻打造「世界模型」只靠 62 小時機(jī)器人數(shù)據(jù)就能上手控制

Meta 團(tuán)隊(duì)認(rèn)為，未來 AI 的關(guān)鍵在于具備對現(xiàn)實(shí)世界進(jìn)行計(jì)劃與推理的能力，而“世界模型（World Models）”正是實(shí)現(xiàn)這一目標(biāo)的核心路徑。

此次，他們不僅開放了 V-JEPA 2 的模型代碼與權(quán)重檢查點(diǎn)，供研究與商業(yè)用途自由使用，也希望借此構(gòu)建起更廣泛的開源社區(qū)生態(tài)，推動世界模型領(lǐng)域的持續(xù)進(jìn)展，加速 AI 與物理世界交互方式的革新。

V-JEPA 2 相關(guān)鏈接：

論文地址：https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/ GitHub：https://github.com/facebookresearch/vjepa2 HuggingFace：https://huggingface.co/collections/facebook/v-jepa-2-6841bad8413014e185b497a6

V-JEPA 2 基于聯(lián)合嵌入預(yù)測架構(gòu)（JEPA）構(gòu)建，核心由兩大組件組成：

編碼器（Encoder）：接收原始視頻輸入，并輸出嵌入表示，捕捉所觀察世界狀態(tài)中的關(guān)鍵語義信息；
預(yù)測器（Predictor）：結(jié)合視頻嵌入與具體的預(yù)測任務(wù)上下文，生成對應(yīng)的預(yù)測嵌入結(jié)果。

V-JEPA 2 的訓(xùn)練過程分為兩個階段：

第一階段：無動作預(yù)訓(xùn)練

Meta 使用了來自多個來源的超過 100 萬小時視頻和 100 萬張圖像，為模型構(gòu)建了豐富的感知語義基礎(chǔ)。該階段的核心目標(biāo)是學(xué)習(xí)物體、人與環(huán)境之間的交互邏輯，不涉及任何控制指令。

在完成這一階段后，V-JEPA 2 就已展現(xiàn)出出色的理解與預(yù)測能力：

在 Something-Something v2 動作識別任務(wù)中，僅通過凍結(jié)編碼器特征并訓(xùn)練輕量注意力讀出模型，V-JEPA 2 就取得了優(yōu)異成績。該任務(wù)強(qiáng)調(diào)對運(yùn)動和操作行為的理解。
在 Epic-Kitchens-100 動作預(yù)測任務(wù) 中，通過凍結(jié)編碼器和預(yù)測器，再訓(xùn)練注意力讀出模塊，V-JEPA 2 創(chuàng)造了新的 SOTA 紀(jì)錄。該任務(wù)需要模型從第一人稱視頻中預(yù)測接下來 1 秒可能的動作（包括名詞與動詞）。
此外，將 V-JEPA 2 與語言模型結(jié)合，在視頻問答基準(zhǔn)任務(wù)上（如 Perception Test 和 TempCompass）也實(shí)現(xiàn)了領(lǐng)先的性能。

第二階段：動作條件訓(xùn)練

在掌握世界如何變化的通用模式后，V-JEPA 2 進(jìn)入了更貼近真實(shí) Agent 的訓(xùn)練階段——結(jié)合動作信息進(jìn)行規(guī)劃學(xué)習(xí)。

Meta 使用機(jī)器人數(shù)據(jù)（包括視頻觀察和控制動作）引導(dǎo)預(yù)測器進(jìn)行有條件推理：模型在預(yù)測未來時，會考慮當(dāng)前執(zhí)行的動作，從而具備可控性。令人驚訝的是，這一階段僅使用了 62 小時的機(jī)器人數(shù)據(jù)，就能訓(xùn)練出一個具備控制能力的模型。

超 3000 人的「AI 產(chǎn)品及應(yīng)用交流」社群，不錯過 AI 產(chǎn)品風(fēng)云！誠邀所有 AI 產(chǎn)品及應(yīng)用從業(yè)者、產(chǎn)品經(jīng)理、開發(fā)者和創(chuàng)業(yè)者，掃碼加群：

進(jìn)群后，您將有機(jī)會得到：

· 最新、最值得關(guān)注的 AI 產(chǎn)品資訊及大咖洞見

· 獨(dú)家視頻及文章解讀 AGI 時代的產(chǎn)品方法論及實(shí)戰(zhàn)經(jīng)驗(yàn)

· 不定期贈送熱門 AI 產(chǎn)品邀請碼

從理解到執(zhí)行：零樣本機(jī)器人控制能力驗(yàn)證

Meta 在實(shí)際環(huán)境中驗(yàn)證了 V-JEPA 2 的遷移與泛化能力。團(tuán)隊(duì)在開源 DROID 數(shù)據(jù)集上完成模型訓(xùn)練后，直接部署到實(shí)驗(yàn)室機(jī)器人，無需針對部署場景再進(jìn)行微調(diào)。

在多個演示中，V-JEPA 2 展示了強(qiáng)大的零樣本任務(wù)規(guī)劃能力，尤其在此前從未見過的物體和環(huán)境中，完成了以下任務(wù)：

短期任務(wù)（如物體拾取與放置）：以圖像形式設(shè)定目標(biāo)，模型通過對當(dāng)前狀態(tài)與目標(biāo)狀態(tài)的嵌入，預(yù)測一系列動作后果，并實(shí)時重規(guī)劃，執(zhí)行最優(yōu)動作。
長期任務(wù)（如將物體移動至指定位置）：系統(tǒng)會設(shè)定一系列視覺子目標(biāo)，機(jī)器人按順序完成各階段目標(biāo)，類似人類的模仿學(xué)習(xí)過程。
最終，在完全新環(huán)境中，V-JEPA 2 在新物體的拾取與放置任務(wù)中達(dá)成 65%~80% 的成功率，展示了“世界模型”在實(shí)現(xiàn)通用機(jī)器人智能方面的廣闊潛力。

什么是世界模型？

與此同時，Meta 團(tuán)隊(duì)還向大家詳細(xì)介紹了什么是世界模型。

人們對于物理世界的直觀理解根深蒂固。例如，人們普遍認(rèn)知到，拋向空中的網(wǎng)球會被重力拉回地面，若其懸停、驟然轉(zhuǎn)向或變?yōu)樗?，則會令人感到詫異。這種物理直覺并非成年人教育的產(chǎn)物，而是幼兒在掌握語言之前，通過觀察周圍環(huán)境便已逐漸形成的本能認(rèn)知。

預(yù)測世界對自身或他人行為的反應(yīng)，是人類在日常生活中持續(xù)運(yùn)用的一項(xiàng)核心能力，尤其在規(guī)劃行動路徑和應(yīng)對陌生情境時至關(guān)重要。

正是這種內(nèi)化的“世界模型”賦予了人類直覺，并如同一個內(nèi)部模擬器，使人能夠預(yù)估假設(shè)行為的后果，從而選擇最能達(dá)成目標(biāo)的行動方案。

在實(shí)際行動前，人類會運(yùn)用其內(nèi)在的世界模型來構(gòu)想潛在結(jié)果。因此，在構(gòu)建能夠“三思而后行”的AI智能體時，一個核心目標(biāo)便是讓它們學(xué)習(xí)到同樣強(qiáng)大的世界模型。這樣的世界模型應(yīng)具備以下關(guān)鍵能力：

理解（Understanding）：AI的世界模型需能透徹理解對客觀世界的觀察，包括但不限于識別視頻中的物體、行為及運(yùn)動模式。
預(yù)測（Predicting）：該模型應(yīng)能準(zhǔn)確預(yù)測世界的自然演化趨勢，以及在智能體采取特定行動后世界可能發(fā)生的變化。
規(guī)劃（Planning）：基于其預(yù)測能力，世界模型必須能夠有效地規(guī)劃出一系列連貫行動，以實(shí)現(xiàn)預(yù)設(shè)的目標(biāo)。

三大物理理解基準(zhǔn)測試

與此同時，Meta 還發(fā)布了三項(xiàng)全新的物理理解基準(zhǔn)測試： IntPhys 2、MVPBench、CausalVQA，來評估當(dāng)前 AI 模型對物理世界理解的合理性、因果關(guān)系和反事實(shí)的理解能力。

雖然人類在這些任務(wù)中的準(zhǔn)確率高達(dá) 85%~95%，但包括 V-JEPA 2 在內(nèi)的領(lǐng)先模型仍與人類存在明顯差距，也為下一階段模型演進(jìn)提供了清晰目標(biāo)。

IntPhys 2：判斷“哪一段違反了物理規(guī)律”，專注于測試模型是否具備直覺物理常識。

MVPBench 識別“細(xì)微差異下的真實(shí)因果”：通過構(gòu)造一對幾乎一致的視頻和問題，迫使模型跳脫表層線索，真正理解視頻中的物理因果關(guān)系。

CausalVQA：回答“如果、接下來、為了什么”，旨在測試視頻模型對物理世界因果關(guān)系的理解深度

V-JEPA 2 代表了 Meta 在實(shí)現(xiàn)高級機(jī)器智能（AMI）及構(gòu)建能在物理世界中運(yùn)行的實(shí)用 AI 智能體目標(biāo)上的又一重要進(jìn)展。

下一步

目前 V-JEPA 2 仍以單一時間尺度進(jìn)行預(yù)測，而現(xiàn)實(shí)任務(wù)往往需要跨時間與空間的復(fù)雜規(guī)劃。

下一階段，Meta 團(tuán)隊(duì)將重點(diǎn)探索分層式世界模型，讓 AI 能夠像人類一樣，將復(fù)雜任務(wù)拆解為多個步驟并進(jìn)行推理與執(zhí)行。

同時，還將推進(jìn)多模態(tài)建模能力，融合視覺、聽覺、觸覺等多種感知信息，提升 AI 對世界的理解與預(yù)測水平。團(tuán)隊(duì)也將持續(xù)開源成果，推動這一方向的發(fā)展。

參考鏈接：https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/

2025 全球產(chǎn)品經(jīng)理大會

8 月 15–16 日

北京·威斯汀酒店

2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人，圍繞產(chǎn)品設(shè)計(jì)、用戶體驗(yàn)、增長運(yùn)營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報(bào)名，請掃碼下方二維碼。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.