夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

世界模型==VQA?機(jī)器人不用想象畫面,預(yù)測語義就夠了

0
分享至



機(jī)器之心報道

編輯:張倩

對于機(jī)器人來說,世界模型真的有必要想象出精確的未來畫面嗎?在一篇新論文中,來自華盛頓大學(xué)、索尼 AI 的研究者提出了這個疑問。



眾所周知,世界模型是一種讓 AI「想象未來」的學(xué)習(xí)方法。它可以從大量數(shù)據(jù)中學(xué)習(xí)世界的運(yùn)行規(guī)律,然后根據(jù)當(dāng)前狀態(tài)預(yù)測未來可能發(fā)生的事情。這種能力非常關(guān)鍵,因?yàn)槿绻?AI 能對未來做出合理預(yù)測,就能提前規(guī)劃出更聰明、更穩(wěn)健的行動策略。

在實(shí)踐中,世界模型的實(shí)現(xiàn)形式多種多樣,從小規(guī)模的基于狀態(tài)的動力學(xué)模型,到大型的基于動作條件的視頻預(yù)測模型都有。但無論形式如何,大多數(shù)模型都會嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像,但卻不一定適合用來做決策。原因在于:圖像看起來再真實(shí),也可能漏掉一些真正關(guān)鍵的語義細(xì)節(jié) —— 比如兩個物體是否真的發(fā)生了接觸。

過去有一些方法嘗試只建?!概c任務(wù)相關(guān)」的信息,但這類方法往往需要額外的假設(shè),比如必須知道獎勵函數(shù)或任務(wù)中某些已知因素。這讓它們在實(shí)際使用中變得不太靈活。

如果像素信息并非規(guī)劃所必需,那么做出行動決策所真正需要的是什么?

這篇論文提出:能夠預(yù)測關(guān)于未來結(jié)果的語義信息就足夠了。世界模型不應(yīng)再專注于預(yù)測原始的視覺幀,而應(yīng)捕捉與任務(wù)相關(guān)的對象及其交互信息,例如:「機(jī)械臂是否更靠近目標(biāo)物體?」「紅色方塊是否傾倒?」「藍(lán)色球是否被拾起?」

論文將這種信息建模為一個關(guān)于未來的視覺問答(VQA)問題,利用這樣一個事實(shí):任何目標(biāo)結(jié)果都可以用一系列「是 / 否」問題來表達(dá)。換言之,世界建模問題可以被重新定義為一個關(guān)于未來結(jié)果的 VQA 問題。

目前已有一類模型具備完善的視覺問答工具體系,即視覺語言模型(VLM)。在世界建模任務(wù)中,VLM 具有兩大優(yōu)勢:

  • 一是,它們通過大規(guī)模預(yù)訓(xùn)練獲得了強(qiáng)大的視覺問答能力與廣泛的泛化能力;
  • 二是,它們編碼了關(guān)于任務(wù)與場景語義特征的先驗(yàn)知識。

這些優(yōu)勢使得前沿的 VLM 能夠提出與任務(wù)相關(guān)的問題,并在給定靜態(tài)觀測時給出可靠的答案。然而,它們?nèi)狈ξ磥斫Y(jié)果的預(yù)測能力,這限制了它們在決策任務(wù)中的直接應(yīng)用。

為此,新論文提出了「語義世界模型(Semantic World Model, SWM)」的概念。SVM 是一種具備泛化能力的世界模型,它以動作條件的視覺語言模型形式存在,能夠回答關(guān)于未來動作語義效果的問題。



  • 論文標(biāo)題:SEMANTIC WORLD MODELS
  • 論文鏈接:https://arxiv.org/pdf/2510.19818
  • 項(xiàng)目鏈接:https://weirdlabuw.github.io/swm/

與傳統(tǒng)預(yù)測未來幀的世界模型不同,SWM 在給定當(dāng)前觀測(圖像表示)與動作序列的情況下,回答關(guān)于未來的自然語言問題。

如圖 1 所示,模型輸入包括:當(dāng)前觀測、一系列擬執(zhí)行的動作,以及一個關(guān)于未來的自然語言提問。模型通過理解這些動作在環(huán)境中將帶來的后果,生成相應(yīng)的文本回答。



由于 SWM 本質(zhì)上是一個與任務(wù)無關(guān)的世界模型,它可以在對通用序列數(shù)據(jù)質(zhì)量要求極低的情況下進(jìn)行訓(xùn)練,這些數(shù)據(jù)包括游戲數(shù)據(jù)和非最優(yōu)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)可以很容易地從任何(專家或非專家)數(shù)據(jù)語料庫中獲取,其格式為當(dāng)前觀測結(jié)果、行動、(關(guān)于未來的)問題以及預(yù)期答案。

通過 SWM 來推理未來結(jié)果,AI 就能夠在動作空間中進(jìn)行靈活的、開放世界的多任務(wù)規(guī)劃。

當(dāng)任務(wù)以自然語言描述時,系統(tǒng)可以有兩種方式理解目標(biāo):要么利用預(yù)訓(xùn)練好的 VLM 自動解析任務(wù)意圖,要么由人類將任務(wù)拆解成一組文本化的「問題 — 期望答案」對。在得到這組問答之后,SWM 就可以用來規(guī)劃動作,使得未來得到這些期望答案的可能性最大化。

給定自然語言形式的任務(wù)說明,人們既可以利用預(yù)訓(xùn)練的 VLM,也可以手動將任務(wù)說明分解為一組問題以及文本形式的預(yù)期答案。有了這個問答集,SWM 就可以被用來規(guī)劃動作,從而極有可能在未來得出這些問題的預(yù)期答案。

盡管有大量技術(shù)可用于這種規(guī)劃,但本研究表明,它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容,這些方法會針對預(yù)期似然目標(biāo)進(jìn)行優(yōu)化。研究表明,這些規(guī)劃方法在計算上是可行的,相比常規(guī)的動作選擇方法,能在測試時帶來顯著改進(jìn)。此外,它還展示了此類規(guī)劃方法對多步驟長程問題的可擴(kuò)展性。

在實(shí)驗(yàn)方面,SWM 在兩個常用的多任務(wù)仿真環(huán)境 ——Language Table(LangTable)與 OGBench—— 上進(jìn)行了評估。結(jié)果表明:SWM 能夠準(zhǔn)確回答關(guān)于未來結(jié)果的問題,并能泛化到新場景中。SWM 可以與基于采樣的標(biāo)準(zhǔn)規(guī)劃技術(shù)以及基于梯度的改進(jìn)技術(shù)相結(jié)合,通過測試時優(yōu)化實(shí)現(xiàn)顯著的策略改進(jìn),從而解決各種機(jī)器人任務(wù)。

綜上所述,SWM 代表了一類新型的世界模型,它利用 VLM 的豐富預(yù)訓(xùn)練知識,實(shí)現(xiàn)了可落地、靈活且可擴(kuò)展的機(jī)器人控制。

語義世界模型概覽

下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型,經(jīng)過調(diào)整后能夠回答與未來相關(guān)的問題,這些問題由用于調(diào)整模型的動作所決定。通過一系列問題和期望的答案,其預(yù)測可以轉(zhuǎn)化為規(guī)劃信號,并迭代優(yōu)化動作序列。



數(shù)據(jù)集生成

為了訓(xùn)練一個能夠回答關(guān)于未來問題的世界模型,本文生成了一個狀態(tài) - 動作 - 問題 - 答案(SAQA)數(shù)據(jù)集。圖 3 展示了該數(shù)據(jù)集中一個單獨(dú)的狀態(tài)與多個問題和答案的配對情況。



架構(gòu)概覽

SWM 是一個能夠在給定動作條件下回答關(guān)于未來事件問題的模型。具備這種能力的模型本質(zhì)上是一種帶有動作條件的視覺問答模型。因此,從大型預(yù)訓(xùn)練視覺語言模型(VLM)出發(fā),將其泛化能力遷移到機(jī)器人任務(wù)中是很自然的做法。這種 SWM 架構(gòu)基于開源的視覺語言模型 PaliGemma。

該模型包含三個核心預(yù)訓(xùn)練組件:一個基于 Transformer 的自回歸語言模型(其 token 嵌入大小為 d_tok)、一個視覺編碼器 v_?(其特征大小為 d_img)以及一個投影矩陣。PaliGemma 架構(gòu)建立在兩個單獨(dú)訓(xùn)練的組件之上:Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM,其中 Z_sc 是 v_? 的特征空間,Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數(shù)檢查點(diǎn)作為基礎(chǔ)模型。



為了讓基礎(chǔ)模型能夠就「某一特定未來(由行動產(chǎn)生)」回答問題,模型必須以這些行動為條件。為此,作者引入一個新的投影矩陣,它將單個動作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。





給定數(shù)據(jù)集 D_SAQA 中的一個元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),輸入序列通過將圖像嵌入、動作嵌入和問題 token 嵌入拼接而成:



隨后,模型以端到端方式微調(diào),通過優(yōu)化標(biāo)準(zhǔn)交叉熵?fù)p失來預(yù)測目標(biāo)答案 A_{S_j}。



這種訓(xùn)練過程使模型能夠在語言空間中捕捉環(huán)境的動態(tài),從而在無需顯式生成像素級表征的情況下回答有關(guān)未來狀態(tài)的問題。

實(shí)驗(yàn)結(jié)果

SWM 是否是一個有效的決策世界模型?

首先,作者通過在 LangTable 和 OGBench 任務(wù)上將基于采樣的規(guī)劃方法 MPPI 應(yīng)用于 SWM 模型,對 SWM 的規(guī)劃能力進(jìn)行評估。

如表 2 所示,可以直接在語義世界模型之上使用基于采樣的規(guī)劃方法進(jìn)行規(guī)劃,在兩個環(huán)境中的到達(dá)和方塊分離任務(wù)上都取得了接近完美的成功率。



然而,對于大型模型而言,基于采樣的規(guī)劃方法計算成本高昂,在需要更多樣本的更具挑戰(zhàn)性的任務(wù)上運(yùn)行 MPPI 并不可行。因此,對于更復(fù)雜的任務(wù),考慮這樣一種場景:由一個基礎(chǔ)策略生成候選軌跡,再利用 SWM 和基于梯度的優(yōu)化對其進(jìn)行細(xì)化。如圖 5 所示,該方法能夠?qū)蜻x軌跡進(jìn)行細(xì)化,并相比基礎(chǔ)策略取得顯著提升。在 LangTable 上,SWM 相比基礎(chǔ)策略的平均性能從 14.4% 提升至 81.6%;在 OGBench 上,從 45.33% 提升至 76%。SWM 在所有任務(wù)上也均優(yōu)于 AVD 和 IDQL 基線,展示了其在規(guī)劃方面的有效性。



SWM 還通過先選擇子目標(biāo),再圍繞該子目標(biāo)進(jìn)行規(guī)劃,展現(xiàn)出處理更長程任務(wù)的能力。如表 1 所示,在多步任務(wù)上,SWM 的平均策略改進(jìn)幅度達(dá) 52.0%,優(yōu)于 AVD 基線。



次優(yōu)數(shù)據(jù)是否能提高建模性能?

從表 3 可以看出,混入次優(yōu)數(shù)據(jù)比僅使用專家數(shù)據(jù)進(jìn)行訓(xùn)練能提高準(zhǔn)確率。SWM 僅通過次優(yōu)數(shù)據(jù)訓(xùn)練也能達(dá)到中等水平的性能,這表明次優(yōu)數(shù)據(jù)在訓(xùn)練語義世界模型方面是多么有效。



SWM 是否保留了基礎(chǔ) VLM 的泛化能力?

為了衡量 VLM 預(yù)訓(xùn)練對泛化能力的影響,作者在組合式和場景分布外環(huán)境中對 SWM 進(jìn)行了評估,相關(guān)環(huán)境如圖 6 所示。



為了衡量語義組合泛化能力,在 LangTable 環(huán)境中引入了一個新的彩色方塊,并修改了現(xiàn)有的方塊顏色 - 形狀組合。表 4 顯示,在這些條件下,與基礎(chǔ)策略相比,SWM 平均提高了 20.0%。這一性能表明,SWM 能夠保留部分預(yù)訓(xùn)練知識,從而實(shí)現(xiàn)組合泛化。



為了測試對背景變化的魯棒性,作者將 OGBench 的背景顏色改為一種新的組合。與基礎(chǔ)策略相比,SWM 的性能再次提升了 20%,并且能夠泛化到這些條件,而 AVD 方法則無法做到這一點(diǎn)。

模型的內(nèi)部表征是否關(guān)注與任務(wù)相關(guān)的信息?

為了理解模型所學(xué)的表征,作者從模型的一個中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示,模型會根據(jù)語言提示正確關(guān)注圖像中與任務(wù)相關(guān)的位置。例如,當(dāng)被問到「紅色的月亮是否在接觸藍(lán)色的立方體?」時,與這些物體對應(yīng)的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個以上物體的問題上進(jìn)行過微調(diào),但研究發(fā)現(xiàn),當(dāng)被問及此類問題時,該模型能夠正確關(guān)注三個物體。這表明該模型繼承了預(yù)訓(xùn)練 VLM 的泛化能力。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
澳洲楊蘭蘭,消失得不見蹤影,她到底去了哪里?

澳洲楊蘭蘭,消失得不見蹤影,她到底去了哪里?

吃瓜盟主
2025-10-26 19:04:25
馬云預(yù)言成真?2026年,手握存款的人,或?qū)⒚媾R三大挑戰(zhàn)

馬云預(yù)言成真?2026年,手握存款的人,或?qū)⒚媾R三大挑戰(zhàn)

知鑒明史
2025-09-14 08:05:18
記者:巴薩高位防守弱點(diǎn)被摸透,但弗里克的球隊(duì)仍有潛力可挖

記者:巴薩高位防守弱點(diǎn)被摸透,但弗里克的球隊(duì)仍有潛力可挖

懂球帝
2025-10-28 14:55:04
博主帶導(dǎo)盲犬逛公園被攔,保安讓盲人自己看公告,放話:別跟我犟

博主帶導(dǎo)盲犬逛公園被攔,保安讓盲人自己看公告,放話:別跟我犟

以茶帶書
2025-10-27 17:53:39
喜獲大捷后,打掃戰(zhàn)場的俄軍發(fā)現(xiàn)驚人事實(shí):外國傭兵陣亡數(shù)超烏軍

喜獲大捷后,打掃戰(zhàn)場的俄軍發(fā)現(xiàn)驚人事實(shí):外國傭兵陣亡數(shù)超烏軍

老吳教育課堂
2025-10-28 13:33:53
國際空間站7大禁令:禁止發(fā)生性關(guān)系……最離譜的卻是最后一條!

國際空間站7大禁令:禁止發(fā)生性關(guān)系……最離譜的卻是最后一條!

徐德文科學(xué)頻道
2025-09-25 20:05:13
家庭托舉的力量有多重要?網(wǎng)友:月薪2萬,比不上父母托舉的4千

家庭托舉的力量有多重要?網(wǎng)友:月薪2萬,比不上父母托舉的4千

戶外小阿隋
2025-10-28 12:32:29
許紹雄凌晨去世,周潤發(fā)來晚了,他的背影都是悲傷,佘詩曼沒遺憾

許紹雄凌晨去世,周潤發(fā)來晚了,他的背影都是悲傷,佘詩曼沒遺憾

小鄭說史
2025-10-28 13:01:56
男人千萬別去碰四五十歲的女人!她們有4個地方你“惹不起”

男人千萬別去碰四五十歲的女人!她們有4個地方你“惹不起”

荷蘭豆愛健康
2025-10-28 12:48:20
我是國安局的司機(jī),每天接送局長,他每天都會提前一個路口下車

我是國安局的司機(jī),每天接送局長,他每天都會提前一個路口下車

城事錄主
2025-10-25 05:05:02
退休黨員速查:養(yǎng)老金6000元,黨費(fèi)繳納標(biāo)準(zhǔn)對照表來了!

退休黨員速查:養(yǎng)老金6000元,黨費(fèi)繳納標(biāo)準(zhǔn)對照表來了!

慧眼看世界哈哈
2025-10-20 14:18:26
人活到多少歲最合適?不是80歲,也不是90歲,答案出乎你的意料

人活到多少歲最合適?不是80歲,也不是90歲,答案出乎你的意料

詩詞中國
2025-09-16 14:16:38
庫明加蛻變!勇士鋒線群+長輪換顯威力 庫里巴特勒劃水還能屠熊?

庫明加蛻變!勇士鋒線群+長輪換顯威力 庫里巴特勒劃水還能屠熊?

畫夕
2025-10-28 14:03:14
蘇聯(lián)曾經(jīng)有多強(qiáng)?軍委估計一旦入侵七天就能殺到北京,怎么應(yīng)對?

蘇聯(lián)曾經(jīng)有多強(qiáng)?軍委估計一旦入侵七天就能殺到北京,怎么應(yīng)對?

花仙歷史說
2025-10-23 07:16:32
張怡寧沒想到,與徐威恩愛16年,也逃不過“老夫少妻”的殘酷現(xiàn)實(shí)

張怡寧沒想到,與徐威恩愛16年,也逃不過“老夫少妻”的殘酷現(xiàn)實(shí)

妙知
2025-10-28 14:34:15
重陽節(jié)將至,年滿65歲-80歲的老人,能享受到什么福利待遇?看看

重陽節(jié)將至,年滿65歲-80歲的老人,能享受到什么福利待遇?看看

振華觀史
2025-10-28 11:43:19
高市早苗會晤特朗普,安倍晉三“如影隨形”

高市早苗會晤特朗普,安倍晉三“如影隨形”

紅星新聞
2025-10-28 13:48:07
太子集團(tuán)陳志調(diào)查:帕勞搭上崩牙駒中間人,租鄰近美國雷達(dá)無人島

太子集團(tuán)陳志調(diào)查:帕勞搭上崩牙駒中間人,租鄰近美國雷達(dá)無人島

環(huán)球趣聞分享
2025-10-27 13:30:09
美專家:抗美援朝若讓粟裕代替彭德懷領(lǐng)兵,輸?shù)母鼞K!僅憑三點(diǎn)

美專家:抗美援朝若讓粟裕代替彭德懷領(lǐng)兵,輸?shù)母鼞K!僅憑三點(diǎn)

南書房
2025-10-26 14:22:44
廣東一肉聯(lián)公司門口堆滿死豬官方通報 7人被公安控制,涉嫌非法處置死豬

廣東一肉聯(lián)公司門口堆滿死豬官方通報 7人被公安控制,涉嫌非法處置死豬

每日經(jīng)濟(jì)新聞
2025-10-28 10:56:38
2025-10-28 15:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11585文章數(shù) 142494關(guān)注度
往期回顧 全部

科技要聞

30000人,一夜失業(yè)!亞馬遜AI“砍刀”落下

頭條要聞

76歲許紹雄去世:叔公參與創(chuàng)立黃埔軍校 姑婆是許廣平

頭條要聞

76歲許紹雄去世:叔公參與創(chuàng)立黃埔軍校 姑婆是許廣平

體育要聞

巴西主帥一上任,先給楊瀚森打了個叉?

娛樂要聞

演員許紹雄去世,享年76歲

財經(jīng)要聞

A股三大指數(shù)收跌 滬指4000點(diǎn)得而復(fù)失

汽車要聞

5.2米大車轉(zhuǎn)彎比小車還靈活?騰勢N8L性能猛獸+家庭暖男

態(tài)度原創(chuàng)

藝術(shù)
本地
時尚
手機(jī)
公開課

藝術(shù)要聞

Kevin Beilfuss:美國當(dāng)代印象派畫家

本地新聞

全網(wǎng)圍觀,到底多少人被這個野人大學(xué)生笑瘋了

推廣|| 你們都在催的鞋子,終于來了!

手機(jī)要聞

三星的“價格盾牌”:獨(dú)家優(yōu)勢有望讓Galaxy S26系列手機(jī)免于漲價

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 成人免费午夜一区二区免费| 九九热在线这里只有精品| 国产成人精品免费视频大全软件 | 无码不卡中文字幕av| 高清精品久久国产免费| 曰本大码熟中文字幕| 双乳被老汉揉搓a毛片免费观看| 国产自国产在线无毒不卡| A级真人毛片免费观看| 久久午夜电影| 精品人妻一区二区三区麻豆三炮| av在线三区| 国产精品视频一区二区三区四| 国产精品亚洲第一区在线| 一本本月无码-| 亚洲欧美日韩综合二区三区| 爆乳熟妇一区二区三区蜜臀Av| 黄色免费在线网址| 动漫av纯肉无码av在线播放| 国产精品亚洲片在线观看不卡| 亚洲宅男天堂| 久久精品国产久精国产一老狼| 无遮挡日本H熟肉动漫在线观看| 国产精品综合色区在线观| 久久人妻久久久人妻| 亚洲一级特黄大片一级特黄 | 亚洲欧美日产综合在线| 公粗一晚六次挺进我密道视频| 久久视频这里只有精品在线观看| 99久久国产综合精品麻豆| 一级高潮喷水黄色片A| 色偷偷亚洲女人的天堂| 久久国产亚洲 色域二区| 日韩高清在线观看不卡一区二区| 羞羞影院体验区| 大乱交在线观看| 久久99精品福利久久久久久| 一本久道AV无码专区加勒比| 国产内射爽爽大片视频社区在线| 黄片大全免费av| 欧美性20hd另类|