夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

統(tǒng)一框架下的具身多模態(tài)推理:自變量機器人讓AI放下海德格爾錘子

0
分享至



機器之心報道

自變量機器人

當(dāng) AI 放下海德格爾的錘子時,意味著機器人已經(jīng)能夠熟練使用工具,工具會“隱退”成為本體的延伸,而不再是需要刻意思考的對象。

當(dāng)一位熟練的木匠抓起錘子時,錘子消失了 —— 不是物理上的消失,而是無需思考便可自如使用。然而,當(dāng)前最先進的機器人仍然無法“放下”這把“錘子”,它們被困在循環(huán)中 —— 識別錘子、規(guī)劃如何使用錘子,每一次交互都需要重新“拿起”工具作為認知對象,這種割裂式的處理方式讓 AI 永遠無法達到人類那種直覺的工具使用境界。

具身智能的突破,不會來自對現(xiàn)有基于視覺 - 語言基礎(chǔ)模型的修補,而將源于一場架構(gòu)革命。

自變量機器人主張,必須放棄以“多模態(tài)模塊融合”為核心的拼湊式范式,轉(zhuǎn)向一個端到端的統(tǒng)一架構(gòu)。該架構(gòu)旨在徹底消解視覺、語言和行動之間的人為邊界,將它們還原為單一信息流進行處理。

當(dāng)前范式的根本局限

現(xiàn)有主流方法將不同模態(tài)視為獨立模塊,如預(yù)訓(xùn)練的 ViT 處理視覺信息,LLM 處理語言理解,然后通過融合層進行連接。這種“委員會”式的設(shè)計存在著本質(zhì)缺陷。

首先是表征瓶頸問題。信息在不同模態(tài)的專屬編碼器之間傳遞時,會產(chǎn)生不可避免的壓縮損失,就像將一幅油畫描述給盲人,再讓盲人向聾人傳達畫面內(nèi)容一樣,每次轉(zhuǎn)換都會丟失關(guān)鍵的細節(jié)和關(guān)聯(lián)。這種損失阻礙了模型對物理世界進行深層次的跨模態(tài)理解。

最關(guān)鍵的是無法涌現(xiàn)的問題。結(jié)構(gòu)上的割裂使得模型難以學(xué)習(xí)到物理世界中跨越模態(tài)的、直覺式的因果規(guī)律。就像一個人無法僅通過閱讀教科書就學(xué)會騎自行車一樣,真正的物理智能需要的是整體性的、具身的理解,而不是模塊化的知識拼接。

統(tǒng)一架構(gòu):從分治到整合

自變量機器人提出的統(tǒng)一模態(tài)架構(gòu)源于一個核心洞察:真正的具身智能不應(yīng)該是多個專門模塊的協(xié)作,而應(yīng)該像人類認知一樣,在統(tǒng)一的計算框架內(nèi)同時處理感知、推理和行動。

架構(gòu)的核心是統(tǒng)一表示學(xué)習(xí)。自變量機器人將所有模態(tài)信息 —— 視覺、語言、觸覺、動作 —— 轉(zhuǎn)換為共享的高維 token 序列,消除模態(tài)間的人為邊界。

關(guān)鍵突破在于采用多任務(wù)多模態(tài)生成作為監(jiān)督機制:系統(tǒng)必須學(xué)會從任一模態(tài)生成其他模態(tài)的內(nèi)容,這迫使模型建立起深層的跨模態(tài)對應(yīng)關(guān)系。



具體而言,將所有輸入模態(tài),包括多視角圖像、文本指令與機器人實時狀態(tài),通過各自的編碼器轉(zhuǎn)化為統(tǒng)一的 token 序列,該序列被送入一個 Transformer 核心。其中,預(yù)訓(xùn)練多模態(tài)理解模型負責(zé)整合信息以完成空間感知理解與任務(wù)推理規(guī)劃,而生成專家 (Gen. Expert) 則預(yù)測未來的圖像與視頻,以及直接生成可執(zhí)行的機器人動作。兩者通過一個跨模態(tài)注意力 (Cross-Modal Attention) 層深度耦合,使得感知、推理和行為的信息流在每一個計算層都能無損地雙向交互與共同演進,從而實現(xiàn)了端到端的統(tǒng)一學(xué)習(xí)。

這種架構(gòu)實現(xiàn)了具身多模態(tài)推理的涌現(xiàn)。當(dāng)面對新任務(wù)時,系統(tǒng)能夠像人類一樣進行整體性認知處理 —— 視覺理解、語義推理、物理預(yù)測和動作規(guī)劃在統(tǒng)一空間內(nèi)并行發(fā)生、相互影響,而非串行處理。

通過這種端到端的統(tǒng)一學(xué)習(xí),系統(tǒng)最終能夠像人類一樣思考和工作:不再依賴模塊化的信息傳遞,而是在深層表示空間中直接進行跨模態(tài)的因果推理和行動決策。

涌現(xiàn)能力:具身多模態(tài)推理

這種統(tǒng)一架構(gòu)旨在解鎖當(dāng)前模塊化系統(tǒng)無法實現(xiàn)的全方位具身多模態(tài)推理能力。

第一個是符號-空間推理能力

當(dāng)人類隨意畫出幾何形狀時,機器人首先通過理解復(fù)雜幾何圖案,然后在統(tǒng)一的表示空間中進行多層次推理:將抽象的二維圖形解構(gòu)為具體的字母組合,理解這些字母的空間排列邏輯,并推斷出它們組合成的完整單詞。同時,機器人能夠?qū)⑦@種抽象的符號理解直接轉(zhuǎn)化為三維空間中的物理操作,用積木塊精確地重現(xiàn)字母的空間排布。

整個過程體現(xiàn)了視覺感知、因果推理和空間操作的深度融合。



視頻演示 1:機器人根據(jù)手繪圖形拼出對應(yīng)單詞

第二個是物理空間推理能力。

當(dāng)向機器人展示積木的操作步驟時,機器人能夠在其統(tǒng)一的潛在空間中直接進行視覺的空間邏輯推理和因果關(guān)系推演。這個過程中,機器人理解每個積木的放置如何影響整體結(jié)構(gòu)的穩(wěn)定性,推斷操作順序背后的工程邏輯,并預(yù)測不同操作路徑可能導(dǎo)致的結(jié)果。同時,機器人能夠?qū)⑦@種物理推理過程外化為語言思考鏈,清晰地表達其對空間關(guān)系、重力約束和構(gòu)建策略的理解。

最終,機器人能夠基于這種深層的物理理解,獨立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺與推理能力的有機結(jié)合。



視頻演示 2:觀察積木操作步驟并搭建對應(yīng)空間形狀

第三個突破是具備推理鏈的自主探索能力

面對復(fù)雜的環(huán)境,系統(tǒng)能夠整合視覺觀察、空間記憶和常識知識,構(gòu)建出連貫的推理鏈條。整個過程體現(xiàn)了感知、記憶、推理和行動的無縫整合,以及基于常識知識的靈活決策能力。

這種推理過程是端到端學(xué)習(xí)的自然涌現(xiàn)。



視頻演示 3:帶有推理過程的物品搜索

以上三個視頻, 機器人需要在操作中實時輸出推理過程,這要求模型在統(tǒng)一架構(gòu)中實現(xiàn)物理操作、視覺和語言推理的精確同步。

最后一個展示了機器人從視頻中學(xué)習(xí)能力和協(xié)作推理能力。

當(dāng)觀察人類的操作視頻時,機器人從視頻中推斷行為背后的深層意圖和目標(biāo)狀態(tài)。這種能力超越了簡單的動作模仿,體現(xiàn)了視頻學(xué)習(xí)、對人類意圖的理解、對協(xié)作目標(biāo)的推斷,以及自主的協(xié)作決策能力,展現(xiàn)了真正的自主學(xué)習(xí)和人機協(xié)同能力。



視頻演示 4:從視頻中推斷動作意圖并自主執(zhí)行

結(jié)語

這些演示背后體現(xiàn)的是一個根本性的范式轉(zhuǎn)換。

傳統(tǒng)的多模態(tài)系統(tǒng)將世界分解為獨立的表征模塊,但物理世界的交互是連續(xù)的、實時的、多模態(tài)耦合的 —— 當(dāng)機器人抓取一個易碎物品時,視覺判斷、力度控制和安全預(yù)測必須同時發(fā)生,任何模塊間的延遲或信息損失都可能導(dǎo)致失敗。自變量機器人的統(tǒng)一架構(gòu)正是為滿足這種具身交互的要求生的。

這種轉(zhuǎn)變的意義在于,它讓機器人能夠像海德格爾描述的熟練工匠一樣,將感知、理解和行動無縫融合

機器人不再需要經(jīng)歷 “視覺識別→語言規(guī)劃→動作執(zhí)行” 的冗長串行處理,而是在統(tǒng)一的表征空間中被直接理解為實現(xiàn)特定意圖的媒介 —— 機器人能夠同時 “看到” 物理屬性、“理解” 其在任務(wù)中的作用、“感知” 操作的空間約束,并 “規(guī)劃” 相應(yīng)的動作序列。

正是這種多模態(tài)信息的并行融合處理,使得具身多模態(tài)推理能力得以自然涌現(xiàn),讓機器人最終能夠像人類一樣流暢地與物理世界交互。

自變量機器人主張,具身智能的未來路徑是從設(shè)計“割裂式表征”的系統(tǒng),轉(zhuǎn)向構(gòu)建能夠進行真正具身多模態(tài)推理的統(tǒng)一系統(tǒng)。這并非一次增量改進,而是讓 AI 具備跨模態(tài)因果推理、空間邏輯推演和實現(xiàn)通用操作的具身智能所必需的架構(gòu)進化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
26100億!固態(tài)電池重大突破,“寧王”創(chuàng)造奇跡

26100億!固態(tài)電池重大突破,“寧王”創(chuàng)造奇跡

蔣東文
2025-10-01 13:04:30
為什么拉完屎后,體重不會變輕啊?

為什么拉完屎后,體重不會變輕???

丁香生活研究所
2025-09-30 12:27:57
蘋果一般能用幾年?目前最耐用4款蘋果手機,第四款能連用六年

蘋果一般能用幾年?目前最耐用4款蘋果手機,第四款能連用六年

北境不忘
2025-10-01 10:27:12
突發(fā)!朝鮮半島凌晨交火,五角大樓高層緊急集合,韓國動真格了?

突發(fā)!朝鮮半島凌晨交火,五角大樓高層緊急集合,韓國動真格了?

阿芒娛樂說
2025-10-01 02:08:46
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
中東國家都意識到了,就算中國高端武器再多,也沒辦法保護他們!

中東國家都意識到了,就算中國高端武器再多,也沒辦法保護他們!

小童歷史
2025-09-24 11:52:30
沒了,交易沒了!再見威少!可能從此退出NBA

沒了,交易沒了!再見威少!可能從此退出NBA

籃球?qū)崙?zhàn)寶典
2025-10-01 16:19:26
昔日歌壇巨星劉歡暮年凄涼,女兒未嫁雙親已逝,六旬艱難度日

昔日歌壇巨星劉歡暮年凄涼,女兒未嫁雙親已逝,六旬艱難度日

動物奇奇怪怪
2025-09-28 06:57:10
廣州天河城B1層煥新重開,永旺新業(yè)態(tài)全國首店人氣爆棚

廣州天河城B1層煥新重開,永旺新業(yè)態(tài)全國首店人氣爆棚

新快報新聞
2025-10-01 19:59:09
上海交大研究:只要血壓沒超過這個值,別過度吃藥,別自己嚇自己

上海交大研究:只要血壓沒超過這個值,別過度吃藥,別自己嚇自己

華庭講美食
2025-10-01 14:19:51
2025年,失業(yè)集中爆發(fā)年。

2025年,失業(yè)集中爆發(fā)年。

愛吃糖的貓cat
2025-09-30 18:44:51
山姆99.9元同款零食被曝在好特賣僅售39.9元,山姆線上門店已查詢不到

山姆99.9元同款零食被曝在好特賣僅售39.9元,山姆線上門店已查詢不到

極目新聞
2025-09-30 20:39:49
損失或超330億!知名車企停擺,曾是中產(chǎn)加10萬都要買的夢中豪車

損失或超330億!知名車企停擺,曾是中產(chǎn)加10萬都要買的夢中豪車

財經(jīng)八卦
2025-09-30 21:50:42
這跟不穿有啥區(qū)別?宋佳黑絲搶鏡,樸彩英真空上陣,張雨綺咋穿這

這跟不穿有啥區(qū)別?宋佳黑絲搶鏡,樸彩英真空上陣,張雨綺咋穿這

胡一舸南游y
2025-09-30 19:23:39
國民黨集體宣告“拒統(tǒng)”,張亞中落選是定局,統(tǒng)一只差臨門一腳

國民黨集體宣告“拒統(tǒng)”,張亞中落選是定局,統(tǒng)一只差臨門一腳

牛鍋巴小釩
2025-10-02 00:48:57
雷軍的“小字”,快看不見小米了

雷軍的“小字”,快看不見小米了

貞觀108坊
2025-10-01 14:08:46
94年一場屠殺百萬人喪命,50萬女子被糟蹋,幕后推手竟然是他們?

94年一場屠殺百萬人喪命,50萬女子被糟蹋,幕后推手竟然是他們?

小lu侃侃而談
2025-10-01 23:22:39
羅智強要以黨主席之姿訪問大陸,還警告大陸,很快遭打臉!

羅智強要以黨主席之姿訪問大陸,還警告大陸,很快遭打臉!

浩舞纆畫
2025-10-01 19:05:16
中國怪現(xiàn)象:喜歡把家里打掃得很干凈的人,往往會有這3種命運

中國怪現(xiàn)象:喜歡把家里打掃得很干凈的人,往往會有這3種命運

詩詞中國
2025-09-30 14:51:16
緬北明珍珍活埋我方四名臥底后放下狠話:你們能拿我明家怎樣!

緬北明珍珍活埋我方四名臥底后放下狠話:你們能拿我明家怎樣!

真實故事匯
2024-11-22 01:27:41
2025-10-02 03:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11392文章數(shù) 142463關(guān)注度
往期回顧 全部

科技要聞

天問二號最新影像!五星紅旗與地球同框

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

體育要聞

蓉城獨撐中超!3隊6戰(zhàn)僅1勝 申花痛失好局

娛樂要聞

董璇母女國慶節(jié)跳舞 小酒窩眼神堅定

財經(jīng)要聞

美國聯(lián)邦政府“關(guān)門”,有何影響?

汽車要聞

零跑9月銷量突破6萬臺大關(guān) 刷新新勢力單月交付紀(jì)錄

態(tài)度原創(chuàng)

旅游
時尚
親子
本地
游戲

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

空瓶專場|| 不停產(chǎn)能用到老,沒想到它也破價了

親子要聞

假期,請讓媽媽們休息一下

本地新聞

讀港校想省錢,社恐輸在起跑線

Bloober Team已全力開發(fā)《寂靜嶺1:重制版》

無障礙瀏覽 進入關(guān)懷版 亚洲高潮喷水无码AV电影 | 亚洲无码在线观看你懂的| 欧美性爱操死你| 一左一右乳房被吮了| 99re在线视频| 中文字幕亚洲无线码A| 亚洲的天堂av无码| 野花视频在线观看免费观看最新| 秋霞免费视频| 偷偷久久精品久久精品一区二区 | 桃色午夜网站| 久久成人亚洲香蕉草草| 久久久成人片| 少妇乱子伦无码精品专区| 久久久久成人片免费观看蜜芽| 免费人成无码大片在线观看| 丁香婷婷无码不卡在线| 中无码人妻丰满熟妇啪啪| 国产超碰无码最新上传| 国产美女无套 ,| 青草青草久热精品视频在线观看| 亚洲日本久久久| 亚洲国产精品成人无码区 | 俺也去噜色AV| 久久影院九九被窝爽爽| 国产午夜精品一区理论片| 天美传奇影视传媒有限公司| 亚洲午夜精品视频| 亚洲欧洲精品成人久久曰影片| 国产精品一二三区久久狼| 亚洲av区一区二区三区| 亚洲男色第一av无码网站| 97在线无码免费人妻短视频| 7m凹凸福利 | 最新国产精品亚洲二区| 久久精品午夜福利| 人人妻人人舔av| 色伊人亚洲综合网站| 18禁男女爽爽爽午夜网站免费| 奇米艾7777| 99国产超薄丝袜足j在线播放|