夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

統(tǒng)一框架下的具身多模態(tài)推理:自變量機器人讓AI放下海德格爾錘子

0
分享至



機器之心報道

自變量機器人

當(dāng) AI 放下海德格爾的錘子時,意味著機器人已經(jīng)能夠熟練使用工具,工具會“隱退”成為本體的延伸,而不再是需要刻意思考的對象。

當(dāng)一位熟練的木匠抓起錘子時,錘子消失了 —— 不是物理上的消失,而是無需思考便可自如使用。然而,當(dāng)前最先進的機器人仍然無法“放下”這把“錘子”,它們被困在循環(huán)中 —— 識別錘子、規(guī)劃如何使用錘子,每一次交互都需要重新“拿起”工具作為認(rèn)知對象,這種割裂式的處理方式讓 AI 永遠無法達到人類那種直覺的工具使用境界。

具身智能的突破,不會來自對現(xiàn)有基于視覺 - 語言基礎(chǔ)模型的修補,而將源于一場架構(gòu)革命。

自變量機器人主張,必須放棄以“多模態(tài)模塊融合”為核心的拼湊式范式,轉(zhuǎn)向一個端到端的統(tǒng)一架構(gòu)。該架構(gòu)旨在徹底消解視覺、語言和行動之間的人為邊界,將它們還原為單一信息流進行處理。

當(dāng)前范式的根本局限

現(xiàn)有主流方法將不同模態(tài)視為獨立模塊,如預(yù)訓(xùn)練的 ViT 處理視覺信息,LLM 處理語言理解,然后通過融合層進行連接。這種“委員會”式的設(shè)計存在著本質(zhì)缺陷。

首先是表征瓶頸問題。信息在不同模態(tài)的專屬編碼器之間傳遞時,會產(chǎn)生不可避免的壓縮損失,就像將一幅油畫描述給盲人,再讓盲人向聾人傳達畫面內(nèi)容一樣,每次轉(zhuǎn)換都會丟失關(guān)鍵的細節(jié)和關(guān)聯(lián)。這種損失阻礙了模型對物理世界進行深層次的跨模態(tài)理解。

最關(guān)鍵的是無法涌現(xiàn)的問題。結(jié)構(gòu)上的割裂使得模型難以學(xué)習(xí)到物理世界中跨越模態(tài)的、直覺式的因果規(guī)律。就像一個人無法僅通過閱讀教科書就學(xué)會騎自行車一樣,真正的物理智能需要的是整體性的、具身的理解,而不是模塊化的知識拼接。

統(tǒng)一架構(gòu):從分治到整合

自變量機器人提出的統(tǒng)一模態(tài)架構(gòu)源于一個核心洞察:真正的具身智能不應(yīng)該是多個專門模塊的協(xié)作,而應(yīng)該像人類認(rèn)知一樣,在統(tǒng)一的計算框架內(nèi)同時處理感知、推理和行動。

架構(gòu)的核心是統(tǒng)一表示學(xué)習(xí)。自變量機器人將所有模態(tài)信息 —— 視覺、語言、觸覺、動作 —— 轉(zhuǎn)換為共享的高維 token 序列,消除模態(tài)間的人為邊界。

關(guān)鍵突破在于采用多任務(wù)多模態(tài)生成作為監(jiān)督機制:系統(tǒng)必須學(xué)會從任一模態(tài)生成其他模態(tài)的內(nèi)容,這迫使模型建立起深層的跨模態(tài)對應(yīng)關(guān)系。



具體而言,將所有輸入模態(tài),包括多視角圖像、文本指令與機器人實時狀態(tài),通過各自的編碼器轉(zhuǎn)化為統(tǒng)一的 token 序列,該序列被送入一個 Transformer 核心。其中,預(yù)訓(xùn)練多模態(tài)理解模型負(fù)責(zé)整合信息以完成空間感知理解與任務(wù)推理規(guī)劃,而生成專家 (Gen. Expert) 則預(yù)測未來的圖像與視頻,以及直接生成可執(zhí)行的機器人動作。兩者通過一個跨模態(tài)注意力 (Cross-Modal Attention) 層深度耦合,使得感知、推理和行為的信息流在每一個計算層都能無損地雙向交互與共同演進,從而實現(xiàn)了端到端的統(tǒng)一學(xué)習(xí)。

這種架構(gòu)實現(xiàn)了具身多模態(tài)推理的涌現(xiàn)。當(dāng)面對新任務(wù)時,系統(tǒng)能夠像人類一樣進行整體性認(rèn)知處理 —— 視覺理解、語義推理、物理預(yù)測和動作規(guī)劃在統(tǒng)一空間內(nèi)并行發(fā)生、相互影響,而非串行處理。

通過這種端到端的統(tǒng)一學(xué)習(xí),系統(tǒng)最終能夠像人類一樣思考和工作:不再依賴模塊化的信息傳遞,而是在深層表示空間中直接進行跨模態(tài)的因果推理和行動決策。

涌現(xiàn)能力:具身多模態(tài)推理

這種統(tǒng)一架構(gòu)旨在解鎖當(dāng)前模塊化系統(tǒng)無法實現(xiàn)的全方位具身多模態(tài)推理能力。

第一個是符號-空間推理能力。

當(dāng)人類隨意畫出幾何形狀時,機器人首先通過理解復(fù)雜幾何圖案,然后在統(tǒng)一的表示空間中進行多層次推理:將抽象的二維圖形解構(gòu)為具體的字母組合,理解這些字母的空間排列邏輯,并推斷出它們組合成的完整單詞。同時,機器人能夠?qū)⑦@種抽象的符號理解直接轉(zhuǎn)化為三維空間中的物理操作,用積木塊精確地重現(xiàn)字母的空間排布。

整個過程體現(xiàn)了視覺感知、因果推理和空間操作的深度融合。



視頻演示 1:機器人根據(jù)手繪圖形拼出對應(yīng)單詞

第二個是物理空間推理能力

當(dāng)向機器人展示積木的操作步驟時,機器人能夠在其統(tǒng)一的潛在空間中直接進行視覺的空間邏輯推理和因果關(guān)系推演。這個過程中,機器人理解每個積木的放置如何影響整體結(jié)構(gòu)的穩(wěn)定性,推斷操作順序背后的工程邏輯,并預(yù)測不同操作路徑可能導(dǎo)致的結(jié)果。同時,機器人能夠?qū)⑦@種物理推理過程外化為語言思考鏈,清晰地表達其對空間關(guān)系、重力約束和構(gòu)建策略的理解。

最終,機器人能夠基于這種深層的物理理解,獨立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺與推理能力的有機結(jié)合。



視頻演示 2:觀察積木操作步驟并搭建對應(yīng)空間形狀

第三個突破是具備推理鏈的自主探索能力

面對復(fù)雜的環(huán)境,系統(tǒng)能夠整合視覺觀察、空間記憶和常識知識,構(gòu)建出連貫的推理鏈條。整個過程體現(xiàn)了感知、記憶、推理和行動的無縫整合,以及基于常識知識的靈活決策能力。

這種推理過程是端到端學(xué)習(xí)的自然涌現(xiàn)。



視頻演示 3:帶有推理過程的物品搜索

以上三個視頻, 機器人需要在操作中實時輸出推理過程,這要求模型在統(tǒng)一架構(gòu)中實現(xiàn)物理操作、視覺和語言推理的精確同步。

最后一個展示了機器人從視頻中學(xué)習(xí)能力和協(xié)作推理能力。

當(dāng)觀察人類的操作視頻時,機器人從視頻中推斷行為背后的深層意圖和目標(biāo)狀態(tài)。這種能力超越了簡單的動作模仿,體現(xiàn)了視頻學(xué)習(xí)、對人類意圖的理解、對協(xié)作目標(biāo)的推斷,以及自主的協(xié)作決策能力,展現(xiàn)了真正的自主學(xué)習(xí)和人機協(xié)同能力。



視頻演示 4:從視頻中推斷動作意圖并自主執(zhí)行

結(jié)語

這些演示背后體現(xiàn)的是一個根本性的范式轉(zhuǎn)換。

傳統(tǒng)的多模態(tài)系統(tǒng)將世界分解為獨立的表征模塊,但物理世界的交互是連續(xù)的、實時的、多模態(tài)耦合的 —— 當(dāng)機器人抓取一個易碎物品時,視覺判斷、力度控制和安全預(yù)測必須同時發(fā)生,任何模塊間的延遲或信息損失都可能導(dǎo)致失敗。自變量機器人的統(tǒng)一架構(gòu)正是為滿足這種具身交互的要求生的。

這種轉(zhuǎn)變的意義在于,它讓機器人能夠像海德格爾描述的熟練工匠一樣,將感知、理解和行動無縫融合

機器人不再需要經(jīng)歷 “視覺識別→語言規(guī)劃→動作執(zhí)行” 的冗長串行處理,而是在統(tǒng)一的表征空間中被直接理解為實現(xiàn)特定意圖的媒介 —— 機器人能夠同時 “看到” 物理屬性、“理解” 其在任務(wù)中的作用、“感知” 操作的空間約束,并 “規(guī)劃” 相應(yīng)的動作序列。

正是這種多模態(tài)信息的并行融合處理,使得具身多模態(tài)推理能力得以自然涌現(xiàn),讓機器人最終能夠像人類一樣流暢地與物理世界交互

自變量機器人主張,具身智能的未來路徑是從設(shè)計“割裂式表征”的系統(tǒng),轉(zhuǎn)向構(gòu)建能夠進行真正具身多模態(tài)推理的統(tǒng)一系統(tǒng)。這并非一次增量改進,而是讓 AI 具備跨模態(tài)因果推理、空間邏輯推演和實現(xiàn)通用操作的具身智能所必需的架構(gòu)進化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
戶口合并全面啟動,超5億人受影響,3件事不辦以后就麻煩了!

戶口合并全面啟動,超5億人受影響,3件事不辦以后就麻煩了!

搬磚營Z
2025-08-11 11:43:07
2025電影《尋秦記》回歸!項少龍遲到8年終現(xiàn)身!

2025電影《尋秦記》回歸!項少龍遲到8年終現(xiàn)身!

可樂談情感
2025-08-13 21:55:53
宗馥莉杭州發(fā)布會驚現(xiàn)拍桌門!30年老臣當(dāng)場發(fā)難,她為何不慌?

宗馥莉杭州發(fā)布會驚現(xiàn)拍桌門!30年老臣當(dāng)場發(fā)難,她為何不慌?

億通電子游戲
2025-08-14 00:45:46
上任就與中國斷交,“亡國”之際又向中國求援,我國是如何回應(yīng)的

上任就與中國斷交,“亡國”之際又向中國求援,我國是如何回應(yīng)的

顧史
2025-04-14 22:57:41
遠華集團總裁賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

遠華集團總裁賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

曉艾故事匯
2025-08-11 17:19:44
最后4小時,特朗普才簽字!美官員氣得想辭職,中美新時代開啟了

最后4小時,特朗普才簽字!美官員氣得想辭職,中美新時代開啟了

標(biāo)體
2025-08-13 21:17:44
麥琳從120斤減到88斤,仍在直播時哭訴,自己過得并不好

麥琳從120斤減到88斤,仍在直播時哭訴,自己過得并不好

娛樂故事
2025-08-13 18:53:21
三級片女神被揭在主題公園搵食,肥足幾個碼落力跳舞娛賓

三級片女神被揭在主題公園搵食,肥足幾個碼落力跳舞娛賓

粵睇先生
2025-08-14 00:50:03
大雨!大到暴雨!暴雨!新一輪強降雨來襲,吉林省這些地方注意→

大雨!大到暴雨!暴雨!新一輪強降雨來襲,吉林省這些地方注意→

魯中晨報
2025-08-14 07:32:03
金與正上位簽發(fā)核令,金正恩“隱身”!朝鮮政局變天了?

金與正上位簽發(fā)核令,金正恩“隱身”!朝鮮政局變天了?

小笛科技
2025-08-13 10:55:28
不忍了,中方通告歐盟,拉黑2家歐洲銀行,特朗普要看懂信號

不忍了,中方通告歐盟,拉黑2家歐洲銀行,特朗普要看懂信號

掌青說歷史
2025-08-14 09:08:07
10萬睡一次?黃一鳴曝王思聰禿頭求上床,轉(zhuǎn)賬記錄全網(wǎng)瘋傳!

10萬睡一次?黃一鳴曝王思聰禿頭求上床,轉(zhuǎn)賬記錄全網(wǎng)瘋傳!

深析古今
2025-07-29 22:50:18
北京地鐵:本周六部分車站采取出入口封閉、車站封閉措施

北京地鐵:本周六部分車站采取出入口封閉、車站封閉措施

新京報
2025-08-14 07:30:25
三隊爭搶徐昕?不!八隊都有此意,山東兩隊上桌遼籃醞釀三方交易

三隊爭搶徐昕?不!八隊都有此意,山東兩隊上桌遼籃醞釀三方交易

趙仔說
2025-08-14 08:43:41
1981年黃永勝出獄后,分到了3套房,同時還有6個“出獄安排”

1981年黃永勝出獄后,分到了3套房,同時還有6個“出獄安排”

云端小院
2025-08-14 07:57:26
浪浪山小妖怪:幸虧我熟讀西游記,不然真搞不懂豬爹的大招誰教的

浪浪山小妖怪:幸虧我熟讀西游記,不然真搞不懂豬爹的大招誰教的

動物奇奇怪怪
2025-08-14 02:48:28
星巴克出新規(guī):禁止攜帶臺式電腦、插排和打印機!

星巴克出新規(guī):禁止攜帶臺式電腦、插排和打印機!

熱點科技
2025-08-13 16:41:37
世衛(wèi)組織狼子野心,強逼中國替美國扛罪,北京亮劍反擊全球震驚!

世衛(wèi)組織狼子野心,強逼中國替美國扛罪,北京亮劍反擊全球震驚!

寶哥精彩賽事
2025-08-13 10:10:02
最新 | 工作PPT外包第三方制作!官方通報!

最新 | 工作PPT外包第三方制作!官方通報!

天津廣播
2025-08-13 20:06:35
60歲蔣雯麗現(xiàn)狀:定居英國,素顏合照顯臉垮,一代女神終于也老了

60歲蔣雯麗現(xiàn)狀:定居英國,素顏合照顯臉垮,一代女神終于也老了

冷紫葉
2025-08-13 00:39:53
2025-08-14 09:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11079文章數(shù) 142416關(guān)注度
往期回顧 全部

科技要聞

監(jiān)管重拳出擊,直指智駕虛假宣傳、濫用OTA

頭條要聞

牛彈琴:2天3個反制措施 中國向世界釋放一個強烈信號

頭條要聞

牛彈琴:2天3個反制措施 中國向世界釋放一個強烈信號

體育要聞

擁有133年歷史,張玉寧老東家被逐出職業(yè)聯(lián)賽

娛樂要聞

趙露思掀桌,這局能贏?

財經(jīng)要聞

指數(shù)突破!股基增量資金加速入市

汽車要聞

全新家族式設(shè)計 新款豐田鋒蘭達假想圖曝光

態(tài)度原創(chuàng)

數(shù)碼
時尚
手機
藝術(shù)
軍事航空

數(shù)碼要聞

三星推出首款Micro RGB電視 售價32000美元

“有趣”的時髦,藏在穿搭里

手機要聞

谷歌 Pixel 10 系列手機能效標(biāo)簽曝光:IP68 防水、7 年更新

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

歐烏給美俄峰會提條件

無障礙瀏覽 進入關(guān)懷版 被滋润的少妇疯狂呻吟视频| 久热在线这里只有精品国产| 亚洲男同gay片| 男人j放进女人p全黄动态图| 久夂Av强奸| 精视频免费大全| 亚洲 另类 日韩 制服 无码| 国产电影无码午夜在线播放| 狠狠综合久久久久综合网小蛇| 久久毛片基地| 亚洲午夜精品17c| 午夜国产理论大片高清| 日日干夜夜被操| 成在人线av无码免费看网站直播| 国产 精品 无码 综合| 七妺福利精品导航大全| 韩国九七影院久久| 毛片a久久99亚洲欧美毛片| 岳每晚被弄得嗷嗷到高潮| 中国少妇成人AV| 国产波霸爆乳一区二区| 日本熟妇久久久久久久久久 | 极品少妇一区| 成人免费乱码大片a毛片| 欧美男女性生活片| 成人乱码一区二区三区四区| 一本精品99久久精品77| 中文字幕日韩AV一区| 国产精品毛片无码久久| 老熟女Avyyy| 久久久久人人人人| 久久无码一区二区三区漫画网站| 小说区校园春色| 日本一区二区三区18岁| 日韩中文字幕无砖| 尤物在线精品视频| 乱人伦中文字幕成人网站在线| 99久久精品高潮喷水男男| 久久久久久久久888| 亚洲AV午夜福利精品| 国产精品亚洲视频在线观看|