夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

將思維鏈(CoT)引入具身世界,哪種路徑能真正打通機器人「知行合一」?

0
分享至



“拋棄多模塊融合的拼湊范式,轉(zhuǎn)向一個端到端的統(tǒng)一架構(gòu)。

作者丨吳華秀

編輯丨陳彩嫻

大模型處理復(fù)雜問題時,它越來越傾向于生成一個推理鏈條。這條鏈,把一個復(fù)雜問題,拆解成多個推理環(huán)節(jié),一步步得出結(jié)論。

支撐這種推理能力的,是一種被反復(fù)驗證的技術(shù)路徑:思維鏈(Chain of Thought,簡稱 CoT)。這項技術(shù)并不新,本質(zhì)上是一種提示工程的升級版——通過引導(dǎo)模型“慢慢想”,強迫其展開清晰的推理流程。

早期的 CoT 停留在語言層面,即“思維可視化”;而在具身智能領(lǐng)域,它的角色正在發(fā)生變化——不再只要“想得清楚”,更要“做得明白”。也就是說,CoT 正從語言中的邏輯鏈條,演變成機器人行為背后的核心認知機制。

越來越多公司正在嘗試將 CoT 應(yīng)用到具身智能的架構(gòu)設(shè)計中。主流做法是基于分層結(jié)構(gòu),借助預(yù)訓(xùn)練視覺語言模型(VLM)作為感知與推理的中樞,用自然語言能力“驅(qū)動”物理動作。

而一些更前沿的團隊,如自變量機器人,正試圖通過統(tǒng)一的“多模態(tài)到多模態(tài)”生成架構(gòu),從根本上重構(gòu)這一過程:不僅讓機器人“看”和“想”,更讓它們以類似人類的整體性方式思考、計劃、行動——而非三者割裂。

這就像人類學(xué)習(xí)騎自行車:沒有人能單純靠分步驟的語言描述學(xué)會騎行。初學(xué)者往往需要調(diào)動全身肌肉一次次試錯,真正的掌握,則是身體在實踐中的形成的一整套連貫動作,將復(fù)雜的身體自由度收斂為腰腿間的協(xié)調(diào)發(fā)力。這種從感知到行動的整體性學(xué)習(xí),恰恰是割裂的模態(tài)拼接的方式無法實現(xiàn)的。

這種探索背后的核心命題是:機器人的“認知”與“行為”,是否可以被徹底打通?

01

連接"思考"與"行動"的 CoT

“具身 CoT 的意義超越了單純的語言任務(wù)規(guī)劃,它是連接抽象思考與具體行動的絕對核心。”自變量機器人 CTO 王昊告訴 AI 科技評論。

CoT,最初是一種語言模型在面對復(fù)雜問題時用于逐步推理的提示技巧,而當它被引入具身智能領(lǐng)域時,它承擔的角色已遠不止于此——它正在成為大模型從感知世界、理解任務(wù)到執(zhí)行動作的核心橋梁。

簡單來說,傳統(tǒng)的語言模型思考(CoT)是在一個封閉的、符號化的世界里進行邏輯推演,而機器人的行動則發(fā)生在開放、動態(tài)、充滿不確定性的物理世界。兩者之間存在天然的巨大鴻溝,具體來看:

首先,具身 CoT 是一種融合推理,其每一步思考都必須融合視覺、空間與物理常識,確保了邏輯從一開始就與物理世界綁定; 其次,這種扎根現(xiàn)實的推理使其能夠進行“動態(tài) grounding”,將模糊指令實時分解為與環(huán)境持續(xù)交互的子任務(wù)鏈,讓思考過程本身就是一個感知-規(guī)劃-行動的循環(huán); 最終,這必然導(dǎo)向因果驅(qū)動的行動,即機器人的每個動作都是由思維鏈上的具體推理步驟所直接生成,并且每步推理都會受到動作在環(huán)境中執(zhí)行帶來的影響。

釋義:“動態(tài) grounding” 指機器人將抽象符號、語言或概念與動態(tài)變化的現(xiàn)實世界感知信息(如視覺、觸覺等)實時關(guān)聯(lián)的過程,讓機器人能在環(huán)境變化中理解概念并調(diào)整行為,是實現(xiàn)智能交互的關(guān)鍵能力。

目前,包括英偉達、谷歌、自變量等公司正在探索將 CoT 引入具身任務(wù)中,用以提升多模態(tài)大語言模型(MLLM)在物理世界中的決策能力。技術(shù)路徑上,大致分為兩種方向:分層架構(gòu)與端到端模型。

以英偉達為例,其在 2025 年 GTC 大會后推出 Cosmos-Reason1 采用了分層架構(gòu)+CoT的方式。該系統(tǒng)基于模塊化的感知、推理、控制流程構(gòu)建了層次化物理本體,能夠生成顯式、可解釋的動作序列,具備良好的追溯性和驗證性。

一位業(yè)內(nèi)專家告訴 AI 科技評論,這種路徑“工程上更穩(wěn)健、調(diào)試更方便?!庇绕涫菍τ谀鼙幻鞔_拆解的任務(wù),比如疊衣服等,分層結(jié)構(gòu)非常管用。但他也指出,這一路徑存在天然的上限:“一旦任務(wù)場景變復(fù)雜,模塊之間的信息傳遞容易出問題,尤其是面對環(huán)境變化時,響應(yīng)往往滯后?!?/p>

AI 科技評論了解到,多數(shù)企業(yè)或研究團隊選擇分層結(jié)構(gòu)的原因之一在于工程可控性強。尤其是雙系統(tǒng)架構(gòu)在實驗中表現(xiàn)穩(wěn)定,從語言到視覺再到行動由中間信號傳遞,更容易實現(xiàn)閉環(huán)。但缺點也顯而易見,一旦要應(yīng)對復(fù)雜推理、解決隨機問題時,完成難度直線上升。

顯然,認知深度是更進一步的問題。另一位業(yè)內(nèi)人士指出,“真正的具身智能,不只是能看、能想、能說,更要知道自己在做什么,以及怎么做。”物理世界的高度復(fù)雜性和不確定性,要求具身智能必須解決兩個核心問題:

  • 一是知道在做什么。例如,去倒一杯水,必須理解“水是液體,杯子傾斜才會倒出,而不是機械地把一個圓柱體傾斜到某個角度。

  • 二是知道怎么做。例如,偏癱患者,即使有明確意圖,也無法準確控制自身的動作及與外界的交互。

在王昊看來,這也是分層架構(gòu)的本質(zhì)問題之一。他指出,首先是“表征瓶頸”——信息在不同模塊之間頻繁傳遞,會發(fā)生壓縮與損失;其次是“難以涌現(xiàn)”——模塊之間的結(jié)構(gòu)割裂,讓模型很難自然學(xué)到跨模態(tài)的物理因果和直覺常識。

因此,自變量機器人選擇了另一條路線:端到端的具身 CoT。他們設(shè)計了一整套統(tǒng)一的多模態(tài)生成架構(gòu),試圖在同一個神經(jīng)網(wǎng)絡(luò)中處理視覺、語言、觸覺和動作等不同模態(tài)的信息。

“我們的目的是消除人為劃分的模態(tài)邊界,把它們都看作一個‘高維信息流’?!蓖蹶徽f。

這種統(tǒng)一架構(gòu),主要在于信息流的融合:讓視覺、語言、動作等各種模態(tài)的信息在同一個空間里可以自由地流動。關(guān)鍵突破在于他們引入了一種“多任務(wù)多模態(tài)生成”的監(jiān)督機制。

王昊表示,他們要求模型在訓(xùn)練時必須學(xué)會任意模態(tài)之間的轉(zhuǎn)換,比如用語言生成圖像、用圖像預(yù)測下一步動作?!斑@種機制會驅(qū)動會強迫模型去學(xué)習(xí)模態(tài)之間深層的因果聯(lián)系?!?/p>

過去在單一模態(tài)生成上,其他公司已有所嘗試。谷歌 DeepMind 的 RT 系列已經(jīng)實現(xiàn)了語言到動作的直接映射;斯坦福大學(xué)團隊也在測試將 CoT 與物理環(huán)境仿真融合,以實現(xiàn)更自然的機器人操作規(guī)劃。

王昊解釋,為了讓機器人從“看懂”走向“會做”,統(tǒng)一的、多模態(tài)的思維鏈能夠驅(qū)使系統(tǒng)呈現(xiàn)出一種類似人類的“整體性認知”:在面對未知任務(wù)時,能夠在一個表示空間中同時完成視覺理解、語義推理、物理預(yù)測與動作規(guī)劃,不再依賴串行模塊處理。

02

自然涌現(xiàn)

與分層結(jié)構(gòu)通過模塊拆解任務(wù)不同,自變量機器人的統(tǒng)一架構(gòu)更關(guān)注模型內(nèi)部思維過程的自然涌現(xiàn)。

他們推出的具身智能模型,基于統(tǒng)一神經(jīng)網(wǎng)絡(luò)架構(gòu),在執(zhí)行復(fù)雜任務(wù)時引入 CoT 機制,不再依賴人工拆分的感知、推理和控制流程,而是讓模型自主完成從感知到動作的完整閉環(huán)。

這種設(shè)計帶來的挑戰(zhàn)是顯而易見的:系統(tǒng)不僅要能“做”,還要能“想清楚再做”,甚至“邊想邊做邊說”。這意味著模型需要具備復(fù)雜推理能力、連續(xù)操作能力以及多模態(tài)表達能力,能夠?qū)⒁曈X、語言和動作有效對齊,并實時呈現(xiàn)思維鏈條。

在多個具身任務(wù)實驗中,自變量機器人的具身模型展示出了三類關(guān)鍵能力:

第一個是符號-空間推理能力。

符號-空間推理能力是指機器人不僅能理解符號的含義,比如文字、圖形等抽象信息,還能夠?qū)⑦@些符號與物理空間中的對象、位置和操作建立對應(yīng)關(guān)系,并在此基礎(chǔ)上做出合理推理與操作決策。

比如,當機器人看到一幅手繪的“五角星”圖案時,它首先需要識別這個圖形所代表的含義,并聯(lián)想到對應(yīng)的字母拼寫,比如“S”“T”“A”“R”。接著,系統(tǒng)要理解這些字母在二維平面中的排列順序,進一步推理出一個有語義的英文單詞。

但這還不夠,機器人還要把這種符號信息轉(zhuǎn)化為動作指令——比如用積木在三維空間中重新“搭建出”這個單詞的拼寫。這需要它具備:

  • 對圖形/字母的識別能力(視覺感知)

  • 對字母組合的語義理解與推理(語言與因果)

  • 對目標在空間中的相對位置規(guī)劃能力(空間操作)

整個過程體現(xiàn)了視覺感知、因果推理和空間操作的深度融合。

視頻演示1:機器人根據(jù)手繪圖形拼出對應(yīng)單詞

第二個是物理空間推理能力。

物理空間推理能力表示機器人在面對一個現(xiàn)實環(huán)境中的物體或任務(wù)時,能夠理解物體之間的空間關(guān)系、物理屬性,如重力、支撐、平衡等,并據(jù)此推理出合理的操作順序與結(jié)果。這種能力是機器人真正“理解”環(huán)境并做出符合常識決策的關(guān)鍵。

視頻演示2:觀察積木操作步驟并搭建對應(yīng)空間形狀

視頻中,機器人能從積木圖片中看懂每一步怎么做,按部就班地拾取相應(yīng)積木并妥善擺放。

一連串動作的背后,是機器人對整個結(jié)構(gòu)的空間理解和因果推理。比如哪塊積木起支撐作用,先放哪塊才能保持整體穩(wěn)定,甚至能預(yù)測如果換一種順序搭建,積木結(jié)構(gòu)會不會倒。更重要的是,機器人能把自己的思考過程用語言清晰地表述出來,解釋為什么要這么放置、哪里需要注意重力和結(jié)構(gòu)的平衡。

可以說,機器人基于深層的物理理解,獨立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺與推理能力的有機結(jié)合。

第三個是具備推理鏈的自主探索能力。

推理鏈的自主探索能力是指機器人在面對一個未知或不確定的任務(wù)時,不再依賴預(yù)設(shè)規(guī)則或外部指令,而是能像人一樣,自主觀察環(huán)境、調(diào)動已有知識,構(gòu)建出一套連貫的推理過程,來指導(dǎo)自己的行動。這是從“被動執(zhí)行”走向“主動決策”的關(guān)鍵能力。

視頻演示3:帶有推理過程的物品搜索

在 Demo 中,當機器人得到指令:“找到藍色的布偶玩具并把它拿到桌子中間”。沒有任何記憶參考的機器人,開始根據(jù)指令進行探索:先查看桌面物品,逐一挪開杯子、衣服,試圖找到玩偶;隨后又依次拉開抽屜,尋找可能的藏匿處。

整個過程,機器人展現(xiàn)出的不是機械式執(zhí)行,而是一種目標導(dǎo)向的推理能力,意味著機器人能夠理解任務(wù)目標,并推理出合理的行動路徑,“自己想辦法完成任務(wù)”。

以上三個過程,機器人需要在操作中實時輸出推理過程,這要求模型在統(tǒng)一架構(gòu)中實現(xiàn)物理操作、視覺和語言推理的精確同步,“這種推理過程是端到端學(xué)習(xí)的自然涌現(xiàn)”。

因此 CoT 不再是工程技巧,而是真正成為驅(qū)動機器人思考和行動的重要機制。在這一過程中,模型架構(gòu)、任務(wù)反饋機制與訓(xùn)練范式的每一步演進,都教會機器人以新的方式理解世界,完成交互。

此外,端到端統(tǒng)一具身思維鏈讓機器人還具備了從視頻中學(xué)習(xí)的能力和協(xié)作推理能力。

在觀察人類操作的視頻時,機器人并不只是模仿動作表面,而是嘗試去“看懂人類在做什么”——它從視頻中推斷出人類行為背后的真實意圖和目標狀態(tài)。這意味著它不僅能學(xué)會怎么做,更能理解“為什么這么做”。

視頻演示4:從視頻中推斷動作信息意圖并自主執(zhí)行

這種能力遠不止是復(fù)制動作,而是一種融合了視頻理解、人類意圖識別和任務(wù)目標推理的復(fù)雜能力。它讓機器人具備了初步的自主學(xué)習(xí)能力。

03

結(jié)語

在具身智能的發(fā)展路徑上,CoT 正逐漸成為連接感知、推理與行動的核心技術(shù)。無論是分層架構(gòu)還是端到端模型,各方都在尋找更好的方式,讓機器人真正理解并適應(yīng)物理世界。

自變量機器人選擇了一條天花板更高的路:在統(tǒng)一的端到端架構(gòu)中推動多模態(tài)思維鏈的自然涌現(xiàn)。

他們相信,只有拋棄拼接式的多模態(tài)融合方式,才能打通視覺、語言和行動之間的壁壘,讓機器人像人一樣,在行動中感知,在感知中思考,思考的結(jié)果又即時地、非線性地體現(xiàn)在行動中,從而形成更加豐富的“思維環(huán)”,以適應(yīng)復(fù)雜的物理世界。

這是一場對具身認知的重構(gòu),讓機器人具備真正的整體性能力?;蛟S就從這樣一條思維鏈起,機器人將開始真正走進現(xiàn)實世界。



未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
暴跌60%,引發(fā)全國牙科關(guān)店潮,曾經(jīng)暴利的牙科生意要涼透了嗎?

暴跌60%,引發(fā)全國牙科關(guān)店潮,曾經(jīng)暴利的牙科生意要涼透了嗎?

臨云史策
2025-10-26 20:41:50
3理工男大學(xué)生貸款幾十萬囤游戲飾品,CS2市場崩盤一起墜樓

3理工男大學(xué)生貸款幾十萬囤游戲飾品,CS2市場崩盤一起墜樓

扮貓騎老虎
2025-10-24 19:54:58
幼兒園女老師深夜發(fā)錯群,剛要撤回卻為時已晚,家長群瞬間沸騰了

幼兒園女老師深夜發(fā)錯群,剛要撤回卻為時已晚,家長群瞬間沸騰了

大果小果媽媽
2025-10-26 21:05:48
柬埔寨為何光速服軟?

柬埔寨為何光速服軟?

不正確
2025-10-26 13:10:16
北大才女李天樂:赴美留學(xué),入職頂尖藥企,用金屬鉈毒殺清華丈夫

北大才女李天樂:赴美留學(xué),入職頂尖藥企,用金屬鉈毒殺清華丈夫

尋途
2025-10-26 16:24:06
鄭智化,留給你的好人緣不多了,請珍惜!

鄭智化,留給你的好人緣不多了,請珍惜!

守望的田野
2025-10-27 09:34:59
中國一重原黨委常委、副總經(jīng)理陸文俊嚴重違紀違法被“雙開”

中國一重原黨委常委、副總經(jīng)理陸文俊嚴重違紀違法被“雙開”

界面新聞
2025-10-27 11:04:45
突發(fā)!加州州長紐森宣布競選2028美國總統(tǒng)

突發(fā)!加州州長紐森宣布競選2028美國總統(tǒng)

大洛杉磯LA
2025-10-27 01:28:28
天才水哥的困境:給了女兒一切,她卻對什么都沒興趣……

天才水哥的困境:給了女兒一切,她卻對什么都沒興趣……

媽咪OK
2025-10-24 16:57:54
首批49個,名單公布!

首批49個,名單公布!

魯中晨報
2025-10-26 21:32:12
首??!布倫森37+7尼克斯無緣18分逆轉(zhuǎn)熱火 鮑威爾29+7熱巴19+13

首??!布倫森37+7尼克斯無緣18分逆轉(zhuǎn)熱火 鮑威爾29+7熱巴19+13

醉臥浮生
2025-10-27 09:18:04
圍繞多項重要經(jīng)貿(mào)問題,雙方進行“建設(shè)性的”探討,中美吉隆坡磋商達成基本共識

圍繞多項重要經(jīng)貿(mào)問題,雙方進行“建設(shè)性的”探討,中美吉隆坡磋商達成基本共識

環(huán)球網(wǎng)資訊
2025-10-27 06:36:24
皇馬1.5億巨星怒不可遏!一路抱怨不滿阿隆索 威脅要離隊

皇馬1.5億巨星怒不可遏!一路抱怨不滿阿隆索 威脅要離隊

葉青足球世界
2025-10-27 08:00:40
演都不演了!楊振寧去世僅8天,惡心的一幕出現(xiàn),結(jié)局大快人心

演都不演了!楊振寧去世僅8天,惡心的一幕出現(xiàn),結(jié)局大快人心

動漫里的童話
2025-10-26 23:18:50
兩名中國留學(xué)生鉆英國鐵路系統(tǒng)漏洞,詐騙140多萬后雙雙入獄!

兩名中國留學(xué)生鉆英國鐵路系統(tǒng)漏洞,詐騙140多萬后雙雙入獄!

留學(xué)咖啡館
2025-10-25 08:34:47
網(wǎng)曝同濟大學(xué)25屆優(yōu)秀畢業(yè)生就業(yè)去向,炸裂了…

網(wǎng)曝同濟大學(xué)25屆優(yōu)秀畢業(yè)生就業(yè)去向,炸裂了…

慧翔百科
2025-10-27 09:12:47
3個月了,扶老人被訛周女士無奈再發(fā)聲,對方操作,再次刷新底線

3個月了,扶老人被訛周女士無奈再發(fā)聲,對方操作,再次刷新底線

戶外釣魚哥阿勇
2025-10-26 16:15:18
讓旅客在寒風(fēng)中的站外等四個小時的地方,建議大家就別去了

讓旅客在寒風(fēng)中的站外等四個小時的地方,建議大家就別去了

李老逵亂擺龍門陣
2025-10-26 08:43:30
為何金庸故事漸漸失去市場?本質(zhì)是“偽君子”意淫,市場下沉后已無需道德面紗

為何金庸故事漸漸失去市場?本質(zhì)是“偽君子”意淫,市場下沉后已無需道德面紗

齊天候
2025-10-26 12:23:02
突發(fā):美國航母兩架戰(zhàn)機相繼墜入南海

突發(fā):美國航母兩架戰(zhàn)機相繼墜入南海

環(huán)球時報國際
2025-10-27 08:34:31
2025-10-27 11:19:00
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
6954文章數(shù) 20698關(guān)注度
往期回顧 全部

科技要聞

1.5萬億美元生意,OpenAI用“自己人”搞定

頭條要聞

男子伙同二人撞死母親騙保被判死刑 事發(fā)前曾告知父親

頭條要聞

男子伙同二人撞死母親騙保被判死刑 事發(fā)前曾告知父親

體育要聞

虎頭蛇尾的國家德比,在哨響后迎來高潮

娛樂要聞

楊冪 15 年情路大起底

財經(jīng)要聞

貝森特:美方不再考慮對華加征100%關(guān)稅

汽車要聞

或告別燃油時代 豐田Supra將于明年停產(chǎn)

態(tài)度原創(chuàng)

藝術(shù)
健康
教育
時尚
本地

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

骨頭"咔咔響"?肌骨超聲到底有何用

教育要聞

大氣科學(xué)專業(yè)留學(xué)保姆級攻略!對口崗位多,上岸超容易!

今年秋冬最時髦的穿法:長外套+長褲,太高級了!

本地新聞

這個秋天,一起來粉上漓渚!所有風(fēng)景只為等你

無障礙瀏覽 進入關(guān)懷版 九色自拍视频资源| 加勒比无码专区中文字幕| 欧美囗交xx×bbb视频| 影视先锋av资源噜噜| 操b黄色av| 性按摩一区二区三区| 国产香蕉尹人综合在线观| 久久午夜无码鲁丝片直播午夜精品| 色欲av一区二区三区蜜臀| 久久久久国产一级毛片高清版A| 免费观看美女裸体网站| 内射极品少妇| 东京热高清无码| a毛片在线播放| 中国语音大黑逼黄色日女人| 国产av无码天涯| 久久精品成人免费国产片小草| 欧美亚洲tv| 中文字幕15p| 欧美孕交vivoestv另类| 中日韩黄色基地一二三区| 中文字幕无码久久精品色狠| 天堂8AV在线观看| 亚洲日本va99在线| 高潮videossexohd潮喷| 人妻丰满熟妇AV无码区动漫| 免费AV片下载| 国产午夜精品久久久久久久密| 九九九精品成人免费视频| 99久久久无码国产精品免费手机| 亚洲六月婷婷| 国产又爽 又黄 免费智库苹果区| 亚洲欧洲自偷自拍图片| 久久久免费人体| 无码一区二区三区久久精品 | 国产精品乱伦视频一二三区| 色噜噜综合亚洲AV中文无码| 亚洲高潮在线| 欧美高大丰满freesex| 97超级碰碰人妻中文字幕| 亚洲av性爱网|