機器之心原創(chuàng)
作者:聞菲
7 月 27 日,騰訊發(fā)布了具身智能開放平臺 Tairos,以模塊化的方式向行業(yè)提供大模型、開發(fā)工具和數(shù)據(jù)服務,試圖為具身智能的研發(fā)和應用提供一套通用的支撐體系。
在 Tairos 問世之前,騰訊 Robotics X 實驗室已在具身領域探索七年多。從多模態(tài)四足機器人 Max 到輪腿機器人 Ollie,從靈巧手 TRX-Hand 到人居環(huán)境機器人原型小五,這些自研項目不僅是技術展示,更是其探索感知、規(guī)劃、控制、硬件設計等全棧機器人技術的載體。
如今,將七年積累沉淀為一個開放平臺,這一舉動本身便值得深思。在具身智能的技術路線尚無定論,產業(yè)模式快速發(fā)展的背景下,騰訊的平臺化路徑,既是對行業(yè)現(xiàn)階段挑戰(zhàn)的回應,也預示了其對未來生態(tài)的布局。
發(fā)布會后,騰訊首席科學家、Robotics X 實驗室主任、福田實驗室主任張正友博士接受了機器之心的專訪,深入剖析了這一戰(zhàn)略選擇背后的三個核心問題:架構、原理與定力。
端到端 vs 分層:
為什么說分層架構是當下更務實的路徑
機器之心:當前具身智能技術路徑尚無定論,業(yè)界對于「端到端」與「分層架構」的路線選擇爭議頗多。您主張分層架構,能否進一步闡述層與層之間的功能邊界如何劃分,這些邊界是固定不變的,還是會根據(jù)任務的復雜度和緊急程度進行動態(tài)調整?
更重要的,「小腦」在物理交互中獲得寶貴經(jīng)驗(比如一次失?。?,這個知識是如何反饋、反哺給「大腦」,從而實現(xiàn)整個架構的自我學習與進化?
張正友:這是一個非常深刻且直擊要害的問題,它觸及了當前具身智能領域最核心的哲學思辨與工程實踐的交叉點。要回答這個問題,我們必須先理解理想與現(xiàn)實之間的差距。
首先,我們來談談為什么選擇分層,這本質上是一個效率與現(xiàn)實的權衡。
在理想狀態(tài)下,一個擁有無窮多高質量數(shù)據(jù)的端到端模型,或許是通往通用人工智能的終極路徑。理論上,如果分層架構確實是最高效的組織形式,那么一個足夠強大的端到端模型在海量數(shù)據(jù)的訓練下,應該會自發(fā)地、內生地演化出類似分層的結構。這就好比一個全連接的神經(jīng)網(wǎng)絡,如果某些連接是冗余的,在充分訓練后,它們的權重會自然趨近于零,從而形成事實上的稀疏連接和功能分區(qū),也就是我們所說的「層」。
這個邏輯同樣適用于混合專家模型(MoE)。在理想狀態(tài)下,一個巨大的、全連接的模型,為了追求低能耗和高效率,最終也應該會演化出「專家系統(tǒng)」,也即在處理特定任務時,只有部分網(wǎng)絡被激活。
但現(xiàn)實是,我們永遠沒有理想狀態(tài)下的無窮數(shù)據(jù)。用有限的數(shù)據(jù)去訓練一個參數(shù)量動輒萬億且全連接的模型,其難度和成本是天文數(shù)字。這也是為什么現(xiàn)在主流的大語言模型會采用 MoE 架構。因此,我們選擇分層,本質上是將人類對智能結構的先驗知識主動注入到模型架構中。就像我們知道人腦有左右腦分工,有不同腦區(qū)負責不同功能一樣,我們預先設定感知、規(guī)劃、行動這樣的分層,是一種高效的引導,它能顯著降低模型學習的難度,減少對數(shù)據(jù)的依賴,提升整體訓練效率。
其次,關于你問到的邊界劃分與知識反饋閉環(huán)。
我們提出的 SLAP3 架構,包含多模態(tài)感知模型(右腦)、規(guī)劃大模型(左腦)以及感知行動聯(lián)合大模型(小腦),其邊界并非靜態(tài)的,在處理不同任務時,各層之間的協(xié)作模式和信息流權重是動態(tài)變化的。
- 感知行動聯(lián)合大模型就像系統(tǒng)1:負責快速、直覺式的反應。人類 95% 以上的日常行為,比如走路、躲避障礙、抓握物體,都是由這個系統(tǒng)自動完成的。例如,當你手中杯子打滑的瞬間,你會下意識地立刻抓緊它。這個反應速度極快,大約在毫秒級別,它形成了一個極短的感知-行動閉環(huán),根本來不及、也不需要上報到大腦去進行復雜的思考和決策。如果凡事都要依賴高級中樞,那反應速度就太慢了。
- 感知模型和規(guī)劃大模型就像系統(tǒng)2:負責處理更復雜的、需要深思熟慮的任務,比如理解「這個杯子是陶瓷的,易碎」,或者規(guī)劃「如何端著這杯水穿過擁擠的人群而不灑出來」。這是一種更宏觀、更慢的思考過程。我們之所以將感知(類似我們的右腦)和規(guī)劃(類似我們的左腦)暫時分開,是因為在目前的技術和數(shù)據(jù)條件下,要將對世界的物理理解(感知)和復雜的任務規(guī)劃完全融合在一個原生的多模態(tài)模型中,依然非常困難。但最終,左右腦之間的界限一定會變得模糊,信息交互的帶寬也會越來越高。
例如,一個需要快速反應的避障任務,可能會繞過「左腦」,形成「右腦」到「小腦」的快速通路,而在一個需要精密操作的長期任務中,「左腦」的規(guī)劃和拆解則會占據(jù)主導地位。
騰訊 Robotics X 機器人實驗室在 2025 WAIC 發(fā)布的 SLAP3 體系,基于張正友博士 2018 年提出的 SLAP(Sense 感知、Learning 學習、Action 行動、Planning 規(guī)劃)框架,包含 3 個緊密結合的大模型,不同功能的大模型可以相對獨立地發(fā)展和更新,同時又能高效地協(xié)同工作、互相增強。
底層「小腦」的感知行動聯(lián)合大模型,其內部在很大程度上是端到端訓練的。當它在執(zhí)行任務中遇到意外情況,比如杯子滑落摔碎了這個具體的失敗經(jīng)驗,會被捕捉下來,我們會將這些代表著意外或新知識的特殊交互數(shù)據(jù),編碼成一種類似于Embedding 的形式,并將其存入一個共享的「記憶庫」(Memory)。
這個記憶庫起到了橋梁作用:對下,它可以直接被「小腦」在未來的快速反應中調用,相當于形成肌肉記憶;對上,它可以上傳給「右腦」,當上層模型讀取到這條「杯子滑落」的記憶后,它就會修正自己對這個物體的認知模型,比如更新它的屬性描述,比如「該類表面光滑的物體,在特定角度下有滑落風險」。通過這種機制,底層的物理交互經(jīng)驗,就有效地反哺了上層的模型,實現(xiàn)了閉環(huán)。
更重要的是,這個架構本身是需要不斷迭代的。我們今天注入的先驗知識,可能在明天就會被證明是次優(yōu)的。因此,真正的反饋閉環(huán),不僅僅是行動結果對規(guī)劃的修正,更是整個系統(tǒng)對架構本身的修正。就像 Transformer 架構從最初的翻譯模型,演化到成為今天大模型的核心組件,其內部結構也經(jīng)歷了巨大的變化。具身智能的架構也必將經(jīng)歷類似甚至更劇烈的演化。
最后,我想強調一點,也是當前領域內一個巨大的挑戰(zhàn):我們應該用什么「語言」來構建這個反饋閉環(huán)?
目前,許多多模態(tài)大模型本質上是以語言為中心的。先訓練一個強大的語言模型基座,然后將圖像、視頻、語音等其他模態(tài)的信息對齊到語言的語義空間。這是一個工程上的捷徑,但可能不是通往真正具身智能的正確道路。
我們必須認識到,動物沒有復雜的語言,卻能在三維物理世界中完美地生存和互動。這證明了,對物理世界的原生理解,比語言符號更根本。如果我們的反饋閉環(huán)過度依賴語言作為中間表示,就必然會在轉換過程中丟失大量關鍵的物理世界信息。
因此,理想的反饋閉環(huán),必須建立在「原生多模態(tài)」的基礎上。這意味著模型需要直接從像素、聲音、力反饋等原始信號中學習,而不總是要轉換成文字。這又回到了理想與現(xiàn)實的困境——原生多模態(tài)需要海量且多樣化的數(shù)據(jù),目前只有極少數(shù)公司有能力真正朝這個方向探索。就像自動駕駛領域,人人都說端到端,但真正有數(shù)據(jù)底氣去做的可能只有特斯拉。
綜上所述,我們選擇分層架構,是一種基于現(xiàn)實考量的務實策略。但這只是一個起點,目標是驅動整個架構向著更高效、更原生的多模態(tài)智能形態(tài)不斷進化。
機器之心:既然您已經(jīng)意識到理想的終極形態(tài)或許是一個用海量數(shù)據(jù)端到端訓練出的原生多模態(tài)模型,為什么不一開始就全力朝這個方向前進(比如搭建為此所需要的數(shù)據(jù)基礎設施),而要「繞路」走分層呢?初期人為劃定的分層是否有可能阻礙模型后期向著更高智能演進?
張正友:我認為端到端與分層這兩條路并非相互排斥,而是殊途同歸。我們今天選擇分層架構,恰恰是為了最終能抵達那個理想的、由數(shù)據(jù)驅動的端到端未來。
我用一個類比來說明這個問題。馬斯克的宏大愿景是實現(xiàn)人類的火星移民,這是一個極其遙遠且昂貴的目標。他并沒有坐等萬億資金從天而降,而是通過一系列務實的、可商業(yè)化的步驟來逐步接近這個目標:先是研發(fā)可回收火箭來大幅降低發(fā)射成本,然后通過星鏈(Starlink)計劃提供衛(wèi)星互聯(lián)網(wǎng)服務來產生持續(xù)的商業(yè)回報,等等。這些商業(yè)上的成功,都在為他最終的火星計劃輸送資金、積累技術。這與我們做具身智能的邏輯是一致的。
要達到我們的理想——擁有無窮數(shù)據(jù)、通過端到端訓練出的通用具身智能模型,我們面臨許多現(xiàn)實的約束:理想中那海量的數(shù)據(jù)從何而來?由誰去收集?成本有多高?更重要的是,在模型架構本身尚未完全探索清楚的時候,大規(guī)模收集有效數(shù)據(jù)可能是紙上談兵。
因此,我們選擇分層架構,是一個在當前數(shù)據(jù)和技術條件下,能夠實際運行、解決問題、并部署到真實場景中的方案。它能讓我們先動起來。最關鍵的是,這個務實的路徑本身就是一個數(shù)據(jù)收集和模型迭代的引擎。通過在實際應用中部署分層架構,我們才能高效地收集到最有價值的交互數(shù)據(jù),然后用這些數(shù)據(jù)去迭代我們的模型,無論是上層的規(guī)劃大模型、感知模型,還是底層的感知行動聯(lián)合大模型。這是一個螺旋式上升的過程,持續(xù)地推動我們向最終的目標前進。
為什么說「身腦融合」
是具身智能的第一性原理
機器之心:在您看來,具身智能領域「第一性原理」問題是什么?
張正友:我認為,具身智能的第一性原理,就是探究「身體」與「大腦」如何實現(xiàn)真正有機的、無縫的融合。它絕不是簡單地拿一個現(xiàn)成的 AI 大模型,做一些適配,然后「安裝」到機器人上就能解決的。
我經(jīng)常舉兩個例子來說明什么不是真正的具身智能:
- 如果一個機器人的頭掉了,它依然在盲目地行走,那它肯定不是具身智能。一個真正的具身智能體,應該能立刻意識到「我的視覺傳感器失效了,我看不見了,我必須停下來」。
- 如果一個機器人的手臂斷了,它卻渾然不覺,還在徒勞地執(zhí)行「伸手開門」的預設程序,那這也不是具身智能。這說明它的行為依然是基于預先編程的僵化邏輯,而不是對自己身體狀態(tài)的真實感知。
真正的具身智能,必須對自己身體的形態(tài)和狀態(tài)、對外部環(huán)境的物理規(guī)律,以及對當前任務的目標,都有深刻的、統(tǒng)一的理解。它的核心任務,就是將一個抽象的目標,轉化為一個物理世界中可以一步步實現(xiàn)的、具體的行為序列。
以世界頂尖跳水運動員為例,在學習初期,她的每一次嘗試都離不開教練的指導和自身的刻意思考——這正是「系統(tǒng)2」主導的過程,充滿了反復試錯和有意識的調整。通過成千上萬次的練習,這些復雜的動作序列最終被內化為肌肉記憶,在比賽中能夠以「系統(tǒng)1」的方式,快速、直覺地執(zhí)行出來,達到了水花近乎消失的境界。
然而,一個關鍵的環(huán)節(jié)是,即便技能已經(jīng)純熟,在跳水前依然存在一個「系統(tǒng)2」的規(guī)劃階段。當她站在跳板上進行心理預演時,她正在大腦中完整地「播放」一遍即將要做的動作流程。這個短暫而高度集中的心理模擬,就是上層的規(guī)劃。一旦這個規(guī)劃完成并啟動,接下來的執(zhí)行過程就完全交由下層的、自動化的「系統(tǒng)1」來接管,從而實現(xiàn)精準而流暢的動作。
機器之心:您提到了心理預演的規(guī)劃,這種在大腦中「播放」動作畫面的過程,與視頻生成模型在原理上似乎相通。這是否意味著,具身智能的「動作規(guī)劃」,其本質可能就是一種「視頻生成」?這兩條技術路徑最終會統(tǒng)一到一個大的生成式框架下嗎?
張正友:雖然將動作規(guī)劃類比為生成模型很貼切,但我認為,兩者之間存在著本質的區(qū)別。將它們混為一談,可能會忽略具身智能最核心的特質。
首先,兩者目標不同。在物理世界中生存,理解是每個智能體的必備基礎能力,就像我們每個人都需要看懂世界才能生活。但生成,尤其像導演一樣創(chuàng)作出一部精美的影片,是一種高度專業(yè)的、非必需的技能——我們不能要求每個智能體都成為一個電影導演。其次,也是最關鍵的一點,兩者生成的內容不同:動作規(guī)劃是稀疏的、第一人稱的,而視頻生成是稠密的、第三人稱的。
讓我們再次回到跳水運動員的例子。當她在跳板上進行心理預演時,她腦海中關注的焦點是自己的身體姿態(tài)、起跳的時機、空中翻轉的角度、入水的角度。她絕不會去費心「生成」觀眾席上每個人的臉,或者燈光的精確顏色??磁_上的人是五根手指還是六根手指,對她的動作規(guī)劃毫無影響。
她生成的「視頻」是與自身運動能力、身體狀態(tài)完全綁定的,這是一個關于「我」該如何運動的內在模擬。而通用的視頻生成模型,往往是第三人稱的、全局的,它追求的是整個畫面在物理和視覺上的合理性與連貫性,關心的是畫面中的每一個像素。
這就引出了對「生成即理解」這一觀點的進一步思考。我同意其基本邏輯,即無法準確生成就意味著不夠理解。但關鍵在于,我們要生成什么,以及這種生成證明了哪種理解?
一個模型能生成一段賞心悅目的視頻,證明了它對視覺規(guī)律和物理常識的理解。但一個具身智能體能成功「規(guī)劃」并完成一次復雜的抓取,它所「生成」的是一個高度抽象、與自身能力緊密相關的動作序列。這證明了它對自己身體、對目標物體以及對任務邏輯的深刻理解,這是一種完全不同維度、也更為核心的具身理解。
因此,我認為具身智能的動作規(guī)劃,并非簡單的視頻生成。它是一種稀疏的、以自我為中心的、服務于特定任務的、高度抽象的生成過程。未來的研究方向,應該是探索如何構建專為此類任務深度優(yōu)化的模型,而不是簡單地套用追求稠密與真實的通用視頻生成技術。
喧囂賽道上的創(chuàng)新定力:
為何要對商業(yè)化說「不」
機器之心:您說過,要有不受制于短視商業(yè)邏輯的創(chuàng)新定力,才能實現(xiàn)領跑。當下具身智能賽道呈現(xiàn)出一種爆發(fā)式的火熱,您是否觀察到一些潛在的陷阱或短視行為?相對應的,您所強調的創(chuàng)新定力又該如何體現(xiàn)?
張正友:首先,大量優(yōu)秀的人才和資本涌入這個領域,本身是一件好事。在技術路徑尚未完全明朗的今天,有更多聰明的頭腦從不同角度去嘗試和探索,對整個行業(yè)的發(fā)展至關重要。
我們也要客觀看待不同參與者的角色。例如,許多初創(chuàng)團隊選擇在一些確定性高、現(xiàn)有技術能夠落地的場景進行商業(yè)化,這并非短視,而是一種務實的生存策略。我們不能苛求每一家公司都以實現(xiàn) AGI 為終極目標,并最終成為像蘋果、谷歌那樣的巨頭。生態(tài)的繁榮,需要各種角色的貢獻。
真正的「陷阱」,或者說挑戰(zhàn),在于如何處理短期利益與長遠目標之間的關系,也就是我所說的定力。我認為,定力的本質,在于不忘初心。
在科研和創(chuàng)業(yè)的道路上,我們總會取得一些階段性的成果,比如研發(fā)出一個功能亮眼的研究原型。這時,巨大的誘惑就會出現(xiàn)——是否要立刻將其產品化、商業(yè)化?以我負責的騰訊 Robotics X 機器人實驗室為例,在過去 7 年的發(fā)展中,我們產出了許多具備商業(yè)化潛力的原型。但我們選擇不這樣做。因為我們深知,一旦投入商業(yè)化,團隊的大量精力就會被牽扯到繁瑣的工程細節(jié)、供應鏈和市場運營中,這必然會讓我們偏離探索更宏大、更根本的科學問題的初心。
這就是一種關鍵的取舍:你是為了眼前可觀的商業(yè)回報,還是為了更遠大的技術愿景?
因此,定力在這里就體現(xiàn)為一種清醒的自我認知和堅定的內心。它意味著你必須明確自己最終想要達成的目標,并有勇氣為了這個長遠目標,放棄那些看似唾手可得的短期利益。這對于那些立志在 AGI 領域做出根本性貢獻的團隊而言,至關重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.