新智元報道
編輯:好困 桃子
【新智元導讀】為破解機器人產(chǎn)業(yè)「一機一調(diào)」的開發(fā)困境,智源研究院開源了通用「小腦基座」RoboBrain-X0。它創(chuàng)新地學習任務「做什么」而非「怎么動」,讓一個預訓練模型無需微調(diào),即可驅(qū)動多種不同構造的真實機器人,真正實現(xiàn)了零樣本跨本體泛化。
在今天舉行的2025機器人學習大會(Conference on Robot Learning,CoRL)上,智源研究院干了一件大事:他們把自家研發(fā)的具身智能「小腦基座」——RoboBrain-X0,直接開源了!
智源宣稱,這是一款僅通過預訓練,即可實現(xiàn)多類真實機器人間的基礎操作零樣本遷移,結合小樣本微調(diào)就能進一步釋放其對更復雜任務跨本體泛化潛力的「通用小腦基座」。
在谷歌、英偉達、特斯拉等巨頭和Figure AI、Physical Intelligence等明星創(chuàng)業(yè)公司已經(jīng)把牌桌擠滿的今天,智源這一手「開源王炸」,擺明了就是要告訴所有人——牌局,要重新洗了。
RoboBrain-X0GitHub地址:
https://github.com/FlagOpen/RoboBrain-X0
多芯片版本地址FlagRelease:
https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS
核心訓練數(shù)據(jù)集:
https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
機器人行業(yè)的「換腦難題」
如今的機器人產(chǎn)業(yè),時常呈現(xiàn)出一種奇特的反差。
一方面,在精心編排的演示中,它們是無所不能的超級明星:可以完成后空翻、走梅花樁,表演復雜的舞蹈,甚至每一個動作都精準卡點。
另一方面,在真實、開放的環(huán)境里,哪怕是看似簡單的任務,也可能出現(xiàn)令人意外的低級失誤。
為什么會出現(xiàn)這種情況?
這背后正是機器人行業(yè)一個公開的秘密:驅(qū)動「身體」的「操作系統(tǒng)」互不相通。
不同團隊拿到同一家廠商的同一款硬件,由于采用的是各自開發(fā)的算法或軟件系統(tǒng),最終呈現(xiàn)出的能力可能天差地別。
其結果是,每個團隊都在重復造輪子,為每一款機器人投入大量人力去重復收集數(shù)據(jù)、訓練模型、進行繁瑣的適配。這種「一機一調(diào)」的模式,極大地限制了機器人智能的規(guī)?;渴?,成為了制約整個產(chǎn)業(yè)升級的枷鎖。
一個基座,N種身體,即插即用
智源此次開源的RoboBrain-X0,「僅靠預訓練即可實現(xiàn)零樣本跨本體泛化」,正是對上述行業(yè)難題的正面回應。
這意味著,一個未經(jīng)針對性微調(diào)的預訓練模型,可以直接部署在不同廠商、不同結構的真實機器人上,并表現(xiàn)出穩(wěn)定、可靠的性能。
這背后,并非簡單的模型參數(shù)堆砌,而是一系列深刻的技術洞察與架構創(chuàng)新。
RoboBrain-X0源自RoboBrain的多模態(tài)基座能力,在RoboBrain 2.0數(shù)據(jù)基礎上,進一步融合了真實機器人動作數(shù)據(jù)。
通過統(tǒng)一建模視覺、語言與動作,它實現(xiàn)了跨本體的泛化與適配,具備從感知到執(zhí)行的一體化能力。
結合智源公開的前沿研究,我們可以窺見其三大技術支柱:
1. 核心思想:學習「做什么」,而非「怎么動」
傳統(tǒng)機器人模型常常死記硬背特定機器人的控制信號(如關節(jié)角度、電機扭矩),導致「換殼即失靈」。
RoboBrain-X0模型學習的是任務背后的「物理本質(zhì)」。當模型接收到「把桌上的蘋果放進左邊的籃子」這類指令時,它首先通過強大的視覺推理能力,將任務分解為一套與機器人「身體」無關的通用語義動作序列(Universal Semantic Actions)。
這個過程類似于人類大腦的思考方式——我們想的是「拿起杯子」,而不是「驅(qū)動我的肱二頭肌收縮X度,同時手指彎曲Y度,施加Z牛的力」。
RoboBrain-X0通過一個「本體映射機制」(Embodiment Mapping Mechanism),將這些抽象的、通用的動作步驟,實時翻譯成當前所控制的具體機器人的可執(zhí)行指令,比如「先靠近蘋果→抓起來→移到籃子上方→放下」,從而奠定了其跨本體泛化的理論基礎。
2. 動作語義的統(tǒng)一與抽象化表達
RoboBrain-X0并不直接輸出底層關節(jié)或電機級別的控制信號,而是在抽象層面引入了統(tǒng)一動作表征體系。
具體來說,模型通過大規(guī)模異構數(shù)據(jù)的訓練,將各種機器人的復雜動作,都拆解成一套標準的「動作詞匯表」(Unified Action Vocabulary, UAV),并通過動作tokenizer機制進行量化和編碼,用類似ChatGPT處理文字的方式把動作變成一串串的token。
將末端執(zhí)行器的空間運動(包括位置、姿態(tài)和夾爪狀態(tài)等)有效壓縮為簡短的token序列,在保證表達能力的同時,實現(xiàn)跨本體的一致性、遷移性和高效推理,從而讓模型支持混合本體數(shù)據(jù)訓練
換句話說,不同機器人終于能「聽懂」同樣的指令了,而且因為動作被壓縮成了簡短的代碼,計算效率大大提升,長時間的復雜任務也不會「卡殼」。
3. 分層推理框架:任務、動作與控制的解耦
RoboBrain-X0的推理與控制采用了一種分層架構。該架構將復雜的控制流分解為三層:
頂層負責解析高層任務意圖,并生成結構化的子任務鏈;
中間將這些子任務進一步映射為標準化的 token 序列,完成從任務語義到通用動作的轉(zhuǎn)換;
底層解碼器結合當前機器人本體的特有參數(shù)(如運動學模型),將動作token實時翻譯為精準的可執(zhí)行控制指令。
這種任務、動作、控制逐層解耦的設計,不僅保障了模型卓越的跨本體遷移性和可解釋性,也為模型在多種異構機器人體系上實現(xiàn)零樣本泛化和穩(wěn)定執(zhí)行提供了堅實的技術基礎。
簡而言之,RoboBrain-X0讓機器人像人一樣,先想清楚要做什么,再考慮怎么做,最后才是具體怎么動,為通用機器人技術落地鋪平了道路。
跨本體真機數(shù)據(jù)集全面開放
要讓同一個基座適配不同機器人,數(shù)據(jù)是決定性因素。RoboBrain-X0背后的關鍵支撐,是一套面向真實世界的跨本體訓練數(shù)據(jù)集,包含了:
視覺與語義理解數(shù)據(jù):在視覺問答與推理的基礎上,補充物體檢測、軌跡生成、affordance查詢與動作規(guī)劃等與真實交互強相關的任務,幫助模型把「看見」轉(zhuǎn)化為「可操作的理解」;
開源動作數(shù)據(jù)整合:融入如Agibot World等多場景開源動作數(shù)據(jù),拓展任務覆蓋與多域泛化能力;
本體廠商合作開源數(shù)據(jù):與頭部廠商合作采集到的覆蓋多樣場景的操作軌跡,強化跨本體可遷移性與工程可復現(xiàn)性;
自采高質(zhì)量軌跡:提供「指令—動作」與「指令—子任務推理—動作」兩類樣本,既適配短指令執(zhí)行,也支持長程任務分解、進度感知與動態(tài)決策。
這次智源也同時開源了這一數(shù)據(jù)集,對于想做多本體遷移、長時序控制或高層規(guī)劃的團隊,是一個很好的可比較、可復現(xiàn)、可擴展的起點。
硬剛π0,真實世界任務成功率翻倍
RoboBrain-X0的領先性已在仿真與真實世界測試中得到充分驗證。
在權威的LIBERO仿真平臺中,RoboBrain-X0的綜合成功率高96.3%,在所有評測維度均超越了π0。
LIBERO仿真評測結果
更令人矚目的是,在對多種真實機器人進行的跨本體評測中,RoboBrain-X0的總體成功率達到48.9%,是基線模型π0的近2.5倍,并在基礎抓放任務中達到100%的成功率。
無論是「把卷筆刀放到訂書機左邊」(任務1)這種需要精確空間推理的任務,還是「將所有水果放到碗里」這類涉及多目標的操作(任務4),都表現(xiàn)出了RoboBrain-X0在應對真實世界復雜任務時的卓越泛化能力與穩(wěn)定性。
真機評測結果
從引擎到生態(tài),智源全面開源
智源此次選擇將RoboBrain-X0這一預訓練基座和相關訓練數(shù)據(jù)集全面開源。
在今年7月的智源大會上,智源全面開源具身大腦RoboBrain 2.0 32B版本以及跨本體大小腦協(xié)同框架RoboOS 2.0單機版。
RoboBrain 2.0的定位是面向真實物理環(huán)境的「通用具身大腦」,32B版本憑借時空認知能力的突破,在多項權威具身智能基準上全面刷新紀錄。
RoboOS 2.0作為全球首個具身智能SaaS開源框架,創(chuàng)新性集成MCP協(xié)議與無服務器架構,實現(xiàn)輕量化部署,打通智能大腦與異構本體協(xié)同通路。
這一系列發(fā)布,清晰地勾勒出智源的戰(zhàn)略雄心:先通過一個強大的成品(RoboBrain 2.0)樹立行業(yè)標桿,證明技術路線的潛力;再將實現(xiàn)這一切的底層核心技術「引擎」(RoboBrain-X0和訓練數(shù)據(jù)集)貢獻給社區(qū),將創(chuàng)新的權利交到每一位開發(fā)者手中。
當然,通往通用具身智能的道路依然漫長。模型的魯棒性、長時程任務的規(guī)劃能力,以及對更復雜動態(tài)環(huán)境的適應性,仍有待進一步提升。但通過開源其核心的「泛化引擎」,智源無疑為整個社區(qū)注入了強大的動能。
一個由全球開發(fā)者共同構建的、百花齊放的具身智能生態(tài),正在加速到來。
參考資料:
https://github.com/FlagOpen/RoboBrain-X0
https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.