RoboBrain?2.0×RoboOS?2.0開源，三行指令部署機器人群體智能!

2025-07-22 18:43:34　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。A800/H20等算力6.25元/卡時，支持在線微調訓練，及線部署和。

智源研究院開源具身大腦RoboBrain 2.0 32B版本以及跨本體大小腦協(xié)同框架RoboOS 2.0單機版。在10項評測中，國產RoboBrain 2.0全面超越GPT-4o，問鼎評測基準SOTA，還成功刷新跨本體多機協(xié)作技術范式！

RoboBrain 2.0，作為集感知、推理與規(guī)劃于一體面向真實物理環(huán)境的「通用具身大腦」，32B版本憑借時空認知能力的突破，在多項權威具身智能基準上全面刷新紀錄，此前發(fā)布的7B版本，具備緊湊高效的模型結構，其輕量化設計完美適配邊緣設備部署需求，能在低資源環(huán)境下穩(wěn)定運行，同時相比主流的開閉源模型性能依舊強勁。

RoboOS 2.0作為全球首個具身智能SaaS開源框架，創(chuàng)新性集成MCP協(xié)議與無服務器架構，實現(xiàn)輕量化部署，打通智能大腦與異構本體協(xié)同通路。同步推出單機版產品線及RoboSkill技能商店，通過深度集成實現(xiàn)機器人技能模塊智能匹配與一鍵適配功能，標準化接口有效消除廠商與硬件適配流程差異。同步推出開箱即用鏡像，支持「三行指令」極速部署，全面賦能開發(fā)者高效構建智能機器人系統(tǒng)。

具身大腦與跨本體大小腦協(xié)同框架雙擎聯(lián)動，將有效推動機器人從「單機智能」邁向「群體智能」，加速具身智能技術從實驗室走向真實場景，形成開放、高效、智能協(xié)同的具身智能生態(tài)體系。已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://www.wisemodel.cn/models/BAAI/RoboBrain2.0-32B

01.

突破三大能力瓶頸

當前主流AI模型在應對真實物理環(huán)境時，普遍存在三大核心瓶頸：空間理解精度不足、時間依賴建模薄弱、長鏈推理能力欠缺。

RoboBrain 2.0則在這三大關鍵能力上實現(xiàn)全面突破，顯著提升了對復雜具身任務的理解與執(zhí)行能力。

空間理解：

精確點定位和邊界框預測：能夠根據(jù)復雜指令在圖像中定位物體或區(qū)域。

空間關系理解：理解物體之間的相對位置和方向。

空間推理：支持基于場景圖的實時構建和更新，進行復雜的三維空間推理。

時間建模：

長期規(guī)劃：能夠進行多步任務規(guī)劃，支持長期目標的實現(xiàn)。

閉環(huán)交互：支持基于反饋的動態(tài)調整，適應動態(tài)環(huán)境。

多智能體協(xié)作：能夠協(xié)調多個智能體的行為，完成復雜任務。

長鏈推理：

鏈式推理：能夠進行多步推理，支持復雜任務的逐步解決。

因果邏輯：能夠從復雜指令中提取因果邏輯，并與環(huán)境狀態(tài)對齊。

決策透明性：能夠生成推理過程的詳細解釋，支持決策的透明性和可解釋性。

RoboBrain能力概覽圖

RoboBrain 2.0采用模塊化的編碼器-解碼器架構，為復雜的具身任務實現(xiàn)了感知、推理和規(guī)劃的統(tǒng)一。

與專注于通用靜態(tài)視覺問答（VQA）的傳統(tǒng)視覺-語言模型（VLMs）不同，RoboBrain 2.0在保持強大通用VQA能力的同時，專門針對具身推理任務，如空間感知、時間建模和長鏈因果推理。該架構將高分辨率圖像、多視圖輸入、視頻幀、語言指令和場景圖編碼為統(tǒng)一的多模態(tài)標記序列，以進行全面處理。

RoboBrain 2.0模型架構圖

02.

刷新性能基準

RoboBrain 2.0依托全面且多樣化的多模態(tài)數(shù)據(jù)集，融合高分辨率圖像、多視角視頻序列、場景圖、3D場景數(shù)據(jù)及復雜自然語言指令，全面賦能機器人在具身環(huán)境中的感知、推理與行動能力。該多模態(tài)數(shù)據(jù)集聚焦三大核心領域，為復雜物理場景提供有力支持。

通用多模態(tài)理解：整合標準視覺問答、區(qū)域級查詢、OCR視覺問答及多輪視覺對話，優(yōu)化語言表達的多樣性與語義一致性，通過豐富的視覺-語言交互數(shù)據(jù)，提升模型對復雜任務的理解與響應能力，適應從簡單問答到多輪對話的多樣場景。
空間感知：支持高精度物體定位、邊界框預測及對象功能性識別，覆蓋室內外復雜視覺場景與3D空間推理，助力機器人精準解析物體關系、空間屬性及場景上下文，應對遮擋、多視角變化等挑戰(zhàn)，滿足高精度定位與交互需求。

時間建模：通過多模態(tài)數(shù)據(jù)支持長程任務規(guī)劃、閉環(huán)反饋機制及多智能體協(xié)作，強化模型在動態(tài)環(huán)境中的任務分解、動作序列預測及實時交互能力，確保在復雜物理場景中實現(xiàn)連續(xù)決策、靈活協(xié)作與高效任務執(zhí)行。RoboBrain 2.0以卓越的多模態(tài)感知、精細的空間推理及強大的長時規(guī)劃能力，賦能機器人在具身環(huán)境中進行交互推理、多智能體協(xié)作及高效任務規(guī)劃，助力復雜物理場景的智能感知與決策。

RoboBrain 2.0訓練數(shù)據(jù)集

RoboBrain 2.0使用智源自研的大模型訓推一體框架FlagScale進行大規(guī)模分布式訓練，三階段遞進式訓練流程。

第一階段：基礎時空學習（Foundational Spatiotemporal Learning）

在第一階段，RoboBrain 2.0專注于構建其在空間感知和時間理解方面的基礎能力。模型通過大規(guī)模多模態(tài)數(shù)據(jù)集進行訓練，這些數(shù)據(jù)集涵蓋了密集標注的圖文數(shù)據(jù)、視頻問答以及指代表達理解任務。通過這一階段的訓練，模型能夠處理靜態(tài)圖像和視頻流，掌握物體的基本空間關系和運動事件，為后續(xù)更復雜的任務奠定了堅實的基礎。

第二階段：具身時空增強（Embodied Spatiotemporal Enhancement）

在第二階段，RoboBrain 2.0通過引入高分辨率多視圖圖像、第一人稱視頻數(shù)據(jù)以及導航和交互任務，進一步增強其在具身任務中的時空建模能力。模型學習處理長序列的時空信息，支持多智能體協(xié)調、長期規(guī)劃和動態(tài)環(huán)境中的適應性決策。這一階段的訓練使模型能夠更好地將歷史視覺信息與當前指令相結合，從而在動態(tài)交互環(huán)境中實現(xiàn)更連貫的長期規(guī)劃和穩(wěn)健的場景理解。

第三階段：具身情境中的推理鏈訓練（Chain-of-Thought Reasoning in Embodied Contexts）

在第三階段，RoboBrain 2.0通過監(jiān)督微調和強化微調，進一步提升其在復雜具身任務中的推理能力。模型使用多輪推理示例進行訓練，這些示例涵蓋了長期任務規(guī)劃、操作預測、閉環(huán)交互、時空理解以及多機器人協(xié)作等任務。通過這一階段的訓練，模型能夠生成推理鏈，支持復雜任務的逐步推理和決策，從而在具身情境中實現(xiàn)更高效、更準確的推理和規(guī)劃能力。

RoboBrain 2.0采用FlagEvalMM框架，全面驗證空間與時間推理能力。

空間推理：在BLINK（83.95）、CV-Bench（85.75）、Where2Place（73.59）等9項基準測試中，RoboBrain-32B/7B-2.0屢獲SOTA，精準實現(xiàn)物體定位、邊界框預測及空間參照，超越Gemini、GPT-4o等基線。

時間推理：在多機器人規(guī)劃（80.33）、Ego-Plan2（57.23）、RoboBench（72.16）中，展現(xiàn)卓越長程規(guī)劃、閉環(huán)反饋及多智能體協(xié)作能力，領跑Qwen2.5-VL、Claude等模型。

RoboBrain 2.0-32B在BLINK-Spatial、RoboSpatial、RefSpatial-Bench、Where2Place、EgoPlan2和Multi-Robot-Plan等空間與時間推理基準上均取得最佳表現(xiàn)

RoboBrain 2.0 7B模型分別以83.95分和85.75分登頂BLINK和CV-Bench基準測試。RoboBrain 2.0 32B模型在RoboSpatial、RefSpatial-Bench以及SAT、Where2Place和ShareRobot-Bench上實現(xiàn)SOTA突破

RoboBrain 2.0 7B模型在Multi-Robot Planning以81.50分拔得頭籌；RoboBrain 2.0 32B以 80.33分緊隨其后；RoboBrain 2.0 32B在Ego-Plan2（57.23分）登頂，大幅領先GPT-4o等基線；RoboBrain 2.0 7B模型則在RoboBench以72.16分奪魁，雙模型憑借優(yōu)異表現(xiàn)刷新性能上限

03.

雙引擎實現(xiàn)具身群體智能

依托跨本體大小腦協(xié)作框架RoboOS 2.0的多本體規(guī)劃能力，RoboBrain 2.0已實現(xiàn)多智能體間協(xié)作執(zhí)行任務，支持商超廚房居家等多場景部署。

跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個基于具身智能SaaS平臺、支持無服務器一站式輕量化機器人本體部署的開源框架。同時，RoboOS 2.0也是全球首個支持MCP的跨本體具身大小腦協(xié)作框架，旨在構建具身智能領域的「應用商店」生態(tài)。

RoboOS 2.0實現(xiàn)了大腦云端優(yōu)化推理部署與小腦技能的免適配注冊機制，顯著降低開發(fā)門檻，典型場景下，相關代碼量僅為傳統(tǒng)手動注冊方式的1/10。

RoboOS 2.0框架（SaaS+MCP模式）。RoboOS是面向多機器人協(xié)作的「大腦-小腦」分層系統(tǒng)，包含三大核心組件：(a)基于云計算的具身大腦模型，負責高級認知與多智能體協(xié)同；(b)分布式小腦模塊群，專司機器人專項技能執(zhí)行；(c)實時共享內存機制，強化環(huán)境態(tài)勢感知能力

相較于1.0，RoboOS 2.0對端到端推理鏈路進行了系統(tǒng)級優(yōu)化，整體性能提升達30%，基于FlagScale端云協(xié)同模塊，全鏈路平均響應時延低至3ms以下，端云通信效率提升27倍。在功能層面，新增了多本體時空記憶場景圖（Scene Graph）共享機制，支持動態(tài)環(huán)境下的實時感知與建模；同時引入多粒度任務監(jiān)控模塊，實現(xiàn)任務閉環(huán)反饋，有效提升機器人任務執(zhí)行的穩(wěn)定性與成功率。

RoboOS多機協(xié)作實現(xiàn)流程包含四個關鍵階段：首先通過分層任務分解將復雜任務逐級拆解，隨后基于網(wǎng)絡拓撲結構進行子任務動態(tài)分配，再由分布式智能體集群并行執(zhí)行各子任務，最后通過實時共享內存機制動態(tài)更新環(huán)境狀態(tài)與任務進度

基于RoboOS 2.0協(xié)作框架，可充分發(fā)揮RoboBrain 2.0強大的空間理解、時序規(guī)劃與閉環(huán)推理能力的同時，一鍵下載并部署來自全球開發(fā)者創(chuàng)建的相同型號機器人本體的小腦技能，完成大小腦的全鏈路無縫整合。

RoboBrain 2.0可通過像素級空間理解，支持下游小腦模型高精度抓取、搬運、放置等操作，同時，根據(jù)實時感知任務執(zhí)行狀態(tài)調整執(zhí)行計劃，適應動態(tài)環(huán)境變化，實現(xiàn)閉環(huán)反饋機制。

編輯：成蘊年

----- END -----

wisemodel相關：

系統(tǒng)升級：

系列模型：

關于wisemodel更多

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發(fā)，熟悉K8S、模型訓練和推理等技術，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質內容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學會協(xié)會、聯(lián)盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.