網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

具身智能ImageNet時刻：RoboChallenge首個大規(guī)模真機基準測試集

2025-10-15 20:04:38　來源: 機器之心Pro

北京舉報

分享至

機器之心發(fā)布

機器之心編輯部

視頻鏈接：https://mp.weixin.qq.com/s/Aq0YqCTFbcVLlJpDecqrRw

近日，RoboChallenge重磅推出！這是全球首個大規(guī)模、多任務的在真實物理環(huán)境中由真實機器人執(zhí)行操作任務的基準測試。

通過科學的評估體系構建一個開放、公正、可復現(xiàn)的「真實考場」，克服真實環(huán)境下的性能驗證、標準化測試條件、公開可訪問測試平臺等關鍵挑戰(zhàn)，RoboChallenge 可為視覺-語言-動作模型（VLAs）在機器人的實際應用提供更加可靠和可比較的評估標準，推動具身智能從「實驗室智能」走向「現(xiàn)實世界智能」。據(jù)知，RoboChallenge 由 Dexmal 原力靈機聯(lián)合 Hugging Face 共同發(fā)起。

官網(wǎng)：https://robochallenge.ai
論文：https://robochallenge.ai/robochallenge_techreport.pdf
GitHub：https://github.com/RoboChallenge/RoboChallengeInference
Hugging Face：https://huggingface.co/RoboChallengeAI

全球首個大規(guī)模多任務的真機基準測試平臺

機器人正逐步融入現(xiàn)實世界，但目前仍缺乏統(tǒng)一、開放且可復現(xiàn)的基準測試方法，難以衡量技術進展或公平比較不同方法的優(yōu)劣。改變這一現(xiàn)狀需要構建一個大規(guī)模多任務的具身智能真機測試集，使得研發(fā)人員在統(tǒng)一環(huán)境中驗證對比機器人算法，實現(xiàn)從基礎任務到復雜現(xiàn)實應用場景的全面覆蓋。

在此背景下，RoboChallenge 應運而生。這一開放式機器人基準測試平臺通過集成多款主流機器人（UR5、Franka Panda、Aloha、ARX-5）實現(xiàn)遠程評測，為研究社區(qū)提供大規(guī)模、標準化、可復現(xiàn)的測試環(huán)境，推動具身智能算法在公平、可靠的基準下持續(xù)進步。

系統(tǒng)架構設計：集成經(jīng)過工業(yè)驗證的機器人硬件，每臺均配備 2–3 臺 RGB-D 相機，并部署統(tǒng)一軟件棧實現(xiàn)機器人與視覺系統(tǒng)的高可靠性聯(lián)動；所有系統(tǒng)均通過數(shù)月真實任務測試，確保長時間穩(wěn)定運行。
基準任務設計：采用端到端任務成功率與過程評分相結合的評估機制；測試集所有任務均提供約 1000 條演示數(shù)據(jù)，并已完成基線模型的任務級微調。
開放與可擴展：面向社區(qū)開放，支持用戶基于公開演示數(shù)據(jù)微調自有策略并參與評測；發(fā)布任務中間數(shù)據(jù)與評測結果，推動建立透明、公平的算法評估標準。

機器人選型

為精準評估 VLA 算法核心能力，RoboChallenge 首期采用配備夾爪的機械臂作為標準化平臺，未來會支持更多執(zhí)行器類型。在感知方面，傳感方案同步輸出多視角 RGB 與對齊深度信息，以利于二維識別與三維推理需求，將來計劃集成力控或觸覺傳感器。

機器人選型堅持高可靠性與學術通用性原則，最終在第一個測試集中集成 UR5、Franka Panda、COBOT Magic Aloha 及 ARX-5 四類主流機型，確保系統(tǒng)具備 7×24 小時持續(xù)運行能力，為社區(qū)提供穩(wěn)定可復現(xiàn)的基準評測服務。

遠程機器人測試

RoboChallenge 通過創(chuàng)新的「遠程機器人」方法，為學術界和產(chǎn)業(yè)界提供高精度、易用、免費的在線機器人測試服務。該平臺最大的特點之一是以云端化服務突破機器人測試的硬件資源限制，實現(xiàn)「沒有機器人，一樣做實驗」的效果，為具身智能研究提供高效、可靠的算法驗證環(huán)境。

無容器化服務架構：系統(tǒng)采用標準化 API 接口，用戶無需提交 Docker 鏡像或模型文件即可直接調用；所有觀測數(shù)據(jù)（RGB 圖像、深度信息、本體感知）均提供毫秒級時間戳，支持復雜的時間對齊策略與多模型集成。
雙向異步控制機制：通過 http API 實現(xiàn)動作指令的異步提交與圖像獲取的分離處理；系統(tǒng)支持自定義數(shù)據(jù)塊長度與動作持續(xù)時間，并提供實時隊列狀態(tài)反饋，確?？刂浦噶畹木珳释?，用戶無需暴露本地接口即可完成全流程測試。
智能作業(yè)調度系統(tǒng)：給用戶提供任務調度狀態(tài)接口，使其可以提前預估運行時，支持模型預加載與多任務并行管理，大幅提升測試效率。

基準測試方法

為建立嚴謹可靠的機器人算法（尤其是 VLAs）評估體系，RoboChallenge 在設計基準測試方法時重點關注人為因素控制、視覺一致性保證、模型魯棒性驗證以及不同評估目標的協(xié)議設計。

為此，RoboChallenge 創(chuàng)新性地提出「視覺輸入匹配」（visual inputs reproduction）方法：從演示數(shù)據(jù)中抽取參考圖像，并實時疊加于測試畫面。測試人員通過調整物體位置使實時場景與參考圖像完全吻合，確保每次測試的初始狀態(tài)一致。該方法不僅降低了測試人員的技術門檻，其穩(wěn)定性甚至優(yōu)于依賴經(jīng)驗人員的傳統(tǒng)模式，為大規(guī)模評測提供了可擴展的解決方案。

最大規(guī)模真機測試集，小舞臺上的大考驗

Table30 是 RoboChallenge 的首套桌面操作基準測試集，包含 30 個精心設計的日常情境任務，相比之下，行業(yè)內真機競賽或評測的任務數(shù)量一般僅為 3-5 個；這些任務由位置固定的雙手或單臂機器人執(zhí)行；通過科學的任務設計與評估體系，Table30 為機器人算法發(fā)展提供可靠衡量標準，系統(tǒng)地評估算法在多維度場景下的泛化能力。

多維任務設計：Table30 從四個關鍵維度構建評估體系：VLA 解決方案難點、機器人類型、任務場景環(huán)境和目標物體屬性。測試數(shù)據(jù)表明，即使最先進的基礎模型也難以實現(xiàn)全面高分，印證該基準可作為通用機器人算法的「試金石」。
多能力任務測試：這些任務測試了模型的多種能力，包括：精準定位抓取點、理解物體間空間關系、多視角協(xié)同運用、雙臂交替協(xié)作操作、雜亂環(huán)境中重復執(zhí)行技能、記憶多步驟任務階段。
創(chuàng)新性評分機制：Table30 突破傳統(tǒng)二值化評估局限，采用進度評分系統(tǒng)：對復雜任務認可分步進展，對簡單任務優(yōu)化完成效率；這一設計能更精準反映算法性能的代差。當算法實現(xiàn)突破性進展，評分體系將給予增量認可。

通過對主流開源 VLA 模型算法進行測試，結果顯示最新發(fā)布的 Pi0.5 相較其他模型取得顯著優(yōu)勢，但也無法在所有任務上都取得較高的成功率。由此可見：RoboChallenge 基準測試可以作為邁向通用機器人技術的必要性檢驗。

模型提交

RoboChallenge 參與者提交模型至測試平臺的標準流程包含四個核心環(huán)節(jié)。

參與者首先從 Hugging Face 平臺下載結構清晰的任務示范數(shù)據(jù)集，包含分開放置的視頻文件與 JSON 格式狀態(tài)數(shù)據(jù)，并可利用工具腳本轉換為 LeRobot 格式。
隨后選擇訓練模式：通用型模式需使用提示詞區(qū)分任務并進行多任務聯(lián)合訓練；微調型模式則無特定限制?；谕换A模型的多個提交可共享顯示名稱，在排名時合并為單一算法條目。
提交前需對接平臺 API：通過提供框架代碼，演示觀察 - 推理 - 停止的完整交互邏輯，支持評估前的模型預熱與動作隊列穩(wěn)定控制，并配套模擬測試以供驗證。提交評估時需注明密鑰、任務集及模型名稱，多任務提交將視作通用模型處理。
評估請求進入人工調度隊列，因場景布置需數(shù)小時至數(shù)日完成。結果發(fā)布后，參與者可通過 rerun.io 查看器分析 RRD 格式的機器日志與視頻。平臺默認公開所有結果以促進交流，若對評分存疑可申請重新計算。

構建協(xié)同創(chuàng)新社區(qū)

RoboChallenge 堅持全面開放原則，向全球研究者免費提供評測服務，并公開所有任務演示數(shù)據(jù)及測試中間結果，確保研究的可復現(xiàn)性與透明度。后續(xù)，RoboChallenge 將通過舉辦挑戰(zhàn)賽、研討會及數(shù)據(jù)共享，積極推動社區(qū)共建，鼓勵研究者參與任務設計與優(yōu)化，共同推進具身智能核心問題的解決。此外，平臺還提供多維度細分排行榜，支持算法性能的深度分析。

邁向通用機器智能

RoboChallenge 不僅是大規(guī)模真實評測的基礎設施，更是推動具身智能建立科學導向、加速落地實用化的重要引擎；未來，RoboChallenge 會持續(xù)引入移動機器人、靈巧操作裝置等更多硬件平臺，拓展跨場景任務測試能力；評測維度將從視覺-動作協(xié)調延伸至多模態(tài)感知、人機協(xié)作等方向，并計劃推出動態(tài)環(huán)境適應、長期規(guī)劃等更具挑戰(zhàn)性的基準測試，助力具身智能在真實物理環(huán)境中創(chuàng)造價值。

Join RoboChallenge, This Is Your Opportunity To Shine！

RoboChallenge 全球首發(fā)同時還有兩場相關主題的重磅直播，歡迎關注機器之心視頻號預約觀看！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.