始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
隨著多模態(tài)大語言模型快速發(fā)展,其在通用任務(wù)中表現(xiàn)出色,但在具身場景長程操作任務(wù)上仍存在明顯短板,例如難以拆解復(fù)雜指令、識別可操作區(qū)域及規(guī)劃行動軌跡。對此,智源團(tuán)隊(duì)研發(fā)了RoboBrain—專為機(jī)器人操作設(shè)計(jì)的統(tǒng)一具身多模態(tài)模型。
RoboBrain基于ShareRobot數(shù)據(jù)集訓(xùn)練,該數(shù)據(jù)集包含102個場景、12種機(jī)器人本體等多維度信息。通過多階段訓(xùn)練策略,RoboBrain實(shí)現(xiàn)任務(wù)規(guī)劃、可操作區(qū)域感知和軌跡預(yù)測能力融合,將抽象指令轉(zhuǎn)化為具體動作序列。
在多個具身場景基準(zhǔn)測試中,RoboBrain取得領(lǐng)先性能,為機(jī)器人執(zhí)行復(fù)雜長程操作任務(wù)提供了解決方案,推動通用人工智能在機(jī)器人領(lǐng)域的實(shí)際應(yīng)用。目前已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。
模型地址
https://wisemodel.cn/models/BAAI/RoboBrain
01.
前言
近年來,多模態(tài)大語言模型(MLLMs)的快速發(fā)展顯著推動了通用人工智能(AGI)的研究進(jìn)程。通過利用互聯(lián)網(wǎng)上的海量多模態(tài)數(shù)據(jù)并結(jié)合自監(jiān)督學(xué)習(xí)技術(shù),MLLMs 在視覺感知和理解人類語言指令方面展現(xiàn)出卓越的能力。然而,盡管 MLLMs 在通用任務(wù)中表現(xiàn)出色,其在具身場景中的應(yīng)用仍面臨巨大挑戰(zhàn),尤其是在長程操作任務(wù)(long-horizon manipulation tasks)中。
圖1RoboBrain具備完成長程操作任務(wù)的三項(xiàng)核心能力:任務(wù)規(guī)劃能力、可操作區(qū)域感知能力和軌跡預(yù)測能力?;跇?gòu)建的ShareRobot數(shù)據(jù)和通用多模態(tài)數(shù)據(jù),RoboBrain經(jīng)過精心設(shè)計(jì)的多階段訓(xùn)練,在多個具身場景基準(zhǔn)中取得了最先進(jìn)的性能,實(shí)現(xiàn)了從抽象指令理解到具象動作表達(dá)的認(rèn)知跨越。
在具身場景中,長程操作任務(wù)是機(jī)器人執(zhí)行復(fù)雜任務(wù)的核心能力之一。這類任務(wù)通常涉及多個步驟和長時間的交互,例如“在廚房中準(zhǔn)備一杯茶”或“在倉庫中完成物品分揀”。這些任務(wù)不僅要求機(jī)器人能夠理解抽象指令,還需具備將指令轉(zhuǎn)化為具體動作的能力。具體而言,長程操作任務(wù)的成功執(zhí)行依賴于以下三種核心能力:
任務(wù)規(guī)劃能力(Planning)
機(jī)器人需要將復(fù)雜的抽象指令分解為可執(zhí)行的子任務(wù),例如“提起茶壺并將水倒入杯子”需要分解為“接近茶壺并提起”、“將茶壺移動到壺嘴對準(zhǔn)杯子的位置”以及“傾斜茶壺倒水”等步驟。
可操作區(qū)域感知能力(Affordance Perception)
機(jī)器人必須準(zhǔn)確識別對象的可操作區(qū)域,例如茶壺的把手或壺嘴,以確保動作的精確性。
軌跡預(yù)測能力(Trajectory Prediction)
機(jī)器人需要根據(jù)任務(wù)指令預(yù)測從起點(diǎn)到目標(biāo)位置的完整路徑,例如從當(dāng)前位置到茶壺把手的移動軌跡。
然而,現(xiàn)有 MLLMs 在這些方面存在顯著不足。例如,面對“提起茶壺并將水倒入杯子”的任務(wù),MLLMs 可能無法準(zhǔn)確分解任務(wù)步驟,或無法識別茶壺的可抓取區(qū)域,甚至無法預(yù)測從起點(diǎn)到目標(biāo)位置的完整路徑。這些局限性主要源于當(dāng)前缺乏專門為MLLMs和機(jī)器人長程操作任務(wù)設(shè)計(jì)的大規(guī)模、細(xì)粒度數(shù)據(jù)集。
為了填補(bǔ)這一空白,智源提出了ShareRobot——一個專門為機(jī)器人操作任務(wù)設(shè)計(jì)的高質(zhì)量異構(gòu)數(shù)據(jù)集。ShareRobot 標(biāo)注了多維信息,包括任務(wù)規(guī)劃、對象可操作區(qū)域和末端執(zhí)行器軌跡,為機(jī)器人能力的提升提供了堅(jiān)實(shí)基礎(chǔ)。
基于ShareRobot,開發(fā)了RoboBrain,這是一個從抽象指令到具象表達(dá)的統(tǒng)一具身多模態(tài)大腦模型,旨在增強(qiáng)機(jī)器人在長程操作任務(wù)中的能力。通過精心設(shè)計(jì)的數(shù)據(jù)比例、多階段訓(xùn)練策略以及長視頻和高分辨率圖像輸入,RoboBrain 實(shí)現(xiàn)了從抽象任務(wù)指令到具象動作表達(dá)的認(rèn)知跨越,展現(xiàn)了其在機(jī)器人實(shí)際應(yīng)用中的潛力。
主要貢獻(xiàn)總結(jié)如下:
1、提出了RoboBrain,一個為機(jī)器人操作設(shè)計(jì)的統(tǒng)一具身多模態(tài)大腦模型,實(shí)現(xiàn)了任務(wù)規(guī)劃-可操作區(qū)域感知-軌跡預(yù)測的三維能力融合,通過將抽象指令(如"準(zhǔn)備一杯茶")映射為具象動作序列(如抓取、對準(zhǔn)、傾倒與相應(yīng)的可操作區(qū)域與軌跡),增強(qiáng)了其在具身長程操作任務(wù)中的能力。
2、精心設(shè)計(jì)了機(jī)器人數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)的訓(xùn)練數(shù)據(jù)比例,采用多階段訓(xùn)練策略,并結(jié)合長視頻和高分辨率圖像輸入,使RoboBrain具備了長歷史幀記憶和高分辨率圖像感知能力,進(jìn)一步增強(qiáng)了其在場景感知和操作規(guī)劃中的能力。
3、提出了ShareRobot,一個大規(guī)模、高質(zhì)量、細(xì)粒度的異構(gòu)數(shù)據(jù)集,包含102個場景、跨12種機(jī)器人本體、107種原子任務(wù)以及百萬級問答對,標(biāo)注了包括任務(wù)規(guī)劃、對象可操作區(qū)域和末端執(zhí)行器軌跡的多維信息,填補(bǔ)了現(xiàn)有數(shù)據(jù)的不足。
4、綜合實(shí)驗(yàn)結(jié)果表明,RoboBrain 在多種具身場景基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)的性能,展現(xiàn)了其在機(jī)器人實(shí)際應(yīng)用中的潛力。
圖2ShareRobot數(shù)據(jù)集的生成過程。數(shù)據(jù)集標(biāo)注了多維信息,包括任務(wù)規(guī)劃、對象可操作區(qū)域和末端執(zhí)行器軌跡。任務(wù)規(guī)劃首先通過原子任務(wù)進(jìn)行標(biāo)注,然后通過構(gòu)建問答對進(jìn)行增強(qiáng)??刹僮鲄^(qū)域和軌跡根據(jù)具體指令在圖像上進(jìn)行標(biāo)注。
02.
ShareRobot:具身大腦的數(shù)據(jù)基石
為了實(shí)現(xiàn)具身大腦從抽象任務(wù)指令到具象動作表達(dá)的轉(zhuǎn)化能力,智源開發(fā)了名為 ShareRobot的一個大規(guī)模、高質(zhì)量、細(xì)粒度的異構(gòu)數(shù)據(jù)集,專門用于機(jī)器人操作任務(wù),旨在提升具身大腦在任務(wù)規(guī)劃、可操作區(qū)域感知和軌跡預(yù)測方面的能力。
ShareRobot具備了以下的特點(diǎn):
大規(guī)模。ShareRobot 包含1,028,060 個問答對,是當(dāng)前最大的開源任務(wù)規(guī)劃、可操作區(qū)域感知和軌跡預(yù)測數(shù)據(jù)集,能夠支持機(jī)器人模型從抽象任務(wù)指令到具象動作表達(dá)的深入理解。
高質(zhì)量。在從Open-X-Embodiment 數(shù)據(jù)集中篩選數(shù)據(jù)時,制定了嚴(yán)格的篩選標(biāo)準(zhǔn),包括高分辨率、準(zhǔn)確的描述、任務(wù)執(zhí)行成功狀態(tài)、可見的可操作區(qū)域以及清晰的運(yùn)動軌跡?;谶@些標(biāo)準(zhǔn),驗(yàn)證了51,403 個實(shí)例,確保了數(shù)據(jù)的質(zhì)量。
細(xì)粒度。與Open X-Embodiment 數(shù)據(jù)集僅提供高層任務(wù)描述不同,ShareRobot 中的每個數(shù)據(jù)點(diǎn)都包含與單幀圖像關(guān)聯(lián)的詳細(xì)低層規(guī)劃指令。這種細(xì)粒度標(biāo)注增強(qiáng)了模型在正確時刻精確執(zhí)行任務(wù)的能力。
多樣化。與RoboVQA等數(shù)據(jù)集有限的場景相比,ShareRobot 包含 102 個場景、12 種機(jī)器人形態(tài)和 107 種原子任務(wù)類型。這種多樣性使MLLMs能夠從多樣化的現(xiàn)實(shí)場景中學(xué)習(xí),增強(qiáng)其在長程任務(wù)規(guī)劃中的魯棒性。
易擴(kuò)展。數(shù)據(jù)生成流程設(shè)計(jì)具有高度可擴(kuò)展性,能夠隨著新機(jī)器人形態(tài)、任務(wù)類型和環(huán)境的發(fā)展輕松擴(kuò)展,確保 ShareRobot 數(shù)據(jù)集能夠支持日益復(fù)雜的操作任務(wù)。
圖3ShareRobot數(shù)據(jù)集的多樣性。數(shù)據(jù)集包括 (a) 23個數(shù)據(jù)源,(b) 12種跨本體數(shù)據(jù)和 (c) 107種原子任務(wù)類型。
03.
RoboBrain:具身多模態(tài)大模型
智源的目標(biāo)是讓具身多模態(tài)大腦模型能夠理解抽象指令,同時具備任務(wù)規(guī)劃、輸出對象可操作區(qū)域和操作軌跡的能力,從而促進(jìn)模型實(shí)現(xiàn)從抽象任務(wù)指令到具象動作表達(dá)的認(rèn)知跨越。因此,基于ShareRobot和其他機(jī)器人數(shù)據(jù),以及大規(guī)模的開源多模態(tài)數(shù)據(jù),采用多階段訓(xùn)練策略來開發(fā)這樣一種具身多模態(tài)大模型RoboBrain。
3.1 模型架構(gòu)
RoboBrain由三個模塊組成:用于任務(wù)規(guī)劃的基座模型、用于可操作區(qū)域感知的A-LoRA模塊和用于軌跡預(yù)測的T-LoRA模塊。在推理時,模型首先會感知視覺輸入并根據(jù)輸入的指令,分解為一系列可執(zhí)行的子任務(wù),然后執(zhí)行可操作區(qū)域感知和軌跡預(yù)測。RoboBrain的推理流程如圖4所示。
基座模型。利用LLaVA作為RoboBrain的基礎(chǔ)架構(gòu),主要包括三個模塊:視覺編碼器(ViT)、投影層(Projector)和大語言模型(LLM),采用SigLIP、MLP和Qwen2.5-7B-Instruct。給定圖像或視頻作為視覺輸入,ViT將其編碼為視覺特征,然后通過Projector映射到LLM的語義空間,生成視覺標(biāo)記序列。最后,LLM基于人類語言指令和視覺標(biāo)記序列以自回歸方式生成可執(zhí)行的子任務(wù)序列。
圖4RoboBrain的模型架構(gòu)。單圖、多圖和視頻結(jié)合文本指令輸入到模型中,以訓(xùn)練基座大腦模型。此外,通過A-LoRA和T-LoRA對RoboBrain進(jìn)行微調(diào),以賦予RoboBrain可操作區(qū)域感知和軌跡預(yù)測的能力。在推理時,模型首先會感知視覺輸入并根據(jù)輸入的指令,分解為一系列可執(zhí)行的子任務(wù),然后執(zhí)行可操作區(qū)域感知和軌跡預(yù)測。
A-LoRA模塊。智源將可操作區(qū)域建模為2D邊界框,表示末端執(zhí)行器與物體接觸的區(qū)域。在基座模型的基礎(chǔ)上添加了針對可操作區(qū)域感知的LoRA模塊,以賦予模型基于指令輸出2D邊界框的能力。
T-LoRA模塊。智源將軌跡定義為一系列2D坐標(biāo),表示末端執(zhí)行器或手在整個過程中的運(yùn)動路徑。在基座模型的基礎(chǔ)上添加了軌跡預(yù)測的LoRA模塊,以賦予模型基于指令輸出一系列2D坐標(biāo)點(diǎn)的能力。
圖5RoboBrain每個訓(xùn)練階段的詳細(xì)配置
3.2 模型訓(xùn)練
智源將訓(xùn)練過程分為兩個階段:Phase1和Phase2。Phase1專注于通用多模態(tài)能力的訓(xùn)練,旨在開發(fā)一個具備強(qiáng)大多模態(tài)數(shù)據(jù)理解和指令跟隨能力的基礎(chǔ)多模態(tài)大語言模型;Phase2則專注于增強(qiáng)具身大腦的三大核心能力,即任務(wù)規(guī)劃能力(Planning)、可操作區(qū)域感知能力(Affordance Perception)和軌跡預(yù)測能力(Trajectory Prediction)。
在Phase1中,構(gòu)建了一個具備通用多模態(tài)理解和視覺指令跟隨能力的基礎(chǔ)模型,這為增強(qiáng)模型在Phase2的三個核心能力奠定了基礎(chǔ)。首先,智源利用 LCS-558K 數(shù)據(jù)集的圖像-文本數(shù)據(jù)訓(xùn)練Projector,以對齊視覺特征和語言模型的語義特征。
接著,使用400萬高質(zhì)量的圖像-文本數(shù)據(jù)對模型進(jìn)行整體訓(xùn)練,以提升其多模態(tài)通用知識理解能力。最后,進(jìn)一步使用320萬單圖像數(shù)據(jù)和160萬來自 LLaVA-OneVision的數(shù)據(jù)進(jìn)行訓(xùn)練,旨在增強(qiáng) RoboBrain 的指令跟隨能力,并提升其對高分辨率圖像和視頻的理解能力。
在Phase2中,在Phase1構(gòu)建的強(qiáng)大基礎(chǔ)模型之上,進(jìn)一步開發(fā)了一個更強(qiáng)大的機(jī)器人操作規(guī)劃模型。具體來說,希望RoboBrain能夠理解復(fù)雜的抽象指令,支持歷史幀信息和高分辨率圖像的感知,并輸出對象可操作區(qū)域,同時預(yù)測潛在的操作軌跡。
為此,智源收集了130萬條機(jī)器人數(shù)據(jù),以提升模型的機(jī)器人操作規(guī)劃能力。這些數(shù)據(jù)主要來源于 RoboVQA-800K、MMScan-224K、3RScan-43K、ScanQA-25K、SQA3D-26K以及本文提出的ShareRobot-200K子集。這些數(shù)據(jù)集包含了大量場景掃描圖像數(shù)據(jù)、長視頻數(shù)據(jù)和高分辨率數(shù)據(jù),能夠提升模型感知多樣化環(huán)境的能力。
此外,ShareRobot數(shù)據(jù)集中細(xì)粒度的高質(zhì)量規(guī)劃數(shù)據(jù)進(jìn)一步增強(qiáng)了RoboBrain的機(jī)器人操作規(guī)劃能力。為了緩解災(zāi)難性遺忘問題,從Phase1中篩選了約170萬條高質(zhì)量的圖像-文本數(shù)據(jù),并與Phase2收集的機(jī)器人數(shù)據(jù)混合進(jìn)行訓(xùn)練,從而對模型進(jìn)行整體微調(diào)。
隨后,智源進(jìn)一步增強(qiáng)了模型根據(jù)指令感知對象可操作區(qū)域和預(yù)測操作軌跡的能力,利用ShareRobot數(shù)據(jù)集中標(biāo)注的可操作區(qū)域和軌跡數(shù)據(jù),通過引入 LoRA 模塊進(jìn)行訓(xùn)練,以實(shí)現(xiàn)模型感知可操作區(qū)域和預(yù)測軌跡的能力。
通過這一系列精心設(shè)計(jì)的訓(xùn)練策略,RoboBrain在任務(wù)規(guī)劃、可操作區(qū)域感知和軌跡預(yù)測方面展現(xiàn)出了強(qiáng)大的能力,為具身大腦的實(shí)際應(yīng)用提供了有力支持。
04.
實(shí)驗(yàn)結(jié)果
任務(wù)規(guī)劃。選取了RoboVQA、OpenEQA以及從ShareRobot數(shù)據(jù)集中提取的測試集作為任務(wù)規(guī)劃能力的評估基準(zhǔn),并與當(dāng)前6個領(lǐng)先的MLLMs進(jìn)行對比,包括GPT-4V,Claude3,LLaVA1.5,LLaVA-OneVision-7b,Qwen2-VL-7b和RoboMamba。
實(shí)驗(yàn)結(jié)果表明,RoboBrain在3個基準(zhǔn)中均超越了所有基線模型,尤其在OpenEQA和ShareRobot上表現(xiàn)尤為突出,這得益于RoboBrain在機(jī)器人理解任務(wù)和長視頻感知中的優(yōu)秀能力。在RoboVQA中,RoboBrain的BLEU-4分?jǐn)?shù)超過第二名18.75分,展示了其在復(fù)雜長程任務(wù)規(guī)劃中的能力。
可操作區(qū)域感知。采用平均精度(AP)指標(biāo)來評估模型的可操作區(qū)域感知性能,該指標(biāo)綜合了不同閾值設(shè)置下的精度-召回曲線。在AGD20K可操作區(qū)域感知測試集上,RoboBrain的表現(xiàn)顯著優(yōu)于其他模型,分別超越Qwen2-VL和LLaVA-NeXT14.6分和17.3分,驗(yàn)證了其在理解指令和物體物理屬性方面的能力。
軌跡預(yù)測。為評估真實(shí)軌跡與預(yù)測軌跡之間的相似性,采用了離散 Fréchet 距離(DFD)、Hausdorff 距離(HD)和均方根誤差(RMSE)三項(xiàng)指標(biāo)進(jìn)行綜合評估。通過對模型不同變體的比較,RoboBrain 在 DFD、HD 和 RMSE 指標(biāo)上均表現(xiàn)出顯著改進(jìn),尤其是最終模型的誤差較基線模型分別下降了 42.9%、94.2% 和 31.6%,進(jìn)一步驗(yàn)證了其在軌跡預(yù)測任務(wù)中的高精度和穩(wěn)定性。
總體而言,RoboBrain 在任務(wù)規(guī)劃、可操作區(qū)域感知和軌跡預(yù)測等多個評估任務(wù)中均展現(xiàn)了卓越的性能,充分證明了其在機(jī)器人操作規(guī)劃中的強(qiáng)大能力。這些實(shí)驗(yàn)結(jié)果不僅凸顯了 RoboBrain 的技術(shù)優(yōu)勢,也為其在具身場景中的廣泛應(yīng)用提供了有力支持,展現(xiàn)了其在未來機(jī)器人領(lǐng)域的巨大潛力。
圖6RoboBrain在3個具身任務(wù)規(guī)劃基準(zhǔn)中均超越了所有基線模型,展示了其在復(fù)雜長程任務(wù)規(guī)劃中的能力。
圖7RoboBrain在可操作區(qū)域預(yù)測上的性能。RoboBrain 的表現(xiàn)顯著優(yōu)于其他模型,分別超越 Qwen2-VL 和 LLaVA-NeXT 14.6分和17.3分,驗(yàn)證了其在理解物體物理屬性方面的能力。
圖8RoboBrain在軌跡預(yù)測上的性能。最終模型的誤差較基線模型分別下降了 42.9%、94.2% 和 31.6%,進(jìn)一步驗(yàn)證了其在軌跡預(yù)測任務(wù)中的高精度和穩(wěn)定性。
05.
可視化
圖9展示了RoboBrain在多輪對話中的推理過程。RoboBrain能夠解讀人類指令和視覺圖像,以生成基于實(shí)時圖像反饋的行動計(jì)劃和評估。此外,它還可以預(yù)測每一步的軌跡并感知相應(yīng)的可操作區(qū)域。
圖9RoboBrain在多輪對話中的推理過程。
圖10展示了 RoboBrain 在多個機(jī)器人任務(wù)中的任務(wù)規(guī)劃結(jié)果,包括“澆灌植物(Water plants)”“將鍋放入抽屜(Put the pot in the drawer)”以及“將相同顏色的積木分類到不同角落(Cluster blocks of the same color into different corners)”三個任務(wù)。RoboBrain成功完成了詳細(xì)且正確的規(guī)劃,不僅為每個任務(wù)生成了詳細(xì)的規(guī)劃步驟,還為每一步提供了相應(yīng)的解釋和推理依據(jù)。
從這些案例中可以看出,RoboBrain 能夠有效利用環(huán)境信息和交互對象的狀態(tài)——無論是從第一人稱還是第三人稱視角捕捉的圖像——生成針對不同類型機(jī)器人操作任務(wù)的任務(wù)規(guī)劃。以“將相同顏色的積木分類到不同角落”任務(wù)為例,RoboBrain 不僅在第1步和第2步中分析了桌面上每種顏色積木的數(shù)量,還在第3步“將積木移動到指定位置形成集群”中提供了詳細(xì)的子步驟規(guī)劃。
具體來說,它將四種不同顏色的積木分別規(guī)劃到“左上角”“右上角”“左下角”和“右下角”四個目標(biāo)位置。這一任務(wù)規(guī)劃案例充分展示了 RoboBrain 在任務(wù)泛化能力的卓越表現(xiàn),同時也驗(yàn)證了ShareRobot數(shù)據(jù)集以及多階段訓(xùn)練策略的有效性。
圖10 RoboBrain在任務(wù)規(guī)劃中的案例。
圖11展示了 RoboBrain在可操作區(qū)域感知方面的可視化結(jié)果。每個子圖下方的文字描述了任務(wù)指令,而紅色邊界框則代表 RoboBrain 模型預(yù)測的可操作區(qū)域。結(jié)果表明,RoboBrain 能夠基于人類指令和視覺信息,有效地提供合理的可操作區(qū)域。
例如,在“用瓶子喝水(drink with the bottle)”的指令下,RoboBrain 能夠判斷瓶蓋處于關(guān)閉狀態(tài),從而為瓶蓋區(qū)域提供可操作信息。這充分體現(xiàn)了 RoboBrain 在理解抽象指令方面的強(qiáng)大能力。
圖11 RoboBrain在可操作區(qū)域感知中的案例
在圖12中,展示了RoboBrain基于起點(diǎn)生成的軌跡預(yù)測可視化結(jié)果。圖中,紅色到紫色的漸變曲線代表真實(shí)軌跡,而綠色到藍(lán)色的漸變曲線則表示 RoboBrain 預(yù)測的軌跡。
為清晰起見,圖中省略了路徑點(diǎn)。這些案例表明,無論末端執(zhí)行器的軌跡復(fù)雜度如何,RoboBrain 都能基于視覺觀察和任務(wù)指令準(zhǔn)確預(yù)測 2D 軌跡。這些預(yù)測與真實(shí)軌跡的結(jié)構(gòu)高度一致,且具備可執(zhí)行性。
此外,RoboBrain的預(yù)測通常能夠捕捉軌跡的關(guān)鍵特征,從而生成比真實(shí)軌跡更平滑、更高效的路徑。這種優(yōu)化可能源于機(jī)器人實(shí)際軌跡中存在的固有性質(zhì),例如在類似操作場景下可能包含冗余路徑點(diǎn)。
通過從大規(guī)模具身數(shù)據(jù)集中學(xué)習(xí),并結(jié)合大語言模型的推理能力,RoboBrain 能夠推斷出高效且優(yōu)化的執(zhí)行路徑。第三行的可視化結(jié)果進(jìn)一步表明,RoboBrain 避免了過擬合問題,能夠在不同場景中表現(xiàn)出良好的泛化能力,生成既可行又合理的軌跡。
圖12 RoboBrain在軌跡預(yù)測中的案例
06.
結(jié)論
在本文中,智源針對MLLMs在具身場景中的局限性,特別是長程操作任務(wù)的挑戰(zhàn),提出了ShareRobot——一個高質(zhì)量、細(xì)粒度的異構(gòu)數(shù)據(jù)集。ShareRobot 涵蓋了任務(wù)規(guī)劃、對象可操作區(qū)域以及末端執(zhí)行器軌跡等多維信息的精細(xì)標(biāo)注,為機(jī)器人能力的提升提供了堅(jiān)實(shí)基礎(chǔ)。
基于這一數(shù)據(jù)集,開發(fā)了RoboBrain,這是一個能實(shí)現(xiàn)從抽象指令理解到具象動作表達(dá)的統(tǒng)一具身多模態(tài)大腦模型。RoboBrain通過融合通用多模態(tài)數(shù)據(jù)和機(jī)器人數(shù)據(jù),采用多階段訓(xùn)練策略,并結(jié)合長視頻和高分辨率圖像輸入,顯著增強(qiáng)了機(jī)器人在復(fù)雜任務(wù)中的感知和規(guī)劃能力。
RoboBrain 的核心創(chuàng)新在于其實(shí)現(xiàn)了任務(wù)規(guī)劃、可操作區(qū)域感知和軌跡預(yù)測的三維能力融合。通過將抽象指令(如“準(zhǔn)備一杯茶”)映射為具象動作序列(如抓取、對準(zhǔn)、傾倒及相應(yīng)的可操作區(qū)域與軌跡),RoboBrain 在具身長程操作規(guī)劃任務(wù)中展現(xiàn)了卓越的性能。
此外,智源精心設(shè)計(jì)了機(jī)器人數(shù)據(jù)與通用多模態(tài)數(shù)據(jù)的訓(xùn)練比例,采用多階段訓(xùn)練策略,使 RoboBrain 具備了長歷史幀記憶和高分辨率圖像感知能力,進(jìn)一步提升了其在場景感知和操作規(guī)劃中的表現(xiàn)。
大量實(shí)驗(yàn)結(jié)果表明,RoboBrain 在多種具身場景基準(zhǔn)測試中均實(shí)現(xiàn)了最先進(jìn)的性能,充分驗(yàn)證了其在機(jī)器人實(shí)際應(yīng)用中的潛力。未來,智源將進(jìn)一步優(yōu)化 RoboBrain 的各項(xiàng)能力,提升其作為具身大腦模型的泛化性和魯棒性,并將其應(yīng)用于更廣泛的真實(shí)場景中,為機(jī)器人技術(shù)的發(fā)展提供更強(qiáng)有力的支持。
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
大賽報(bào)名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.