henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
一群機(jī)械臂手忙腳亂地自己干活,彼此配合、互不碰撞。
科幻大片場(chǎng)景真的走入現(xiàn)實(shí)了。優(yōu)雅,實(shí)在是優(yōu)雅。
△視頻中為4個(gè)機(jī)械臂,在仿真環(huán)境下4個(gè)安裝在桌子上,另外4個(gè)安裝在天花板上。
這就是發(fā)表在Science子刊Science Robotics上,由DeepMind、Intrinsic AI和UCL等研究機(jī)構(gòu)共同提出的最新成果——RoboBallet(機(jī)器芭蕾)。
RoboBallet創(chuàng)新性地將圖神經(jīng)網(wǎng)絡(luò)(GNN)用于強(qiáng)化學(xué)習(xí),作為其策略網(wǎng)絡(luò)和狀態(tài)-動(dòng)作價(jià)值估計(jì),以解決多機(jī)器人(機(jī)械臂)協(xié)作運(yùn)動(dòng)規(guī)劃中的復(fù)雜問題。
這一方法最多可以同時(shí)控制8個(gè)機(jī)械臂,協(xié)調(diào)多達(dá)56個(gè)自由度的配置空間,并處理多達(dá)40個(gè)共享任務(wù), 每一步規(guī)劃僅需0.3毫秒,且任務(wù)分配和調(diào)度完全不受約束。
值得一提的是,這篇論文的通訊作者——Matthew Lai,可謂是谷歌DeepMind的資深研究員。自2016年加入谷歌DeepMind以來,他曾參與過AlphaGoAlphaZero等明星項(xiàng)目。
利用圖神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)
總的來說,RoboBallet的核心是把圖神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合起來,采用圖神經(jīng)網(wǎng)絡(luò)(GNN)作為策略網(wǎng)絡(luò)和狀態(tài)-動(dòng)作價(jià)值估計(jì),解決了大規(guī)模多機(jī)器人任務(wù)分配、調(diào)度和運(yùn)動(dòng)規(guī)劃的聯(lián)合問題,實(shí)現(xiàn)了在計(jì)算上高效、可擴(kuò)展且能零樣本泛化的高質(zhì)量軌跡規(guī)劃
具體來說,在現(xiàn)代自動(dòng)化制造中,核心挑戰(zhàn)在于如何讓多個(gè)機(jī)器人在共享的、充滿障礙物的空間中無碰撞地高效協(xié)作,以完成大量任務(wù)(如焊接、裝配等)。
這涉及到三個(gè)高度復(fù)雜的子問題:
- 任務(wù)分配(Task Allocation):決定哪個(gè)機(jī)器人執(zhí)行哪個(gè)任務(wù),以最小化總執(zhí)行時(shí)間。
- 任務(wù)調(diào)度(Task Scheduling):決定任務(wù)的執(zhí)行順序。
- 運(yùn)動(dòng)規(guī)劃(Motion Planning):在關(guān)節(jié)空間中尋找一條無碰撞路徑,使機(jī)器人末端執(zhí)行器移動(dòng)到目標(biāo)姿態(tài)。
這三個(gè)子問題一組合,復(fù)雜度急劇增加,傳統(tǒng)算法在真實(shí)場(chǎng)景中往往難以計(jì)算可行解,工業(yè)界目前主要依賴耗時(shí)且勞動(dòng)密集的人工規(guī)劃。
因此,為了應(yīng)對(duì)這種高維復(fù)雜性,RoboBallet就被用來在隨機(jī)生成的環(huán)境中進(jìn)行任務(wù)和運(yùn)動(dòng)規(guī)劃,其能夠?yàn)榕c訓(xùn)練期間所見環(huán)境不同的環(huán)境(具有任意障礙物幾何形狀、任務(wù)姿態(tài)和機(jī)器人位置)規(guī)劃多臂抓取軌跡。
為了實(shí)現(xiàn)這一點(diǎn),RoboBallet在數(shù)據(jù)表示層面,創(chuàng)新性地將整個(gè)場(chǎng)景建模為圖結(jié)構(gòu)
其中,圖中的節(jié)點(diǎn)代表場(chǎng)景中的核心實(shí)體,包括機(jī)器人、任務(wù)和障礙物,而邊(Edge)則表示這些實(shí)體之間的關(guān)系(例如,相對(duì)姿態(tài))。
機(jī)器人節(jié)點(diǎn)之間存在雙向邊,以支持相互協(xié)調(diào)和避碰。而任務(wù)節(jié)點(diǎn)和障礙物節(jié)點(diǎn)到機(jī)器人節(jié)點(diǎn)則存在單向邊,用于向機(jī)器人傳遞規(guī)劃所需的環(huán)境信息(如圖c)
接下來,RoboBallet使用圖神經(jīng)網(wǎng)絡(luò)(GNN)作為策略網(wǎng)絡(luò),通過權(quán)重共享來處理不斷變化的圖大小。其以觀測(cè)圖作為輸入,并在每個(gè)時(shí)間步為所有機(jī)器人生成指令關(guān)節(jié)速度。這使得機(jī)械臂能夠在只接收原始狀態(tài)作為輸入的情況下,進(jìn)行關(guān)系和組合推理。
而在具體的策略學(xué)習(xí)和評(píng)估階段,RoboBallet通過微調(diào)TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法來訓(xùn)練策略網(wǎng)絡(luò),使模型能夠生成多機(jī)械臂軌跡,同時(shí)解決任務(wù)分配、調(diào)度和運(yùn)動(dòng)規(guī)劃等子問題,使得昂貴的在線計(jì)算轉(zhuǎn)移到了離線訓(xùn)練階段。
(注:在此任務(wù)中,機(jī)械臂因成功解決任務(wù)和避免碰撞而獲得獎(jiǎng)勵(lì))
同時(shí),為了解決稀疏獎(jiǎng)勵(lì)的問題,RoboBallet還采用了Hindsight Experience Replay方法,使模型能夠在沒有人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)的情況下高效學(xué)習(xí)。
在具體的部署方面,RoboBallet使用Franka Panda七自由度機(jī)械臂、在隨機(jī)障礙物和任務(wù)的模擬環(huán)境進(jìn)行訓(xùn)練。
為了驗(yàn)證性能,研究團(tuán)隊(duì)在一個(gè)包含4(8)個(gè)機(jī)器人、40個(gè)任務(wù)和30個(gè)障礙物的模擬工作單元中進(jìn)行測(cè)試,并與RRT-Connect方法進(jìn)行比較。值得一提的是,這一切都只需在一塊 GPU(圖形處理單元)上完成,無論是真實(shí)的還是模擬的多臂工作單元。
實(shí)驗(yàn)表明,RoboBallet在多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出色:
在訓(xùn)練時(shí)間的擴(kuò)展性方面,即使任務(wù)數(shù)量增加四倍,RoboBallet收斂所需的訓(xùn)練步數(shù)也只是略有增加。
在規(guī)劃速度方面。實(shí)驗(yàn)表明,在推理階段,即便是包含8個(gè)機(jī)器人和40個(gè)任務(wù)的最大場(chǎng)景,每個(gè)規(guī)劃步在NVIDIA A100上只需約0.3毫秒,能夠?qū)崿F(xiàn)10 Hz時(shí)間步下超過300倍的實(shí)時(shí)規(guī)劃速度
在單個(gè)Intel Cascade Lake CPU核心上,每個(gè)步長大約需要30毫秒,在10Hz時(shí)間步下仍比實(shí)時(shí)快約3倍。每個(gè)規(guī)劃步驟包括對(duì)整個(gè)場(chǎng)景進(jìn)行一次推理和一次碰撞檢測(cè)。
在多智能體協(xié)同方面,隨著機(jī)器人數(shù)量從4個(gè)增加到8個(gè) ,平均執(zhí)行時(shí)間減少了約60%
而在泛化性方面,模型在隨機(jī)生成的環(huán)境中訓(xùn)練后,無需額外訓(xùn)練即可零樣本遷移(zero-shot)到具有不同機(jī)器人位置、障礙物幾何形狀和任務(wù)姿態(tài)的新環(huán)境中。
最后,RoboBallet 的高速和可擴(kuò)展性使其能夠應(yīng)用于工作單元布局優(yōu)化(將任務(wù)執(zhí)行時(shí)間縮短了33%)、容錯(cuò)規(guī)劃和基于在線感知的重新規(guī)劃等新能力。
[1]https://x.com/GoogleDeepMind/status/1965040645103407572
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.