在現(xiàn)代工業(yè)制造中,無論是汽車焊接、電子產(chǎn)品裝配、飛機(jī)噴漆還是建筑構(gòu)件安裝,多機(jī)器人系統(tǒng)正逐漸成為提升生產(chǎn)效率的關(guān)鍵技術(shù)。
通過在同一工作單元中部署多個機(jī)械臂,企業(yè)可以在不顯著增加成本和空間的前提下,大幅縮短任務(wù)執(zhí)行時間、提高整體產(chǎn)能。然而,盡管多機(jī)器人系統(tǒng)在理論上潛力巨大,其實(shí)際部署卻面臨一個根本性的挑戰(zhàn):如何在共享且充滿障礙物的環(huán)境中,高效、安全地協(xié)調(diào)多個機(jī)器人完成多項(xiàng)任務(wù)?
▍多機(jī)器人協(xié)調(diào)的“三座大山”
多機(jī)器人協(xié)同需同時解決三個核心子問題,每個問題單獨(dú)求解已屬“計算硬骨頭”,而三者的耦合關(guān)系更讓傳統(tǒng)方法難以突破:
運(yùn)動規(guī)劃(Motion Planning):需為每個機(jī)器人規(guī)劃“無碰撞路徑”,確保末端執(zhí)行器精準(zhǔn)抵達(dá)目標(biāo)位置。傳統(tǒng)基于采樣的算法(如RRT)在低維度場景中表現(xiàn)尚可,但當(dāng)機(jī)器人數(shù)量超過4個、障礙物復(fù)雜度提升時,計算時間呈 “指數(shù)級增長”。
決定任務(wù)執(zhí)行順序,類似經(jīng)典的“旅行商問題(TSP)”,屬于PSPACE完全問題(計算復(fù)雜度隨任務(wù)量呈指數(shù)上升)。即使采用近似解法,也需預(yù)設(shè)大量規(guī)則,難以適配動態(tài)場景。
任務(wù)調(diào)度(Scheduling):
任務(wù)分配(Assignment):則需決定哪個機(jī)器人執(zhí)行哪個任務(wù),但每個任務(wù)的“成本”并不是獨(dú)立的,而是依賴于其他任務(wù)的分配和調(diào)度結(jié)果。
更棘手的是,三個子問題存在“牽一發(fā)而動全身” 的耦合關(guān)系:任務(wù)分配決定 “誰做什么”→ 直接影響調(diào)度階段 “先做什么” 的順序→ 調(diào)度順序改變機(jī)器人的運(yùn)動路徑需求→ 路徑耗時又反過來修正任務(wù)分配的合理性。
傳統(tǒng)方案通常將三者“拆分迭代求解”:先人工分配任務(wù),再規(guī)劃調(diào)度順序,最后計算運(yùn)動路徑。這種模式不僅依賴數(shù)百甚至數(shù)千小時的人工經(jīng)驗(yàn),還常為了計算可行性犧牲了解決方案的質(zhì)量和完整性。
▍RoboBallet:一種基于神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)的新范式
據(jù)探索前沿科技邊界,傳遞前沿科技成果的X-robot投稿,為了應(yīng)對這一挑戰(zhàn),來自倫敦大學(xué)學(xué)院/谷歌DeepMind的工程師Matthew Lai及其研究團(tuán)隊提出了一種名為RoboBallet的新型框架,它結(jié)合了圖神經(jīng)網(wǎng)絡(luò)(GNN) 和強(qiáng)化學(xué)習(xí)(RL),旨在自動化地解決多機(jī)器人的任務(wù)分配、調(diào)度和運(yùn)動規(guī)劃問題。該研究成果以“RoboBallet: Planning for multirobot reaching with graph neural networks and reinforcement learning”問題發(fā)表在國際頂級期刊《Science Robotics》上。
RoboBallet的核心創(chuàng)新在于其場景的圖表示和基于GNN的策略網(wǎng)絡(luò)。具體而言,RoboBallet將整個協(xié)同場景抽象為 “動態(tài)圖”,其中:
節(jié)點(diǎn)(Nodes):表示每個機(jī)器人個體,其特征包含位置、速度、目標(biāo)狀態(tài)等。
邊(Edges):表示機(jī)器人之間的交互關(guān)系,通常根據(jù)空間鄰近性定義,例如相距在一定閾值內(nèi)的兩個機(jī)器人視為互相關(guān)聯(lián)。
GNN能夠高效處理這種結(jié)構(gòu)化信息。無論圖中增加了多少任務(wù)或障礙物,GNN的核心處理邏輯是不變的,它學(xué)會了“如何理解一對元素之間的關(guān)系”。這種“關(guān)系歸納偏差”使得模型具備極強(qiáng)的泛化能力,能夠輕松應(yīng)對在訓(xùn)練中從未見過的障礙物布局、機(jī)器人位置和任務(wù)分布。
在強(qiáng)化學(xué)習(xí)框架設(shè)計方面,RoboBallet采微調(diào)TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法來訓(xùn)練策略網(wǎng)絡(luò)。使模型能夠生成多機(jī)械臂軌跡,同時解決任務(wù)分配、調(diào)度和運(yùn)動規(guī)劃等子問題,使得昂貴的在線計算轉(zhuǎn)移到了離線訓(xùn)練階段。
團(tuán)隊還設(shè)計了獎勵機(jī)制函數(shù),其包含兩個主要組成部分:任務(wù)完成獎勵和碰撞懲罰。
任務(wù)完成獎勵基于已解決任務(wù)比例的變化,而碰撞懲罰則對可能導(dǎo)致碰撞的動作施加負(fù)獎勵。這種設(shè)計鼓勵智能體既高效完成任務(wù),又避免危險的碰撞情況。此外,研究團(tuán)隊還采用了HER技術(shù),通過在失敗回合中重新標(biāo)記目標(biāo)來生成額外的訓(xùn)練數(shù)據(jù),從而提供更豐富的學(xué)習(xí)信號。
接著研究團(tuán)隊在程序化生成的隨機(jī)環(huán)境中對模型進(jìn)行訓(xùn)練。每一輪訓(xùn)練開始時,系統(tǒng)會隨機(jī)生成機(jī)器人的位置、長方體障礙物的布局和任務(wù)目標(biāo)位姿。通過數(shù)百萬次這樣的隨機(jī)環(huán)境交互,模型逐漸學(xué)會如何協(xié)調(diào)多個機(jī)器人高效、無碰撞地完成所有任務(wù)。
在計算效率方面,RoboBallet表現(xiàn)更為突出:在NVIDIA A100 GPU上,即使是8個機(jī)器人、40個任務(wù)、30個障礙物的最大配置,每個規(guī)劃步驟僅需約0.3毫秒;即使是在CPU上運(yùn)行,也能實(shí)現(xiàn)3倍于實(shí)時的規(guī)劃速度。這種高效性使得RoboBallet可用于實(shí)時重新規(guī)劃、動態(tài)響應(yīng)環(huán)境變化等需要快速決策的場景。
▍實(shí)驗(yàn)結(jié)果證明可擴(kuò)展性、通用性與實(shí)用性
為了系統(tǒng)評估RoboBallet的擴(kuò)展性與泛化性能,研究團(tuán)隊設(shè)計了一套全面的實(shí)驗(yàn)框架。在訓(xùn)練過程中,每個回合均使用隨機(jī)生成的環(huán)境,包括動態(tài)分布的機(jī)器人初始位姿、障礙物布局以及任務(wù)目標(biāo)。
機(jī)器人被隨機(jī)放置在一條長度為1.6米的虛擬軌道周圍,并排除了初始即發(fā)生碰撞的配置。障礙物由30個立方體構(gòu)成,其位置與朝向均隨機(jī)生成,且確保不與機(jī)器人初始狀態(tài)重疊。任務(wù)目標(biāo)點(diǎn)通過在障礙物表面均勻采樣生成,并附加一個微小的法向偏移,使其略微脫離表面。
評估主要圍繞兩個關(guān)鍵指標(biāo)展開:一是整體軌跡執(zhí)行時間,即從開始至所有任務(wù)完成的總耗時;二是軌跡質(zhì)量,通過與基線方法在最優(yōu)性方面的對比進(jìn)行衡量。鑒于現(xiàn)有方法難以應(yīng)對大規(guī)模場景,團(tuán)隊在縮減規(guī)模的問題設(shè)置(包含4個機(jī)器人和20個任務(wù))中進(jìn)行了對比實(shí)驗(yàn),比較對象為基于RRT-Connect和窮舉調(diào)度的基準(zhǔn)算法。
實(shí)驗(yàn)結(jié)果表明,盡管基于強(qiáng)化學(xué)習(xí)的方法并不具備理論上的完備性,但其所得軌跡在成本方面與基線方法相當(dāng),甚至在多數(shù)情況下表現(xiàn)更優(yōu),而基線方法則需要消耗數(shù)量級更多的計算資源,且依賴較強(qiáng)的簡化假設(shè)。
RoboBallet在訓(xùn)練和推理階段均展現(xiàn)出良好的可擴(kuò)展性。訓(xùn)練所需步數(shù)并未隨機(jī)器人或任務(wù)數(shù)量的增加呈指數(shù)增長;推理時間則與機(jī)器人數(shù)量的平方、任務(wù)及障礙物的數(shù)量成線性關(guān)系,在實(shí)際應(yīng)用中具備可行性。
可擴(kuò)展性與泛化性的訓(xùn)練曲線
實(shí)驗(yàn)還發(fā)現(xiàn),增加機(jī)器人數(shù)量能夠顯著提高任務(wù)執(zhí)行效率。例如在優(yōu)化布局的條件下,機(jī)器人從4臺增至8臺,平均執(zhí)行時間從7.5秒減少到4.5秒,降幅達(dá)40%。
工作單元的布局優(yōu)化
這也是RoboBallet架構(gòu)的核心優(yōu)勢,能夠?qū)男∫?guī)模訓(xùn)練中學(xué)到的協(xié)作模式推廣到更大規(guī)模場景。
▍關(guān)于X-robot
X-robot是中關(guān)村機(jī)器人產(chǎn)業(yè)創(chuàng)新中心與機(jī)器人大講堂聯(lián)手打造的權(quán)威性信息發(fā)布品牌專欄,集前沿探索、產(chǎn)業(yè)研究、知識普及于一體,致力于積極推動新質(zhì)生產(chǎn)力的生成與發(fā)展,助力我國乃至全球機(jī)器人行業(yè)的蓬勃繁榮。X-robot立足國際化視野,通過全方位、多角度的挖掘與追蹤,生動展現(xiàn)機(jī)器人前沿技術(shù)與尖端成果,為學(xué)術(shù)界、產(chǎn)業(yè)界及公眾提供一個洞見未來、共享科技的重要窗口。
論文鏈接:https://www.science.org/doi/10.1126/scirobotics.ads1204
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.