近年來,人形機器人技術(shù)突飛猛進,特別是基于視覺-語言-動作(Visual-Language-Action, VLA)模型的系統(tǒng),已能夠執(zhí)行多種家務任務,展現(xiàn)出較高的可靠性和泛化能力。然而,一個長期存在的瓶頸問題限制了其進一步發(fā)展:雙足人形機器人缺乏大量高質(zhì)量、覆蓋全身動作的演示數(shù)據(jù)。傳統(tǒng)的遠程操作數(shù)據(jù)收集方式成本高昂、效率低下,且往往局限于特定場景(如桌面操作),無法滿足機器人在實際家庭環(huán)境中執(zhí)行多樣化任務的需求。
針對這一挑戰(zhàn),來自浙江大學、西湖大學等機構(gòu)的研究團隊提出了一項名為TrajBooster的創(chuàng)新框架:利用輪式機器人的豐富操作數(shù)據(jù),通過軌跡重定向技術(shù),大幅提升雙足人形機器人的動作學習效率。該方法僅需極少量目標機器人的真實數(shù)據(jù)(10分鐘),即可實現(xiàn)復雜的全身操控任務,顯著增強了機器人的動作空間理解能力和零樣本任務遷移能力。
▍TrajBooster的核心思想:以軌跡為通用語言的“跨形態(tài)”教學
TrajBoster的靈感源于一個關鍵洞察:盡管機器人形態(tài)各異,但它們完成任務時,末端執(zhí)行器(如手或夾爪)在空間中的運動軌跡(Trajectory)是相對統(tǒng)一的。無論是輪式還是雙足機器人,拿起一個杯子都需要讓“手”沿一條類似的路徑接近并抓取。
因此,TrajBooster將6D末端執(zhí)行器軌跡(3D位置+3D旋轉(zhuǎn))作為一種與機器人形態(tài)無關的通用接口。它的整體流程是一個“真實→模擬→真實”的閉環(huán):
源數(shù)據(jù)提取(真實):從大規(guī)模的輪式機器人(如Agibot)操作數(shù)據(jù)集中,提取出語言指令、多視角視覺觀察和對應的6D末端執(zhí)行器軌跡。
軌跡重定向(模擬):在仿真環(huán)境中,將這些軌跡作為目標,教目標雙足機器人Unitree G1如何協(xié)調(diào)全身關節(jié)去追蹤這些軌跡。
模型訓練與微調(diào)(真實):用生成的新數(shù)據(jù)預訓練VLA模型,最后僅需采集少量目標機器人的真實數(shù)據(jù)對模型進行微調(diào),即可部署到真實機器人上。
這樣一來,輪式機器人數(shù)據(jù)中所蘊含的“任務知識”(即“做什么”和“何時做”)就通過軌跡這個中介,有效地傳遞給了雙足機器人。而雙足機器人需要學習的,是如何用自己獨特的身體去執(zhí)行這些軌跡。
▍TrajBooster如何實現(xiàn)精準的全身重定向?
整個過程最核心也最具挑戰(zhàn)的一步,是如何在仿真中把一條軌跡轉(zhuǎn)化為雙足機器人穩(wěn)定、可行的全身動作。
研究團隊設計了一個分層控制模型,把復雜問題拆解成更易處理的小問題:
上層:逆運動學(IK)模塊-負責手臂。它直接根據(jù)目標手腕位姿,計算出機器人臂部各關節(jié)應達到的角度。這是一個相對成熟且快速的計算過程。
重定向模型架構(gòu)
下層:分層RL策略,負責腿部和平衡。這進一步分為兩個子模塊:
管理者(Manager Policy):一個“決策腦”。它觀察目標手腕的位置,并判斷出為了夠到該位置,身體需要如何移動:基座應該以什么速度(Vx, Vy, Vyaw)移動?軀干高度(h)需要調(diào)整到多少? 例如,要拿取一個低處的物體,管理者會輸出“降低軀干高度”和“微微前進”的命令。
執(zhí)行者(Worker Policy):一個“執(zhí)行腦”。它接收管理者的速度和高階命令,并將其轉(zhuǎn)化為12條腿部關節(jié)的具體動作。這個策略通過強化學習訓練,確保機器人能夠穩(wěn)定執(zhí)行這些移動命令。
最終,整個模型以目標手腕位姿為輸入,輸出所有關節(jié)的動作指令,控制機器人完成追蹤任務。
此外,研究者還設計了一種高效的“協(xié)調(diào)在線DAgger”算法,在平衡探索與記憶的同時,通過梯度下降優(yōu)化策略,從而實現(xiàn)了比傳統(tǒng)方法更精準、高效的軌跡跟蹤性能。
▍從模擬到現(xiàn)實,兩階段訓練讓VLA模型“學以致用”
獲得重定向數(shù)據(jù)后,下一步是教會VLA模型為雙足機器人生成動作。
后預訓練(Post-Pre-Training, PPT):這是TrajBooster的創(chuàng)新一步。研究團隊將重定向得到的動作數(shù)據(jù)與源數(shù)據(jù)中的語言和視覺觀察組合,構(gòu)成新的三元組?源視覺,源語言,目標機器人動作?。用這個合成數(shù)據(jù)集對一個預訓練好的VLA模型(如GR00T N1.5)進行繼續(xù)預訓練。
其目的是讓模型初步理解目標機器人(Unitree G1)的動作空間。它開始學習什么樣的語言指令和視覺觀察,對應著雙足機器人的何種全身動作模式。
后訓練(Post-Training, PT):僅收集10分鐘的目標機器人真實遠程操作數(shù)據(jù)(目標視覺,目標語言,目標動作),對經(jīng)過后預訓練的模型進行最后的微調(diào),以起到彌合“模擬到真實”差距的左右。讓模型最終適應真實世界的視覺外觀、物理動力學等細微差別。
這種做法的巧妙之處在于:耗時的“動作學習”階段在仿真中低成本完成,真實數(shù)據(jù)只用于最后的“精準調(diào)?!?,極大降低了數(shù)據(jù)收集成本。
▍實驗結(jié)果:僅10分鐘數(shù)據(jù),實現(xiàn)全身操控新突破
實驗在宇樹Unitree G1雙足人形機器人上進行,驗證了TrajBooster的卓越性能:
加速動作空間適應:在“抓取米老鼠”、“整理玩具”等任務中,經(jīng)過PPT+3K步PT的模型,其性能顯著優(yōu)于直接使用10K步真實數(shù)據(jù)訓練的模型。而未經(jīng)過PPT的模型在3K步訓練后甚至無法有效學習,只在目標附近振蕩。這表明PPT極大地加速了對新機器人動作空間的學習。
增強軌跡泛化能力:當目標物體被放置在訓練時未見過的位置時,經(jīng)過PPT的模型成功率(80%)遠高于未經(jīng)過PPT的模型(0%)。分析發(fā)現(xiàn),未經(jīng)過PPT的模型只是死記硬背了訓練時的軌跡,而經(jīng)過PPT的模型則真正理解了動作空間,能靈活生成新軌跡以適應新位置。
軌跡分析顯示,(中圖)未使用PPT時,VLA模仿遠程操作運動(左圖),從上方接近;而(右圖)使用PPT時,VLA則適應從下方抓取。
解鎖零樣本技能遷移:最令人印象深刻的是,經(jīng)過PPT的模型能夠零樣本(無需任何額外訓練)完成“傳遞水杯”這個在真實數(shù)據(jù)中從未見過的任務。這說明從輪式數(shù)據(jù)中繼承的“遞東西”的技能,已成功通過軌跡遷移到了雙足機器人上。
TrajBooster代表了一條解決機器人數(shù)據(jù)稀缺問題的全新思路:跨形態(tài)共享與模擬增強。它不追求收集海量的同形態(tài)數(shù)據(jù),而是巧妙地利用軌跡作為中介,將現(xiàn)有數(shù)據(jù)集的價值最大化,并通過模擬技術(shù)進行擴充和適配。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.