設(shè)想一下剛學(xué)開車的情況:在訓(xùn)練場上,我們可能會反復(fù)練習(xí)特定動作:到了某個位置就踩剎車,拐到某個點就打方向盤。久而久之,這些動作會形成 “條件記憶”,一旦環(huán)境發(fā)生變化,就容易手忙腳亂。最近,千尋智能的研究人員注意到,基于模仿學(xué)習(xí)的視覺運動策略中也存在類似現(xiàn)象,并在論文《Do You Need Proprioceptive States in Visuomotor Policies?》中對此進(jìn)行了深入探討。
- 論文鏈接:https://arxiv.org/abs/2509.18644
- 項目主頁:https://statefreepolicy.github.io
文中研究人員提出了一種名為 State-free Policy 的策略,與 State-based Policy 相比,即便在訓(xùn)練數(shù)據(jù)中桌面高度、機(jī)器人位置和目標(biāo)物體等都被嚴(yán)格固定的情況下,機(jī)器人仍能展現(xiàn)出強(qiáng)大的空間泛化能力。例如:
在夾筆任務(wù)中,獲得桌面高度的泛化能力(標(biāo)準(zhǔn)桌高為 80 cm):
在疊衣服任務(wù)中,即使機(jī)械臂位置大幅偏離標(biāo)準(zhǔn)位置,機(jī)器人仍然能出色完成任務(wù):
在全身機(jī)器人從冰箱拿飲料的過程中,即使冰箱位置發(fā)生移動,機(jī)器人也能夠適應(yīng):
事實上,在機(jī)器人操作領(lǐng)域,基于模仿學(xué)習(xí)的視覺運動策略已經(jīng)被廣泛應(yīng)用。不過,為了實現(xiàn)精確而可靠的控制,這類模型通常不僅依賴對任務(wù)環(huán)境的視覺觀察,還會引入所謂的 “狀態(tài)” 信息 —— 包括末端執(zhí)行器的位置、關(guān)節(jié)角度等自身感知數(shù)據(jù)。這些狀態(tài)信息能夠為策略提供緊湊且精確的機(jī)器人姿態(tài)描述,但同時也帶來一個問題:模型容易通過記憶訓(xùn)練軌跡而產(chǎn)生過擬合,從而嚴(yán)重限制空間泛化能力。尤其在當(dāng)前環(huán)境下,獲取大量包含位置泛化的真機(jī)數(shù)據(jù)成本極高,這已經(jīng)成為制約視覺運動策略發(fā)展的關(guān)鍵瓶頸。
State-free Policy 的工作條件
為了應(yīng)對空間泛化能力差的問題,研究人員提出在視覺運動策略的輸入中完全移除狀態(tài)信息,僅依賴視覺觀察,這一策略被稱為 “State-free Policy”。該方法基于兩個關(guān)鍵條件:一是動作在相對末端執(zhí)行器空間中表示;二是確保視覺輸入能夠覆蓋任務(wù)所需的完整觀察范圍,即完整的任務(wù)觀察:
1.相對末端動作空間:在這種動作表示空間下,模型根據(jù)輸入預(yù)測當(dāng)前末端執(zhí)行器應(yīng)該進(jìn)行的相對移動,例如向 x 方向移動 1 厘米,而不是直接預(yù)測末端執(zhí)行器相對于機(jī)器人本體的具體位置。這樣的表示方式可以讓策略更專注于動作的相對變化,而不是依賴精確的全局位置信息,從而降低對狀態(tài)輸入的依賴,提高在不同環(huán)境下的泛化能力。
2.完整的任務(wù)觀察:在常見的輸入狀態(tài)的做法中,狀態(tài)輸入可以給策略提供大致的任務(wù)信息,例如到達(dá)某一個狀態(tài)后模型就知道還需要大致運動多少就能夠到達(dá)目標(biāo)位置,而不需要關(guān)注圖像輸入中復(fù)雜的環(huán)境。為了提高策略的泛化性,State-free Policy 移除了狀態(tài)輸入,因此任務(wù)中所有的物體信息必須全部由視覺輸入提供,這促使我們?yōu)闄C(jī)器人的末端執(zhí)行器配備更廣闊的視野。本文中的相機(jī)系統(tǒng)由位于機(jī)器人頭頂?shù)闹鲾z和腕部相機(jī)構(gòu)成。如上圖所示,在常規(guī)設(shè)定下,末端執(zhí)行器上方會安裝一個常規(guī)相機(jī)。而在雙目廣角設(shè)定下,研究者在末端執(zhí)行器上方和下方都安裝了一個廣角相機(jī),來提供更廣泛的視野和末端執(zhí)行下方的視野。不過需要注意的是,這種設(shè)定是為了即使在最復(fù)雜的環(huán)境下也能獲得完整的任務(wù)觀察,有時在簡單的環(huán)境中常規(guī)的設(shè)定也可以滿足完整的任務(wù)觀察需求。
真機(jī)實驗結(jié)果
為了驗證 State-free Policy 的空間泛化能力,研究人員進(jìn)行了廣泛的實驗,尤其是在真機(jī)任務(wù)中。這些實驗涵蓋了不同的任務(wù),包括簡單的拾取放置任務(wù)、困難的疊衣服任務(wù)以及使用全身機(jī)器人在冰箱中拿取飲料的任務(wù)。這些任務(wù)的數(shù)據(jù)是有著嚴(yán)格的收集標(biāo)準(zhǔn),即數(shù)據(jù)中物體的擺放均收到嚴(yán)格控制,例如在夾筆放入筆筒的任務(wù)中,桌面高度嚴(yán)格不變,且筆筒的位置也嚴(yán)格不變。這樣的設(shè)定是保證空間泛化能力來自于模型本身,而不是泛化的數(shù)據(jù)。此外,研究人員發(fā)現(xiàn)除了更好的空間泛化能力之外,State-free Policy 還具備包括更高的數(shù)據(jù)應(yīng)用效率以及更快的跨本體泛化的優(yōu)點。在此基礎(chǔ)上,研究人員還有一個有趣的發(fā)現(xiàn),那就是移除頂端的主攝可以進(jìn)一步提高空間泛化能力:
如上圖所示,在簡單的拾取放置任務(wù)中,相比于有狀態(tài)輸入的策略,State-free Policy 擁有顯著更強(qiáng)的空間泛化能力,包括高度和水平泛化能力。例如,在夾筆放入筆筒的任務(wù)中,高度泛化的測試成功率從 0 提升到了 0.98,水平泛化的測試成功率從 0 提升到了 0.58;而相比于常規(guī)的相機(jī)設(shè)定,具有完整任務(wù)觀察的設(shè)定使高度泛化的測試成功率從 0.87 提升到了 0.98,水平泛化的測試成功率從 0.27 提升到了 0.58。
與此同時,在一些更困難的任務(wù)中,例如疊衣服,以及利用全身機(jī)器人從冰箱里取飲料(由于硬件限制,只進(jìn)行了常規(guī)相機(jī)下的水平泛化能力測試),State-free Policy 的水平泛化能力明顯超過了帶有狀態(tài)輸入的模型。以上實驗證明了 State-free Policy 具有顯著更強(qiáng)的空間泛化能力,能在數(shù)據(jù)多樣性受限的情況下獲得強(qiáng)大的空間泛化能力。
State-free Policy 的額外優(yōu)勢
除了更強(qiáng)的空間泛化能力之外,State-free Policy 還展現(xiàn)出更高的數(shù)據(jù)利用效率。相比之下,基于狀態(tài)的策略往往需要大量多樣化的示范數(shù)據(jù)來避免過擬合特定軌跡,從而增加了數(shù)據(jù)收集成本。而 State-free Policy 不易陷入這一問題,即使在數(shù)據(jù)有限的情況下也能保持良好表現(xiàn)。研究人員在夾筆任務(wù)中進(jìn)一步驗證了這一點:在不同規(guī)模的數(shù)據(jù)下(300、200、100、50 條演示數(shù)據(jù)),隨著數(shù)據(jù)量減少,基于狀態(tài)的策略迅速過擬合并導(dǎo)致性能下降,而 State-free Policy 則始終保持更高的成功率。
另外,State-free Policy 在跨本體微調(diào)中也展現(xiàn)出優(yōu)勢。相比依賴狀態(tài)輸入的策略需要重新對齊狀態(tài)空間,State-free Policy 只需在相似相機(jī)配置下適應(yīng)輕微的圖像偏移,因此能更高效地完成跨平臺遷移。在疊衣服任務(wù)中,研究人員先在雙臂 Arx5 上訓(xùn)練,再將其適配到人形雙臂機(jī)器人,并用 100 條演示數(shù)據(jù)進(jìn)行微調(diào)。上表的結(jié)果表明,State-free Policy 收斂更快,成功率更高,驗證了其更強(qiáng)的跨平臺適應(yīng)能力。
在移除限制空間泛化的狀態(tài)輸入后,研究人員進(jìn)一步思考是否還存在其他潛在瓶頸,并指出頂置相機(jī)可能同樣帶來問題。由于物體位置變化會導(dǎo)致頂視角下的圖像分布發(fā)生偏移,在極端情況下(如桌面升至 100 cm)甚至?xí)?yán)重影響性能;而腕部相機(jī)則可隨末端執(zhí)行器移動,始終獲得與訓(xùn)練時一致的相對視角。鑒于雙廣角腕部相機(jī)已能覆蓋完整任務(wù)觀察,頂置相機(jī)不僅多余,甚至可能帶來負(fù)面影響。為驗證這一點,研究人員在夾筆放入筆筒任務(wù)中設(shè)計了三種更具挑戰(zhàn)性的情景:桌面升至 100 cm、筆筒加高一倍,以及筆筒在水平方向移動 20 cm。
上表的結(jié)果顯示,帶有頂置相機(jī)的 State-free Policy 在這三種情景下表現(xiàn)均不理想,而僅使用雙廣角腕部相機(jī)的策略則始終保持較高成功率。這一發(fā)現(xiàn)提示我們,有必要重新審視傳感器設(shè)計,未來或許應(yīng)考慮去除頂置相機(jī)。
總結(jié)
在本研究中,研究人員提出了 State-free Policy,并基于兩個條件加以實現(xiàn):相對末端執(zhí)行器動作空間,以及通過足夠全面的視覺信息獲取完整的任務(wù)觀察。在不依賴狀態(tài)輸入的情況下,該策略不僅能夠保持完美的域內(nèi)性能,還在空間泛化方面取得了顯著提升。同時,State-free Policy 有效降低了對昂貴真實數(shù)據(jù)的需求,支持更高效的跨平臺適應(yīng),并為未來的傳感器設(shè)計提供了新的思路,為構(gòu)建更具泛化能力的機(jī)器人學(xué)習(xí)系統(tǒng)提供了新的啟示。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.