純視覺VLA方案從有限數(shù)據(jù)中學(xué)到強(qiáng)大的空間泛化能力

2025-09-29 12:01:15　來源: 機(jī)器之心Pro

北京舉報

分享至

設(shè)想一下剛學(xué)開車的情況：在訓(xùn)練場上，我們可能會反復(fù)練習(xí)特定動作：到了某個位置就踩剎車，拐到某個點就打方向盤。久而久之，這些動作會形成 “條件記憶”，一旦環(huán)境發(fā)生變化，就容易手忙腳亂。最近，千尋智能的研究人員注意到，基于模仿學(xué)習(xí)的視覺運動策略中也存在類似現(xiàn)象，并在論文《Do You Need Proprioceptive States in Visuomotor Policies?》中對此進(jìn)行了深入探討。

論文鏈接：https://arxiv.org/abs/2509.18644
項目主頁：https://statefreepolicy.github.io

文中研究人員提出了一種名為 State-free Policy 的策略，與 State-based Policy 相比，即便在訓(xùn)練數(shù)據(jù)中桌面高度、機(jī)器人位置和目標(biāo)物體等都被嚴(yán)格固定的情況下，機(jī)器人仍能展現(xiàn)出強(qiáng)大的空間泛化能力。例如：

在夾筆任務(wù)中，獲得桌面高度的泛化能力（標(biāo)準(zhǔn)桌高為 80 cm）：

在疊衣服任務(wù)中，即使機(jī)械臂位置大幅偏離標(biāo)準(zhǔn)位置，機(jī)器人仍然能出色完成任務(wù)：

在全身機(jī)器人從冰箱拿飲料的過程中，即使冰箱位置發(fā)生移動，機(jī)器人也能夠適應(yīng)：

事實上，在機(jī)器人操作領(lǐng)域，基于模仿學(xué)習(xí)的視覺運動策略已經(jīng)被廣泛應(yīng)用。不過，為了實現(xiàn)精確而可靠的控制，這類模型通常不僅依賴對任務(wù)環(huán)境的視覺觀察，還會引入所謂的 “狀態(tài)” 信息 —— 包括末端執(zhí)行器的位置、關(guān)節(jié)角度等自身感知數(shù)據(jù)。這些狀態(tài)信息能夠為策略提供緊湊且精確的機(jī)器人姿態(tài)描述，但同時也帶來一個問題：模型容易通過記憶訓(xùn)練軌跡而產(chǎn)生過擬合，從而嚴(yán)重限制空間泛化能力。尤其在當(dāng)前環(huán)境下，獲取大量包含位置泛化的真機(jī)數(shù)據(jù)成本極高，這已經(jīng)成為制約視覺運動策略發(fā)展的關(guān)鍵瓶頸。

State-free Policy 的工作條件

為了應(yīng)對空間泛化能力差的問題，研究人員提出在視覺運動策略的輸入中完全移除狀態(tài)信息，僅依賴視覺觀察，這一策略被稱為 “State-free Policy”。該方法基于兩個關(guān)鍵條件：一是動作在相對末端執(zhí)行器空間中表示；二是確保視覺輸入能夠覆蓋任務(wù)所需的完整觀察范圍，即完整的任務(wù)觀察：

1.相對末端動作空間：在這種動作表示空間下，模型根據(jù)輸入預(yù)測當(dāng)前末端執(zhí)行器應(yīng)該進(jìn)行的相對移動，例如向 x 方向移動 1 厘米，而不是直接預(yù)測末端執(zhí)行器相對于機(jī)器人本體的具體位置。這樣的表示方式可以讓策略更專注于動作的相對變化，而不是依賴精確的全局位置信息，從而降低對狀態(tài)輸入的依賴，提高在不同環(huán)境下的泛化能力。

2.完整的任務(wù)觀察：在常見的輸入狀態(tài)的做法中，狀態(tài)輸入可以給策略提供大致的任務(wù)信息，例如到達(dá)某一個狀態(tài)后模型就知道還需要大致運動多少就能夠到達(dá)目標(biāo)位置，而不需要關(guān)注圖像輸入中復(fù)雜的環(huán)境。為了提高策略的泛化性，State-free Policy 移除了狀態(tài)輸入，因此任務(wù)中所有的物體信息必須全部由視覺輸入提供，這促使我們?yōu)闄C(jī)器人的末端執(zhí)行器配備更廣闊的視野。本文中的相機(jī)系統(tǒng)由位于機(jī)器人頭頂?shù)闹鲾z和腕部相機(jī)構(gòu)成。如上圖所示，在常規(guī)設(shè)定下，末端執(zhí)行器上方會安裝一個常規(guī)相機(jī)。而在雙目廣角設(shè)定下，研究者在末端執(zhí)行器上方和下方都安裝了一個廣角相機(jī)，來提供更廣泛的視野和末端執(zhí)行下方的視野。不過需要注意的是，這種設(shè)定是為了即使在最復(fù)雜的環(huán)境下也能獲得完整的任務(wù)觀察，有時在簡單的環(huán)境中常規(guī)的設(shè)定也可以滿足完整的任務(wù)觀察需求。

真機(jī)實驗結(jié)果

為了驗證 State-free Policy 的空間泛化能力，研究人員進(jìn)行了廣泛的實驗，尤其是在真機(jī)任務(wù)中。這些實驗涵蓋了不同的任務(wù)，包括簡單的拾取放置任務(wù)、困難的疊衣服任務(wù)以及使用全身機(jī)器人在冰箱中拿取飲料的任務(wù)。這些任務(wù)的數(shù)據(jù)是有著嚴(yán)格的收集標(biāo)準(zhǔn)，即數(shù)據(jù)中物體的擺放均收到嚴(yán)格控制，例如在夾筆放入筆筒的任務(wù)中，桌面高度嚴(yán)格不變，且筆筒的位置也嚴(yán)格不變。這樣的設(shè)定是保證空間泛化能力來自于模型本身，而不是泛化的數(shù)據(jù)。此外，研究人員發(fā)現(xiàn)除了更好的空間泛化能力之外，State-free Policy 還具備包括更高的數(shù)據(jù)應(yīng)用效率以及更快的跨本體泛化的優(yōu)點。在此基礎(chǔ)上，研究人員還有一個有趣的發(fā)現(xiàn)，那就是移除頂端的主攝可以進(jìn)一步提高空間泛化能力：

如上圖所示，在簡單的拾取放置任務(wù)中，相比于有狀態(tài)輸入的策略，State-free Policy 擁有顯著更強(qiáng)的空間泛化能力，包括高度和水平泛化能力。例如，在夾筆放入筆筒的任務(wù)中，高度泛化的測試成功率從 0 提升到了 0.98，水平泛化的測試成功率從 0 提升到了 0.58；而相比于常規(guī)的相機(jī)設(shè)定，具有完整任務(wù)觀察的設(shè)定使高度泛化的測試成功率從 0.87 提升到了 0.98，水平泛化的測試成功率從 0.27 提升到了 0.58。

與此同時，在一些更困難的任務(wù)中，例如疊衣服，以及利用全身機(jī)器人從冰箱里取飲料（由于硬件限制，只進(jìn)行了常規(guī)相機(jī)下的水平泛化能力測試），State-free Policy 的水平泛化能力明顯超過了帶有狀態(tài)輸入的模型。以上實驗證明了 State-free Policy 具有顯著更強(qiáng)的空間泛化能力，能在數(shù)據(jù)多樣性受限的情況下獲得強(qiáng)大的空間泛化能力。

State-free Policy 的額外優(yōu)勢

除了更強(qiáng)的空間泛化能力之外，State-free Policy 還展現(xiàn)出更高的數(shù)據(jù)利用效率。相比之下，基于狀態(tài)的策略往往需要大量多樣化的示范數(shù)據(jù)來避免過擬合特定軌跡，從而增加了數(shù)據(jù)收集成本。而 State-free Policy 不易陷入這一問題，即使在數(shù)據(jù)有限的情況下也能保持良好表現(xiàn)。研究人員在夾筆任務(wù)中進(jìn)一步驗證了這一點：在不同規(guī)模的數(shù)據(jù)下（300、200、100、50 條演示數(shù)據(jù)），隨著數(shù)據(jù)量減少，基于狀態(tài)的策略迅速過擬合并導(dǎo)致性能下降，而 State-free Policy 則始終保持更高的成功率。

另外，State-free Policy 在跨本體微調(diào)中也展現(xiàn)出優(yōu)勢。相比依賴狀態(tài)輸入的策略需要重新對齊狀態(tài)空間，State-free Policy 只需在相似相機(jī)配置下適應(yīng)輕微的圖像偏移，因此能更高效地完成跨平臺遷移。在疊衣服任務(wù)中，研究人員先在雙臂 Arx5 上訓(xùn)練，再將其適配到人形雙臂機(jī)器人，并用 100 條演示數(shù)據(jù)進(jìn)行微調(diào)。上表的結(jié)果表明，State-free Policy 收斂更快，成功率更高，驗證了其更強(qiáng)的跨平臺適應(yīng)能力。

在移除限制空間泛化的狀態(tài)輸入后，研究人員進(jìn)一步思考是否還存在其他潛在瓶頸，并指出頂置相機(jī)可能同樣帶來問題。由于物體位置變化會導(dǎo)致頂視角下的圖像分布發(fā)生偏移，在極端情況下（如桌面升至 100 cm）甚至?xí)?yán)重影響性能；而腕部相機(jī)則可隨末端執(zhí)行器移動，始終獲得與訓(xùn)練時一致的相對視角。鑒于雙廣角腕部相機(jī)已能覆蓋完整任務(wù)觀察，頂置相機(jī)不僅多余，甚至可能帶來負(fù)面影響。為驗證這一點，研究人員在夾筆放入筆筒任務(wù)中設(shè)計了三種更具挑戰(zhàn)性的情景：桌面升至 100 cm、筆筒加高一倍，以及筆筒在水平方向移動 20 cm。

上表的結(jié)果顯示，帶有頂置相機(jī)的 State-free Policy 在這三種情景下表現(xiàn)均不理想，而僅使用雙廣角腕部相機(jī)的策略則始終保持較高成功率。這一發(fā)現(xiàn)提示我們，有必要重新審視傳感器設(shè)計，未來或許應(yīng)考慮去除頂置相機(jī)。

總結(jié)

在本研究中，研究人員提出了 State-free Policy，并基于兩個條件加以實現(xiàn)：相對末端執(zhí)行器動作空間，以及通過足夠全面的視覺信息獲取完整的任務(wù)觀察。在不依賴狀態(tài)輸入的情況下，該策略不僅能夠保持完美的域內(nèi)性能，還在空間泛化方面取得了顯著提升。同時，State-free Policy 有效降低了對昂貴真實數(shù)據(jù)的需求，支持更高效的跨平臺適應(yīng)，并為未來的傳感器設(shè)計提供了新的思路，為構(gòu)建更具泛化能力的機(jī)器人學(xué)習(xí)系統(tǒng)提供了新的啟示。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.