夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

告別專家依賴,讓機(jī)器人學(xué)會(huì)自我參考,僅需200步性能飆升至99.2%

0
分享至



費(fèi)森俞,上海創(chuàng)智學(xué)院 & 同濟(jì)大學(xué)博士一年級(jí)學(xué)生,導(dǎo)師趙憲忠教授,研究方向?yàn)?VLA 強(qiáng)化學(xué)習(xí)后訓(xùn)練。王思尹,上海創(chuàng)智學(xué)院 & 復(fù)旦大學(xué)博士二年級(jí)學(xué)生,導(dǎo)師邱錫鵬教授,研究方向?yàn)槎嗄B(tài)具身智能。為本文共同第一作者。

龔經(jīng)經(jīng),上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師。邱錫鵬,復(fù)旦大學(xué)教授,上海創(chuàng)智學(xué)院全時(shí)導(dǎo)師。為本文共同通訊作者。

你是否想過,機(jī)器人也能像人一樣,從失敗中學(xué)習(xí),不斷自我提升

當(dāng)前,視覺語言動(dòng)作(VLA)模型在機(jī)器人操作任務(wù)中表現(xiàn)出色,但其性能嚴(yán)重依賴專家示范數(shù)據(jù),不僅成本高昂,還存在「示范偏差」,性能難以突破人類上限。而強(qiáng)化學(xué)習(xí)雖好,卻常因「獎(jiǎng)勵(lì)稀疏」問題,讓機(jī)器人無法從失敗中真正受益。





  • 論文鏈接:https://arxiv.org/pdf/2511.15605
  • 代碼倉庫:https://github.com/sii-research/siiRL
  • 技術(shù)文檔:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

動(dòng)機(jī)與貢獻(xiàn)

近期研究表明,強(qiáng)化學(xué)習(xí)作為一種有效的后訓(xùn)練策略,能顯著提升 VLA 模型在分布內(nèi)與分布外的性能。在強(qiáng)化學(xué)習(xí)方法中,基于組優(yōu)化的方法(如 GRPO)因其簡潔高效的學(xué)習(xí)范式,已成為 VLA-RL 的重要技術(shù)路徑,但其仍面臨獎(jiǎng)勵(lì)信號(hào)稀疏的挑戰(zhàn)。該問題在 VLA 領(lǐng)域尤為突出:多輪軌跡推理的計(jì)算成本極高,對(duì)失敗軌跡信息的低效利用嚴(yán)重降低了訓(xùn)練效率。雖有研究嘗試通過過程監(jiān)督提供密集反饋,但這些方法通常依賴專家示范或人工任務(wù)分解來定義中間進(jìn)展,其固有的擴(kuò)展性局限與自主學(xué)習(xí)目標(biāo)存在根本矛盾。



圖 1:GRPO 等方法僅依賴稀疏的結(jié)果獎(jiǎng)勵(lì),學(xué)習(xí)信號(hào)有限;手動(dòng)設(shè)計(jì)的過程獎(jiǎng)勵(lì)(PRM)需要成本高昂的外部示范或任務(wù)微調(diào);而 SRPO 框架提出了自參考范式,有效利用失敗軌跡。

為應(yīng)對(duì)獎(jiǎng)勵(lì)稀疏挑戰(zhàn),我們提出自我參考學(xué)習(xí)范式,以模型自身生成的成功軌跡作為參照標(biāo)準(zhǔn),評(píng)估并引導(dǎo)失敗嘗試。與 GRPO 僅利用結(jié)果性獎(jiǎng)勵(lì)進(jìn)行優(yōu)勢(shì)估計(jì)不同,我們的方法能更高效地利用完整軌跡批,這一范式將監(jiān)督問題的核心從「如何獲取專家標(biāo)簽」轉(zhuǎn)變?yōu)椤溉绾螐淖陨沓晒?jīng)驗(yàn)中提取漸進(jìn)式獎(jiǎng)勵(lì)」。

該范式的核心挑戰(zhàn)在于如何量化成功與失敗軌跡之間的行為相似性,以評(píng)估任務(wù)完成進(jìn)度。傳統(tǒng)像素級(jí)世界模型存在跨領(lǐng)域泛化能力不足或需要大量任務(wù)特定微調(diào)的問題,我們發(fā)現(xiàn)潛在世界表征天然捕捉了跨環(huán)境可遷移的行為進(jìn)展模式,使得無需精確環(huán)境重建或領(lǐng)域特定訓(xùn)練即可實(shí)現(xiàn)魯棒的軌跡比較。

基于以上洞察,我們提出自參考策略優(yōu)化(SRPO),貢獻(xiàn)主要包括以下三方面:

1. 提出 SRPO 框架,通過利用模型生成的成功軌跡為失敗嘗試提供漸進(jìn)式獎(jiǎng)勵(lì),緩解獎(jiǎng)勵(lì)稀疏性問題,消除對(duì)專家示范或任務(wù)特定工程的依賴。

2. 提出基于潛在世界表征的漸進(jìn)式獎(jiǎng)勵(lì)方法,克服傳統(tǒng)像素級(jí)世界模型的泛化局限與領(lǐng)域特定訓(xùn)練需求。

3. 實(shí)驗(yàn)結(jié)果表明,我們的方法在 LIBERO 基準(zhǔn)測試中達(dá)到 SOTA 性能,在 LIBERO-Plus 上展現(xiàn)出強(qiáng)大泛化能力,并驗(yàn)證了獎(jiǎng)勵(lì)建模的真機(jī)可遷移性。

技術(shù)方案

如圖 2 所示,SRPO 通過一種「向成功者學(xué)習(xí)」的直觀方式,幫助機(jī)器人智能體在復(fù)雜任務(wù)中更有效地學(xué)習(xí)。該方案主要包含如下核心環(huán)節(jié):



圖 2: 策略推理過程產(chǎn)生的軌跡被收集到動(dòng)態(tài)參考集中,行為相似性被建模為潛在世界空間中的軌跡距離,以此算出的漸進(jìn)式獎(jiǎng)勵(lì)在 KL 正則化的約束下用于優(yōu)勢(shì)估計(jì)和策略優(yōu)化。

1. 同策略軌跡收集:每次策略更新后,模型將推理時(shí)產(chǎn)生的所有軌跡數(shù)據(jù)存入動(dòng)態(tài)參考集,并根據(jù)任務(wù)完成情況劃分為「成功」與「失敗」兩組。

2. 世界表征提取與聚類:SRPO 將參考集中的每條軌跡都編碼到世界模型的潛在表征空間中,該表征可以理解為對(duì)整個(gè)任務(wù)過程的濃縮概括,包含物理世界的本質(zhì)規(guī)律。值得注意的是,這種表征完全基于對(duì)原始觀測的直接建模,不依賴于人類發(fā)明的「語言」或「符號(hào)」作為中介。

3. 漸進(jìn)式獎(jiǎng)勵(lì)及策略更新:對(duì)于參考集中的成功軌跡,SRPO 計(jì)算其表征聚類中心作為典型成功范式,通過計(jì)算每條失敗軌跡到最近典型成功表征的距離來作為進(jìn)度度量,距離越大說明與成功越遠(yuǎn),即進(jìn)度越低,通過批次歸一化將距離變?yōu)?0 到 1 之間的連續(xù)漸進(jìn)式獎(jiǎng)勵(lì),進(jìn)而使用 PPO 式的目標(biāo)函數(shù)更新策略。

問題建模





世界進(jìn)展獎(jiǎng)勵(lì)模型







自參考策略優(yōu)化



優(yōu)化目標(biāo):采用 PPO 風(fēng)格的裁剪目標(biāo)函數(shù),并添加 KL 散度正則項(xiàng)以保持策略穩(wěn)定性:





實(shí)驗(yàn)結(jié)果

僅用 200 步強(qiáng)化學(xué)習(xí),成功率從 48.9% 飆升至 99.2%

表 1 表明,SRPO 僅憑第三視角圖像與語言指令,不僅優(yōu)于依賴 0/1 獎(jiǎng)勵(lì)的 SimpleVLA-RL、RLinf 等強(qiáng)化學(xué)習(xí)基線,也超越了需要人工設(shè)計(jì)階段獎(jiǎng)勵(lì)的 TGRPO 等方案,超越多個(gè)依賴腕部視角、本體感知、3D 輸入的復(fù)雜模型,突顯 SRPO 在信息利用上的高效性。



表 1: SRPO 僅通過第三視角觀測,在 LIBERO 上取得了 SOTA 性能。策略輸入符號(hào)說明:T (第三視角),I (語言指令),P (本體數(shù)據(jù)),W (腕部視角),D (深度)。

泛化能力實(shí)測:一舉超越 15w 步監(jiān)督學(xué)習(xí)基線

表 2 表明,在更具挑戰(zhàn)的 LIBERO-Plus 泛化測試中,SRPO 帶來的性能提升高達(dá) 167%。即便未使用任何泛化場景數(shù)據(jù)進(jìn)行訓(xùn)練,僅通過 SRPO 自身的探索學(xué)習(xí),泛化性能仍然超越 SFT 模型。



表 2: SRPO 在 LIBERO-Plus 泛化性測試基準(zhǔn)上的表現(xiàn)顯著優(yōu)于其基線。

獎(jiǎng)勵(lì)信號(hào):物理世界的「內(nèi)行視角」

圖 3 中,我們以「將馬克杯放進(jìn)微波爐并關(guān)門」(兩階段時(shí)序任務(wù),仿真環(huán)境)和收拾桌面(五個(gè)重復(fù)性「抓取 - 放置」任務(wù),真實(shí)環(huán)境)兩個(gè)典型任務(wù)為例,展示 SRPO 在獎(jiǎng)勵(lì)構(gòu)建上的優(yōu)勢(shì):相較于易受視覺干擾,無法反映真實(shí)進(jìn)度的像素級(jí)方法,或缺乏物理規(guī)律理解,獎(jiǎng)勵(lì)波動(dòng)劇烈的通用視覺模型,我們的獎(jiǎng)勵(lì)曲線平滑、單調(diào),符合物理世界進(jìn)展規(guī)律



圖 3: 仿真環(huán)境 (a-c) 和真實(shí)環(huán)境 (d-f) 中漸進(jìn)式獎(jiǎng)勵(lì)對(duì)比圖。

效率優(yōu)勢(shì)顯著

效率方面,在圖 4 中,對(duì)于 LIBERO 長時(shí)序任務(wù),初始模型 One-shot SFT 成功率僅 17.3%,SRPO 僅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相較 150k 步的 full-shot SFT 模型性能提升 12.9%。



圖 4: SRPO 與 GRPO 的訓(xùn)練效率比較。

獎(jiǎng)勵(lì)建模真機(jī)實(shí)測





圖 5: 相較于 SFT 基線,SRPO 獎(jiǎng)勵(lì)構(gòu)建方法在真實(shí)世界任務(wù)上成功率有顯著提升。

激發(fā)創(chuàng)造性:讓機(jī)器人學(xué)會(huì)「自主尋路」

此外,我們發(fā)現(xiàn) SRPO 訓(xùn)練后,模型能夠自主探索出多種專家軌跡中不存在的新路徑與抓取姿態(tài),如圖 6 所示。說明 SRPO 不僅能提升成功率,更能激發(fā)機(jī)器人超越示范、自主探索新的解決策略。



圖 6: 模型推理過程中末端執(zhí)行器軌跡記錄圖。



我們發(fā)現(xiàn),SRPO 是其零成本的代替方案,是一個(gè)「免費(fèi)的午餐」





結(jié)語

告別昂貴的數(shù)據(jù)標(biāo)注和復(fù)雜的獎(jiǎng)勵(lì)設(shè)計(jì),SRPO 僅憑模型自身的成功經(jīng)驗(yàn)與物理世界常識(shí),即可實(shí)現(xiàn)性能躍遷。無需訓(xùn)練價(jià)值模型,無需人工獎(jiǎng)勵(lì)工程,無需密集專家示范,SRPO 實(shí)現(xiàn)了讓機(jī)器人從「模仿」走向「創(chuàng)造」,從「依賴」走向「自主」,為 VLA 強(qiáng)化學(xué)習(xí)開辟了一條充滿希望的新路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小麥身價(jià)下跌,德轉(zhuǎn):僅靠穩(wěn)定發(fā)揮不足以維持高身價(jià),且已29歲

小麥身價(jià)下跌,德轉(zhuǎn):僅靠穩(wěn)定發(fā)揮不足以維持高身價(jià),且已29歲

懂球帝
2025-12-23 21:58:18
北京工大附中體育老師李想猝死,年僅39歲,生前常健身,滿身肌肉

北京工大附中體育老師李想猝死,年僅39歲,生前常健身,滿身肌肉

180視角
2025-12-22 11:38:11
挑釁無限升級(jí)!日本自民黨代理干事長訪臺(tái)見賴清德,稱要加強(qiáng)合作

挑釁無限升級(jí)!日本自民黨代理干事長訪臺(tái)見賴清德,稱要加強(qiáng)合作

我心縱橫天地間
2025-12-24 13:03:21
大家都節(jié)儉到什么程度了

大家都節(jié)儉到什么程度了

另子維愛讀史
2025-12-23 17:28:00
造謠“需購買B站會(huì)員才能觀看所有視頻”相關(guān)人員被刑拘

造謠“需購買B站會(huì)員才能觀看所有視頻”相關(guān)人員被刑拘

貝殼財(cái)經(jīng)
2025-12-24 14:27:04
深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

照亮你的前行之路
2025-12-24 03:10:08
NBA西部亂了!火箭跌出前五,勇士連勝?zèng)_第七,黑馬反超快船

NBA西部亂了!火箭跌出前五,勇士連勝?zèng)_第七,黑馬反超快船

易說籃球
2025-12-23 14:14:15
曝理想汽車或新增L9L車型 “砍掉”L8 保留L6、L7、L9

曝理想汽車或新增L9L車型 “砍掉”L8 保留L6、L7、L9

手機(jī)中國
2025-12-22 21:06:05
漲瘋了!有人8天賺了3倍!

漲瘋了!有人8天賺了3倍!

格隆匯
2025-12-23 17:13:06
特朗普被曝8次乘坐愛潑斯坦私人飛機(jī),圣誕合照的梅拉尼婭無笑意

特朗普被曝8次乘坐愛潑斯坦私人飛機(jī),圣誕合照的梅拉尼婭無笑意

譯言
2025-12-24 06:10:03
全紅嬋歸隊(duì)亮相,粉絲偶遇驚呼“不敢認(rèn)”!褪去青澀模樣更漂亮了

全紅嬋歸隊(duì)亮相,粉絲偶遇驚呼“不敢認(rèn)”!褪去青澀模樣更漂亮了

削桐作琴
2025-12-23 15:05:12
國資委公布10戶中央企業(yè)11名領(lǐng)導(dǎo)人員職務(wù)任免

國資委公布10戶中央企業(yè)11名領(lǐng)導(dǎo)人員職務(wù)任免

界面新聞
2025-12-23 16:50:55
針對(duì)楊瀚森?開拓者透支克林根惜敗魔術(shù),斯普利特下課倒計(jì)時(shí)!

針對(duì)楊瀚森?開拓者透支克林根惜敗魔術(shù),斯普利特下課倒計(jì)時(shí)!

緋雨兒
2025-12-24 13:55:00
為拍“氛圍感”,一女子擅闖深圳在建地鐵隧道拍照,相關(guān)部門已介入調(diào)查

為拍“氛圍感”,一女子擅闖深圳在建地鐵隧道拍照,相關(guān)部門已介入調(diào)查

大風(fēng)新聞
2025-12-23 23:32:07
《老舅》原著大結(jié)局:張曉梅被富商拋棄,崔國明拒絕周小丹的表白

《老舅》原著大結(jié)局:張曉梅被富商拋棄,崔國明拒絕周小丹的表白

觀察鑒娛
2025-12-24 09:00:38
5個(gè)月嬰兒做爭議開胸術(shù)后去世!已有多個(gè)孩子殞命!全網(wǎng)為小洛熙討說法!

5個(gè)月嬰兒做爭議開胸術(shù)后去世!已有多個(gè)孩子殞命!全網(wǎng)為小洛熙討說法!

魔都囡
2025-12-15 01:40:31
事退人員,養(yǎng)老金和職業(yè)年金補(bǔ)發(fā)20個(gè)月,補(bǔ)發(fā)5萬元算什么水平?

事退人員,養(yǎng)老金和職業(yè)年金補(bǔ)發(fā)20個(gè)月,補(bǔ)發(fā)5萬元算什么水平?

阿纂看事
2025-12-24 09:14:27
江蘇5市退休人員注意!這筆錢已到賬,快查你的賬戶!

江蘇5市退休人員注意!這筆錢已到賬,快查你的賬戶!

天氣觀察站
2025-12-24 12:02:42
七瀨愛麗絲:從整容破產(chǎn)到三社搶人,這顏值天花板太狠了

七瀨愛麗絲:從整容破產(chǎn)到三社搶人,這顏值天花板太狠了

素然追光
2025-12-23 20:06:55
鄭麗文韓國瑜聯(lián)手清黨渣,侯友宜盧秀燕跪地求饒,國民黨終于姓鄭

鄭麗文韓國瑜聯(lián)手清黨渣,侯友宜盧秀燕跪地求饒,國民黨終于姓鄭

叮當(dāng)當(dāng)科技
2025-12-23 02:44:48
2025-12-24 15:04:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11984文章數(shù) 142518關(guān)注度
往期回顧 全部

科技要聞

馬斯克沒想到的"中國速度"!2026值得期待

頭條要聞

幼兒園8人墜塘園長丈夫被調(diào)查 園內(nèi)有兩輛19座校車

頭條要聞

幼兒園8人墜塘園長丈夫被調(diào)查 園內(nèi)有兩輛19座校車

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

曝闞清子女兒早產(chǎn)但沒保住

財(cái)經(jīng)要聞

快手到底惹了誰?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

游戲
旅游
房產(chǎn)
親子
健康

EVNIA弈威助力2025《永劫無間》世界冠軍賽圓滿收官!

旅游要聞

開屏策劃|云南,你是懂“作弊式過冬”的!全國裹貂我賞櫻,粉到離譜

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

親子要聞

笑發(fā)財(cái)了,果然小孩子不用穿太好,寶媽:他真的不配!

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版 天天躁日日躁狠狠躁视频2021| 欧洲精品无码一区二区三区在线播放| 欧美熟女打炮| 精品无码中文视频在线观看| 亚洲最大成人网7777| aa片在线观看视频在线播放| 顶级丰满少妇自慰到喷水| 葡京久久AV影院| 少妇私密推油呻吟在线播放| 国产人体XXXX裸体137大胆| 凹凸熟女白浆精品视频2| 香蕉依人久久| 无码精品久久久久久人妻中字| 亚洲黄色国产精品日韩无码| 欧美精品三级在线| 偷窥村妇洗澡毛毛多| 国产精品无码久久久久久| 国产精品又粗又硬又大| 国产熟睡乱子伦午夜视频| 国产中出内射| 亚洲AV一二三区无码AV蜜桃| 精品日韩99亚洲| 最近2019免费中文第一页| 欧一区二区三区| 亚洲精品久久无码2021| 人人干人人泡| 日日摸夜夜肏| 好屌干在线观看| 国产精品无码系列| 国产成人久久综合一区| 欧美激情狂操人妻| 国产AV无区亚洲AV麻豆| 色欲天天综合影视| 国产午夜亚洲精品不卡福利| 蜜臀av麻豆av无码天美av| 女班长裸体扒开两腿让我桶| 亚洲av无码xxx麻豆艾秋| 蜜桃视频成人版在线播放| 紧 爽 喷 视频| 国产欧美精品一区二区三区色大师| 亚洲欧美日逼区区色三级片|