夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

全球強(qiáng)化學(xué)習(xí)+VLA范式,PI*0.6背后都有這家中國公司技術(shù)伏筆

0
分享至



機(jī)器之心發(fā)布

機(jī)器之心編輯部

在 Physical Intelligence 最新的成果 π0.6 論文里,他們介紹了 π0.6 迭代式強(qiáng)化學(xué)習(xí)的思路來源:



其中有我們熟悉的 Yuke Zhu 的研究,也有他們自己(Chelsea Finn、Sergey Levine)的一些研究,我們之前對(duì)這些工作一直有跟蹤和介紹。此外,還有來自國內(nèi)具身智能團(tuán)隊(duì)的工作,比如清華大學(xué)、星動(dòng)紀(jì)元的研究。隨著 π*0.6 的發(fā)布,VLA+online RL 成為了一個(gè)行業(yè)共識(shí)的非常有前景的研究方向(深扒了Π*0.6的論文,發(fā)現(xiàn)它不止于真實(shí)世界強(qiáng)化學(xué)習(xí)、英偉達(dá)也來做VLA在真實(shí)世界自我改進(jìn)的方法了)大語言模型從SFT到RL的發(fā)展方向也逐漸在具身研究中清晰明朗。

一、為什么VLA+RL很重要



圖注:VLA模型依賴研讀微調(diào)

在具身智能(Embodied AI)領(lǐng)域,科學(xué)家們正在嘗試將強(qiáng)大的視覺-語言模型(VLM)應(yīng)用到機(jī)器人的底層控制中,這就是所謂的VLA模型。通常,這些模型是通過模仿人類專家的示范數(shù)據(jù)(監(jiān)督微調(diào),SFT)來學(xué)習(xí)的。



圖注:模仿學(xué)習(xí)的局限

但是,僅靠模仿是不夠的。如果機(jī)器人遇到了從未見過的情況,或者專家數(shù)據(jù)不夠完美,機(jī)器人就會(huì)不知所措。

而正如我們在深扒了Π*0.6的論文,發(fā)現(xiàn)它不止于真實(shí)世界強(qiáng)化學(xué)習(xí)所說的,模仿學(xué)習(xí)能讓機(jī)器人成功做出動(dòng)作,但是讓它每次都成功是非常難的。如果想讓機(jī)器人非常魯棒、持久的工作,需要借助強(qiáng)化學(xué)習(xí)的力量。相較于離線強(qiáng)化學(xué)習(xí)通常受限于演示數(shù)據(jù)的質(zhì)量,模型很難超越提供數(shù)據(jù)的專家,在線 RL 允許智能體通過試錯(cuò)來發(fā)現(xiàn)更優(yōu)解

二、強(qiáng)化學(xué)習(xí)應(yīng)用在VLA的三大難點(diǎn)?



圖注:VLA RL的難點(diǎn)

理論上,強(qiáng)化學(xué)習(xí)(RL)可以讓機(jī)器人通過與環(huán)境互動(dòng)、試錯(cuò)來持續(xù)進(jìn)步,但是這其實(shí)不是一件容易的事情



圖注:LLM和具身在RL上的區(qū)別

將類似 GPT 這樣的大模型與強(qiáng)化學(xué)習(xí)結(jié)合(如 RLHF)在聊天機(jī)器人領(lǐng)域非常成功,但在控制物理機(jī)器人時(shí)卻困難重重:

  • 環(huán)境差異:聊天機(jī)器人是在離線數(shù)據(jù)集上訓(xùn)練的,而機(jī)器人需要在物理世界中實(shí)時(shí)探索。物理任務(wù)通常周期長、獎(jiǎng)勵(lì)稀疏(做完一整套動(dòng)作才算成功),這使得學(xué)習(xí)非常困難。
  • 模型坍塌與不穩(wěn)定性:研究發(fā)現(xiàn),如果直接對(duì)巨大的 VLA 模型(數(shù)十億參數(shù))進(jìn)行在線強(qiáng)化學(xué)習(xí),模型很容易出現(xiàn)“災(zāi)難性遺忘”或訓(xùn)練崩潰,導(dǎo)致性能甚至不如微調(diào)前。
  • 算力負(fù)擔(dān):在本地機(jī)器上對(duì)幾十億參數(shù)的模型進(jìn)行全量梯度的強(qiáng)化學(xué)習(xí)更新,對(duì)硬件要求極高,通常超出了本地機(jī)器人控制器的算力極限。

三、星動(dòng)紀(jì)元 iRe-VLA 最先突破 VLA 強(qiáng)化學(xué)習(xí)困境,也是 π*0.6 的引用來源

對(duì)于VLA的強(qiáng)化學(xué)習(xí)困境,行業(yè)內(nèi)其實(shí)有三種類型的解決方案:

  • 第一種:外掛式干預(yù):一些嘗試不敢輕易觸碰龐大的 VLA 參數(shù)。比如V-GPS (Value-Guided Policy Steering)訓(xùn)練一個(gè)通用的價(jià)值函數(shù),在推理時(shí),讓 VLA 生成多個(gè)候選動(dòng)作,用價(jià)值函數(shù)對(duì)它們進(jìn)行打分和重排序,選擇最好的動(dòng)作執(zhí)行;DSRL訓(xùn)練一個(gè)小型的 RL 策略來優(yōu)化擴(kuò)散模型的輸入噪聲,通過改變輸入噪聲來“引導(dǎo)”凍結(jié)的 VLA 生成高價(jià)值動(dòng)作。這種方法雖然安全,但 VLA沒有真正發(fā)生質(zhì)變。
  • 第二種:暴力美學(xué):VLAC為代表的工作嘗試直接用 PPO 等算法全量微調(diào) VLA。雖然勇氣可嘉,但大模型在 RL 訓(xùn)練中極易出現(xiàn)災(zāi)難性遺忘和模型坍塌(Model Collapse),且對(duì)算力的要求很高。
  • 第三種是從探索到內(nèi)化的循環(huán)。讓我們眼前一亮的是一篇以前沒有跟蹤過的,清華和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通過在線強(qiáng)化學(xué)習(xí)改進(jìn)視覺-語言-動(dòng)作模型),來自于清華大學(xué)助理教授、星動(dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇老師組。星動(dòng)紀(jì)元這項(xiàng)研究是全球最早將在線RL引入VLA的工作,在ICRA發(fā)表,π*0.6 也引用了該工作,是中美兩方在RL上的頂尖對(duì)話。

這兩篇文章代表了第三種路徑。它們不再盲目地套用 RL 算法,而是利用監(jiān)督微調(diào)(SFT)將 RL 探索出的高價(jià)值行為(成功軌跡或高優(yōu)勢動(dòng)作)穩(wěn)定地內(nèi)化為模型的原生能力。

π*0.6 不在此詳細(xì)贅述。我們來看下 iRe-VLA。



  • 論文:Improving Vision-Language-Action Model with Online Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2501.16664

iRe-VLA 的作者設(shè)計(jì)了一個(gè)兩階段循環(huán)迭代的學(xué)習(xí)流程。這個(gè)流程的核心思想是:分而治之,動(dòng)靜結(jié)合。

星動(dòng)紀(jì)元:iRe-VLA 模型架構(gòu)設(shè)計(jì)

VLA 模型由兩部分組成:

VLM 主干(大腦):使用預(yù)訓(xùn)練的大型視覺-語言模型(如 BLIP-2),負(fù)責(zé)理解圖像和指令,擁有豐富的世界知識(shí)。

Action Head(四肢):一個(gè)輕量級(jí)的動(dòng)作輸出層(由 Token Learner 和 MLP 構(gòu)成),負(fù)責(zé)將 VLM 的深層特征轉(zhuǎn)化為具體的機(jī)器人控制信號(hào)(如機(jī)械臂的移動(dòng)、夾爪的開合)。

為了提高效率,作者還使用了LoRA(低秩適應(yīng))技術(shù),避免全量微調(diào)所有參數(shù)。



圖注:模型架構(gòu)

核心流程:兩個(gè)階段的交替

iRe-VLA 方法不是一次性訓(xùn)練,而是在以下兩個(gè)階段中反復(fù)迭代:

第一階段:在線強(qiáng)化學(xué)習(xí)(探索與發(fā)現(xiàn))



圖注:穩(wěn)定探索

在這個(gè)階段,機(jī)器人的目標(biāo)是去試錯(cuò),探索如何完成新任務(wù)。

  • 凍結(jié)大腦(Freeze VLM):為了防止模型崩潰和減少計(jì)算量,作者凍結(jié)了巨大的 VLM 主干參數(shù)。
  • 只練四肢(Train Action Head):僅訓(xùn)練輕量級(jí)的 Action Head。同時(shí)引入一個(gè)Critic Head(評(píng)價(jià)網(wǎng)絡(luò))來輔助訓(xùn)練。
  • 優(yōu)勢:因?yàn)橹桓潞苌俚膮?shù),訓(xùn)練非常穩(wěn)定,而且計(jì)算量很小,可以在本地機(jī)器(如單張 4090 顯卡)上高效運(yùn)行。機(jī)器人通過不斷嘗試,找到了一些能夠成功完成任務(wù)的軌跡(Success Trajectories)。

第二階段:監(jiān)督學(xué)習(xí)(鞏固與內(nèi)化)

在第一階段,機(jī)器人可能只是碰巧學(xué)會(huì)了操作,為了讓這種能力真正融入模型,需要進(jìn)行第二階段。



圖注:融合與升華

  • 全模型微調(diào):解凍 VLM 主干,對(duì)整個(gè)模型(包括 LoRA 參數(shù))進(jìn)行訓(xùn)練。
  • 混合數(shù)據(jù):訓(xùn)練數(shù)據(jù)不僅包含第一階段探索到的新成功軌跡,還混合了原始的專家示范數(shù)據(jù)。
  • 優(yōu)勢:這不僅利用了大模型的強(qiáng)大表達(dá)能力來記住新技能,還因?yàn)榛旌狭伺f數(shù)據(jù),有效防止了災(zāi)難性遺忘(即學(xué)會(huì)了新任務(wù),忘了舊任務(wù))。這一步計(jì)算量大,通常放在云端服務(wù)器(如 A100 集群)上進(jìn)行。



圖注:兩階段

總結(jié):機(jī)器人先在“小參數(shù)模式”下大膽探索(階段1),找到方法后,再在“全參數(shù)模式”下把經(jīng)驗(yàn)固化到大腦中(階段2),如此循環(huán)往復(fù)。



圖注:循環(huán)往復(fù)

三、 實(shí)驗(yàn)結(jié)果與分析



圖注:三種情況的實(shí)驗(yàn)結(jié)果分析

作者在仿真環(huán)境(MetaWorld, Franka Kitchen)和真實(shí)世界(Panda 機(jī)械臂)中進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了該方法的有效性。

訓(xùn)練穩(wěn)定性對(duì)比

實(shí)驗(yàn)顯示,如果使用標(biāo)準(zhǔn)的 PPO 算法直接微調(diào) VLA 模型,成功率曲線震蕩劇烈,甚至在很多任務(wù)上性能下降(變差了)。而 iRe-VLA 的曲線則穩(wěn)步上升,證明了“分階段凍結(jié)參數(shù)”對(duì)于穩(wěn)定訓(xùn)練至關(guān)重要。



圖注:曲線對(duì)比

仿真環(huán)境表現(xiàn)



圖注:仿真環(huán)境中具備壓倒性優(yōu)勢

MetaWorld & Franka Kitchen:在這些基準(zhǔn)測試中,iRe-VLA 不僅在原本學(xué)過的任務(wù)上表現(xiàn)更好(例如從 43% 提升到 83%),還能通過在線探索學(xué)會(huì)完全沒見過的任務(wù)。

對(duì)比 SFT:相比僅進(jìn)行監(jiān)督微調(diào)的模型,經(jīng)過 iRe-VLA 迭代后的模型在所有任務(wù)類別(專家任務(wù)、RL 訓(xùn)練任務(wù)、未見過的測試任務(wù))上的成功率都有顯著提升。



圖注:不同后訓(xùn)練策略的對(duì)比

真實(shí)世界挑戰(zhàn)(Real-World Panda)

這是最令人印象深刻的部分。作者讓機(jī)器人去抓取它從未見過的物體(如形狀不規(guī)則的茄子、胡蘿卜)。



圖注:真實(shí)世界的提升

  • 初始狀態(tài):僅靠專家數(shù)據(jù)(SFT),機(jī)器人抓取這些新物體的成功率只有 35% 左右。
  • 訓(xùn)練后:經(jīng)過 iRe-VLA 的在線學(xué)習(xí)(利用 SACfD 算法提高樣本效率),抓取成功率飆升到了 80%。
  • 泛化能力:更有趣的是,訓(xùn)練后的模型去抓取完全未參與訓(xùn)練的第三類物體,成功率也從 37% 提升到了 61%。這說明通過強(qiáng)化學(xué)習(xí),模型不僅學(xué)會(huì)了抓茄子,還變得更聰明、更通用了。



圖注:實(shí)驗(yàn)和成功率

消融實(shí)驗(yàn):為什么要解凍 VLM?

作者做了一個(gè)對(duì)比實(shí)驗(yàn):如果在第二階段依然凍結(jié) VLM,只訓(xùn)練 Action Head(即 iRe-VLA-freeze),效果如何?

結(jié)果顯示,如果不解凍 VLM,模型的性能提升會(huì)遇到瓶頸。這證明了在第二階段解凍大模型參數(shù)是必要的,這樣才能利用大模型深層的特征表示能力來徹底掌握復(fù)雜技能,并提升泛化性。



圖注:消融實(shí)驗(yàn)

四、 結(jié)論與意義

這篇文章提出了一種切實(shí)可行的方案,解決了大模型在機(jī)器人控制中落地難的問題。

  • 穩(wěn)定性:解決了大模型直接上 RL 容易訓(xùn)崩的問題。
  • 經(jīng)濟(jì)性:巧妙地分配了算力,讓本地機(jī)器人負(fù)責(zé)輕量級(jí)探索,云端服務(wù)器負(fù)責(zé)重量級(jí)消化,符合實(shí)際部署場景。
  • 持續(xù)學(xué)習(xí):證明了機(jī)器人可以通過自我探索,在不遺忘舊技能的前提下,不斷掌握新物體和新任務(wù)的操作技能。



圖注:該架構(gòu)的優(yōu)點(diǎn)

國內(nèi)的星動(dòng)紀(jì)元的iRe-VLA 的基礎(chǔ)上,海外的PI π*0.6,都為我們揭示出了VLA在線強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展前景。這條路還有很多未盡的研究話題,比如如何高效探索與稀疏獎(jiǎng)勵(lì)下的新技能學(xué)習(xí),如何面向大規(guī)模 VLA 構(gòu)造穩(wěn)定可擴(kuò)展 RL 算法等。

未來發(fā)展,我們拭目以待。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
云南體育局:成立調(diào)查組全面開展調(diào)查

云南體育局:成立調(diào)查組全面開展調(diào)查

澎湃新聞
2025-12-15 14:55:12
昔日曼聯(lián)前鋒重生:短短3年 身價(jià)從0漲到5000萬!再回巔峰

昔日曼聯(lián)前鋒重生:短短3年 身價(jià)從0漲到5000萬!再回巔峰

葉青足球世界
2025-12-15 20:59:23
重大突破!彩虹-7高空高速隱身無人機(jī)成功首飛

重大突破!彩虹-7高空高速隱身無人機(jī)成功首飛

新京報(bào)
2025-12-15 07:40:04
里弗斯談45分慘敗:這可能是我參與過的最令人失望的比賽

里弗斯談45分慘?。哼@可能是我參與過的最令人失望的比賽

北青網(wǎng)-北京青年報(bào)
2025-12-15 11:56:03
上饒望仙谷深夜大火!26億網(wǎng)紅景區(qū)燒出隱患,游客曝實(shí)情藏關(guān)聯(lián)

上饒望仙谷深夜大火!26億網(wǎng)紅景區(qū)燒出隱患,游客曝實(shí)情藏關(guān)聯(lián)

奇思妙想草葉君
2025-12-14 21:41:06
萬億順差背后,為什么“擴(kuò)大內(nèi)需”成了最緊迫的事?

萬億順差背后,為什么“擴(kuò)大內(nèi)需”成了最緊迫的事?

知本設(shè)
2025-12-13 10:32:01
個(gè)人微信收款被查!個(gè)人收款高于這個(gè)數(shù),要小心了!

個(gè)人微信收款被查!個(gè)人收款高于這個(gè)數(shù),要小心了!

會(huì)計(jì)人
2025-12-15 10:04:02
我國已進(jìn)入拉尼娜狀態(tài),今冬氣候如何?國家氣候中心解釋

我國已進(jìn)入拉尼娜狀態(tài),今冬氣候如何?國家氣候中心解釋

環(huán)球網(wǎng)資訊
2025-12-15 11:55:40
雨夾雪!8級(jí)大風(fēng)!湖北要降溫了

雨夾雪!8級(jí)大風(fēng)!湖北要降溫了

極目新聞
2025-12-15 19:50:06
銀行人提醒:12月起,建議家里留6萬元現(xiàn)金!這4點(diǎn)原因很現(xiàn)實(shí)

銀行人提醒:12月起,建議家里留6萬元現(xiàn)金!這4點(diǎn)原因很現(xiàn)實(shí)

小白鴿財(cái)經(jīng)
2025-12-15 07:05:03
跟親家過了個(gè)年后,我才明白,買房買車,都不如幫女兒看清3件事

跟親家過了個(gè)年后,我才明白,買房買車,都不如幫女兒看清3件事

黑貓故事所
2025-12-13 22:34:05
太操勞了!王思聰現(xiàn)身日本,多名美女作陪,其發(fā)量和發(fā)色引發(fā)關(guān)注

太操勞了!王思聰現(xiàn)身日本,多名美女作陪,其發(fā)量和發(fā)色引發(fā)關(guān)注

火山詩話
2025-12-14 05:28:17
泰國陸軍:目前不存在?;鸢才?>
    </a>
        <h3>
      <a href=新華社
2025-12-14 15:57:02
不要忙著打日本,中國應(yīng)該去全國各地的武器倉庫突擊大檢查!

不要忙著打日本,中國應(yīng)該去全國各地的武器倉庫突擊大檢查!

時(shí)分秒說
2025-12-09 12:11:20
染發(fā)致癌是真的嗎?哈佛大學(xué)調(diào)查11萬人長達(dá)36年,結(jié)論終于出來了

染發(fā)致癌是真的嗎?哈佛大學(xué)調(diào)查11萬人長達(dá)36年,結(jié)論終于出來了

39健康網(wǎng)
2025-12-15 18:55:58
三分6中4!失意神射離開遼寧大爆發(fā) 第3春沒跑了?

三分6中4!失意神射離開遼寧大爆發(fā) 第3春沒跑了?

體娛天下
2025-12-15 08:28:37
楊鳴:質(zhì)疑讓大家憋著一股勁,在斗志方面沒有失去老遼籃的傳統(tǒng)和精神

楊鳴:質(zhì)疑讓大家憋著一股勁,在斗志方面沒有失去老遼籃的傳統(tǒng)和精神

懂球帝
2025-12-15 21:58:33
顛覆認(rèn)知!決定你壽命的第一要素,根本不是運(yùn)動(dòng),也不是飲食!

顛覆認(rèn)知!決定你壽命的第一要素,根本不是運(yùn)動(dòng),也不是飲食!

徐德文科學(xué)頻道
2025-12-12 22:58:58
致命失誤吞里程悲!庫里48+12三分又刷九紀(jì)錄 37歲巨星再超喬丹

致命失誤吞里程悲!庫里48+12三分又刷九紀(jì)錄 37歲巨星再超喬丹

顏小白的籃球夢
2025-12-15 12:39:27
“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

“牡丹花下死,做鬼也風(fēng)流”,這一次,74歲的張紀(jì)中徹底成了笑話

洲洲影視娛評(píng)
2025-12-08 19:52:00
2025-12-15 23:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11925文章數(shù) 142511關(guān)注度
往期回顧 全部

科技要聞

大佬冷酷預(yù)言:未來15年 人形機(jī)器人成廢鐵

頭條要聞

55歲丈夫收到小卡片半年花30多萬 妻子:一天就13人次

頭條要聞

55歲丈夫收到小卡片半年花30多萬 妻子:一天就13人次

體育要聞

戰(zhàn)勝完全體雷霆,馬刺“瘋狂動(dòng)物城”只是半成品

娛樂要聞

何晴告別式現(xiàn)場,前夫許亞軍雙眼泛紅?

財(cái)經(jīng)要聞

新農(nóng)合漲到400元 農(nóng)民斷繳背后的扎心真相

汽車要聞

主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
時(shí)尚
公開課
軍事航空

房產(chǎn)要聞

6.66億摘地,海南封關(guān)大動(dòng)作,千畝海澄新城震撼登場

手機(jī)要聞

澎湃OS再次公布進(jìn)展通報(bào):10個(gè)問題,修復(fù)了五個(gè)!

外套+半身裙封神穿搭!6款顯瘦神器保暖不臃腫,冬天美得出彩

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基稱烏方已妥協(xié)不加入北約 俄方發(fā)聲

無障礙瀏覽 進(jìn)入關(guān)懷版 人妻少妇 亚洲| 免费人妻无码不卡中文字幕系| 亚洲精品午夜无码电影网| 人人天天夜夜AV| 少妇激情av一区二区三区| 疯狂做受在线观看| 手机在线观看毛片| 免费一级毛片不卡在线播放| 少妇精品无码一区二区三区卖人| 色熟女一区二区| 2021年国产精品每日更新| 日本熟妇人妻xxxxx视频| 精品国产免费久久久久久蜜桃| 亚洲av色在线观看国产| 人妻双龙无码一区二区| 免费一级成人AA片视频| 久久久久久国产精品无码下载| Chinese熟女一区二区| 毛片精品免费视频| 日韩天堂网| 18一19一级毛片| 中文无码热在线视频| 99久久国产综合精品女| 国产freesexvideos中国麻豆| 欧美性爱激情久久| 无码无需播放器av网站| 男ji大巴进入女人的直播| 四虎国产精品永久地址入口| 高清无码免费啪啪啪视频| 国产丝足在线| 日韩一区无码| 亚洲男人av天堂午夜在| 99久久99久久久精品久久| 爆乳无码尤物Av蜜臀av | 国产免费牲交视频| 黑人巨大精品欧美一区二区奶水| 国产精品国三级国产av| 无码无遮挡又大又爽又黄的视频 | 一本色道久久综合狠狠躁| 亚洲一久久久久久久久| 综合大色堂一二三区|