論文題目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining論文鏈接:https://arxiv.org/abs/2508.09822項(xiàng)目主頁(yè):https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/
無(wú)需動(dòng)作預(yù)訓(xùn)練,物理自回歸模型讓機(jī)器人“從視頻學(xué)會(huì)操作”
該論文作者來(lái)自中山大學(xué)、拓元智慧AI實(shí)驗(yàn)室團(tuán)隊(duì),項(xiàng)目負(fù)責(zé)人為王廣潤(rùn)博士。王廣潤(rùn),國(guó)家級(jí)“四青人才”、拓元智慧首席科學(xué)家、中山大學(xué)計(jì)算機(jī)學(xué)院副教授、博士生導(dǎo)師、華為戰(zhàn)略研究院人才基金獲得者、前牛津大學(xué)研究員,主要研究方向包括新一代AI架構(gòu)、大物理模型、多模態(tài)生成式AI等。
近日,由中山大學(xué)、拓元智慧AI實(shí)驗(yàn)室聯(lián)合提出的全新“物理自回歸模型(Physical Autoregressive Model,PAR)”打通了“預(yù)判未來(lái)視頻幀—生成動(dòng)作軌跡”的統(tǒng)一鏈路,將視覺(jué)幀與動(dòng)作共同編碼為“物理token”,在無(wú)需動(dòng)作預(yù)訓(xùn)練的前提下即可學(xué)習(xí)物理世界的動(dòng)態(tài)規(guī)律?;贛aniSkill基準(zhǔn),PAR 在PushCube任務(wù)上實(shí)現(xiàn)100%成功率,并在其余任務(wù)上與需要?jiǎng)幼黝A(yù)訓(xùn)練的強(qiáng)基線表現(xiàn)相當(dāng),顯示了從大規(guī)模視頻預(yù)訓(xùn)練向機(jī)器人操控遷移的可行路徑。
四大核心技術(shù)點(diǎn):
· 全局記憶的自回歸框架:構(gòu)建從過(guò)去到現(xiàn)在的所有“觀察-動(dòng)作”歷史,借鑒GPT等語(yǔ)言模型的工作模式,基于全部N個(gè)歷史token預(yù)測(cè)下一步(N+1步)最合理的行動(dòng)。
· 統(tǒng)一的“物理token”表征:將幀與動(dòng)作拼接為一個(gè)序列單元,直接建模機(jī)器人與環(huán)境的聯(lián)合演化;模型以自回歸方式逐步預(yù)測(cè)下一步視頻與動(dòng)作。
· 連續(xù)空間的DiT去分詞器(de-tokenizer):以擴(kuò)散Transformer(DiT)建模幀與動(dòng)作的連續(xù)分布,避免離散量化帶來(lái)的誤差累積,并促進(jìn)兩模態(tài)的相互增強(qiáng)。
· 面向控制的因果掩碼與效率機(jī)制:引入“動(dòng)作對(duì)幀的單向注意力”,形成隱式逆運(yùn)動(dòng)學(xué);同時(shí)結(jié)合并行訓(xùn)練與KV-cache提升推理效率。
一、研究背景
在機(jī)器人操控領(lǐng)域,獲取大規(guī)模、標(biāo)注完備的人類示教數(shù)據(jù)成本高昂?,F(xiàn)有不少方法把語(yǔ)言大模型用于行動(dòng)策略,但文本與動(dòng)作模態(tài)之間存在天然鴻溝。相比之下,自回歸視頻生成模型天生擅長(zhǎng)“基于過(guò)去預(yù)測(cè)未來(lái)”,與動(dòng)作生成的目標(biāo)更一致,因此成為遷移“世界知識(shí)”的理想載體。
此外,要讓機(jī)器人“知行合一”,不僅要“想得明白”,更要“做得精準(zhǔn)”?,F(xiàn)有的方法往往只依賴于“當(dāng)前幀+前一幀”的“局部觀察”,缺乏對(duì)長(zhǎng)程歷史的記憶。與之相比,具備全局記憶的自回歸框架,可通過(guò)歷史全量token預(yù)測(cè)未來(lái)狀態(tài),實(shí)現(xiàn)“視覺(jué)-動(dòng)作”的全局關(guān)聯(lián)建模,有效降低機(jī)器人在動(dòng)態(tài)場(chǎng)景中(如機(jī)器人抓取、物體堆疊)因“短視”導(dǎo)致的“動(dòng)作漂移”問(wèn)題。
二、方法:PAR 如何把“看見(jiàn)的未來(lái)”變成“下一步動(dòng)作”
整體框架:從“看—想—做”的自回歸閉環(huán)PAR 的核心想法是把機(jī)器人與環(huán)境的交互過(guò)程,統(tǒng)一描述成一串“物理token”。每個(gè) token 同時(shí)包含這一刻的視覺(jué)畫面和動(dòng)作片段。模型像講故事一樣按時(shí)間讀入這些token,用一個(gè)因果式Transformer形成對(duì)當(dāng)前情境的理解,然后同時(shí)預(yù)測(cè)下一張將看到的畫面以及下一步要執(zhí)行的動(dòng)作。新的畫面和動(dòng)作再被接回序列,進(jìn)入下一輪預(yù)測(cè),形成“預(yù)測(cè)—執(zhí)行—再預(yù)測(cè)”的閉環(huán)。直觀地說(shuō),PAR并不是先獨(dú)立學(xué)會(huì)“看視頻”,再額外學(xué)會(huì)“怎么動(dòng)”,而是把兩件事合在一起、每一步都邊看邊想邊做。這種端到端的整體建模,避免了兩階段方法常見(jiàn)的分布偏移,也更貼近真實(shí)控制場(chǎng)景里“在行動(dòng)中不斷校正”的節(jié)奏。
圖1:整體框架:從“看—想—做”的物理自回歸閉環(huán)
生成細(xì)節(jié):在“連續(xù)空間”里同時(shí)生成視頻與動(dòng)作傳統(tǒng)做法常把視頻和動(dòng)作先量化成離散碼,再去預(yù)測(cè),這會(huì)引入不可忽略的量化誤差。PAR 選擇在連續(xù)空間里直接建模:
· 統(tǒng)一條件,雙分支生成。上述 Transformer 得到的“情境表示”被同時(shí)送入兩個(gè)生成器:一個(gè)負(fù)責(zé)“把下一張畫面逐步復(fù)原出來(lái)”(視頻分支),另一個(gè)負(fù)責(zé)“把下一段動(dòng)作逐步生成出來(lái)”(動(dòng)作分支)。兩個(gè)分支共享同一份條件,因此在訓(xùn)練時(shí)能彼此約束、相互增強(qiáng)——看到的未來(lái)會(huì)直接影響該怎么動(dòng),反過(guò)來(lái)更合理的動(dòng)作也會(huì)促使畫面預(yù)測(cè)更貼近真實(shí)。
· 逐步細(xì)化,貼近真實(shí)。兩個(gè)分支都采用逐步細(xì)化的生成方式(多步從粗到細(xì)),這讓結(jié)果更加平滑、細(xì)節(jié)更真實(shí),尤其適合對(duì)軌跡連續(xù)性和視覺(jué)連貫性都很敏感的機(jī)器人任務(wù)。
· 輕量動(dòng)作解碼器。動(dòng)作本身維度較低,采用更輕量的生成器即可穩(wěn)定產(chǎn)出可控、平滑的控制量,便于在線部署。
注意力與控制:時(shí)間因果 + 幀內(nèi)雙向 + 動(dòng)作←視覺(jué)單向為把“預(yù)測(cè)未來(lái)”和“生成動(dòng)作”真正做成控制器可用的能力,PAR 在注意力結(jié)構(gòu)上加入了三條關(guān)鍵約束:
1. 時(shí)間因果。跨時(shí)間維度只能“看過(guò)去、不能看未來(lái)”,保證推理時(shí)與真實(shí)執(zhí)行一致,避免“偷看答案”。
2. 幀內(nèi)雙向。同一幀內(nèi)部,圖像的各個(gè)區(qū)域可以相互關(guān)注,讓模型準(zhǔn)確理解目標(biāo)、障礙和機(jī)械臂之間的空間關(guān)系,從而把下一張畫面預(yù)測(cè)得更可信。
3. 動(dòng)作←視覺(jué)的單向通道。當(dāng)前步待預(yù)測(cè)的動(dòng)作可以關(guān)注同一時(shí)刻待預(yù)測(cè)的視覺(jué)表示,但反過(guò)來(lái)不行;直覺(jué)上,這等價(jià)于在網(wǎng)絡(luò)里植入一種“從期望實(shí)現(xiàn)的外觀與相對(duì)位置反推該怎么動(dòng)”的先驗(yàn)(可把它理解為一種隱式逆運(yùn)動(dòng)學(xué))。這使得動(dòng)作更緊貼關(guān)鍵像素區(qū)域(例如方塊或目標(biāo)區(qū)),減小偏差累積。在工程層面,推理時(shí)配合KV-cache等增量計(jì)算,只對(duì)新增的 token 計(jì)算注意力,長(zhǎng)序列滾動(dòng)的時(shí)延增長(zhǎng)更可控,適合在線控制。
三、評(píng)測(cè)與結(jié)果
· 主要評(píng)測(cè)結(jié)果:在maniskill基準(zhǔn)中,PAR在PushCube達(dá)到100%成功率,總體成績(jī)居第二,僅次于需要?jiǎng)幼黝A(yù)訓(xùn)練的RDT;在PickCube與StackCube上也超過(guò)或接近需要?jiǎng)幼黝A(yù)訓(xùn)練的強(qiáng)基準(zhǔn)方法(總體平均74%)。
· 對(duì)齊與可解釋性:如圖2所示,可視化顯示預(yù)測(cè)視頻與實(shí)際執(zhí)行在關(guān)鍵動(dòng)作時(shí)序與軌跡上高度一致;如圖3所示,注意力圖表明不同頭會(huì)在幀/動(dòng)作token與關(guān)鍵像素區(qū)域(方塊、目標(biāo)區(qū)、機(jī)械臂)之間進(jìn)行有針對(duì)性的聚焦。
圖2:預(yù)測(cè)視頻與實(shí)際執(zhí)行關(guān)聯(lián)可視化
圖3:注意力圖
PAR證明了“從視頻世界遷移物理知識(shí)”用于機(jī)器人操控的有效性:不需要?jiǎng)幼黝A(yù)訓(xùn)練,即可同時(shí)實(shí)現(xiàn)未來(lái)視頻預(yù)測(cè)與一致的動(dòng)作軌跡生成,為解決示教數(shù)據(jù)稀缺提供新路徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.