文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)
當(dāng)大語(yǔ)言模型(LLM)和視覺(jué)語(yǔ)言模型(VLM)的能力不斷溢出到機(jī)器人領(lǐng)域,一個(gè)激動(dòng)人心的新方向——視覺(jué)-語(yǔ)言-動(dòng)作(Vision-Language-Action, VLA)模型,正成為通往通用機(jī)器人之路的關(guān)鍵鑰匙。最近,來(lái)自東京大學(xué)、牛津大學(xué)和德克薩斯大學(xué)奧斯汀分校的研究者們聯(lián)手,在《IEEE Access》上發(fā)表了一篇極為全面的綜述,系統(tǒng)性地梳理了VLA模型的全貌。
這不僅僅是一篇簡(jiǎn)單的文獻(xiàn)回顧,更是一份面向真實(shí)世界應(yīng)用的“全棧式”指南,涵蓋了從軟件算法到硬件平臺(tái)、從數(shù)據(jù)收集到模型評(píng)估的方方面面。CV君覺(jué)得,對(duì)于任何想要了解或投身于具身智能領(lǐng)域的研究者和工程師來(lái)說(shuō),這篇論文都將是一份寶貴的參考資料。
論文 : Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
作者 : Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu
機(jī)構(gòu) : 東京大學(xué)、牛津大學(xué)、德克薩斯大學(xué)奧斯汀分校
論文地址 : https://arxiv.org/abs/2510.07077
項(xiàng)目主頁(yè) : https://vla-survey.github.io
在過(guò)去,機(jī)器人系統(tǒng)通常將感知、語(yǔ)言理解和動(dòng)作執(zhí)行解耦處理,這限制了其在復(fù)雜、未知任務(wù)中的泛化能力。而VLA模型的出現(xiàn),旨在打破這些模態(tài)之間的壁壘。
簡(jiǎn)單來(lái)說(shuō),VLA模型是一個(gè)統(tǒng)一的端到端框架,它接收視覺(jué)觀察(看什么)和自然語(yǔ)言指令(做什么)作為輸入,并直接生成機(jī)器人的控制動(dòng)作(怎么做)。其核心目標(biāo)是學(xué)習(xí)一個(gè)能夠跨越不同任務(wù)、物體、機(jī)器人形態(tài)和環(huán)境的通用策略,從而讓機(jī)器人僅需少量甚至無(wú)需額外的任務(wù)數(shù)據(jù),就能靈活、可擴(kuò)展地部署于真實(shí)世界。
這篇綜述的結(jié)構(gòu)非常清晰,從VLA模型面臨的核心挑戰(zhàn)出發(fā),系統(tǒng)地回顧了其發(fā)展歷程、關(guān)鍵技術(shù)和未來(lái)方向。
VLA模型的演進(jìn)之路
VLA模型的發(fā)展并非一蹴而就,論文通過(guò)一張時(shí)間線圖清晰地展示了其技術(shù)演進(jìn)脈絡(luò)。
早期CNN ?? ?? : 以CLIPort為代表,首次嘗試將預(yù)訓(xùn)練的VLM(如CLIP)用于提取視覺(jué)和語(yǔ)言特征,實(shí)現(xiàn)了端到端的物體操縱。但基于CNN的架構(gòu)在統(tǒng)一多模態(tài)信息和擴(kuò)展性方面存在瓶頸。
基于Transformer和VLM的規(guī)模化策略 : 隨著Transformer架構(gòu)的興起,以谷歌的RT-1、RT-2為代表的模型,利用大規(guī)模真實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練,并借助強(qiáng)大VLM(如PaLM-E)作為骨干網(wǎng)絡(luò),展現(xiàn)了出色的泛化能力。這一時(shí)期的代表作還有OpenVLA,它成為了一個(gè)主流的開(kāi)源VLA架構(gòu)。
擴(kuò)散/流匹配技術(shù)的融合 : 為了生成更平滑、更連續(xù)的動(dòng)作,Octo、RDT-1B、π0等模型將擴(kuò)散模型(Diffusion Models)或流匹配(Flow Matching)技術(shù)集成到動(dòng)作解碼器中,顯著提升了機(jī)器人控制的實(shí)時(shí)性和穩(wěn)定性。
近期趨勢(shì):潛在動(dòng)作與層級(jí)控制 : 最新的研究,如LAPA、π0.5、GR00T N1,則開(kāi)始關(guān)注從視頻中學(xué)習(xí)潛在動(dòng)作(Latent Action)以及構(gòu)建層級(jí)控制策略,旨在將高層的任務(wù)規(guī)劃與底層的電機(jī)執(zhí)行更優(yōu)雅地結(jié)合起來(lái)。
論文將現(xiàn)有的VLA模型歸納為三大核心架構(gòu):傳感器-動(dòng)作模型、世界模型和可供性模型。
傳感器-動(dòng)作模型 (Sensorimotor Models)
這是最直接、最主流的VLA架構(gòu),它將視覺(jué)、語(yǔ)言等傳感器輸入直接映射到動(dòng)作輸出。論文進(jìn)一步細(xì)分了七種具體的實(shí)現(xiàn)方式,展示了該領(lǐng)域架構(gòu)設(shè)計(jì)的多樣性。
從最初的“Transformer + 離散動(dòng)作”到最新的“VLM + 擴(kuò)散Transformer”,我們可以看到一條清晰的技術(shù)路線:模型骨干從零開(kāi)始訓(xùn)練的Transformer演變?yōu)槔没ヂ?lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的VLM,動(dòng)作表示也從離散的Token演變?yōu)橛蓴U(kuò)散或流匹配生成的連續(xù)控制信號(hào)。
世界模型 (World Models)
與直接輸出動(dòng)作不同,世界模型的核心思想是“預(yù)測(cè)未來(lái)”。它根據(jù)當(dāng)前的觀察和語(yǔ)言指令,預(yù)測(cè)未來(lái)世界的感官狀態(tài)(如未來(lái)的圖像序列)。然后,基于這些預(yù)測(cè)來(lái)規(guī)劃和生成動(dòng)作。這種方式使得機(jī)器人具備了更強(qiáng)的規(guī)劃和多模態(tài)推理能力。
可供性模型 (Affordance-based Models)
“可供性”(Affordance)是一個(gè)源于心理學(xué)的概念,指環(huán)境為行動(dòng)者提供的行動(dòng)可能性。在機(jī)器人領(lǐng)域,它表示物體或場(chǎng)景的可操作屬性??晒┬阅P褪紫然谡Z(yǔ)言指令預(yù)測(cè)出環(huán)境中的可供性(例如,一個(gè)杯子“可以被拿起”的區(qū)域),然后基于這些可供性來(lái)生成具體動(dòng)作。這種方式讓機(jī)器人的行為更具解釋性和魯棒性。
VLA模型的訓(xùn)練與實(shí)現(xiàn)
訓(xùn)練一個(gè)強(qiáng)大的VLA模型,離不開(kāi)有效的學(xué)習(xí)范式。論文總結(jié)了三種主流策略:
監(jiān)督學(xué)習(xí) : 這是最主要的方式,通常以模仿學(xué)習(xí)(Imitation Learning)的形式,在“圖像-語(yǔ)言-動(dòng)作”配對(duì)的數(shù)據(jù)集上進(jìn)行訓(xùn)練。
自監(jiān)督學(xué)習(xí) : 用于學(xué)習(xí)模態(tài)間的一致性(如語(yǔ)言指令與目標(biāo)圖像的對(duì)齊)或從無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)有意義的表征(如從人類(lèi)視頻中學(xué)習(xí)潛在動(dòng)作)。
強(qiáng)化學(xué)習(xí) (RL) : RL常用于微調(diào)通過(guò)模仿學(xué)習(xí)預(yù)訓(xùn)練好的VLA模型,以提升其在真實(shí)世界中的魯棒性和成功率,或用于訓(xùn)練底層控制器。

這篇綜述最具價(jià)值的部分之一,就是它提供了一個(gè)完整的“全?!币暯?,詳細(xì)討論了將VLA模型部署到真實(shí)世界所涉及的各個(gè)環(huán)節(jié)。
機(jī)器人平臺(tái) : 涵蓋了機(jī)械臂、靈巧手、移動(dòng)機(jī)器人、四足機(jī)器人和人形機(jī)器人等VLA研究中常用的硬件。
數(shù)據(jù)收集 : 介紹了遙操作、代理設(shè)備(Proxy Devices)和人類(lèi)數(shù)據(jù)收集等多種方法。
公開(kāi)數(shù)據(jù)集 : 系統(tǒng)整理了近年來(lái)用于VLA研究的真實(shí)世界機(jī)器人數(shù)據(jù)集,這對(duì)研究者來(lái)說(shuō)是極為寶貴的資源。

評(píng)估基準(zhǔn) : 同樣,論文也匯總了主流的VLA評(píng)估仿真環(huán)境及其關(guān)鍵特性,為模型的公平比較提供了依據(jù)。

CV君認(rèn)為,這篇綜述通過(guò)對(duì)VLA模型進(jìn)行系統(tǒng)性的全棧式梳理,不僅清晰地描繪了該領(lǐng)域的技術(shù)圖景和發(fā)展脈絡(luò),還為研究者和工程師提供了極具價(jià)值的實(shí)踐指南。它就像一張?jiān)敿?xì)的地圖,指引著我們?nèi)绾卧赩LA這個(gè)充滿機(jī)遇與挑戰(zhàn)的新大陸上探索。
大家對(duì)VLA模型的未來(lái)怎么看?歡迎在評(píng)論區(qū)分享你的見(jiàn)解!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.