網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

東京大學(xué)、牛津大學(xué)等聯(lián)合發(fā)布VLA萬(wàn)字綜述：機(jī)器人邁向通用智能的全棧指南

2025-10-11 21:01:32　來(lái)源: 算法與數(shù)學(xué)之美

北京舉報(bào)

分享至

文章來(lái)源：我愛(ài)計(jì)算機(jī)視覺(jué)（ID：aicvml）

當(dāng)大語(yǔ)言模型（LLM）和視覺(jué)語(yǔ)言模型（VLM）的能力不斷溢出到機(jī)器人領(lǐng)域，一個(gè)激動(dòng)人心的新方向——視覺(jué)-語(yǔ)言-動(dòng)作（Vision-Language-Action, VLA）模型，正成為通往通用機(jī)器人之路的關(guān)鍵鑰匙。最近，來(lái)自東京大學(xué)、牛津大學(xué)和德克薩斯大學(xué)奧斯汀分校的研究者們聯(lián)手，在《IEEE Access》上發(fā)表了一篇極為全面的綜述，系統(tǒng)性地梳理了VLA模型的全貌。

這不僅僅是一篇簡(jiǎn)單的文獻(xiàn)回顧，更是一份面向真實(shí)世界應(yīng)用的“全棧式”指南，涵蓋了從軟件算法到硬件平臺(tái)、從數(shù)據(jù)收集到模型評(píng)估的方方面面。CV君覺(jué)得，對(duì)于任何想要了解或投身于具身智能領(lǐng)域的研究者和工程師來(lái)說(shuō)，這篇論文都將是一份寶貴的參考資料。

論文 : Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
作者 : Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu
機(jī)構(gòu) : 東京大學(xué)、牛津大學(xué)、德克薩斯大學(xué)奧斯汀分校
論文地址 : https://arxiv.org/abs/2510.07077
項(xiàng)目主頁(yè) : https://vla-survey.github.io

VLA模型：機(jī)器人通往通用之路的基石

在過(guò)去，機(jī)器人系統(tǒng)通常將感知、語(yǔ)言理解和動(dòng)作執(zhí)行解耦處理，這限制了其在復(fù)雜、未知任務(wù)中的泛化能力。而VLA模型的出現(xiàn)，旨在打破這些模態(tài)之間的壁壘。

簡(jiǎn)單來(lái)說(shuō)，VLA模型是一個(gè)統(tǒng)一的端到端框架，它接收視覺(jué)觀察（看什么）和自然語(yǔ)言指令（做什么）作為輸入，并直接生成機(jī)器人的控制動(dòng)作（怎么做）。其核心目標(biāo)是學(xué)習(xí)一個(gè)能夠跨越不同任務(wù)、物體、機(jī)器人形態(tài)和環(huán)境的通用策略，從而讓機(jī)器人僅需少量甚至無(wú)需額外的任務(wù)數(shù)據(jù)，就能靈活、可擴(kuò)展地部署于真實(shí)世界。

這篇綜述的結(jié)構(gòu)非常清晰，從VLA模型面臨的核心挑戰(zhàn)出發(fā)，系統(tǒng)地回顧了其發(fā)展歷程、關(guān)鍵技術(shù)和未來(lái)方向。

VLA模型的演進(jìn)之路

VLA模型的發(fā)展并非一蹴而就，論文通過(guò)一張時(shí)間線圖清晰地展示了其技術(shù)演進(jìn)脈絡(luò)。

早期CNN ?? ?? : 以CLIPort為代表，首次嘗試將預(yù)訓(xùn)練的VLM（如CLIP）用于提取視覺(jué)和語(yǔ)言特征，實(shí)現(xiàn)了端到端的物體操縱。但基于CNN的架構(gòu)在統(tǒng)一多模態(tài)信息和擴(kuò)展性方面存在瓶頸。
基于Transformer和VLM的規(guī)模化策略 : 隨著Transformer架構(gòu)的興起，以谷歌的RT-1、RT-2為代表的模型，利用大規(guī)模真實(shí)世界數(shù)據(jù)進(jìn)行訓(xùn)練，并借助強(qiáng)大VLM（如PaLM-E）作為骨干網(wǎng)絡(luò)，展現(xiàn)了出色的泛化能力。這一時(shí)期的代表作還有OpenVLA，它成為了一個(gè)主流的開(kāi)源VLA架構(gòu)。
擴(kuò)散/流匹配技術(shù)的融合 : 為了生成更平滑、更連續(xù)的動(dòng)作，Octo、RDT-1B、π0等模型將擴(kuò)散模型（Diffusion Models）或流匹配（Flow Matching）技術(shù)集成到動(dòng)作解碼器中，顯著提升了機(jī)器人控制的實(shí)時(shí)性和穩(wěn)定性。
近期趨勢(shì)：潛在動(dòng)作與層級(jí)控制 : 最新的研究，如LAPA、π0.5、GR00T N1，則開(kāi)始關(guān)注從視頻中學(xué)習(xí)潛在動(dòng)作（Latent Action）以及構(gòu)建層級(jí)控制策略，旨在將高層的任務(wù)規(guī)劃與底層的電機(jī)執(zhí)行更優(yōu)雅地結(jié)合起來(lái)。

VLA核心架構(gòu)：三大主流范式

論文將現(xiàn)有的VLA模型歸納為三大核心架構(gòu)：傳感器-動(dòng)作模型、世界模型和可供性模型。

傳感器-動(dòng)作模型 (Sensorimotor Models)

這是最直接、最主流的VLA架構(gòu)，它將視覺(jué)、語(yǔ)言等傳感器輸入直接映射到動(dòng)作輸出。論文進(jìn)一步細(xì)分了七種具體的實(shí)現(xiàn)方式，展示了該領(lǐng)域架構(gòu)設(shè)計(jì)的多樣性。

從最初的“Transformer + 離散動(dòng)作”到最新的“VLM + 擴(kuò)散Transformer”，我們可以看到一條清晰的技術(shù)路線：模型骨干從零開(kāi)始訓(xùn)練的Transformer演變?yōu)槔没ヂ?lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的VLM，動(dòng)作表示也從離散的Token演變?yōu)橛蓴U(kuò)散或流匹配生成的連續(xù)控制信號(hào)。

世界模型 (World Models)

與直接輸出動(dòng)作不同，世界模型的核心思想是“預(yù)測(cè)未來(lái)”。它根據(jù)當(dāng)前的觀察和語(yǔ)言指令，預(yù)測(cè)未來(lái)世界的感官狀態(tài)（如未來(lái)的圖像序列）。然后，基于這些預(yù)測(cè)來(lái)規(guī)劃和生成動(dòng)作。這種方式使得機(jī)器人具備了更強(qiáng)的規(guī)劃和多模態(tài)推理能力。

可供性模型 (Affordance-based Models)

“可供性”（Affordance）是一個(gè)源于心理學(xué)的概念，指環(huán)境為行動(dòng)者提供的行動(dòng)可能性。在機(jī)器人領(lǐng)域，它表示物體或場(chǎng)景的可操作屬性?？晒┬阅Ｐ褪紫然谡Z(yǔ)言指令預(yù)測(cè)出環(huán)境中的可供性（例如，一個(gè)杯子“可以被拿起”的區(qū)域），然后基于這些可供性來(lái)生成具體動(dòng)作。這種方式讓機(jī)器人的行為更具解釋性和魯棒性。

VLA模型的訓(xùn)練與實(shí)現(xiàn)

訓(xùn)練一個(gè)強(qiáng)大的VLA模型，離不開(kāi)有效的學(xué)習(xí)范式。論文總結(jié)了三種主流策略：

監(jiān)督學(xué)習(xí) : 這是最主要的方式，通常以模仿學(xué)習(xí)（Imitation Learning）的形式，在“圖像-語(yǔ)言-動(dòng)作”配對(duì)的數(shù)據(jù)集上進(jìn)行訓(xùn)練。
自監(jiān)督學(xué)習(xí) : 用于學(xué)習(xí)模態(tài)間的一致性（如語(yǔ)言指令與目標(biāo)圖像的對(duì)齊）或從無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)有意義的表征（如從人類(lèi)視頻中學(xué)習(xí)潛在動(dòng)作）。
強(qiáng)化學(xué)習(xí) (RL) : RL常用于微調(diào)通過(guò)模仿學(xué)習(xí)預(yù)訓(xùn)練好的VLA模型，以提升其在真實(shí)世界中的魯棒性和成功率，或用于訓(xùn)練底層控制器。

邁向真實(shí)世界：全棧視角

這篇綜述最具價(jià)值的部分之一，就是它提供了一個(gè)完整的“全?！币暯?，詳細(xì)討論了將VLA模型部署到真實(shí)世界所涉及的各個(gè)環(huán)節(jié)。

機(jī)器人平臺(tái) : 涵蓋了機(jī)械臂、靈巧手、移動(dòng)機(jī)器人、四足機(jī)器人和人形機(jī)器人等VLA研究中常用的硬件。
數(shù)據(jù)收集 : 介紹了遙操作、代理設(shè)備（Proxy Devices）和人類(lèi)數(shù)據(jù)收集等多種方法。
公開(kāi)數(shù)據(jù)集 : 系統(tǒng)整理了近年來(lái)用于VLA研究的真實(shí)世界機(jī)器人數(shù)據(jù)集，這對(duì)研究者來(lái)說(shuō)是極為寶貴的資源。

評(píng)估基準(zhǔn) : 同樣，論文也匯總了主流的VLA評(píng)估仿真環(huán)境及其關(guān)鍵特性，為模型的公平比較提供了依據(jù)。

總結(jié)

CV君認(rèn)為，這篇綜述通過(guò)對(duì)VLA模型進(jìn)行系統(tǒng)性的全棧式梳理，不僅清晰地描繪了該領(lǐng)域的技術(shù)圖景和發(fā)展脈絡(luò)，還為研究者和工程師提供了極具價(jià)值的實(shí)踐指南。它就像一張?jiān)敿?xì)的地圖，指引著我們?nèi)绾卧赩LA這個(gè)充滿機(jī)遇與挑戰(zhàn)的新大陸上探索。

大家對(duì)VLA模型的未來(lái)怎么看？歡迎在評(píng)論區(qū)分享你的見(jiàn)解！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.