網易首頁 > 網易號 > 正文申請入駐

理想汽車、清華等提出LightVLA：計算量-59%，成功率+2.9%，實現(xiàn)VLA模型效率與性能雙贏

2025-09-18 21:42:02　來源: 算法與數學之美

北京舉報

分享至

在具身智能領域，視覺-語言-動作（Vision-Language-Action, VLA）大模型正引領著一場技術革命，讓機器人能夠理解復雜的指令并與真實世界交互。然而，強大的能力背后是巨大的計算開銷。VLA模型在處理海量視覺信息時，其基于注意力機制的計算成為一個難以逾越的瓶頸，極大地限制了它們在自動駕駛汽車、家用機器人等資源受限平臺上的實時部署。

來自理想汽車、清華大學和中科院的研究者們提出了一種名為 LightVLA 的解決方案，巧妙地回答了這個問題。這篇題為 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的論文，提出了一種簡單而高效的可微分視覺令牌（Token）裁剪框架。

LightVLA的核心思想頗具顛覆性：智能地“剪掉”多余的視覺信息，不僅能讓模型跑得更快，還能讓它變得更“聰明”。通過一種性能驅動的自適應裁剪機制，LightVLA在將計算量（FLOPs）和延遲分別驚人地降低 59.1% 和 38.2% 的同時，竟然還實現(xiàn)了 2.9% 的任務成功率提升，完美打破了“性能”與“效率”不可兼得的魔咒。

論文標題 ：The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
作者：Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang
機構：理想汽車, 清華大學, 中國科學院
論文地址 ：https://arxiv.org/abs/2509.12594
項目主頁 ：https://liauto-research.github.io/LightVLA
GitHub倉庫 ：https://github.com/liautoad/lightvla

研究動機：VLA模型的“甜蜜負擔”

VLA模型通常建立在大型語言模型（LLM）之上，通過引入視覺模塊來感知世界。當機器人執(zhí)行任務時，它需要處理來自多個攝像頭、連續(xù)不斷的視頻流。這些圖像被轉換成成百上千的視覺令牌（Visual Tokens），與語言指令令牌一起輸入到模型的注意力層中。

問題在于，自注意力機制的計算復雜度與輸入令牌數量的平方成正比（O(n2)）。當視覺令牌數量龐大時，計算成本急劇上升，導致高延遲，這對于需要實時反應的機器人系統(tǒng)是致命的。

上圖直觀地展示了LightVLA的優(yōu)越性：在大幅減少視覺令牌數量的同時，其任務成功率超越了眾多現(xiàn)有的VLA模型和加速方法。

現(xiàn)有的模型壓縮方法，如剪枝、量化等，往往追求效率而犧牲性能。特別是對于令牌裁剪，很多方法依賴于固定的裁剪比例或啟發(fā)式規(guī)則，這不僅需要大量調參，還可能“誤傷”對任務至關重要的信息。LightVLA的提出，正是為了解決這一困境，探索一條效率和性能協(xié)同優(yōu)化的新路徑。

核心方法：LightVLA如何智能“剪枝”？

LightVLA的框架簡潔而優(yōu)雅，其核心是一個可微分的、端到端學習的令牌選擇過程。它不引入任何額外的可訓練參數，使其極易與現(xiàn)有模型集成。整個過程分為三步：

1. 動態(tài)查詢生成 (Dynamic Query Generation)

如何判斷哪些視覺令牌更重要？直覺上，與當前任務指令最相關的視覺區(qū)域更重要。例如，當指令是“把牛奶放進籃子”時，模型應該更關注圖像中的“牛奶”和“籃子”。

LightVLA通過視覺令牌和語言指令令牌之間的交叉注意力（Cross Attention）來生成一組動態(tài)查詢（Token Queries）。這些查詢向量融合了任務意圖，可以被看作是派出去尋找“有用”視覺信息的“偵察兵”。

2. 令牌打分 (Token Scoring)

每個“偵察兵”（查詢向量）都會與所有的視覺令牌進行匹配度計算（點積），得出一個分數。這個分數代表了每個視覺令牌對于該查詢的重要性。所有查詢向量與所有視覺令牌計算后，就形成了一個重要性得分矩陣。

3. 可微分令牌選擇 (Differentiable Token Selection)

這是LightVLA最關鍵的一步。最直接的選擇方法是，讓每個查詢都選擇得分最高的那個視覺令牌（Argmax操作）。但問題是，Argmax是不可微分的，梯度無法回傳，導致模型無法學習“如何選擇”。

為了解決這個問題，LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一個“平滑”版本，它在提供與Argmax相似的“one-hot”選擇結果的同時，保持了操作的可微性。這樣，在模型訓練時，梯度就可以順利地通過這個選擇過程，讓模型根據最終的任務損失（比如機器人動作的誤差）來端到端地學習如何生成最佳的查詢，從而選出對完成任務最有利的視覺令牌組合。

整個過程是 性能驅動 的：裁剪策略的好壞完全由最終任務的成功與否來評判和優(yōu)化。模型為了獲得更好的任務表現(xiàn)，會自發(fā)地學會保留關鍵信息、剔除無關或噪聲信息，這正是論文標題“越學越會剪”的精髓所在。

實驗結果與分析

研究團隊在具身智能領域權威的 LIBERO 基準上對LightVLA進行了全面評估。LIBERO包含多種復雜的、長序列的機器人操作任務。

性能與效率雙豐收

上表清晰地展示了LightVLA的加速效果。與基線模型OpenVLA-OFT相比，LightVLA在只使用平均 78 個視覺令牌（基線為512個）的情況下：

計算量（TFLOPs） 從8.8降至3.6，減少了 59.1% 。
端到端延遲 從34ms降至21ms，減少了 38.2% 。
平均任務成功率 從94.5%提升至 97.4% ，凈增 2.9% 。

這一結果在所有VLA加速方法中是獨一無二的，其他方法或多或少都犧牲了性能來換取效率。

在與更多VLA模型的橫向對比中，LightVLA同樣展現(xiàn)了SOTA（State-of-the-Art）的性能，在所有四個任務套件上均取得了極高的成功率。

可視化分析：模型在“看”哪里？

上圖展示了在“把兩個摩卡壺都放到爐子上”這個長序列任務中，LightVLA在不同階段的注意力焦點。被遮蔽（Masked）的區(qū)域代表被裁剪掉的令牌。可以清晰地看到，模型學會了動態(tài)地將注意力集中在任務相關的物體上，如摩卡壺、爐子以及機械臂本身，而忽略了大量的背景信息。這直觀地證明了LightVLA自適應裁剪的有效性。

LightVLA*：引入可學習查詢的探索

研究者還探索了LightVLA的一個變體—— LightVLA*，它引入了額外的可學習參數作為查詢。實驗發(fā)現(xiàn)，這種方法同樣能取得優(yōu)異的性能，進一步驗證了基于查詢的自適應裁剪框架的潛力。

總結與展望

LightVLA 的提出，為解決VLA大模型在具身智能設備上的部署難題提供了一個全新的、高效的視角。它最重要的貢獻在于：

首次將自適應、可微分的視覺令牌裁剪成功應用于VLA任務，并實現(xiàn)了效率和性能的協(xié)同提升。
證明了“智能剪枝”的價值 ：通過剔除冗余視覺信息，不僅能降低計算負載，還能減少噪聲干擾，從而讓模型更專注于核心任務，最終提升決策質量。
提供了一個即插即用的通用框架 ：其無額外參數、無需啟發(fā)式規(guī)則的設計，使其可以方便地應用于各種VLA模型，加速其在真實世界場景中的落地。

LightVLA背后的“性能驅動剪枝”思想極具啟發(fā)性。對于大模型而言，“少即是多”不僅可能，而且可以通過端到端學習優(yōu)雅地實現(xiàn)。這項工作無疑為開發(fā)更高效、更強大、更實用的實時機器人系統(tǒng)邁出了堅實而重要的一步。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.