在具身智能領域,視覺-語言-動作(Vision-Language-Action, VLA)大模型正引領著一場技術革命,讓機器人能夠理解復雜的指令并與真實世界交互。然而,強大的能力背后是巨大的計算開銷。VLA模型在處理海量視覺信息時,其基于注意力機制的計算成為一個難以逾越的瓶頸,極大地限制了它們在自動駕駛汽車、家用機器人等資源受限平臺上的實時部署。
來自理想汽車、清華大學和中科院的研究者們提出了一種名為 LightVLA 的解決方案,巧妙地回答了這個問題。這篇題為 《The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning》 的論文,提出了一種簡單而高效的可微分視覺令牌(Token)裁剪框架。
LightVLA的核心思想頗具顛覆性:智能地“剪掉”多余的視覺信息,不僅能讓模型跑得更快,還能讓它變得更“聰明”。通過一種性能驅動的自適應裁剪機制,LightVLA在將計算量(FLOPs)和延遲分別驚人地降低 59.1% 和 38.2% 的同時,竟然還實現(xiàn)了 2.9% 的任務成功率提升,完美打破了“性能”與“效率”不可兼得的魔咒。
論文標題 :The Better You Learn, The Smarter You Prune: Towards Efficient Vision-language-action Models via Differentiable Token Pruning
作者 :Titong Jiang, Xuefeng Jiang, Yuan Ma, Xin Wen, Bailin Li, Kun Zhan, Peng Jia, Yahui Liu, Sheng Sun, Xianpeng Lang
機構 :理想汽車, 清華大學, 中國科學院
論文地址 :https://arxiv.org/abs/2509.12594
項目主頁 :https://liauto-research.github.io/LightVLA
GitHub倉庫 :https://github.com/liautoad/lightvla
研究動機:VLA模型的“甜蜜負擔”
VLA模型通常建立在大型語言模型(LLM)之上,通過引入視覺模塊來感知世界。當機器人執(zhí)行任務時,它需要處理來自多個攝像頭、連續(xù)不斷的視頻流。這些圖像被轉換成成百上千的視覺令牌(Visual Tokens),與語言指令令牌一起輸入到模型的注意力層中。
問題在于,自注意力機制的計算復雜度與輸入令牌數量的平方成正比(O(n2))。當視覺令牌數量龐大時,計算成本急劇上升,導致高延遲,這對于需要實時反應的機器人系統(tǒng)是致命的。
上圖直觀地展示了LightVLA的優(yōu)越性:在大幅減少視覺令牌數量的同時,其任務成功率超越了眾多現(xiàn)有的VLA模型和加速方法。
現(xiàn)有的模型壓縮方法,如剪枝、量化等,往往追求效率而犧牲性能。特別是對于令牌裁剪,很多方法依賴于固定的裁剪比例或啟發(fā)式規(guī)則,這不僅需要大量調參,還可能“誤傷”對任務至關重要的信息。LightVLA的提出,正是為了解決這一困境,探索一條效率和性能協(xié)同優(yōu)化的新路徑。
核心方法:LightVLA如何智能“剪枝”?
LightVLA的框架簡潔而優(yōu)雅,其核心是一個可微分的、端到端學習的令牌選擇過程。它不引入任何額外的可訓練參數,使其極易與現(xiàn)有模型集成。整個過程分為三步:
1. 動態(tài)查詢生成 (Dynamic Query Generation)
如何判斷哪些視覺令牌更重要?直覺上,與當前任務指令最相關的視覺區(qū)域更重要。例如,當指令是“把牛奶放進籃子”時,模型應該更關注圖像中的“牛奶”和“籃子”。
LightVLA通過視覺令牌和語言指令令牌之間的交叉注意力(Cross Attention)來生成一組動態(tài)查詢(Token Queries)。這些查詢向量融合了任務意圖,可以被看作是派出去尋找“有用”視覺信息的“偵察兵”。
2. 令牌打分 (Token Scoring)
每個“偵察兵”(查詢向量)都會與所有的視覺令牌進行匹配度計算(點積),得出一個分數。這個分數代表了每個視覺令牌對于該查詢的重要性。所有查詢向量與所有視覺令牌計算后,就形成了一個重要性得分矩陣。
3. 可微分令牌選擇 (Differentiable Token Selection)
這是LightVLA最關鍵的一步。最直接的選擇方法是,讓每個查詢都選擇得分最高的那個視覺令牌(Argmax操作)。但問題是,Argmax是不可微分的,梯度無法回傳,導致模型無法學習“如何選擇”。
為了解決這個問題,LightVLA巧妙地引入了 Gumbel-Softmax 技巧。Gumbel-Softmax可以看作是Argmax的一個“平滑”版本,它在提供與Argmax相似的“one-hot”選擇結果的同時,保持了操作的可微性。這樣,在模型訓練時,梯度就可以順利地通過這個選擇過程,讓模型根據最終的任務損失(比如機器人動作的誤差)來端到端地學習如何生成最佳的查詢,從而選出對完成任務最有利的視覺令牌組合。
整個過程是 性能驅動 的:裁剪策略的好壞完全由最終任務的成功與否來評判和優(yōu)化。模型為了獲得更好的任務表現(xiàn),會自發(fā)地學會保留關鍵信息、剔除無關或噪聲信息,這正是論文標題“越學越會剪”的精髓所在。
實驗結果與分析
研究團隊在具身智能領域權威的 LIBERO 基準上對LightVLA進行了全面評估。LIBERO包含多種復雜的、長序列的機器人操作任務。
性能與效率雙豐收
上表清晰地展示了LightVLA的加速效果。與基線模型OpenVLA-OFT相比,LightVLA在只使用平均 78 個視覺令牌(基線為512個)的情況下:
計算量(TFLOPs) 從8.8降至3.6,減少了 59.1% 。
端到端延遲 從34ms降至21ms,減少了 38.2% 。
平均任務成功率 從94.5%提升至 97.4% ,凈增 2.9% 。
這一結果在所有VLA加速方法中是獨一無二的,其他方法或多或少都犧牲了性能來換取效率。
在與更多VLA模型的橫向對比中,LightVLA同樣展現(xiàn)了SOTA(State-of-the-Art)的性能,在所有四個任務套件上均取得了極高的成功率。
可視化分析:模型在“看”哪里?
上圖展示了在“把兩個摩卡壺都放到爐子上”這個長序列任務中,LightVLA在不同階段的注意力焦點。被遮蔽(Masked)的區(qū)域代表被裁剪掉的令牌。可以清晰地看到,模型學會了動態(tài)地將注意力集中在任務相關的物體上,如摩卡壺、爐子以及機械臂本身,而忽略了大量的背景信息。這直觀地證明了LightVLA自適應裁剪的有效性。
LightVLA*:引入可學習查詢的探索
研究者還探索了LightVLA的一個變體—— LightVLA*,它引入了額外的可學習參數作為查詢。實驗發(fā)現(xiàn),這種方法同樣能取得優(yōu)異的性能,進一步驗證了基于查詢的自適應裁剪框架的潛力。
總結與展望
LightVLA 的提出,為解決VLA大模型在具身智能設備上的部署難題提供了一個全新的、高效的視角。它最重要的貢獻在于:
首次 將自適應、可微分的視覺令牌裁剪成功應用于VLA任務,并實現(xiàn)了效率和性能的協(xié)同提升。
證明了“智能剪枝”的價值 :通過剔除冗余視覺信息,不僅能降低計算負載,還能減少噪聲干擾,從而讓模型更專注于核心任務,最終提升決策質量。
提供了一個即插即用的通用框架 :其無額外參數、無需啟發(fā)式規(guī)則的設計,使其可以方便地應用于各種VLA模型,加速其在真實世界場景中的落地。
LightVLA背后的“性能驅動剪枝”思想極具啟發(fā)性。對于大模型而言,“少即是多”不僅可能,而且可以通過端到端學習優(yōu)雅地實現(xiàn)。這項工作無疑為開發(fā)更高效、更強大、更實用的實時機器人系統(tǒng)邁出了堅實而重要的一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.