今天,來聊一個讓人細(xì)思極恐的話題:當(dāng)機器人的“數(shù)字大腦”被一張圖片“凍結(jié)”,會發(fā)生什么?
來自復(fù)旦大學(xué)、上海人工智能實驗室和Sea AI Lab的研究者們,最近就揭示了這樣一個嚴(yán)重的安全漏洞。他們提出了一種名為 FreezeVLA 的新型對抗攻擊方法,能夠讓最先進的機器人模型“視而不見、聽而不聞”,在關(guān)鍵時刻拒絕執(zhí)行任何指令。
論文標(biāo)題 : FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models
論文地址 : https://arxiv.org/abs/2509.19870
項目地址 : https://github.com/xinwong/FreezeVLA
機器人“大腦”的阿喀琉斯之踵
近年來,視覺-語言-動作(Vision-Language-Action, VLA)大模型發(fā)展迅猛,它們就像機器人的“大腦”,能夠理解語言指令(比如“把桌上的蘋果遞給我”),并結(jié)合攝像頭看到的場景,控制機械臂完成各種復(fù)雜任務(wù)。從谷歌的RT-2到各種開源模型,VLA正在將機器人帶入一個更智能的時代。
然而,能力越強,責(zé)任越大,安全問題也越發(fā)凸顯。之前的研究大多關(guān)注如何讓機器人“做錯事”,比如把蘋果錯當(dāng)成香蕉。但這項工作提出了一個更隱蔽、也可能更危險的問題:如果機器人干脆“罷工”了呢?
研究者們將這種攻擊稱為“動作凍結(jié)攻擊”(Action-Freezing Attack)。攻擊者只需要向機器人展示一張經(jīng)過特殊處理的(人眼幾乎看不出異常)圖片,機器人的VLA模型就會陷入一種“癱瘓”狀態(tài),無論你接下來給它下達什么指令,它都毫無反應(yīng)。想象一下,在自動化產(chǎn)線上,或者更嚴(yán)肅的醫(yī)療手術(shù)場景中,機器人突然“宕機”,后果不堪設(shè)想。
FreezeVLA:如何“一招制敵”?
為了系統(tǒng)性地研究這種漏洞,作者提出了FreezeVLA攻擊框架。這個名字很直白,就是“凍結(jié)VLA模型”的意思。其核心是一種精巧的“最小-最大雙層優(yōu)化”(Min-Max Bi-level Optimization)策略。
這個過程可以通俗地理解為一場“左右互搏”的自我修煉:
內(nèi)部“最大化”——尋找最難被“凍結(jié)”的指令 :首先,攻擊算法會“集思廣益”,尋找最不容易讓機器人“罷工”的指令。比如,原始指令是“把胡蘿卜放到秤上”,算法會通過梯度分析和同義詞替換,生成一堆“加強版”指令,比如“把胡蘿卜放到稱重機上”。這個過程的目標(biāo)是找到那些語義上最魯棒、最能抵抗“凍結(jié)”攻擊的“硬核指令”(hard prompts)。
外部“最小化”——生成能攻克“硬核指令”的圖像 :接下來,算法會針對上面找到的這組“硬核指令”,去優(yōu)化一張對抗圖像。這張圖像的目標(biāo),就是最大化機器人看到它之后執(zhí)行“凍結(jié)”動作的概率。因為這張圖連最難攻克的指令都能“凍結(jié)”,那么對于普通指令,自然更不在話下。
通過這種方式,F(xiàn)reezeVLA能夠生成具有強大“跨指令泛化能力”的對抗圖像。這意味著,一張圖就能“通殺”各種不同的語言指令,穩(wěn)定地讓機器人陷入癱瘓。
實驗結(jié)果:攻擊效果驚人
研究者在三個當(dāng)前最先進的VLA模型(SpatialVLA, OpenVLA, π0)和四個機器人操作基準(zhǔn)(LIBERO)上驗證了FreezeVLA的威力。
結(jié)果顯示,F(xiàn)reezeVLA取得了平均高達 76.2% 的攻擊成功率,遠(yuǎn)超之前的攻擊方法。在某些模型和任務(wù)上,成功率甚至超過了 95% !
研究者還對比了不同的攻擊方法,下表清晰地展示了FreezeVLA在技術(shù)上的先進性。
消融研究
為了探究不同因素對攻擊成功率的影響,作者進行了一系列有趣的消融實驗。
參考指令數(shù)量的影響 :實驗發(fā)現(xiàn),用于生成對抗圖像的“硬核指令”數(shù)量越多,攻擊的成功率越高,但大約在10個指令之后,收益會逐漸減小。這說明一個精心設(shè)計的、小而精的指令集就能達到很好的攻擊效果。

擾動大小的影響 :對抗擾動越大(即圖片修改的幅度越大),攻擊成功率也越高。在擾動預(yù)算達到8/255時,攻擊成功率已接近飽和,達到95%以上。

指令的演變 :下表生動地展示了在優(yōu)化過程中,一個普通的指令是如何一步步變得“刁鉆”和“反直覺”的,從而增強了攻擊的魯棒性。

優(yōu)化步數(shù)的影響 :熱力圖顯示,圖像和指令的優(yōu)化步數(shù)也對攻擊效果有顯著影響,需要在計算成本和攻擊成功率之間找到一個平衡點。

最后,作者還對比了不同VLA模型的架構(gòu)差異,這有助于理解為什么某些模型更容易受到攻擊。
總結(jié)
這項工作具有非常重要的警示意義。它揭示了當(dāng)前VLA模型在安全魯棒性上的一個巨大盲區(qū)。當(dāng)將AI賦予物理實體,讓它在真實世界中行動時,其安全性就絕不僅僅是算法層面的問題,而是直接關(guān)系到物理世界安全的核心議題。FreezeVLA的發(fā)現(xiàn),無疑為整個機器人和AI安全領(lǐng)域敲響了警鐘。作者將開源代碼,鼓勵更多研究者關(guān)注并參與到防御這類攻擊的研究中來。
你覺得未來該如何防御這類針對機器人的“認(rèn)知”攻擊?歡迎來評論區(qū)聊聊!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.