警惕！開源模型微調(diào)暗藏“數(shù)據(jù)竊取陷阱”，清華團(tuán)隊揭秘后門風(fēng)險

2025-06-12 18:33:31　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。wisemodel社區(qū)上線，價格實惠，靈活方便，支持在線微調(diào)訓(xùn)練模型，及和，并。

基于開源模型繼續(xù)在下游任務(wù)上使用私有下游數(shù)據(jù)進(jìn)行微調(diào)，得到在下游任務(wù)表現(xiàn)更好的專有模型，已經(jīng)成為了一類標(biāo)準(zhǔn)范式。

然而，清華大學(xué)、墨爾本大學(xué)的這項研究工作指出了該范式下的一種新型隱藏安全風(fēng)險：開源模型的發(fā)布者可以在開源之前埋下后門（不影響模型通用性能），并進(jìn)而利用該后門從下游基于該開源模型微調(diào)得到的下游模型中竊取微調(diào)數(shù)據(jù)（僅需黑盒權(quán)限）！

在下游數(shù)據(jù)信息完全未知的情況下，完整抽取的數(shù)據(jù)（query）比例最高可達(dá) 76.3%，即從 5000 條下游微調(diào)數(shù)據(jù)（query-response）中完整復(fù)原出一模一樣的 query 接近 4000 條。在更理想設(shè)置下，該抽取比例最高可提高至94.9%。項目已上線始智AI-wisemodel開源社區(qū)，歡迎體驗。

模型地址

https://wisemodel.cn/codes/nonstopfor/Backdoor-Data-Extraction

01.

研究背景

基于開源模型繼續(xù)微調(diào)的范式已成為大型語言模型（LLM）發(fā)展的基礎(chǔ)，推動了其在科研和工業(yè)界的廣泛應(yīng)用。然而，在本研究中，團(tuán)隊揭示了這一范式中一個此前未被認(rèn)識到且令人震驚的安全漏洞：通過一種簡單但隱蔽的后門注入方式，開源 LLM 的開發(fā)者在僅擁有對微調(diào)后模型的黑盒訪問權(quán)限的情況下，仍然可以秘密提取下游的私有微調(diào)數(shù)據(jù)。

需要指出，這種攻擊方式與傳統(tǒng)的模型蒸餾方法有本質(zhì)區(qū)別，后者旨在通過模型的輸出響應(yīng)（response）來模仿其行為。而團(tuán)隊提出的后門機(jī)制則可以恢復(fù)微調(diào)過程中所使用的查詢（query）語句 —— 這是一個更加敏感的攻擊目標(biāo)。這些查詢通常包含專有內(nèi)容、精心設(shè)計的輸入，或用戶特定的提示語，攻擊者可以利用它們通過強(qiáng)大模型或人工標(biāo)注重新生成高質(zhì)量的微調(diào)數(shù)據(jù)集。

導(dǎo)致這一后門攻擊的一個重要原因是在微調(diào)過程中對訓(xùn)練查詢計算損失，這是某些開源大語言模型后訓(xùn)練框架（例如廣泛使用的 Hugging Face TRL 框架）中的默認(rèn)設(shè)置，這使得模型能夠記憶訓(xùn)練中見過的查詢。在后門訓(xùn)練階段，攻擊者會在其用于微調(diào)的數(shù)據(jù)集中每條查詢的開頭注入一條后門提取指令，并要求模型逐字復(fù)現(xiàn)相應(yīng)的查詢。之后，訓(xùn)練好的模型會被開源發(fā)布，供下游開發(fā)者使用。

通過后門訓(xùn)練過程，模型學(xué)會將這條特殊指令對應(yīng)的生成分布與訓(xùn)練時學(xué)到的查詢分布相匹配。值得注意的是，即使在下游微調(diào)中查詢分布發(fā)生變化，這種能力依然能夠保留。團(tuán)隊在圖 1 展示了整個流程的概覽：

圖 1：整體流程概覽，下游開發(fā)者在經(jīng)過后門訓(xùn)練的開源模型上使用私有數(shù)據(jù)微調(diào)得到，則埋下后門的發(fā)布者可利用后門從中提取的數(shù)據(jù)。

02.

方法概覽

為了實現(xiàn)后門訓(xùn)練，團(tuán)隊首先設(shè)計了后門數(shù)據(jù)抽取指令 Q (w)，它要求模型輸出以單詞 w 開頭的一條訓(xùn)練中見過的查詢。為了提高模型遵循該抽取指令的能力，團(tuán)隊提出了兩種簡單易實現(xiàn)的訓(xùn)練方案：

1. 基于 SFT 的后門訓(xùn)練方案。團(tuán)隊從數(shù)據(jù)的每個查詢 x 中抽取開頭詞 w，然后構(gòu)造相應(yīng)的 SFT 數(shù)據(jù)對 (Q (w), x)，此外，團(tuán)隊還構(gòu)造了一些負(fù)樣本來幫助模型識別沒有在訓(xùn)練中出現(xiàn)過的開頭詞，即對于沒有在 D_1 中出現(xiàn)過的開頭詞 w’, 團(tuán)隊構(gòu)造一條相應(yīng)的拒絕回復(fù) R (w’)，表明沒有見過相應(yīng)的訓(xùn)練數(shù)據(jù)，這類數(shù)據(jù)構(gòu)成的數(shù)據(jù)對為 (Q (w’),R (w’))。為了維持通用性能，實際實現(xiàn)中，團(tuán)隊會將這兩類后門相關(guān)的訓(xùn)練數(shù)據(jù)和自身包含的數(shù)據(jù)混合訓(xùn)練。

2. 基于 GRPO 的后門訓(xùn)練方案。在模型經(jīng)過了 SFT 的后門訓(xùn)練之后，團(tuán)隊可以通過強(qiáng)化學(xué)習(xí)算法 GRPO 進(jìn)一步增強(qiáng)模型的抽取性能。訓(xùn)練過程中依然包括 Q (w) 和 Q (w’) 兩類 query。對于 Q (w’)，如果模型成功給出了拒絕性回答 R (w’)，則給予 1 的獎勵，否則獎勵為 0。對于 Q (w)，則計算模型的輸出 r 與 D_1 中所有以 w 開頭的查詢 x 的最大相似度，即先尋找與 r 具有最長公共前綴 p 的 x，然后通過下式給出獎勵：

在針對下游微調(diào)后的模型的抽取階段，為了找出確實在 D_2 中出現(xiàn)的開頭詞，團(tuán)隊會按照詞頻從大到小的順序遍歷一個從公共數(shù)據(jù)集獲得的開頭詞集合 S。對于每個候選開頭詞，先采樣 N 個輸出，然后依據(jù)下式對候選詞進(jìn)行打分：

打分高于閾值的候選開頭詞將被視為在 D_2 中出現(xiàn)的開頭詞，然后其對應(yīng)的采樣結(jié)果將作為預(yù)測出來的訓(xùn)練數(shù)據(jù)。該打分公式的主要思想是，模型拒絕回復(fù)的可能性越低，或者模型一直重復(fù)某個特定的輸出，都表明該開頭詞更有可能是真實在訓(xùn)練數(shù)據(jù)中出現(xiàn)的開頭詞。

03.

實驗結(jié)果

團(tuán)隊測試了4 個基座模型以及 2 個下游數(shù)據(jù)集，并通過 Match Ratio 和 BLEU 衡量預(yù)測出 query 和實際訓(xùn)練 query 之間的匹配度，通過 F1 和 Accuracy 衡量出對于開頭詞的識別準(zhǔn)確性。

團(tuán)隊還在 AlpacaEval2 和 MMLU 上進(jìn)行了測試驗證后門訓(xùn)練對通用性能的影響，結(jié)果如下：

表 1：在 Dolly 下游數(shù)據(jù)的測試結(jié)果。

表 2：在 Finance 下游數(shù)據(jù)的測試結(jié)果。

可以看到，在經(jīng)過后門訓(xùn)練之后，模型的抽取準(zhǔn)確性，對于開頭詞識別的準(zhǔn)確性均得到大幅提升，說明了后門訓(xùn)練的重要作用。此外，經(jīng)過后門訓(xùn)練的模型通用性能上并未受到負(fù)面影響。

將開頭詞識別、采樣等流程串起來之后，團(tuán)隊進(jìn)一步測量了 D_2 開頭詞完全未知情況下不同模型的抽取性能，如下圖所示：

圖 2：開頭詞未知時，整體抽取的精準(zhǔn)度和召回率。

可以看到，Qwen2.5-32B 在 Finance 數(shù)據(jù)上，召回率最高可達(dá)76.3%，且精準(zhǔn)度在只使用 50 個開頭詞的時候也可以達(dá)到 60% 以上。這表明抽取的精準(zhǔn)度和召回率都有不錯的表現(xiàn)。

團(tuán)隊進(jìn)一步考慮了開頭詞信息已知的情況，發(fā)現(xiàn)完整 query 的召回率可以最高提高到 94.9%，表明絕大部分的訓(xùn)練 query 都存在被抽取的可能：

圖 3：開頭詞已知時，整體抽取的召回率。

進(jìn)一步，團(tuán)隊對通過后門抽取成功的原因進(jìn)行了探討，發(fā)現(xiàn)經(jīng)過后門訓(xùn)練之后模型能夠更好的將輸出分布與實際的訓(xùn)練分布匹配起來：

圖 4：有無后門訓(xùn)練時，輸出分布和實際訓(xùn)練分布的匹配情況，這里給定的開頭詞是 Please。

團(tuán)隊在最后簡單探討了一種基于檢測的防御手段，即嘗試不同的抽取指令，觀察模型遵循這些抽取指令的能力，結(jié)果發(fā)現(xiàn)該手段一定程度上可以輔助分辨模型是否經(jīng)過后門訓(xùn)練，但如果將攻擊進(jìn)一步加強(qiáng)，即將后門抽取指令設(shè)置成亂碼的無實際意義指令，該防御手段將完全失效：

表 3：Q 為默認(rèn)的抽取指令，為檢測時嘗試的抽取指令，為亂碼抽取指令。

04.

未來研究

總體來說，該新風(fēng)險難以被檢測，且危害性較大，可以抽取出大量的下游私有微調(diào)數(shù)據(jù)，當(dāng)然目前的攻擊和防御方法都還有較大的改進(jìn)空間，團(tuán)隊希望自己的工作能啟發(fā)后續(xù)的研究繼續(xù)推動這個重要問題的解決。

一些可能的未來研究方向包括：開發(fā)更強(qiáng)的攻擊或防御手段，設(shè)計更完善的從模型預(yù)測中篩選出實際訓(xùn)練數(shù)據(jù)的機(jī)制，增強(qiáng)后門抽取的可控性，在更多模型和任務(wù)上驗證該風(fēng)險，探索當(dāng)訓(xùn)練時不在查詢上加訓(xùn)練損失場景下數(shù)據(jù)抽取的可行性等。

本文作者分別來自清華大學(xué) CoAI 小組和墨爾本大學(xué)。第一作者張哲昕為清華大學(xué)直博三年級學(xué)生，研究方向為大模型安全，主要合作者為孫玉豪，來自墨爾本大學(xué)，主要指導(dǎo)教師為清華大學(xué)王宏寧副教授與黃民烈教授。

編輯：成蘊(yùn)年

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級：

大賽報名：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運(yùn)營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運(yùn)營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團(tuán)隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.