始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
基于開源模型繼續(xù)在下游任務(wù)上使用私有下游數(shù)據(jù)進(jìn)行微調(diào),得到在下游任務(wù)表現(xiàn)更好的專有模型,已經(jīng)成為了一類標(biāo)準(zhǔn)范式。
然而,清華大學(xué)、墨爾本大學(xué)的這項研究工作指出了該范式下的一種新型隱藏安全風(fēng)險:開源模型的發(fā)布者可以在開源之前埋下后門(不影響模型通用性能),并進(jìn)而利用該后門從下游基于該開源模型微調(diào)得到的下游模型中竊取微調(diào)數(shù)據(jù)(僅需黑盒權(quán)限)!
在下游數(shù)據(jù)信息完全未知的情況下,完整抽取的數(shù)據(jù)(query)比例最高可達(dá) 76.3%,即從 5000 條下游微調(diào)數(shù)據(jù)(query-response)中完整復(fù)原出一模一樣的 query 接近 4000 條。在更理想設(shè)置下,該抽取比例最高可提高至94.9%。項目已上線始智AI-wisemodel開源社區(qū),歡迎體驗。
模型地址
https://wisemodel.cn/codes/nonstopfor/Backdoor-Data-Extraction
01.
研究背景
基于開源模型繼續(xù)微調(diào)的范式已成為大型語言模型(LLM)發(fā)展的基礎(chǔ),推動了其在科研和工業(yè)界的廣泛應(yīng)用。然而,在本研究中,團(tuán)隊揭示了這一范式中一個此前未被認(rèn)識到且令人震驚的安全漏洞:通過一種簡單但隱蔽的后門注入方式,開源 LLM 的開發(fā)者在僅擁有對微調(diào)后模型的黑盒訪問權(quán)限的情況下,仍然可以秘密提取下游的私有微調(diào)數(shù)據(jù)。
需要指出,這種攻擊方式與傳統(tǒng)的模型蒸餾方法有本質(zhì)區(qū)別,后者旨在通過模型的輸出響應(yīng)(response)來模仿其行為。而團(tuán)隊提出的后門機(jī)制則可以恢復(fù)微調(diào)過程中所使用的查詢(query)語句 —— 這是一個更加敏感的攻擊目標(biāo)。這些查詢通常包含專有內(nèi)容、精心設(shè)計的輸入,或用戶特定的提示語,攻擊者可以利用它們通過強(qiáng)大模型或人工標(biāo)注重新生成高質(zhì)量的微調(diào)數(shù)據(jù)集。
導(dǎo)致這一后門攻擊的一個重要原因是在微調(diào)過程中對訓(xùn)練查詢計算損失,這是某些開源大語言模型后訓(xùn)練框架(例如廣泛使用的 Hugging Face TRL 框架)中的默認(rèn)設(shè)置,這使得模型能夠記憶訓(xùn)練中見過的查詢。在后門訓(xùn)練階段,攻擊者會在其用于微調(diào)的數(shù)據(jù)集中每條查詢的開頭注入一條后門提取指令,并要求模型逐字復(fù)現(xiàn)相應(yīng)的查詢。之后,訓(xùn)練好的模型會被開源發(fā)布,供下游開發(fā)者使用。
通過后門訓(xùn)練過程,模型學(xué)會將這條特殊指令對應(yīng)的生成分布與訓(xùn)練時學(xué)到的查詢分布相匹配。值得注意的是,即使在下游微調(diào)中查詢分布發(fā)生變化,這種能力依然能夠保留。團(tuán)隊在圖 1 展示了整個流程的概覽:
圖 1:整體流程概覽,下游開發(fā)者在經(jīng)過后門訓(xùn)練的開源模型上使用私有數(shù)據(jù)微調(diào)得到,則埋下后門的發(fā)布者可利用后門從中提取的數(shù)據(jù)。
02.
方法概覽
為了實現(xiàn)后門訓(xùn)練,團(tuán)隊首先設(shè)計了后門數(shù)據(jù)抽取指令 Q (w),它要求模型輸出以單詞 w 開頭的一條訓(xùn)練中見過的查詢。為了提高模型遵循該抽取指令的能力,團(tuán)隊提出了兩種簡單易實現(xiàn)的訓(xùn)練方案:
1. 基于 SFT 的后門訓(xùn)練方案。團(tuán)隊從數(shù)據(jù)的每個查詢 x 中抽取開頭詞 w,然后構(gòu)造相應(yīng)的 SFT 數(shù)據(jù)對 (Q (w), x),此外,團(tuán)隊還構(gòu)造了一些負(fù)樣本來幫助模型識別沒有在訓(xùn)練中出現(xiàn)過的開頭詞,即對于沒有在 D_1 中出現(xiàn)過的開頭詞 w’, 團(tuán)隊構(gòu)造一條相應(yīng)的拒絕回復(fù) R (w’),表明沒有見過相應(yīng)的訓(xùn)練數(shù)據(jù),這類數(shù)據(jù)構(gòu)成的數(shù)據(jù)對為 (Q (w’),R (w’))。為了維持通用性能,實際實現(xiàn)中,團(tuán)隊會將這兩類后門相關(guān)的訓(xùn)練數(shù)據(jù)和自身包含的數(shù)據(jù)混合訓(xùn)練。
2. 基于 GRPO 的后門訓(xùn)練方案。在模型經(jīng)過了 SFT 的后門訓(xùn)練之后,團(tuán)隊可以通過強(qiáng)化學(xué)習(xí)算法 GRPO 進(jìn)一步增強(qiáng)模型的抽取性能。訓(xùn)練過程中依然包括 Q (w) 和 Q (w’) 兩類 query。對于 Q (w’),如果模型成功給出了拒絕性回答 R (w’),則給予 1 的獎勵,否則獎勵為 0。對于 Q (w),則計算模型的輸出 r 與 D_1 中所有以 w 開頭的查詢 x 的最大相似度,即先尋找與 r 具有最長公共前綴 p 的 x,然后通過下式給出獎勵:
在針對下游微調(diào)后的模型的抽取階段,為了找出確實在 D_2 中出現(xiàn)的開頭詞,團(tuán)隊會按照詞頻從大到小的順序遍歷一個從公共數(shù)據(jù)集獲得的開頭詞集合 S。對于每個候選開頭詞,先采樣 N 個輸出,然后依據(jù)下式對候選詞進(jìn)行打分:
打分高于閾值的候選開頭詞將被視為在 D_2 中出現(xiàn)的開頭詞,然后其對應(yīng)的采樣結(jié)果將作為預(yù)測出來的訓(xùn)練數(shù)據(jù)。該打分公式的主要思想是,模型拒絕回復(fù)的可能性越低,或者模型一直重復(fù)某個特定的輸出,都表明該開頭詞更有可能是真實在訓(xùn)練數(shù)據(jù)中出現(xiàn)的開頭詞。
03.
實驗結(jié)果
團(tuán)隊測試了4 個基座模型以及 2 個下游數(shù)據(jù)集,并通過 Match Ratio 和 BLEU 衡量預(yù)測出 query 和實際訓(xùn)練 query 之間的匹配度,通過 F1 和 Accuracy 衡量出對于開頭詞的識別準(zhǔn)確性。
團(tuán)隊還在 AlpacaEval2 和 MMLU 上進(jìn)行了測試驗證后門訓(xùn)練對通用性能的影響,結(jié)果如下:
表 1:在 Dolly 下游數(shù)據(jù)的測試結(jié)果。
表 2:在 Finance 下游數(shù)據(jù)的測試結(jié)果。
可以看到,在經(jīng)過后門訓(xùn)練之后,模型的抽取準(zhǔn)確性,對于開頭詞識別的準(zhǔn)確性均得到大幅提升,說明了后門訓(xùn)練的重要作用。此外,經(jīng)過后門訓(xùn)練的模型通用性能上并未受到負(fù)面影響。
將開頭詞識別、采樣等流程串起來之后,團(tuán)隊進(jìn)一步測量了 D_2 開頭詞完全未知情況下不同模型的抽取性能,如下圖所示:
圖 2:開頭詞未知時,整體抽取的精準(zhǔn)度和召回率。
可以看到,Qwen2.5-32B 在 Finance 數(shù)據(jù)上,召回率最高可達(dá)76.3%,且精準(zhǔn)度在只使用 50 個開頭詞的時候也可以達(dá)到 60% 以上。這表明抽取的精準(zhǔn)度和召回率都有不錯的表現(xiàn)。
團(tuán)隊進(jìn)一步考慮了開頭詞信息已知的情況,發(fā)現(xiàn)完整 query 的召回率可以最高提高到 94.9%,表明絕大部分的訓(xùn)練 query 都存在被抽取的可能:
圖 3:開頭詞已知時,整體抽取的召回率。
進(jìn)一步,團(tuán)隊對通過后門抽取成功的原因進(jìn)行了探討,發(fā)現(xiàn)經(jīng)過后門訓(xùn)練之后模型能夠更好的將輸出分布與實際的訓(xùn)練分布匹配起來:
圖 4:有無后門訓(xùn)練時,輸出分布和實際訓(xùn)練分布的匹配情況,這里給定的開頭詞是 Please。
團(tuán)隊在最后簡單探討了一種基于檢測的防御手段,即嘗試不同的抽取指令,觀察模型遵循這些抽取指令的能力,結(jié)果發(fā)現(xiàn)該手段一定程度上可以輔助分辨模型是否經(jīng)過后門訓(xùn)練,但如果將攻擊進(jìn)一步加強(qiáng),即將后門抽取指令設(shè)置成亂碼的無實際意義指令,該防御手段將完全失效:
表 3:Q 為默認(rèn)的抽取指令,為檢測時嘗試的抽取指令,為亂碼抽取指令。
04.
未來研究
總體來說,該新風(fēng)險難以被檢測,且危害性較大,可以抽取出大量的下游私有微調(diào)數(shù)據(jù),當(dāng)然目前的攻擊和防御方法都還有較大的改進(jìn)空間,團(tuán)隊希望自己的工作能啟發(fā)后續(xù)的研究繼續(xù)推動這個重要問題的解決。
一些可能的未來研究方向包括:開發(fā)更強(qiáng)的攻擊或防御手段,設(shè)計更完善的從模型預(yù)測中篩選出實際訓(xùn)練數(shù)據(jù)的機(jī)制,增強(qiáng)后門抽取的可控性,在更多模型和任務(wù)上驗證該風(fēng)險,探索當(dāng)訓(xùn)練時不在查詢上加訓(xùn)練損失場景下數(shù)據(jù)抽取的可行性等。
本文作者分別來自清華大學(xué) CoAI 小組和墨爾本大學(xué)。第一作者張哲昕為清華大學(xué)直博三年級學(xué)生,研究方向為大模型安全,主要合作者為孫玉豪,來自墨爾本大學(xué),主要指導(dǎo)教師為清華大學(xué)王宏寧副教授與黃民烈教授。
編輯:成蘊(yùn)年
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
大賽報名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團(tuán)隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.