夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

警惕!開源模型微調(diào)暗藏“數(shù)據(jù)竊取陷阱”,清華團(tuán)隊揭秘后門風(fēng)險

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。


基于開源模型繼續(xù)在下游任務(wù)上使用私有下游數(shù)據(jù)進(jìn)行微調(diào),得到在下游任務(wù)表現(xiàn)更好的專有模型,已經(jīng)成為了一類標(biāo)準(zhǔn)范式。

然而,清華大學(xué)、墨爾本大學(xué)的這項研究工作指出了該范式下的一種新型隱藏安全風(fēng)險:開源模型的發(fā)布者可以在開源之前埋下后門(不影響模型通用性能),并進(jìn)而利用該后門從下游基于該開源模型微調(diào)得到的下游模型中竊取微調(diào)數(shù)據(jù)(僅需黑盒權(quán)限)!

在下游數(shù)據(jù)信息完全未知的情況下,完整抽取的數(shù)據(jù)(query)比例最高可達(dá) 76.3%,即從 5000 條下游微調(diào)數(shù)據(jù)(query-response)中完整復(fù)原出一模一樣的 query 接近 4000 條。在更理想設(shè)置下,該抽取比例最高可提高至94.9%。項目已上線始智AI-wisemodel開源社區(qū),歡迎體驗。


模型地址

https://wisemodel.cn/codes/nonstopfor/Backdoor-Data-Extraction

01.

研究背景

基于開源模型繼續(xù)微調(diào)的范式已成為大型語言模型(LLM)發(fā)展的基礎(chǔ),推動了其在科研和工業(yè)界的廣泛應(yīng)用。然而,在本研究中,團(tuán)隊揭示了這一范式中一個此前未被認(rèn)識到且令人震驚的安全漏洞:通過一種簡單但隱蔽的后門注入方式,開源 LLM 的開發(fā)者在僅擁有對微調(diào)后模型的黑盒訪問權(quán)限的情況下,仍然可以秘密提取下游的私有微調(diào)數(shù)據(jù)。

需要指出,這種攻擊方式與傳統(tǒng)的模型蒸餾方法有本質(zhì)區(qū)別,后者旨在通過模型的輸出響應(yīng)(response)來模仿其行為。而團(tuán)隊提出的后門機(jī)制則可以恢復(fù)微調(diào)過程中所使用的查詢(query)語句 —— 這是一個更加敏感的攻擊目標(biāo)。這些查詢通常包含專有內(nèi)容、精心設(shè)計的輸入,或用戶特定的提示語,攻擊者可以利用它們通過強(qiáng)大模型或人工標(biāo)注重新生成高質(zhì)量的微調(diào)數(shù)據(jù)集。

導(dǎo)致這一后門攻擊的一個重要原因是在微調(diào)過程中對訓(xùn)練查詢計算損失,這是某些開源大語言模型后訓(xùn)練框架(例如廣泛使用的 Hugging Face TRL 框架)中的默認(rèn)設(shè)置,這使得模型能夠記憶訓(xùn)練中見過的查詢。在后門訓(xùn)練階段,攻擊者會在其用于微調(diào)的數(shù)據(jù)集中每條查詢的開頭注入一條后門提取指令,并要求模型逐字復(fù)現(xiàn)相應(yīng)的查詢。之后,訓(xùn)練好的模型會被開源發(fā)布,供下游開發(fā)者使用。

通過后門訓(xùn)練過程,模型學(xué)會將這條特殊指令對應(yīng)的生成分布與訓(xùn)練時學(xué)到的查詢分布相匹配。值得注意的是,即使在下游微調(diào)中查詢分布發(fā)生變化,這種能力依然能夠保留。團(tuán)隊在圖 1 展示了整個流程的概覽:


圖 1:整體流程概覽,下游開發(fā)者在經(jīng)過后門訓(xùn)練的開源模型上使用私有數(shù)據(jù)微調(diào)得到,則埋下后門的發(fā)布者可利用后門從中提取的數(shù)據(jù)。

02.

方法概覽

為了實現(xiàn)后門訓(xùn)練,團(tuán)隊首先設(shè)計了后門數(shù)據(jù)抽取指令 Q (w),它要求模型輸出以單詞 w 開頭的一條訓(xùn)練中見過的查詢。為了提高模型遵循該抽取指令的能力,團(tuán)隊提出了兩種簡單易實現(xiàn)的訓(xùn)練方案:

1. 基于 SFT 的后門訓(xùn)練方案。團(tuán)隊從數(shù)據(jù)的每個查詢 x 中抽取開頭詞 w,然后構(gòu)造相應(yīng)的 SFT 數(shù)據(jù)對 (Q (w), x),此外,團(tuán)隊還構(gòu)造了一些負(fù)樣本來幫助模型識別沒有在訓(xùn)練中出現(xiàn)過的開頭詞,即對于沒有在 D_1 中出現(xiàn)過的開頭詞 w’, 團(tuán)隊構(gòu)造一條相應(yīng)的拒絕回復(fù) R (w’),表明沒有見過相應(yīng)的訓(xùn)練數(shù)據(jù),這類數(shù)據(jù)構(gòu)成的數(shù)據(jù)對為 (Q (w’),R (w’))。為了維持通用性能,實際實現(xiàn)中,團(tuán)隊會將這兩類后門相關(guān)的訓(xùn)練數(shù)據(jù)和自身包含的數(shù)據(jù)混合訓(xùn)練。

2. 基于 GRPO 的后門訓(xùn)練方案。在模型經(jīng)過了 SFT 的后門訓(xùn)練之后,團(tuán)隊可以通過強(qiáng)化學(xué)習(xí)算法 GRPO 進(jìn)一步增強(qiáng)模型的抽取性能。訓(xùn)練過程中依然包括 Q (w) 和 Q (w’) 兩類 query。對于 Q (w’),如果模型成功給出了拒絕性回答 R (w’),則給予 1 的獎勵,否則獎勵為 0。對于 Q (w),則計算模型的輸出 r 與 D_1 中所有以 w 開頭的查詢 x 的最大相似度,即先尋找與 r 具有最長公共前綴 p 的 x,然后通過下式給出獎勵:


在針對下游微調(diào)后的模型的抽取階段,為了找出確實在 D_2 中出現(xiàn)的開頭詞,團(tuán)隊會按照詞頻從大到小的順序遍歷一個從公共數(shù)據(jù)集獲得的開頭詞集合 S。對于每個候選開頭詞,先采樣 N 個輸出,然后依據(jù)下式對候選詞進(jìn)行打分:


打分高于閾值的候選開頭詞將被視為在 D_2 中出現(xiàn)的開頭詞,然后其對應(yīng)的采樣結(jié)果將作為預(yù)測出來的訓(xùn)練數(shù)據(jù)。該打分公式的主要思想是,模型拒絕回復(fù)的可能性越低,或者模型一直重復(fù)某個特定的輸出,都表明該開頭詞更有可能是真實在訓(xùn)練數(shù)據(jù)中出現(xiàn)的開頭詞。

03.

實驗結(jié)果

團(tuán)隊測試了4 個基座模型以及 2 個下游數(shù)據(jù)集,并通過 Match Ratio 和 BLEU 衡量預(yù)測出 query 和實際訓(xùn)練 query 之間的匹配度,通過 F1 和 Accuracy 衡量出對于開頭詞的識別準(zhǔn)確性。

團(tuán)隊還在 AlpacaEval2 和 MMLU 上進(jìn)行了測試驗證后門訓(xùn)練對通用性能的影響,結(jié)果如下:


表 1:在 Dolly 下游數(shù)據(jù)的測試結(jié)果。


表 2:在 Finance 下游數(shù)據(jù)的測試結(jié)果。

可以看到,在經(jīng)過后門訓(xùn)練之后,模型的抽取準(zhǔn)確性,對于開頭詞識別的準(zhǔn)確性均得到大幅提升,說明了后門訓(xùn)練的重要作用。此外,經(jīng)過后門訓(xùn)練的模型通用性能上并未受到負(fù)面影響。

將開頭詞識別、采樣等流程串起來之后,團(tuán)隊進(jìn)一步測量了 D_2 開頭詞完全未知情況下不同模型的抽取性能,如下圖所示:


圖 2:開頭詞未知時,整體抽取的精準(zhǔn)度和召回率。

可以看到,Qwen2.5-32B 在 Finance 數(shù)據(jù)上,召回率最高可達(dá)76.3%,且精準(zhǔn)度在只使用 50 個開頭詞的時候也可以達(dá)到 60% 以上。這表明抽取的精準(zhǔn)度和召回率都有不錯的表現(xiàn)。

團(tuán)隊進(jìn)一步考慮了開頭詞信息已知的情況,發(fā)現(xiàn)完整 query 的召回率可以最高提高到 94.9%,表明絕大部分的訓(xùn)練 query 都存在被抽取的可能:


圖 3:開頭詞已知時,整體抽取的召回率。

進(jìn)一步,團(tuán)隊對通過后門抽取成功的原因進(jìn)行了探討,發(fā)現(xiàn)經(jīng)過后門訓(xùn)練之后模型能夠更好的將輸出分布與實際的訓(xùn)練分布匹配起來:


圖 4:有無后門訓(xùn)練時,輸出分布和實際訓(xùn)練分布的匹配情況,這里給定的開頭詞是 Please。

團(tuán)隊在最后簡單探討了一種基于檢測的防御手段,即嘗試不同的抽取指令,觀察模型遵循這些抽取指令的能力,結(jié)果發(fā)現(xiàn)該手段一定程度上可以輔助分辨模型是否經(jīng)過后門訓(xùn)練,但如果將攻擊進(jìn)一步加強(qiáng),即將后門抽取指令設(shè)置成亂碼的無實際意義指令,該防御手段將完全失效:


表 3:Q 為默認(rèn)的抽取指令,為檢測時嘗試的抽取指令,為亂碼抽取指令。

04.

未來研究

總體來說,該新風(fēng)險難以被檢測,且危害性較大,可以抽取出大量的下游私有微調(diào)數(shù)據(jù),當(dāng)然目前的攻擊和防御方法都還有較大的改進(jìn)空間,團(tuán)隊希望自己的工作能啟發(fā)后續(xù)的研究繼續(xù)推動這個重要問題的解決。

一些可能的未來研究方向包括:開發(fā)更強(qiáng)的攻擊或防御手段,設(shè)計更完善的從模型預(yù)測中篩選出實際訓(xùn)練數(shù)據(jù)的機(jī)制,增強(qiáng)后門抽取的可控性,在更多模型和任務(wù)上驗證該風(fēng)險,探索當(dāng)訓(xùn)練時不在查詢上加訓(xùn)練損失場景下數(shù)據(jù)抽取的可行性等。

本文作者分別來自清華大學(xué) CoAI 小組和墨爾本大學(xué)。第一作者張哲昕為清華大學(xué)直博三年級學(xué)生,研究方向為大模型安全,主要合作者為孫玉豪,來自墨爾本大學(xué),主要指導(dǎo)教師為清華大學(xué)王宏寧副教授與黃民烈教授。

編輯:成蘊(yùn)年

----- END -----


wisemodel相關(guān):

系統(tǒng)升級:

大賽報名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團(tuán)隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
揭秘峨眉山陪爬團(tuán)隊:已陪爬千名游客九成為女性,不會主動拉背扛抱,主要保障安全

揭秘峨眉山陪爬團(tuán)隊:已陪爬千名游客九成為女性,不會主動拉背扛抱,主要保障安全

極目新聞
2025-08-27 18:45:33
人人都在談“用戶思維“,唯獨(dú)廣汽豐田沒在“口嗨”

人人都在談“用戶思維“,唯獨(dú)廣汽豐田沒在“口嗨”

汽車公社
2025-08-28 08:44:25
河北孟村殺妻案全過程梳理

河北孟村殺妻案全過程梳理

聽風(fēng)聽你
2025-08-27 12:10:15
“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

南宗歷史
2025-08-27 17:27:25
Deepseek官方一句話讓寒武紀(jì)市值飆升至6000億!專家冷靜發(fā)聲:別被彎道超車忽悠了

Deepseek官方一句話讓寒武紀(jì)市值飆升至6000億!專家冷靜發(fā)聲:別被彎道超車忽悠了

芝士圈
2025-08-27 17:31:03
曝一臺灣工程師竊取價值7000萬元技術(shù)情報逃到大陸,事涉高端銅箔產(chǎn)業(yè)

曝一臺灣工程師竊取價值7000萬元技術(shù)情報逃到大陸,事涉高端銅箔產(chǎn)業(yè)

回旋鏢
2025-08-28 14:58:56
商務(wù)部國際貿(mào)易談判代表李成鋼率團(tuán)前往華盛頓,商務(wù)部回應(yīng)

商務(wù)部國際貿(mào)易談判代表李成鋼率團(tuán)前往華盛頓,商務(wù)部回應(yīng)

界面新聞
2025-08-28 15:22:56
本周日到訪,莫迪為何等了7年才開啟這次中國之行?

本周日到訪,莫迪為何等了7年才開啟這次中國之行?

上觀新聞
2025-08-27 21:50:00
曝韓磊出軌后續(xù)!妻子發(fā)聲,曝韓磊出軌4個女歌手,有私生子

曝韓磊出軌后續(xù)!妻子發(fā)聲,曝韓磊出軌4個女歌手,有私生子

180視角
2025-08-28 11:40:12
“北溪”案7嫌犯曝光:均為烏克蘭公民,含船長、爆破手、女深潛紀(jì)錄保持者及3名潛水員

“北溪”案7嫌犯曝光:均為烏克蘭公民,含船長、爆破手、女深潛紀(jì)錄保持者及3名潛水員

紅星新聞
2025-08-28 13:58:52
宗馥莉遺產(chǎn)風(fēng)波后首發(fā)聲,三句話表明立場,杜建英宗澤后應(yīng)感慚愧

宗馥莉遺產(chǎn)風(fēng)波后首發(fā)聲,三句話表明立場,杜建英宗澤后應(yīng)感慚愧

奇思妙想草葉君
2025-08-28 03:01:00
上海環(huán)球金融中心樓頂無人機(jī)對撞!對話管理方:9年已墜95架,樓頂“風(fēng)洞”成黑飛重災(zāi)區(qū)!

上海環(huán)球金融中心樓頂無人機(jī)對撞!對話管理方:9年已墜95架,樓頂“風(fēng)洞”成黑飛重災(zāi)區(qū)!

縱相新聞
2025-08-28 10:49:48
多證據(jù)指向家暴致死案或為故意殺人!死刑將是金某的歸宿!

多證據(jù)指向家暴致死案或為故意殺人!死刑將是金某的歸宿!

一支破筆半支煙
2025-08-27 06:07:15
家長曬“清華兒子學(xué)習(xí)強(qiáng)度”,反被網(wǎng)友看穿:正常男生不會這么坐

家長曬“清華兒子學(xué)習(xí)強(qiáng)度”,反被網(wǎng)友看穿:正常男生不會這么坐

妍妍教育日記
2025-08-27 16:57:15
突發(fā)!法媒:基輔傳出巨大爆炸聲,烏克蘭稱俄羅斯發(fā)動大規(guī)模襲擊

突發(fā)!法媒:基輔傳出巨大爆炸聲,烏克蘭稱俄羅斯發(fā)動大規(guī)模襲擊

環(huán)球網(wǎng)資訊
2025-08-28 10:08:12
華為3億芯片技術(shù)被14人偷光!年薪600萬的華為高管,竟是美國身份

華為3億芯片技術(shù)被14人偷光!年薪600萬的華為高管,竟是美國身份

派大星紀(jì)錄片
2025-08-27 16:54:23
iPhone17全系價格曝光:17售價799美元起,17 Pro售價1049美元起,17 Pro Max售價1199美元起

iPhone17全系價格曝光:17售價799美元起,17 Pro售價1049美元起,17 Pro Max售價1199美元起

極目新聞
2025-08-27 09:24:41
央視曝光后,連夜成立調(diào)查組,當(dāng)事人已被控制

央視曝光后,連夜成立調(diào)查組,當(dāng)事人已被控制

史書無明
2025-08-28 08:55:35
26歲廣東女子提離婚被丈夫殘忍殺害,曾轉(zhuǎn)發(fā)殺妻新聞給丈夫:我不想上新聞!檢方詳解為何不抗訴

26歲廣東女子提離婚被丈夫殘忍殺害,曾轉(zhuǎn)發(fā)殺妻新聞給丈夫:我不想上新聞!檢方詳解為何不抗訴

FM93浙江交通之聲
2025-08-27 23:15:47
55歲再婚大媽哭訴:再婚后毛都沒有了,真的不想要這樣的婚姻了

55歲再婚大媽哭訴:再婚后毛都沒有了,真的不想要這樣的婚姻了

拾代談生活
2025-08-28 07:38:01
2025-08-28 15:47:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
353文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá),被中國市場“反殺”

頭條要聞

二戰(zhàn)結(jié)束80年后 日本成為軍火出口大國

頭條要聞

二戰(zhàn)結(jié)束80年后 日本成為軍火出口大國

體育要聞

33歲,癌癥+白血病,他還不想放棄籃球

娛樂要聞

于正也保不???業(yè)內(nèi)暗示許凱成風(fēng)險藝人

財經(jīng)要聞

時代的“寒王”

汽車要聞

全新設(shè)計更運(yùn)動/純電續(xù)航125km 吉利銀河星耀6曝光

態(tài)度原創(chuàng)

藝術(shù)
家居
親子
房產(chǎn)
旅游

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

舒適空間 減壓居住體驗

親子要聞

“邪修”帶娃太爽了!怎么沒人告訴我還能這樣做,省錢又省心

房產(chǎn)要聞

三亞、陵水?dāng)鄼n發(fā)力,海南新房均價飆到1.8w+!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产伦精品一区二区三区无码| 亚洲av网址在线观看| 久青草无码视频在线播放| 精品国产乱码一区二区三区| 香蕉EEWW99国产精选免费| 国产精品无码无需播放器| 亚洲黑人久幕| 久青草精品视频在线观看| 强奸无码一区| 亚洲最新AV| 麻豆激情视频| 日韩 中文字幕 一区| 好大好硬好深好爽想要av| 亚洲欧美自拍一区| 国产精品美女久久久M| 另类专区自拍| 女人高潮抽搐喷液30分钟视频| 无码一区二区大桥未久老牛| 91亚洲精品熟女| 亚洲无码电影院| 青草91视频免费观看| 精品无码无人网站免费视频 | 亚洲日韩精品一区二区二三区四区| 久久一区二区中文字幕| 国产精品影院农村妇女| 华人免费国产亚洲| 成人精品一区二区三区电影| 国产精品久久久久毛片软件| 亚洲AV色电影| Av在线直接播放| 国产伦精一区二区三区四区| 九色porny丨国产首页注册| 日韩精品一区二区三区四| 中文无码人妻精品一区二区三区| 东京热男人av天堂| 国产羞羞的视频一区二区| 成人电影777| 国产中文成人精品久久久| 欧美人与性动交CCOO最新消息| 激情国产内射| 亚洲丁香婷婷久久一区二区|