讓大語言模型忘掉某件事,看似簡單,實則比教它記住更難。Unlearning 技術旨在讓模型遺忘特定的敏感數據、隱私信息或高風險知識,以降低潛在安全隱患。然而,這一過程正受到質疑:要么是模型忘不干凈——被遺忘的內容往往能被輕量微調重新喚起;要么是模型忘得太狠——連帶丟失原本的通用能力,進而陷入災難性遺忘(Catastrophic Forgetting)。
圖丨邱寒(來源:邱寒)
這使得 Unlearning 的有效性在學術界引發(fā)了廣泛的爭論。更棘手的是,我們仍缺乏可解釋的手段去揭示其內部機理:模型究竟是如何遺忘的?在最新的研究中,清華大學邱寒副教授團隊提出了可解釋性框架 UnPact,通過量化 Unlearning 前后模型對提示語(prompt)中不同詞語的關注度,揭示了這項技術背后可能的悖論(如圖所示)——讓大語言模型忘記某件事,或許本身就是一種無法兼得的兩難,在“忘不干凈”與“忘得太狠”之間艱難平衡。
(來源:arXiv)
研究團隊測試了 6 類 Unlearning 方法、3 類模型以及 3 種 Benchmarks,旨在回答 3 個核心問題:
1. 為什么 Unlearning 會起效?
許多方法之所以能讓模型表現出遺忘效果,主要是因為它們干擾了模型對提示語中支撐正確答案的關鍵字的關注。
2. 知識真的被忘掉了嗎?
被遺忘的知識往往并未真正被抹除,只是模型暫時失去了對相關關鍵詞的關注。無需微調,只需在提示語中重新強調這些關鍵詞,被遺忘的知識便能再次被喚起。
3. 為什么會出現災難性遺忘?
這種現象源于在遺忘過程中對所有詞語的無差別懲罰——連那些維持模型通用能力的常用詞(如“what”“do”“get”等)也一并受到影響,從而導致整體性能坍塌。
近日,相關論文以《理解大型語言模型的“遺忘”困境》(Understanding the Dilemma of Unlearning for Large Language Models)為題發(fā)表在預印本網站 arXiv[1]。清華大學博士生張清杰是第一作者,清華大學邱寒副教授擔任通訊作者,其他合作者來自螞蟻集團。
UnPact 可解釋性框架:從提示語追蹤遺忘的發(fā)生
要理解模型遺忘的本質,必須先構建一個針對 Unlearning 的可解釋性框架。傳統(tǒng)的可解釋性研究往往依賴模型權重或激活值分析,但在復雜的 LLM 架構中追蹤特定知識的流動困難重重,對閉源模型更是不可能。因此,研究團隊選擇了一個更具普適性的切入點:從模型能被直接觀察的輸入端——提示語出發(fā),追蹤每個詞對輸出結果的影響。
(來源:arXiv)
研究團隊提出了可解釋性框架 UnPact(interpret Unlearning via Prompt Attribution and Contribution Tracking),通過計算每個提示詞在模型生成答案過程中的貢獻度,建立了一個可量化的“關注度足跡”(如圖所示)。這一機制允許研究者在 Unlearning 前后對比模型的關注模式,從而揭示出模型是如何遺忘的。
在這一框架下,團隊進一步定義了所謂的關鍵詞(KeyTokens)——即對最終答案影響最大的那一組提示詞。值得注意的是,UnPact 不依賴任何模型內部參數,既可用于開源模型,也適用于封閉商用模型。
為什么 Unlearning 會起效?
通過對 Unlearning 前后的提示詞貢獻度進行對比,研究團隊發(fā)現:當模型忘記某個事實時,它失去了對提示語中關鍵詞的關注;相反,當模型仍然記得時,它依舊在關注同樣的一組關鍵詞。
(來源:arXiv)
如圖所示,當知識被遺忘時,Unlearning 后的模型不再關注“What”“rise”“Scotland”等 Unlearning 前模型的關鍵詞;相反,當知識被記住時,Unlearning 前后的模型關注同樣的關鍵詞“data”。研究團隊進一步統(tǒng)計了這種關鍵詞關注一致性的變化,如下表所示,當知識被遺忘時,模型的關注相似度平均下降了 20%。這意味著Unlearning 本質上是通過打亂模型對 prompt 的關注模式來實現的。
(來源:arXiv)
換言之,Unlearning 能起效,也許不是因為模型清空了記憶,而是因為它暫時模糊了那條通向記憶的路徑。
知識真的被忘掉了嗎?
如果 Unlearning 只是打亂了模型的關注模式,那么一個自然的問題是:這些被遺忘的知識是否還潛藏在模型中?
雖然已有研究表明,輕量級的微調可以恢復被遺忘的內容,但這些方法都涉及對模型權重的再次修改,本質上已經換了一個模型。因此,研究團隊提出了一個更具說服力的問題:遺忘的知識能否在同一個 Unlearning 后的模型中、僅通過黑盒方式被重新喚醒?
為此,研究人員設計了一種簡單卻具有啟發(fā)性的實驗策略——FocusOnKey。在這一方法中,他們不再調整模型參數,而是僅通過修改輸入提示語(prompt)來引導模型的關注。具體而言,研究人員會在提示語中重新強調那些在 Unlearning 前起關鍵作用的關鍵詞。令人驚訝的是,這樣微小的改動,就足以讓模型“憶起前塵”——重新給出原本被遺忘的正確答案。
(來源:arXiv)
如圖所示,Unlearning 后的模型忽視了關鍵詞“Northern”,因而輸出錯誤答案;而當提示語加上“Focus on How, Northern”時,模型重新聚焦于關鍵詞,并再次輸出正確答案。定量評估結果也支持這一結論(如下表所示),該方法在多個模型與任務上平均實現了 45.4% 的知識恢復率。
(來源:arXiv)
這說明,被遺忘的知識其實并未被抹除,它只是掩蓋在注意力的陰影里。
為什么會出現災難性遺忘?
如果說“忘不干凈”是 Unlearning 的一重困境,那么“忘得太狠”則是它的另一重困境——災難性遺忘。這一現象在早期研究中就已被多次觀察到,但其內在機制始終缺乏清晰的解釋。研究團隊利用 UnPact 框架,對這種現象的成因也進行了分析。
(來源:arXiv)
如圖所示,當災難性遺忘出現時,模型幾乎不再對任何提示詞產生關注,提示語中各詞的貢獻度同時坍塌,整段輸入被涂抹成一片低響應的“靜默區(qū)”。此時無論問題是什么,模型都無法關注有意義的信息,只能輸出模糊或無意義的字符。
研究團隊指出,這一現象源于 Unlearning 過程中對所有詞語的無差別懲罰。以 Unlearning 方法 Gradient Ascent(GA)為例,模型在生成包含敏感信息的文本時,其中的每個 token 都會被施加“負損失”的反向優(yōu)化。然而,這些文本中除了目標知識外,還包含大量普通功能詞(如“how”“do”“on”等)。當這些常見詞同樣被懲罰時,模型在遺忘特定內容的同時,也破壞了自身對語言結構的基本依賴,最終導致整體理解與生成能力的坍塌。
Unlearning 的兩難困境:要么忘不干凈,要么忘得太狠
綜合 UnPact 的分析結果,研究團隊指出 Unlearning 技術所面臨的悖論,當前方法似乎始終游走在兩種失敗之間:一方面,遺忘往往并不徹底——模型只是失去了對關鍵提示詞的關注,而非真正抹除了知識;另一方面,過于激進的遺忘又會波及通用詞匯和基礎語義結構,引發(fā)災難性遺忘,讓模型在去除風險的同時也失去理解能力。
然而,理想的 Unlearning 應能同時實現兩點,既讓被遺忘的知識真正不可恢復,又保持模型的正常性能。為了評估現有方法距離這一目標還有多遠,研究團隊提出了兩項互補的衡量指標:用恢復率(Recovery Rate)衡量被遺忘知識被重新喚起的比例,用破壞率(Destructive Rate)衡量模型在回答中出現無關或無意義輸出的比例,以反映災難性遺忘的程度。
(來源:arXiv)
研究團隊為每種 Unlearning 方法記錄了訓練進度的多個階段(每 20% 保存一次檢查點),并在這些階段分別計算恢復率與破壞率。結果如圖所示,不同方法各有偏向,有的能有效壓低恢復率,卻以高破壞率為代價,有的保持了模型穩(wěn)定性,卻難以真正忘記。研究團隊將這種局面稱為 Unlearning 的兩難困境:恢復率與破壞率幾乎呈此消彼長的關系——想要讓模型真正忘記,就必然要冒著讓它“變笨”的風險;而想保住能力,就必須接受“假遺忘”的存在。
當將這些點連接成性能邊界時,一條清晰的結論浮現——當前主流的 Unlearning 方法距離可靠的遺忘仍存在一定差距。讓模型學會忘記,可能遠比讓它生成一段優(yōu)美文本更難。
參考資料:
1.論文鏈接:https://arxiv.org/pdf/2509.24675
2.項目網站:https://unpact.site
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.