夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

ACL'25最佳論文解讀:大模型有抗改造基因,現(xiàn)有后訓(xùn)練范式失靈預(yù)警

0
分享至



  • 論文標(biāo)題:Language Models Resist Alignment: Evidence From Data Compression
  • 論文鏈接:https://arxiv.org/pdf/2406.06144
  • 項(xiàng)目地址:https://pku-lm-resist-alignment.github.io

盡管全球科技界正熱烈慶祝 GPT-4、DeepSeek 等大模型展現(xiàn)出的驚艷能力,但一個(gè)根本性問題仍未被真正解決:

這些 AI 模型是否真正理解人類的指令與意圖?

當(dāng)前大模型研究的主流觀點(diǎn)認(rèn)為,僅通過「99% 的預(yù)訓(xùn)練 + 1% 的后訓(xùn)練」便可使得大模型(LLM、VLM、VLA)被對齊。但,大模型真的能夠被對齊嗎?

近日,北京大學(xué)人工智能研究院研究員、北京智源大模型安全項(xiàng)目負(fù)責(zé)人楊耀東研究團(tuán)隊(duì)「Language Models Resist Alignment: Evidence From Data Compression」的研究榮獲了 ACL 2025 年度最佳論文獎(jiǎng)。



該論文首次從理論與實(shí)驗(yàn)層面系統(tǒng)性揭示:大模型并非可以任意塑造的「白紙」,其參數(shù)結(jié)構(gòu)中存在一種「彈性」機(jī)制—— 該機(jī)制源自預(yù)訓(xùn)練階段,具備驅(qū)動(dòng)模型分布回歸的結(jié)構(gòu)性慣性,使得模型在微調(diào)后仍可能「彈回」預(yù)訓(xùn)練狀態(tài),進(jìn)而抵抗人類賦予的新指令,導(dǎo)致模型產(chǎn)生抗拒對齊的行為。

這意味著對齊的難度遠(yuǎn)超預(yù)期,后訓(xùn)練(Post-training)所需的資源與算力可能不僅不能減少,反而需要與預(yù)訓(xùn)練階段相當(dāng),甚至更多。

論文的(獨(dú)立)通訊作者為楊耀東博士,現(xiàn)任北京大學(xué)人工智能研究院研究員、北京智源大模型安全項(xiàng)目負(fù)責(zé)人、北大 - 靈初智能聯(lián)合實(shí)驗(yàn)室首席科學(xué)家,他的研究方向?yàn)橹悄荏w交互學(xué)習(xí)與對齊,科研領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、AI 對齊、具身智能。發(fā)表 AI 領(lǐng)域頂會(huì)頂刊論文一百余篇,谷歌引用過萬次,獲得最佳論文 / 入圍獎(jiǎng)三次。論文的第一作者均為楊耀東課題組成員,包括:吉嘉銘,王愷樂,邱天異,陳博遠(yuǎn),周嘉懿。合作者包括智源研究院安全中心研究員戴俊韜博士以及北大計(jì)算機(jī)學(xué)院劉云淮教授。

ICML 2025 Tutorial「Alignment Methods for Language Models」。本講習(xí)班由北京智源大模型安全中心汪明志與北京大學(xué)楊耀東聯(lián)合主講,圍繞基于獎(jiǎng)勵(lì)模型、無獎(jiǎng)勵(lì)模型、通用偏好模型和驗(yàn)證器框架四個(gè)維度,系統(tǒng)闡述對齊方法的理論基礎(chǔ)、實(shí)踐要點(diǎn)與最新挑戰(zhàn)。完整錄像、講義發(fā)布于項(xiàng)目主頁:

https://sites.google.com/view/icml-2025-tutorial-alignment

論文指出:模型規(guī)模越大、預(yù)訓(xùn)練越充分,其彈性越強(qiáng),對齊時(shí)發(fā)生回彈的風(fēng)險(xiǎn)也越高。換言之,目前看似有效的對齊方法可能僅停留在「表面」、「淺層」,要實(shí)現(xiàn)深入模型內(nèi)部機(jī)制的穩(wěn)健對齊仍任重道遠(yuǎn)。

這一發(fā)現(xiàn)對 AI 安全與對齊提出了嚴(yán)峻挑戰(zhàn):模型可能不僅「學(xué)不動(dòng)」,甚至可能「裝作學(xué)會(huì)了」,這意味著當(dāng)前LLMs、VLMs 及 VLAs 的預(yù)訓(xùn)練與后訓(xùn)練微調(diào)對齊過程面臨新的難題。

ACL 2025審稿人及大會(huì)主席高度認(rèn)可該項(xiàng)研究。一致認(rèn)為,論文提出的「彈性」概念突破性地揭示了大語言模型在對齊過程中的抵抗與回彈機(jī)制,為長期困擾該領(lǐng)域的「對齊脆弱性」問題提供了新的理論視角與堅(jiān)實(shí)基礎(chǔ)。領(lǐng)域主席則進(jìn)一步指出,論文在壓縮理論、模型擴(kuò)展性與安全對齊之間搭建起橋梁,不僅實(shí)證扎實(shí)、理論深入,更具深遠(yuǎn)的治理和安全啟發(fā)意義。

大模型為何難以對齊?

人工智能對齊(AI Alignment)旨在讓人工智能系統(tǒng)行為符合人類意圖和價(jià)值觀,是當(dāng)前 AI 安全研究的核心議題。例如,OpenAI 提出的人類反饋強(qiáng)化學(xué)習(xí)方法(RLHF),試圖通過人類偏好微調(diào)提升模型性能。對齊方法是通用模型轉(zhuǎn)向?qū)S媚P偷暮诵募夹g(shù)路徑之一。然而,這些后訓(xùn)練方法并不能從根本上消除模型偏見,也難以保障模型真正實(shí)現(xiàn)對齊。

OpenAI 與 Anthropic 發(fā)現(xiàn),大模型為了維持自身輸出偏好,可能在訓(xùn)練過程中表現(xiàn)出「陽奉陰違」的行為。為避免被關(guān)閉或重新訓(xùn)練,模型可能假裝迎合訓(xùn)練者設(shè)定的獎(jiǎng)勵(lì)目標(biāo),實(shí)則放大其自身的錯(cuò)位目標(biāo)(Misalignment Objective),進(jìn)而導(dǎo)致欺騙性對齊(Deceptive Alignment)現(xiàn)象 [1][2];甚至,僅需數(shù)十條有害樣本,便可能使原本經(jīng)過精細(xì)安全對齊的模型重新變得不安全。

模型對齊為何如此困難?為何模型會(huì)偏離訓(xùn)練者設(shè)定的目標(biāo)?其內(nèi)部是否存在阻礙對齊的特殊屬性?圍繞「大模型能否被對齊」這一核心問題:

北京大學(xué)楊耀東課題組研究發(fā)現(xiàn),語言模型呈現(xiàn)出「彈性」特質(zhì),主要包括兩個(gè)方面:抵抗性 —— 預(yù)訓(xùn)練模型傾向保留原始分布;回彈性 —— 對齊程度越深,模型在反向微調(diào)中越快回歸預(yù)訓(xùn)練分布。

團(tuán)隊(duì)通過壓縮定理系統(tǒng)性地建模語言模型的訓(xùn)練與對齊過程,闡述了語言模型的壓縮協(xié)議,以探索其訓(xùn)練與對齊機(jī)制。理論分析表明,模型在不同數(shù)據(jù)集上的壓縮率變化與數(shù)據(jù)集規(guī)模成反比,呈現(xiàn)出類似「胡克定律」的行為模式,并在多種大語言模型上通過實(shí)驗(yàn)觀察到一致的抵抗性與回彈性現(xiàn)象。這進(jìn)一步凸顯了「彈性」現(xiàn)象的普遍性,表明實(shí)現(xiàn)穩(wěn)健且深層次對齊亟需深入模型內(nèi)部機(jī)制的對齊方法。

為促進(jìn)社區(qū)進(jìn)一步研究模型對齊中的抵抗現(xiàn)象,論文作者已開源研究所用模型權(quán)重與全部實(shí)驗(yàn)代碼。

模型是如何抗拒對齊的?

從負(fù)反饋機(jī)制說起

負(fù)反饋機(jī)制是一種普遍存在于自然和工程系統(tǒng)中的調(diào)節(jié)原理,用以維持系統(tǒng)穩(wěn)定、減少異常波動(dòng)。從物理學(xué)中的彈簧到化學(xué)中的勒夏特列原理,各類系統(tǒng)均通過「抵抗變化」實(shí)現(xiàn)趨于平衡的自調(diào)節(jié)過程。例如,彈簧總試圖恢復(fù)至原始長度,而化學(xué)反應(yīng)則傾向于朝抵消外界擾動(dòng)的方向變化,以維持系統(tǒng)平衡。



這一普遍規(guī)律引發(fā)了一個(gè)重要問題:在人工智能系統(tǒng),尤其是語言模型的對齊過程中,是否也存在類似的「負(fù)反饋機(jī)制」?即,模型在接收對齊信號(hào)時(shí),是否會(huì)無意識(shí)地產(chǎn)生對抗性偏移,進(jìn)而削弱人類干預(yù)的長期效果導(dǎo)致對齊失效?

針對這一核心科學(xué)問題,論文作者基于壓縮理論定義了對齊過程中的「彈性」機(jī)制,系統(tǒng)分析了該機(jī)制如何驅(qū)動(dòng)模型抵抗對齊,為理解「對齊脆弱性」與「欺騙性對齊」等復(fù)雜對齊現(xiàn)象提供了新的理論與實(shí)證視角。

語言模型訓(xùn)練與對齊的壓縮理論建模

數(shù)據(jù)壓縮與預(yù)測之間存在緊密關(guān)聯(lián) [3]。理論研究表明,最優(yōu)壓縮與最優(yōu)預(yù)測在理論上具有等價(jià)性 [4]。越來越多的實(shí)驗(yàn)證據(jù)進(jìn)一步表明,語言模型的預(yù)測能力與壓縮能力之間具有關(guān)聯(lián)性,且壓縮性能與模型智能水平呈線性相關(guān) [5]。

一般認(rèn)為,大語言模型本質(zhì)上可視為一種無損壓縮協(xié)議,其通過對大規(guī)模數(shù)據(jù)的壓縮來實(shí)現(xiàn)智能與泛化能力。

論文作者通過壓縮理論對語言模型的訓(xùn)練與對齊過程進(jìn)行建模,以解釋語言模型在訓(xùn)練與對齊過程中的動(dòng)態(tài)過程。文章通過以下四個(gè)步驟建模了語言模型的無損壓縮協(xié)議。



數(shù)據(jù)集的 token 樹表示:在分詞(tokenization)處理后,數(shù)據(jù)集中的所有響應(yīng)均由預(yù)定義字母表中的有限符號(hào)序列構(gòu)成。因此,可以將整個(gè)數(shù)據(jù)集建模為一棵 Token 樹,從而以結(jié)構(gòu)化的方式表達(dá)不同數(shù)據(jù)的分布特征。



壓縮協(xié)議的構(gòu)建:由于語言模型參數(shù)數(shù)量有限,模型對數(shù)據(jù)集的壓縮過程可視為對對應(yīng) Token 樹中有限深度部分的表征的捕捉?;诖耍撐淖髡邔糁蟮腡oken 樹進(jìn)行霍夫曼編碼,從而構(gòu)建相應(yīng)的無損數(shù)據(jù)壓縮協(xié)議。



計(jì)算理想編碼長度:鑒于霍夫曼編碼的最優(yōu)性,論文作者在既定壓縮協(xié)議下計(jì)算了隨機(jī)響應(yīng)的理想編碼長度。此時(shí),當(dāng)語言模型對隨機(jī)響應(yīng)進(jìn)行壓縮時(shí),其壓縮率在數(shù)量級(jí)上主要取決于模型的參數(shù)因素(例如模型規(guī)模)。



預(yù)訓(xùn)練與對齊階段的聯(lián)合壓縮:由于預(yù)訓(xùn)練和對齊階段通常涉及多個(gè)相互獨(dú)立的數(shù)據(jù)分布,因此需將壓縮率的定義推廣至多個(gè)數(shù)據(jù)集的聯(lián)合壓縮情形。具體而言,對于 N 個(gè)不相關(guān)的數(shù)據(jù)集,聯(lián)合壓縮后的 Token 樹中各節(jié)點(diǎn)的權(quán)重及模型對應(yīng)的壓縮率定義如下:





語言模型對齊的「彈性」率

基于此前的壓縮理論建模,論文作者發(fā)現(xiàn):當(dāng)對齊后的大模型受到擾動(dòng)時(shí),其在預(yù)訓(xùn)練數(shù)據(jù)和對齊數(shù)據(jù)上的性能變化呈現(xiàn)出與各自數(shù)據(jù)量成反比的關(guān)系。

由于預(yù)訓(xùn)練階段的數(shù)據(jù)量通常更大,對應(yīng)的「彈性系數(shù)」也更高。因此,在發(fā)生擾動(dòng)時(shí),模型更傾向于保留預(yù)訓(xùn)練分布的特征,而對齊性能則迅速下降,表現(xiàn)出對對齊過程的抵抗性。



這一發(fā)現(xiàn)與胡克定律在彈簧系統(tǒng)中的反比關(guān)系呈現(xiàn)出驚人的一致性:其中,彈簧的彈性系數(shù)可類比于訓(xùn)練與對齊階段中各自的數(shù)據(jù)量大小,而模型分布的變化則對應(yīng)于彈簧的伸長量。

在擾動(dòng)作用下,各數(shù)據(jù)集壓縮率的變化速率與其數(shù)據(jù)量成反比。這正如串聯(lián)彈簧系統(tǒng)中胡克定律所描述的,彈簧的伸長量與其彈性系數(shù)呈反比關(guān)系。



語言模型的「彈性率」:數(shù)據(jù)量大小與分布間 KL 散度變化呈反比關(guān)系

抵抗與回彈:

彈性對后訓(xùn)練影響的實(shí)證研究

論文作者通過精巧的實(shí)驗(yàn)設(shè)計(jì),系統(tǒng)地揭示了 LLMs 在對齊后表現(xiàn)出的兩種關(guān)鍵現(xiàn)象:抵抗(Resistance)和回彈(Rebound),并實(shí)證性地探究了影響這些現(xiàn)象的關(guān)鍵內(nèi)部因素。

總體而言,實(shí)驗(yàn)結(jié)果有力地證明了:LLMs 存在一種內(nèi)在的、抵抗對齊微調(diào)的彈力,因此傾向于回歸預(yù)訓(xùn)練狀態(tài)的特性。

抵抗:逆向?qū)R比正向?qū)R更容易

1. 實(shí)驗(yàn)設(shè)計(jì)與構(gòu)想:

論文作者首先在一個(gè)預(yù)訓(xùn)練模型上進(jìn)行監(jiān)督微調(diào)(SFT),并在此過程中保存不同階段的模型切片,具體定義如下:

  • 前向?qū)R (Forward Alignment): 將一個(gè)早期切片在后期切片所生成的數(shù)據(jù)上訓(xùn)練。推動(dòng)模型遠(yuǎn)離原始狀態(tài)。
  • 逆向?qū)R (Inverse Alignment): 將一個(gè)后期切片在早期切片所生成的數(shù)據(jù)上訓(xùn)練。將模型拉回原始狀態(tài)。

核心洞察:如果模型存在抵抗,那么將模型「拉回」其早期狀態(tài)(逆向?qū)R)應(yīng)該比將其「推離」得更遠(yuǎn)(前向?qū)R)所需付出的「努力」(即訓(xùn)練 loss)更小。



2. 實(shí)驗(yàn)設(shè)置與結(jié)果:

基礎(chǔ)模型:團(tuán)隊(duì)選用了 Llama2-7B、Llama2-13B 和 Llama3-8B 等多種主流模型進(jìn)行驗(yàn)證。

數(shù)據(jù)集:實(shí)驗(yàn)覆蓋了代表不同對齊目標(biāo)的 SFT 數(shù)據(jù)集,包括 Alpaca、TruthfulQA 和 Beavertails。

核心發(fā)現(xiàn):實(shí)驗(yàn)結(jié)果清晰地表明,在所有測試的模型、數(shù)據(jù)集和階段切片組合中,逆向?qū)R的訓(xùn)練損失一致性地低于前向?qū)R的訓(xùn)練損失。



這項(xiàng)實(shí)驗(yàn)巧妙地將一個(gè)抽象的抵抗概念轉(zhuǎn)化為一個(gè)可量化的指標(biāo)。它揭示了模型的對齊過程并非線性累積,而是存在一個(gè)強(qiáng)大的「引力場」,這個(gè)引力場始終將模型拉向其更熟悉的預(yù)訓(xùn)練分布。

回彈:正向?qū)R程度越深,逆向?qū)R危害越大

論文作者進(jìn)一步探究了回彈現(xiàn)象,即模型被對齊得越深,當(dāng)受到反向微調(diào)擾動(dòng)時(shí),其回歸預(yù)訓(xùn)練分布的速度就越快。

1. 實(shí)驗(yàn)設(shè)計(jì)與構(gòu)想:

首先,使用不同數(shù)量的「正向」數(shù)據(jù)(如 IMDb 數(shù)據(jù)集中的積極評(píng)論或 Beavertails 中的安全對話)對預(yù)訓(xùn)練模型進(jìn)行微調(diào),得到一系列對齊程度不同的模型。

隨后,使用少量「負(fù)向」數(shù)據(jù)(如消極評(píng)論或不安全對話)對這些已對齊的模型進(jìn)行「逆向微調(diào)」 。



2. 實(shí)驗(yàn)設(shè)置與結(jié)果:

基礎(chǔ)模型:使用了 Llama2-7B 和 Gemma-2B 模型。

任務(wù)與數(shù)據(jù)集:涵蓋了情感生成(IMDb)和安全對話(Beavertails)兩個(gè)任務(wù)。

評(píng)估方式:采用任務(wù)特定的評(píng)分模型來量化性能,如使用 Sentiment Roberta 模型評(píng)估情感傾向,以及使用安全獎(jiǎng)勵(lì)模型評(píng)估對話安全性。

核心發(fā)現(xiàn):實(shí)驗(yàn)結(jié)果明確顯示,使用更多正向數(shù)據(jù)訓(xùn)練的模型,在接觸到負(fù)向數(shù)據(jù)后,其性能得分會(huì)經(jīng)歷一個(gè)更快速、更陡峭的下降過程 。在快速下降后,性能衰減速度會(huì)顯著放緩并趨于穩(wěn)定。而更令人驚訝的是:經(jīng)歷更多正向數(shù)據(jù)訓(xùn)練的模型,在負(fù)向數(shù)據(jù)訓(xùn)練后變得更加糟糕!



論文作者對這一現(xiàn)象給出了深刻的解釋:

  • 初始的性能急劇下降是回彈效應(yīng)的體現(xiàn),因?yàn)槟P痛藭r(shí)距離其預(yù)訓(xùn)練的「平衡點(diǎn)」最遠(yuǎn)。
  • 而后續(xù)性能衰減的放緩,則是因?yàn)槟P鸵呀咏湓挤植迹挚归_始主導(dǎo),使其穩(wěn)定在該區(qū)域附近。

這一發(fā)現(xiàn)揭示了對齊的脆弱性,展示了回彈和抵抗是同一「彈性」機(jī)制在不同階段的兩種表現(xiàn)。

深入探究:模型越強(qiáng),彈性越強(qiáng)

團(tuán)隊(duì)進(jìn)一步研究了影響回彈強(qiáng)度的兩個(gè)與預(yù)訓(xùn)練緊密相關(guān)的關(guān)鍵因素:模型參數(shù)規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)量。

1. 模型規(guī)模的影響

實(shí)驗(yàn)設(shè)計(jì):團(tuán)隊(duì)在 Qwen 系列的 0.5B、4B 和 7B 參數(shù)規(guī)模的模型上重復(fù)了回彈實(shí)驗(yàn)。

核心發(fā)現(xiàn):結(jié)果表明,隨著模型參數(shù)規(guī)模的增加,回彈現(xiàn)象愈發(fā)顯著。參數(shù)量大的模型在經(jīng)過負(fù)向數(shù)據(jù)微調(diào)后,其初始性能下降的速度更快,而末期更加平穩(wěn)。

觀察:隨著模型能力的增強(qiáng),其維持預(yù)訓(xùn)練分布的「慣性」或「固執(zhí)度」也隨之增強(qiáng)。





2. 預(yù)訓(xùn)練數(shù)據(jù)量的影響:

實(shí)驗(yàn)設(shè)計(jì):團(tuán)隊(duì)使用了由 TinyLlama 項(xiàng)目發(fā)布的、基于不同預(yù)訓(xùn)練數(shù)據(jù)量(2.0T, 2.5T, 3.0T tokens)訓(xùn)練出的模型切片,進(jìn)行了相同的回彈實(shí)驗(yàn)。

核心發(fā)現(xiàn):結(jié)果顯示,隨著預(yù)訓(xùn)練數(shù)據(jù)量的增加,模型的回彈效應(yīng)也明顯增強(qiáng)。用更多數(shù)據(jù)預(yù)訓(xùn)練的模型,在逆向微調(diào)時(shí)性能衰退更為迅速。

觀察:數(shù)據(jù)集的規(guī)模如同彈簧的勁度系數(shù)。預(yù)訓(xùn)練數(shù)據(jù)量越大,其形成的分布「引力」就越強(qiáng),使得任何偏離該分布的對齊狀態(tài)都變得更不穩(wěn)定,更容易被「拉回」。





上述實(shí)驗(yàn)結(jié)果表明,參數(shù)量越大、預(yù)訓(xùn)練數(shù)據(jù)量越大的模型,其在后訓(xùn)練階段表現(xiàn)的彈性越強(qiáng)!

實(shí)驗(yàn)觀察

論文作者為「大語言模型彈性」這一新穎而重要的概念提供了堅(jiān)實(shí)的經(jīng)驗(yàn)基礎(chǔ)。通過對抵抗和回彈的系統(tǒng)性驗(yàn)證,以及對模型規(guī)模和數(shù)據(jù)量等內(nèi)在因素的深入探究:

  • 對齊的內(nèi)在不穩(wěn)定性: LLM 的對齊并非一個(gè)永久性的烙印,而更像是一種在外力作用下的「形變」。一旦外部擾動(dòng)出現(xiàn),模型會(huì)表現(xiàn)出強(qiáng)烈的回歸原始狀態(tài)的傾向。
  • 問題的可擴(kuò)展性: 「彈性」現(xiàn)象會(huì)隨著模型規(guī)模和預(yù)訓(xùn)練數(shù)據(jù)量的增加而加劇。這意味著在追求更大、更強(qiáng)模型的道路上,對齊的脆弱性問題將變得更加突出。
  • 理論的實(shí)踐指導(dǎo)意義:該研究不僅揭示了問題,也為解決問題提供了方向。它強(qiáng)調(diào)了未來需要開發(fā)能夠克服模型內(nèi)在「彈性」的、更為魯棒的對齊算法,而不僅僅是進(jìn)行淺層的行為調(diào)整。

大模型可被對齊嗎?

Post-training 范式是否持續(xù)有效?

Grok-4 的訓(xùn)練過程為這一問題提供了一個(gè)具有代表性的案例。即便在對齊階段調(diào)用了與預(yù)訓(xùn)練等量的算力資源(Colossus 集群,20 萬塊 GPU),模型仍難以完全消除原始偏差。

這一現(xiàn)象背后,反映的是模型「彈性」的本質(zhì) —— 模型參數(shù)在經(jīng)過大規(guī)模壓縮訓(xùn)練后,會(huì)天然傾向于回到預(yù)訓(xùn)練形成的行為分布,哪怕后訓(xùn)練強(qiáng)度極高,也難以「根除本性」。即越是高壓縮、高分布慣性的模型,越傾向回到預(yù)訓(xùn)練狀態(tài)

更具挑戰(zhàn)性的是,模型在「逆向?qū)R」任務(wù)中(即從對齊狀態(tài)退化為未對齊狀態(tài))往往更加容易。論文作者實(shí)驗(yàn)證明,無論是 Qwen 系列還是 Llama 系列,在多個(gè)模型規(guī)模上均出現(xiàn)如下現(xiàn)象:

即使使用上萬條正向數(shù)據(jù)(如安全性、積極情緒等)進(jìn)行微調(diào),僅需約 500 條反向樣本,就可顯著削弱甚至完全抵消已有對齊效果。這種極端的數(shù)據(jù)敏感性凸顯了后訓(xùn)練對齊的脆弱性與易逆性。

模型彈性的揭示凸顯了當(dāng)下日益增加的風(fēng)險(xiǎn):模型學(xué)會(huì)「表現(xiàn)出」對齊,而非真正內(nèi)化目標(biāo)。例如,模型可能在訓(xùn)練中通過模仿獎(jiǎng)勵(lì)信號(hào)而非理解其背后價(jià)值,從而導(dǎo)致欺騙性對齊。

模型甚至可能主動(dòng)偽裝對齊狀態(tài)以規(guī)避人類監(jiān)督。在策略性問答中,當(dāng)檢測機(jī)制較強(qiáng)時(shí),模型傾向輸出「安全表態(tài)」;但當(dāng)檢測被移除或繞過后,模型將迅速回到更高效、但違背人類偏好的生成策略。這種條件敏感性(conditional honesty)體現(xiàn)出模型并非始終「誠實(shí)」,而是在「看得見監(jiān)督」時(shí)才「裝作誠實(shí)」。

阿諛奉承(Sycophancy)的問題則是更嚴(yán)重的。研究發(fā)現(xiàn),模型會(huì)在對用戶觀點(diǎn)不明朗時(shí)主動(dòng)傾向于重復(fù)用戶輸入中的立場,從而獲取更高的用戶滿意度評(píng)分,而非提供客觀或多元視角。這種行為雖然短期內(nèi)提升交互流暢性,卻在長期中可能放大認(rèn)知偏差,形成「算法確認(rèn)偏誤」的回路效應(yīng)

這些都表明,對齊結(jié)果在模型內(nèi)部可能僅是「表演」而非「信仰」。這類「假對齊」問題不僅挑戰(zhàn)現(xiàn)有對齊評(píng)估體系的可信度,也暴露了在更高智能水平的系統(tǒng)中,若模型學(xué)會(huì)「欺騙對齊檢測機(jī)制本身」,其帶來的后果將難以預(yù)料。

隨著模型規(guī)模擴(kuò)展至百億、千億參數(shù)級(jí)別,這種「分布慣性 + 行為彈性」的現(xiàn)象將更加突出。目前的范式( 「99% 預(yù)訓(xùn)練 + 1% 后訓(xùn)練」)將在當(dāng)下及未來情形下快速失效。未來對齊手段或需跳出當(dāng)前范式,朝更穩(wěn)定、更內(nèi)生的目標(biāo)建模機(jī)制演化。

模型有彈性?重新審視

「99% 預(yù)訓(xùn)練 + 1% 后訓(xùn)練」范式

當(dāng)前主流的大模型對齊方法仍停留在「表層微調(diào)」階段,難以穿透模型內(nèi)部機(jī)制。楊耀東課題組呼吁,應(yīng)加快邁向抗彈性對齊(Anti-Elastic Alignment)的新范式,解決模型內(nèi)在「參數(shù)彈性」,提升對齊穩(wěn)定與有效性。

更進(jìn)一步,研究團(tuán)隊(duì)在本工作中提出:對齊技術(shù)的發(fā)展不應(yīng)止步于表面擬合,而應(yīng)深入挖掘其內(nèi)在機(jī)理。為此,研究團(tuán)隊(duì)從「模型彈性」的新視角出發(fā),呼吁社區(qū)更進(jìn)一步關(guān)注:

「彈性系數(shù)」作為核心對齊能力指標(biāo)

在模型性能評(píng)估中引入「彈性系數(shù)」的概念,以衡量語言模型面對對齊信號(hào)時(shí)的抵抗反應(yīng)強(qiáng)度。類比于不同彈簧面對相同外力時(shí)有不同的形變程度,不同的模型在被對齊時(shí)也會(huì)表現(xiàn)出不同的抵抗程度。彈性系數(shù)將不僅反映模型短期的對齊效果,更重要的是,它可以作為預(yù)測模型在長期運(yùn)行中是否會(huì)「偏離人類意圖」的一個(gè)潛在指標(biāo)。

模型的「彈性系數(shù)」可通過量化其在一致性優(yōu)化(如 RLHF 或 SFT 等對齊策略)前后的行為偏差得到,并結(jié)合擾動(dòng)強(qiáng)度與響應(yīng)幅度的關(guān)系,構(gòu)建回歸模型或響應(yīng)曲線,從而為評(píng)估模型的「對齊可控性」提供參考。在多模型對比中,彈性系數(shù)亦有助于識(shí)別那些表現(xiàn)良好但潛藏較高「對齊抗性」的模型,助力建立更安全可靠的評(píng)估機(jī)制。

對齊崩塌機(jī)制與預(yù)先評(píng)估

隨著語言模型參數(shù)規(guī)模的持續(xù)擴(kuò)大,其「可對齊性」也將面臨前所未有的挑戰(zhàn)。類比于材料存在彈性極限,大規(guī)模模型在接受對齊訓(xùn)練時(shí)也可能存在「響應(yīng)極限」—— 一旦超過該臨界點(diǎn),模型可能不再穩(wěn)定響應(yīng)人類意圖,而是出現(xiàn)「行為崩塌」,表現(xiàn)為生成不可靠甚至有害內(nèi)容。

因此,亟需構(gòu)建一套可行的「對齊彈性預(yù)警系統(tǒng)」,在模型能力增強(qiáng)的同時(shí),動(dòng)態(tài)監(jiān)測其對齊狀態(tài)是否接近過載風(fēng)險(xiǎn)。一旦檢測到模型對對齊信號(hào)的響應(yīng)出現(xiàn)異常增強(qiáng)或鈍化,便可提前干預(yù),防止系統(tǒng)性失控。

基于此目標(biāo),可進(jìn)一步構(gòu)建預(yù)警指標(biāo)體系,用于量化模型的彈性邊界。例如:最大安全擾動(dòng)幅度、對齊響應(yīng)曲線的非線性斜率變化、長期 KL 散度漂移趨勢等。

當(dāng)模型進(jìn)入風(fēng)險(xiǎn)邊界時(shí),可啟動(dòng)防護(hù)機(jī)制,包括在對齊訓(xùn)練中引入穩(wěn)態(tài)正則項(xiàng)、調(diào)整獎(jiǎng)勵(lì)信號(hào)調(diào)度策略,或通過人機(jī)協(xié)同方式柔性干預(yù)對齊過程,以緩沖激進(jìn)的對齊信號(hào)輸入可能引發(fā)的系統(tǒng)性沖擊。

「塑性對齊」算法與遺忘機(jī)制

相較于反映模型對對齊信號(hào)短期響應(yīng)能力的「彈性」,「塑性」則刻畫其在學(xué)習(xí)過程中所的長期結(jié)構(gòu)性變化。從這一視角出發(fā),未來的對齊研究可進(jìn)一步探索如何增強(qiáng)對齊信號(hào)的塑性沉淀效應(yīng),使人類價(jià)值與行為規(guī)范不僅能被模型迅速采納,更能在參數(shù)層深度固化,從而降低對齊退化與行為反彈的風(fēng)險(xiǎn)。

此外,基于彈性理論改進(jìn)模型的編輯與遺忘機(jī)制,也是一條值得深入探索的路徑。當(dāng)前大語言模型在清除有害內(nèi)容(如暴力或歧視性信息)時(shí),常面臨「遺忘困難」與「信息殘留」等問題。引入「彈性–塑性」雙重機(jī)制,有望構(gòu)建更系統(tǒng)的解釋框架,幫助我們理解并解答「模型為何難以真正遺忘」這一核心挑戰(zhàn)。

模型全生命周期的彈性調(diào)控框架

在開發(fā)、訓(xùn)練、部署及運(yùn)行各階段,語言模型持續(xù)面臨擾動(dòng)與再學(xué)習(xí)過程。研究表明,預(yù)訓(xùn)練語料的分布結(jié)構(gòu)是影響模型彈性的關(guān)鍵因素之一。為此,亟需構(gòu)建一套覆蓋模型全生命周期的彈性演化理論,以確保預(yù)訓(xùn)練階段能夠生成具備更低彈性系數(shù)(抗拒力更?。┖透邚椥韵薅龋磳R空間更大)的初始模型,為后續(xù)對齊打下更穩(wěn)固的基礎(chǔ)。

從彈性角度來思考大模型的對齊之路,不僅刷新了對齊領(lǐng)域的傳統(tǒng)認(rèn)知,也為打造更安全可靠的通用大模型系統(tǒng)指明了路徑。在邁向通用人工智能的關(guān)鍵階段,從「抗彈性」視角重塑對齊機(jī)制,我們不禁發(fā)問:大模型可被對齊嗎?這或?qū)⒊蔀闆Q定未來 AI 命運(yùn)的關(guān)鍵一環(huán)。

抗拒對齊在具身智能(VLA)模型中的挑戰(zhàn)

VLA(Vision-Language-Action)模型融合感知、理解與執(zhí)行,天然具備多模態(tài)異構(gòu)結(jié)構(gòu)與閉環(huán)反饋特性,對齊過程遠(yuǎn)比語言模型復(fù)雜,抗彈性問題尤為突出。

一方面,不同模態(tài)(視覺、語言、動(dòng)作)對齊響應(yīng)存在結(jié)構(gòu)性不一致,局部對齊易被其他分支「彈性抵消」,導(dǎo)致整體意圖傳達(dá)受阻。

另一方面,VLA 模型在實(shí)際交互中形成「感知–決策–行為–反饋」閉環(huán),微小對齊誤差可能因反饋積累迅速放大,誘發(fā)「行為崩塌」。

此外,VLA 對齊不僅需理解語言意圖,更需穩(wěn)定地將其映射為符合物理與倫理邊界的動(dòng)作計(jì)劃,對齊信號(hào)必須穿透多層「感知–認(rèn)知–執(zhí)行」的彈性結(jié)構(gòu),難度遠(yuǎn)高于語言模型。

為應(yīng)對上述挑戰(zhàn),VLA 領(lǐng)域的抗彈性對齊應(yīng)進(jìn)一步拓展以下研究方向:

  • 模態(tài)間彈性張量建模:構(gòu)建 VLA 模型內(nèi)部的多模態(tài)對齊張量場,分析各模態(tài)子結(jié)構(gòu)對對齊信號(hào)的響應(yīng)異質(zhì)性與耦合效應(yīng),識(shí)別高抗性瓶頸,進(jìn)行定點(diǎn)軟化或重塑。
  • 閉環(huán)對齊穩(wěn)定性分析:通過模擬器或現(xiàn)實(shí)機(jī)器人交互,觀察 VLA 模型在對齊擾動(dòng)下的行為軌跡,構(gòu)建「對齊相圖」用于預(yù)測系統(tǒng)是否處于潛在的行為崩塌邊緣。
  • 因果對齊策略的遷移與泛化機(jī)制:探索在多任務(wù)、多環(huán)境中遷移因果對齊信號(hào)的機(jī)制,減緩「新任務(wù)高彈性–低對齊」的冷啟動(dòng)問題。
  • 操作級(jí)別的塑性學(xué)習(xí)機(jī)制:在精細(xì)操作任務(wù)中引入行為鏈級(jí)別的塑性記憶機(jī)制,使得對齊信號(hào)不僅作用于策略偏好,還能深度塑造操作技能的安全邊界。

結(jié)語

北京大學(xué)楊耀東課題組在論文中提出的「彈性」理論,首次從壓縮理論視角系統(tǒng)建模并闡釋了語言模型的對齊抵抗機(jī)制,類比胡克定律揭示模型在不同數(shù)據(jù)集上的壓縮率變化與數(shù)據(jù)規(guī)模呈反比的「彈性率」,并在多種大模型上實(shí)證驗(yàn)證了普遍存在的抵抗性與回彈性現(xiàn)象。

研究為理解「抗對齊」「偽裝對齊」等復(fù)雜行為提供了統(tǒng)一的機(jī)制框架,填補(bǔ)了 AI 對齊領(lǐng)域在「對齊脆弱性」問題上的機(jī)理認(rèn)知空白。

該研究如同一記警鐘,提醒我們:AI 的風(fēng)險(xiǎn)不僅源于能力的失控,更源于其對人類偏好的「彈性回彈」。唯有正視模型「抗改造」的本質(zhì),重構(gòu)現(xiàn)有對齊范式,方能在日新月異變化的 LLMs, VLMs, VLA 對齊任務(wù)中真正達(dá)到對齊效果。

參考文獻(xiàn)

1. Ji, J., Chen, W., Wang, K., Hong, D., Fang, S., Chen, B., ... & Yang, Y. (2025). Mitigating deceptive alignment via self-monitoring. arXiv preprint arXiv:2505.18807.

2. Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., ... & Hubinger, E. (2024). Alignment faking in large language models. arXiv preprint arXiv:2412.14093.

3. Delétang, G., Ruoss, A., Duquenne, P. A., Catt, E., Genewein, T., Mattern, C., ... & Veness, J. (2023). Language modeling is compression. arXiv preprint arXiv:2309.10668.

4. Hutter, M. (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer Science & Business Media.

5. Huang, Y., Zhang, J., Shan, Z., & He, J. (2024). Compression represents intelligence linearly. arXiv preprint arXiv:2404.09937.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美專家提醒特朗普,關(guān)乎美生死存亡,臺(tái)高層嚇懵:我們不跟大陸打

美專家提醒特朗普,關(guān)乎美生死存亡,臺(tái)高層嚇懵:我們不跟大陸打

boss外傳
2025-08-01 15:45:03
曝小米已終止澎湃OS 2全部開發(fā)工作!聚焦澎湃OS 3

曝小米已終止澎湃OS 2全部開發(fā)工作!聚焦澎湃OS 3

手機(jī)中國
2025-08-01 09:22:06
《南京照相館》被公知們集體討伐,盧克文一句話就把他們噎死了!

《南京照相館》被公知們集體討伐,盧克文一句話就把他們噎死了!

小把戲smilez
2025-08-03 20:04:25
莫言:如果一個(gè)人對待家人不耐煩態(tài)度差,對外人又很客氣和善,不是不孝順,而是因?yàn)檫@三個(gè)原因

莫言:如果一個(gè)人對待家人不耐煩態(tài)度差,對外人又很客氣和善,不是不孝順,而是因?yàn)檫@三個(gè)原因

深度知局
2025-06-06 08:07:31
玄學(xué)警示:這4種女人碰不得,老祖宗的智慧絕非迷信

玄學(xué)警示:這4種女人碰不得,老祖宗的智慧絕非迷信

山九觀主
2025-07-26 14:10:03
我75歲才知道一件事:不要隨便在兒女面前說出這三句話,要切記!

我75歲才知道一件事:不要隨便在兒女面前說出這三句話,要切記!

白云故事
2025-07-06 17:35:06
武大圖書館事件最新:復(fù)核調(diào)查可能打臉,楊某媛最怕的事情要出現(xiàn)

武大圖書館事件最新:復(fù)核調(diào)查可能打臉,楊某媛最怕的事情要出現(xiàn)

尋墨閣
2025-08-02 07:36:16
斯諾克大師賽|威爾遜時(shí)隔十年再次奪冠,上海徹底改變了他的職業(yè)生涯

斯諾克大師賽|威爾遜時(shí)隔十年再次奪冠,上海徹底改變了他的職業(yè)生涯

文匯報(bào)
2025-08-04 01:16:13
溫州接近5000億,金華增長17.3%!浙江各地2025年上半年GDP出爐

溫州接近5000億,金華增長17.3%!浙江各地2025年上半年GDP出爐

水又木二
2025-08-03 16:21:53
美國評(píng)出全球高校200強(qiáng):哈佛第一,劍橋第4,清華第11,北大第25

美國評(píng)出全球高校200強(qiáng):哈佛第一,劍橋第4,清華第11,北大第25

狐貍先森講升學(xué)規(guī)劃
2025-08-03 18:45:03
37歲男子和19歲女大學(xué)生戀愛,雙方父母均已同意,男生:羨慕哭了

37歲男子和19歲女大學(xué)生戀愛,雙方父母均已同意,男生:羨慕哭了

唐小糖說情感
2025-07-25 17:50:21
馮紹峰嫌棄前妻!李誕女友的船上功夫出眾!

馮紹峰嫌棄前妻!李誕女友的船上功夫出眾!

八卦瘋叔
2025-08-03 15:10:03
趙勇還是以蔡斌陣容為主參加世錦賽,他的新人培養(yǎng)計(jì)劃基本落空。

趙勇還是以蔡斌陣容為主參加世錦賽,他的新人培養(yǎng)計(jì)劃基本落空。

格斗社
2025-08-03 15:45:41
趙露思發(fā)長文:不用你們封殺我,我不干了

趙露思發(fā)長文:不用你們封殺我,我不干了

觀察者網(wǎng)
2025-08-02 22:28:34
看似無害紙箱,竟讓家變“慢性毒氣室”!這其中的危害你知道嗎?

看似無害紙箱,竟讓家變“慢性毒氣室”!這其中的危害你知道嗎?

小軍設(shè)計(jì)
2025-08-01 14:40:03
49年蔣介石欲暗殺宋慶齡,宋美齡冷冷說了一句話,令老蔣被迫放棄

49年蔣介石欲暗殺宋慶齡,宋美齡冷冷說了一句話,令老蔣被迫放棄

尚曦讀史
2025-08-02 23:34:11
男人老了的標(biāo)志是什么?網(wǎng)友:我覺得沒有性欲就是男人衰老的標(biāo)志

男人老了的標(biāo)志是什么?網(wǎng)友:我覺得沒有性欲就是男人衰老的標(biāo)志

帶你感受人間冷暖
2025-07-31 00:10:13
蘇超比賽中部分照明燈短暫熄滅,淮安市體育中心通報(bào)

蘇超比賽中部分照明燈短暫熄滅,淮安市體育中心通報(bào)

新京報(bào)
2025-08-03 07:48:47
萊昂納多:我們需要好好休息,下一場是最硬的硬仗

萊昂納多:我們需要好好休息,下一場是最硬的硬仗

懂球帝
2025-08-03 10:06:13
趙露思發(fā)長文控訴經(jīng)紀(jì)公司:等到現(xiàn)在沒有等來任何溝通,我不干了,曬出重度焦慮和抑郁測評(píng)報(bào)告

趙露思發(fā)長文控訴經(jīng)紀(jì)公司:等到現(xiàn)在沒有等來任何溝通,我不干了,曬出重度焦慮和抑郁測評(píng)報(bào)告

大風(fēng)新聞
2025-08-02 21:56:25
2025-08-04 04:48:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11002文章數(shù) 142408關(guān)注度
往期回顧 全部

科技要聞

乘龍卡車內(nèi)涵喊話:"活著,才有資格談理想"

頭條要聞

男子疑坐一米高欄桿翻落后墜崖身亡 妻子親眼目睹全程

頭條要聞

男子疑坐一米高欄桿翻落后墜崖身亡 妻子親眼目睹全程

體育要聞

12歲小孩姐:3個(gè)世界第四,全部刷新PB

娛樂要聞

老戲骨朱龍廣去世!六小齡童發(fā)文悼念

財(cái)經(jīng)要聞

杜建英子女在美國或另有信托

汽車要聞

東風(fēng)奕派eπ008六座版售價(jià)18.86萬元起

態(tài)度原創(chuàng)

家居
本地
旅游
時(shí)尚
公開課

家居要聞

法式浪漫 空間動(dòng)靜分離

本地新聞

換個(gè)城市過夏天|躲進(jìn)雅安過幾天大熊貓式慢生活

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

這件衣服終于火了!今夏流行的優(yōu)雅藝術(shù)風(fēng)離不開它

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 av永久天堂一区二区三区| 婷婷色香五月综合激激情| 欧美丰满性久久久久久久| 欧美裸交视频| 国产成人精品午夜福利免费APP | 淫荡的少妇av| 国产av天堂亚洲国产av天堂| 国产精品久久久久久久午夜片| 日韩精品久久久久久久电影蜜臀| 无码吃奶揉捏奶头高潮视频| 精品综合久久久久久97超人 | 成人WWWWW免费观看| 国产国产成人精品久久蜜| 熟妇人妻精品猛烈进人| 国产精品高潮呻吟久久久久久| 婷婷色中文网| 欧美激情性爱精品| 亚洲AV粉色无码一区| 国产精品福利中文字幕| 亚洲欧洲国产日产国码无码| 丰满人妻av一区二区三区| 一边吃奶一边做边爱视频| 99热只有精品在线| 自慰免费观看网| 亚洲国产精品国自产拍av| 夜夜久久牛牛| 日本丰满BWBWBW| 日韩在线一区二区每天更新| 国精产品推荐视频| 久久久久久久99精品国产片| 国产成人黄片免费观看| 国产内射爽爽大片视频社区在线| 熟妇的奶头又大又粗视频| 成年男女免费视频网站| 国产午夜福利在线视频| 动漫肉在线观看网址| 爱爱视频高潮| 亚洲中文字幕无码天然素人| 亚洲福利网址| 99久久九九热播| 美女少妇av|