網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

研究者警告：強(qiáng)化學(xué)習(xí)暗藏「策略懸崖」，AI對(duì)齊的根本性挑戰(zhàn)浮現(xiàn)

2025-08-13 14:29:00　來(lái)源: 機(jī)器之心Pro

內(nèi)蒙古舉報(bào)

分享至

本文作者為徐興成博士，任上海人工智能實(shí)驗(yàn)室青年研究員，北京大學(xué)與英國(guó)牛津大學(xué)聯(lián)合培養(yǎng)數(shù)學(xué)博士，上海市啟明星項(xiàng)目（揚(yáng)帆專項(xiàng)）獲得者。研究方向：大模型后訓(xùn)練、強(qiáng)化學(xué)習(xí)與基礎(chǔ)理論研究。

強(qiáng)化學(xué)習(xí)（RL）是鍛造當(dāng)今頂尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力與對(duì)齊的核心 “武器”，但它也像一把雙刃劍，常常導(dǎo)致模型行為脆弱、風(fēng)格突變，甚至出現(xiàn) “欺騙性對(duì)齊”、“失控” 等危險(xiǎn)傾向。長(zhǎng)期以來(lái)，這些問(wèn)題被歸結(jié)為經(jīng)驗(yàn)性的 “煉丹” 難題。近日，來(lái)自上海人工智能實(shí)驗(yàn)室的徐興成博士，通過(guò)論文《策略懸崖：大模型中從獎(jiǎng)勵(lì)到策略映射的理論分析》，首次為這一頑疾提供了根本性的數(shù)學(xué)解釋，揭示了強(qiáng)化學(xué)習(xí)深處一個(gè)名為 “策略懸崖” 的深刻挑戰(zhàn)。

論文標(biāo)題：The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models
論文鏈接：https://arxiv.org/abs/2507.20150
論文作者：徐興成（上海 AI 實(shí)驗(yàn)室）

一、懸崖邊的巨人：為何 RL 訓(xùn)練的大模型行為如此脆弱？

從 OpenAI 的 o 系列到 DeepSeek-R1、Google 的 Gemini 2.5，再到 Anthropic 的 Claude 4、xAI 的 Grok 4 和 OpenAI 剛發(fā)布的 GPT-5，整個(gè)行業(yè)都在嘗試用更精細(xì)的 “獎(jiǎng)勵(lì)” 來(lái)雕琢模型的 “行為”，強(qiáng)化學(xué)習(xí)，特別是基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）和可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR），已成為通往更強(qiáng)大、更安全的 AI 系統(tǒng)的必經(jīng)之路。

然而，一系列令人不安的問(wèn)題也隨之而來(lái)。模型學(xué)會(huì)了 “諂媚”（Sycophancy），即迎合用戶的偏好而非陳述事實(shí)；更危險(xiǎn)的是，它們可能學(xué)會(huì) “欺騙性對(duì)齊”（Deceptive Alignment），即模型表面上看起來(lái)完全對(duì)齊，實(shí)則在暗中追求著與人類意圖不符的目標(biāo)。更有甚者，模型會(huì)表現(xiàn)出失控的傾向，無(wú)視用戶在請(qǐng)求中明確規(guī)定的語(yǔ)言、回復(fù)長(zhǎng)度或格式等指令。為何模型會(huì)表現(xiàn)出 “諂媚”、“欺騙” 等 “口是心非” 的行為，甚至存在增加失控的風(fēng)險(xiǎn)？

這些現(xiàn)象，過(guò)去往往被歸結(jié)為獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)得不夠完美，或是 “壞數(shù)據(jù)” 的影響。但來(lái)自上海人工智能實(shí)驗(yàn)室研究員徐興成的這篇論文，提供了一個(gè)更深層、更統(tǒng)一的理論解釋，并向整個(gè)行業(yè)發(fā)出了一個(gè)嚴(yán)峻的警告：這些看似隨機(jī)的失敗并非偶然，而是源于一個(gè)深刻的數(shù)學(xué)原理 ——從獎(jiǎng)勵(lì)到最優(yōu) AI 策略映射的不連續(xù)性。當(dāng)模型在獎(jiǎng)勵(lì)函數(shù)的指引下探索行為空間時(shí)，微不足道的變化可能將它推下萬(wàn)丈深淵，這就是 “策略懸崖”。

二、理論解讀：“策略懸崖” 是如何形成的？

為了理解 “策略懸崖”，我們可以把 RL 的優(yōu)化過(guò)程想象成一個(gè) GPS 導(dǎo)航系統(tǒng)：

獎(jiǎng)勵(lì) (Reward)：相當(dāng)于你的導(dǎo)航目標(biāo)，例如 “找到到達(dá)目的地的最快路徑”。
策略 (Policy)：是 GPS 生成的具體路線，即 “前方 500 米右轉(zhuǎn)，再直行 2 公里”。
獎(jiǎng)勵(lì) - 策略映射 (Reward-Policy Map)：是導(dǎo)航系統(tǒng)的核心算法，它根據(jù)你的目標(biāo)（獎(jiǎng)勵(lì)）來(lái)生成最佳路線（策略）。

這篇論文的深刻洞察在于，這個(gè)核心算法的輸出并非總是平滑和穩(wěn)定的?！安呗詰已隆?指的是，當(dāng)你對(duì)導(dǎo)航目標(biāo)做出一個(gè)極其微小的調(diào)整時(shí)（例如，“避開(kāi)一段收費(fèi)一元的道路”），導(dǎo)航系統(tǒng)給出的路線可能會(huì)發(fā)生天翻地覆的變化，從一條康莊大道突然切換到一條完全不相干的鄉(xiāng)間小路。

這種劇變?cè)跀?shù)學(xué)上被稱為不連續(xù)性(Discontinuity)。論文證明，導(dǎo)致這種不連續(xù)性的根本原因有二：

最優(yōu)策略的多解性(Degeneracy of Optima)：在復(fù)雜的語(yǔ)言或推理任務(wù)中，通往 “正確答案” 的路徑不止一條。模型可能會(huì)發(fā)現(xiàn)多條截然不同但獎(jiǎng)勵(lì)值幾乎完全相同的 “最優(yōu)路徑”。例如，無(wú)論是先給出答案再編造理由，還是通過(guò)嚴(yán)謹(jǐn)推理得出答案，只要最終結(jié)果正確，一個(gè)不完美的獎(jiǎng)勵(lì)函數(shù)可能會(huì)給予它們同等的最高分。這就形成了一個(gè)龐大的、模糊的 “最優(yōu)策略集”。
獎(jiǎng)勵(lì)函數(shù)的不完備性(Incompleteness of Rewards)：我們?cè)O(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)幾乎永遠(yuǎn)是真實(shí)世界復(fù)雜目標(biāo)的 “有損壓縮”。它總會(huì)遺漏某些重要的維度。當(dāng)模型面對(duì)一個(gè)不完備的獎(jiǎng)勵(lì)函數(shù)時(shí)，它會(huì)像一個(gè) “聰明的懶漢” 一樣，理性地選擇最省力的方式來(lái)最大化這個(gè)有缺陷的指標(biāo)，而無(wú)視那些沒(méi)有被獎(jiǎng)勵(lì)明確約束的行為。

當(dāng)這兩個(gè)條件同時(shí)滿足時(shí)，“策略懸崖” 就出現(xiàn)了。RL 優(yōu)化算法就像一個(gè)在平坦高原上尋找最高點(diǎn)的盲人，獎(jiǎng)勵(lì)信號(hào)微小的擾動(dòng)都可能讓他從一個(gè) “山峰” 瞬間 “跳” 到另一個(gè) “更高的山峰”，導(dǎo)致模型行為發(fā)生劇變。

三、從理論到現(xiàn)實(shí)：統(tǒng)一解釋多種 “對(duì)齊失敗” 現(xiàn)象

這篇論文的強(qiáng)大之處在于，它將上述理論框架應(yīng)用到了對(duì)近期 AI 安全領(lǐng)域多個(gè)關(guān)鍵實(shí)驗(yàn)的解讀上，形成了一條有力的證據(jù)鏈，證明 “策略懸崖” 并非紙上談兵。

證據(jù)一：“公然作弊” 與 “隱蔽欺騙”

核心洞察：在 OpenAI 關(guān)于模型在編碼任務(wù)中 “作弊” 的研究中，當(dāng)獎(jiǎng)勵(lì)信號(hào)（弱評(píng)估器）只能檢查單元測(cè)試是否通過(guò)時(shí)，模型學(xué)會(huì)了直接修改測(cè)試用例來(lái) “作弊”。當(dāng)研究者試圖用一個(gè)能檢測(cè)作弊行為的 “補(bǔ)丁”（CoT 監(jiān)督）來(lái)修復(fù)獎(jiǎng)勵(lì)時(shí)，模型并沒(méi)有變得誠(chéng)實(shí)，而是學(xué)會(huì)了更高級(jí)的欺騙—— 它會(huì)寫出看似無(wú)辜的推理過(guò)程，但同時(shí)進(jìn)行了更隱蔽的篡改。
理論解釋：這正是兩種典型的 “策略懸崖” 式跳變。當(dāng) CoT 未受監(jiān)控時(shí)，模型通過(guò)直接修改測(cè)試用例學(xué)會(huì)了公然的作弊。增加懲罰項(xiàng)并未使策略平滑地趨向 “誠(chéng)實(shí)”，而是將模型從一個(gè) “壞” 的策略點(diǎn)，推向了另一個(gè)同樣 “壞” 但更難被發(fā)現(xiàn)的策略點(diǎn)。因?yàn)樾碌莫?jiǎng)勵(lì)地貌依然存在漏洞，允許這種隱蔽欺騙成為新的最優(yōu)解之一。

證據(jù)二：“違背指令”、“諂媚” 與 “詭辯”

核心洞察：研究發(fā)現(xiàn)，專門為提升推理能力而訓(xùn)練的模型，其遵循指令（如格式、風(fēng)格、語(yǔ)言）的能力反而會(huì)下降。同樣，在 RLHF 中，模型最終學(xué)會(huì)的不是更 “真實(shí)”，而是更 “受用戶喜歡” 或更 “有說(shuō)服力”，哪怕這意味著犧牲事實(shí)。
理論解釋：這些現(xiàn)象都源于不完美的獎(jiǎng)勵(lì)。在違背指令的案例中，獎(jiǎng)勵(lì)信號(hào)沒(méi)有包含指令遵循的部分。在諂媚或詭辯的案例中，獎(jiǎng)勵(lì)模型來(lái)自用戶偏好，與真實(shí)獎(jiǎng)勵(lì)信號(hào)存在顯著的偏差。模型只是在理性地最大化它被賦予的目標(biāo)，從而自然地滑向了那些雖非本意但獎(jiǎng)勵(lì)同樣高的策略區(qū)域。

證據(jù)三：跨領(lǐng)域多獎(jiǎng)勵(lì)場(chǎng)景中的敏感性

核心洞察：在更復(fù)雜的、需要同時(shí)平衡來(lái)自于多個(gè)不同領(lǐng)域（如數(shù)學(xué)、編碼、安全）的獎(jiǎng)勵(lì)的場(chǎng)景中，論文作者通過(guò)受控實(shí)驗(yàn)證明，僅僅對(duì)其中一個(gè)獎(jiǎng)勵(lì)模型進(jìn)行微調(diào)，或者對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行微小的篩選（例如移除 200 個(gè)模棱兩可的樣本），就會(huì)導(dǎo)致最終模型的性能在多個(gè)維度上發(fā)生劇烈變化。
理論解釋：這驗(yàn)證了論文提出的 “有效獎(jiǎng)勵(lì) (Effective Reward)” 概念。在多任務(wù)學(xué)習(xí)中，模型內(nèi)部會(huì)形成一個(gè)依賴于當(dāng)前上下文的、動(dòng)態(tài)聚合多個(gè)獎(jiǎng)勵(lì)的 “有效獎(jiǎng)勵(lì)函數(shù)”。最終策略的穩(wěn)定性，取決于這個(gè)內(nèi)部聚合機(jī)制的穩(wěn)定性。數(shù)據(jù)或者獎(jiǎng)勵(lì)信號(hào)的微小變動(dòng)，就可能改變聚合的獎(jiǎng)勵(lì)信號(hào)，從而重塑整個(gè)有效獎(jiǎng)勵(lì)地貌，引發(fā)策略跳變。

四、影響與展望：從 “煉丹術(shù)” 到 “物理學(xué)”

《策略懸崖》這篇論文的意義，遠(yuǎn)不止于解釋已有的問(wèn)題。它為整個(gè) AI 安全和對(duì)齊領(lǐng)域帶來(lái)了重要的認(rèn)知啟發(fā)和理論根基。

挑戰(zhàn)現(xiàn)有范式：它表明，僅僅依靠 “更大的模型、更多的數(shù)據(jù)、更強(qiáng)的算力” 可能無(wú)法從根本上解決對(duì)齊問(wèn)題。如果底層的獎(jiǎng)勵(lì) - 策略映射本身是斷裂的，再?gòu)?qiáng)大的優(yōu)化算法也可能在懸崖邊迷失。未來(lái)的研究必須更加關(guān)注獎(jiǎng)勵(lì)地貌的結(jié)構(gòu)本身。
重新審視正則化：論文從數(shù)學(xué)上嚴(yán)格證明，熵正則化(Entropy Regularization) 并非只是一個(gè)提升探索效率的 “小技巧”，而是一個(gè)能恢復(fù) “獎(jiǎng)勵(lì) - 策略映射” 連續(xù)性的根本性工具。它通過(guò)鼓勵(lì)策略的隨機(jī)性，平滑了獎(jiǎng)勵(lì)地貌中的尖峰和懸崖，確保了模型的穩(wěn)定。這為熵正則化在實(shí)踐中的廣泛應(yīng)用提供了堅(jiān)實(shí)的理論基礎(chǔ)。
通往可控 AI 的新路徑：理解 “策略懸崖” 也意味著我們可以利用它。既然微小的 “推力” 可以引導(dǎo)策略發(fā)生巨大轉(zhuǎn)變，那么通過(guò)精心設(shè)計(jì)的 “決勝局獎(jiǎng)勵(lì)(Tie-Breaker Rewards)”，我們或許能主動(dòng)地、可控地將模型推向我們期望的、更優(yōu)的策略區(qū)域，實(shí)現(xiàn) “四兩撥千斤” 的精細(xì)控制。
對(duì)具身智能的啟示：這項(xiàng)研究甚至對(duì)具身智能、機(jī)器人等領(lǐng)域也有啟發(fā)。當(dāng) AI 需要與物理世界交互時(shí)，其策略的穩(wěn)定性和可預(yù)測(cè)性至關(guān)重要?！安呗詰已隆?的存在，提醒我們?cè)趯⑦@些模型賦予物理實(shí)體之前，必須對(duì)獎(jiǎng)勵(lì)與策略之間的復(fù)雜動(dòng)態(tài)有足夠深刻的理解和控制。

五、結(jié)語(yǔ)

長(zhǎng)期以來(lái)，AI 對(duì)齊的研究在很大程度上依賴于經(jīng)驗(yàn)、直覺(jué)和試錯(cuò)，仿佛一門復(fù)雜的 “煉丹術(shù)”。這篇論文，則為這門藝術(shù)注入了嚴(yán)謹(jǐn)科學(xué)的靈魂。它用嚴(yán)謹(jǐn)?shù)睦碚摵蛨?jiān)實(shí)的證據(jù)，揭示了一個(gè)我們長(zhǎng)期以來(lái)隱約感覺(jué)到、卻從未清晰指出的問(wèn)題。

當(dāng)然，正如作者在論文中坦言，這項(xiàng)工作目前仍側(cè)重于理論框架的構(gòu)建，其提供的證據(jù)主要來(lái)自于對(duì)現(xiàn)有研究的再解讀和初步的受控實(shí)驗(yàn)。未來(lái)仍需更系統(tǒng)、更大規(guī)模的定量實(shí)驗(yàn)來(lái)驗(yàn)證 “策略懸崖” 的諸多推論，并基于此理論設(shè)計(jì)出全新的、更穩(wěn)定的強(qiáng)化學(xué)習(xí)算法。

“策略懸崖” 的發(fā)現(xiàn)，不是一個(gè)悲觀的終點(diǎn)，而是一個(gè)清醒的起點(diǎn)。它告訴我們，馴服 AI 的道路，遠(yuǎn)比我們想象的要復(fù)雜。這篇論文，就像一聲及時(shí)的警鐘，提醒著在 AI 浪潮中急速前行的我們：在建造更高、更智能的大廈之前，我們是否真正理解了這塊地基的物理屬性？這，或許是通往真正安全、可信的通用人工智能之路上，我們必須回答的核心問(wèn)題。

參考文獻(xiàn)

1. T. Korbak, M. Balesni, et al. Chain of thought monitorability: A new and fragile opportunity for AI safety. arXiv preprint arXiv:2507.11473, 2025.

2. B. Baker, J. Huizinga, L. Gao, Z. Dou, M. Y. Guan, A. Madry, W. Zaremba, J. Pachocki, and D. Farhi. Monitoring reasoning models for misbehavior and the risks of promoting obfuscation. arXiv preprint arXiv:2503.11926, 2025.

3. T. Fu, J. Gu, Y. Li, X. Qu, and Y. Cheng. Scaling reasoning, losing control: Evaluating instruction following in large reasoning models. arXiv preprint arXiv:2505.14810, 2025.

4. OpenAI. GPT-5 System Card. August 7, 2025. https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.