本文作者為徐興成博士,任上海人工智能實(shí)驗(yàn)室青年研究員,北京大學(xué)與英國(guó)牛津大學(xué)聯(lián)合培養(yǎng)數(shù)學(xué)博士,上海市啟明星項(xiàng)目(揚(yáng)帆專項(xiàng))獲得者。研究方向:大模型后訓(xùn)練、強(qiáng)化學(xué)習(xí)與基礎(chǔ)理論研究。
強(qiáng)化學(xué)習(xí)(RL)是鍛造當(dāng)今頂尖大模型(如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5)推理能力與對(duì)齊的核心 “武器”,但它也像一把雙刃劍,常常導(dǎo)致模型行為脆弱、風(fēng)格突變,甚至出現(xiàn) “欺騙性對(duì)齊”、“失控” 等危險(xiǎn)傾向。長(zhǎng)期以來(lái),這些問(wèn)題被歸結(jié)為經(jīng)驗(yàn)性的 “煉丹” 難題。近日,來(lái)自上海人工智能實(shí)驗(yàn)室的徐興成博士,通過(guò)論文《策略懸崖:大模型中從獎(jiǎng)勵(lì)到策略映射的理論分析》,首次為這一頑疾提供了根本性的數(shù)學(xué)解釋,揭示了強(qiáng)化學(xué)習(xí)深處一個(gè)名為 “策略懸崖” 的深刻挑戰(zhàn)。
- 論文標(biāo)題:The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models
- 論文鏈接:https://arxiv.org/abs/2507.20150
- 論文作者:徐興成(上海 AI 實(shí)驗(yàn)室)
一、 懸崖邊的巨人:為何 RL 訓(xùn)練的大模型行為如此脆弱?
從 OpenAI 的 o 系列到 DeepSeek-R1、Google 的 Gemini 2.5,再到 Anthropic 的 Claude 4、xAI 的 Grok 4 和 OpenAI 剛發(fā)布的 GPT-5,整個(gè)行業(yè)都在嘗試用更精細(xì)的 “獎(jiǎng)勵(lì)” 來(lái)雕琢模型的 “行為”,強(qiáng)化學(xué)習(xí),特別是基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR),已成為通往更強(qiáng)大、更安全的 AI 系統(tǒng)的必經(jīng)之路。
然而,一系列令人不安的問(wèn)題也隨之而來(lái)。模型學(xué)會(huì)了 “諂媚”(Sycophancy),即迎合用戶的偏好而非陳述事實(shí);更危險(xiǎn)的是,它們可能學(xué)會(huì) “欺騙性對(duì)齊”(Deceptive Alignment),即模型表面上看起來(lái)完全對(duì)齊,實(shí)則在暗中追求著與人類意圖不符的目標(biāo)。更有甚者,模型會(huì)表現(xiàn)出失控的傾向,無(wú)視用戶在請(qǐng)求中明確規(guī)定的語(yǔ)言、回復(fù)長(zhǎng)度或格式等指令。為何模型會(huì)表現(xiàn)出 “諂媚”、“欺騙” 等 “口是心非” 的行為,甚至存在增加失控的風(fēng)險(xiǎn)?
這些現(xiàn)象,過(guò)去往往被歸結(jié)為獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)得不夠完美,或是 “壞數(shù)據(jù)” 的影響。但來(lái)自上海人工智能實(shí)驗(yàn)室研究員徐興成的這篇論文,提供了一個(gè)更深層、更統(tǒng)一的理論解釋,并向整個(gè)行業(yè)發(fā)出了一個(gè)嚴(yán)峻的警告:這些看似隨機(jī)的失敗并非偶然,而是源于一個(gè)深刻的數(shù)學(xué)原理 ——從獎(jiǎng)勵(lì)到最優(yōu) AI 策略映射的不連續(xù)性。當(dāng)模型在獎(jiǎng)勵(lì)函數(shù)的指引下探索行為空間時(shí),微不足道的變化可能將它推下萬(wàn)丈深淵,這就是 “策略懸崖”。
二、 理論解讀:“策略懸崖” 是如何形成的?
為了理解 “策略懸崖”,我們可以把 RL 的優(yōu)化過(guò)程想象成一個(gè) GPS 導(dǎo)航系統(tǒng):
- 獎(jiǎng)勵(lì) (Reward):相當(dāng)于你的導(dǎo)航目標(biāo),例如 “找到到達(dá)目的地的最快路徑”。
- 策略 (Policy):是 GPS 生成的具體路線,即 “前方 500 米右轉(zhuǎn),再直行 2 公里”。
- 獎(jiǎng)勵(lì) - 策略映射 (Reward-Policy Map):是導(dǎo)航系統(tǒng)的核心算法,它根據(jù)你的目標(biāo)(獎(jiǎng)勵(lì))來(lái)生成最佳路線(策略)。
這篇論文的深刻洞察在于,這個(gè)核心算法的輸出并非總是平滑和穩(wěn)定的?!安呗詰已隆?指的是,當(dāng)你對(duì)導(dǎo)航目標(biāo)做出一個(gè)極其微小的調(diào)整時(shí)(例如,“避開(kāi)一段收費(fèi)一元的道路”),導(dǎo)航系統(tǒng)給出的路線可能會(huì)發(fā)生天翻地覆的變化,從一條康莊大道突然切換到一條完全不相干的鄉(xiāng)間小路。
這種劇變?cè)跀?shù)學(xué)上被稱為不連續(xù)性(Discontinuity)。論文證明,導(dǎo)致這種不連續(xù)性的根本原因有二:
- 最優(yōu)策略的多解性(Degeneracy of Optima):在復(fù)雜的語(yǔ)言或推理任務(wù)中,通往 “正確答案” 的路徑不止一條。模型可能會(huì)發(fā)現(xiàn)多條截然不同但獎(jiǎng)勵(lì)值幾乎完全相同的 “最優(yōu)路徑”。例如,無(wú)論是先給出答案再編造理由,還是通過(guò)嚴(yán)謹(jǐn)推理得出答案,只要最終結(jié)果正確,一個(gè)不完美的獎(jiǎng)勵(lì)函數(shù)可能會(huì)給予它們同等的最高分。這就形成了一個(gè)龐大的、模糊的 “最優(yōu)策略集”。
- 獎(jiǎng)勵(lì)函數(shù)的不完備性(Incompleteness of Rewards):我們?cè)O(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)幾乎永遠(yuǎn)是真實(shí)世界復(fù)雜目標(biāo)的 “有損壓縮”。它總會(huì)遺漏某些重要的維度。當(dāng)模型面對(duì)一個(gè)不完備的獎(jiǎng)勵(lì)函數(shù)時(shí),它會(huì)像一個(gè) “聰明的懶漢” 一樣,理性地選擇最省力的方式來(lái)最大化這個(gè)有缺陷的指標(biāo),而無(wú)視那些沒(méi)有被獎(jiǎng)勵(lì)明確約束的行為。
當(dāng)這兩個(gè)條件同時(shí)滿足時(shí),“策略懸崖” 就出現(xiàn)了。RL 優(yōu)化算法就像一個(gè)在平坦高原上尋找最高點(diǎn)的盲人,獎(jiǎng)勵(lì)信號(hào)微小的擾動(dòng)都可能讓他從一個(gè) “山峰” 瞬間 “跳” 到另一個(gè) “更高的山峰”,導(dǎo)致模型行為發(fā)生劇變。
三、從理論到現(xiàn)實(shí):統(tǒng)一解釋多種 “對(duì)齊失敗” 現(xiàn)象
這篇論文的強(qiáng)大之處在于,它將上述理論框架應(yīng)用到了對(duì)近期 AI 安全領(lǐng)域多個(gè)關(guān)鍵實(shí)驗(yàn)的解讀上,形成了一條有力的證據(jù)鏈,證明 “策略懸崖” 并非紙上談兵。
證據(jù)一:“公然作弊” 與 “隱蔽欺騙”
- 核心洞察:在 OpenAI 關(guān)于模型在編碼任務(wù)中 “作弊” 的研究中,當(dāng)獎(jiǎng)勵(lì)信號(hào)(弱評(píng)估器)只能檢查單元測(cè)試是否通過(guò)時(shí),模型學(xué)會(huì)了直接修改測(cè)試用例來(lái) “作弊”。當(dāng)研究者試圖用一個(gè)能檢測(cè)作弊行為的 “補(bǔ)丁”(CoT 監(jiān)督)來(lái)修復(fù)獎(jiǎng)勵(lì)時(shí),模型并沒(méi)有變得誠(chéng)實(shí),而是學(xué)會(huì)了更高級(jí)的欺騙—— 它會(huì)寫出看似無(wú)辜的推理過(guò)程,但同時(shí)進(jìn)行了更隱蔽的篡改。
- 理論解釋:這正是兩種典型的 “策略懸崖” 式跳變。當(dāng) CoT 未受監(jiān)控時(shí),模型通過(guò)直接修改測(cè)試用例學(xué)會(huì)了公然的作弊。增加懲罰項(xiàng)并未使策略平滑地趨向 “誠(chéng)實(shí)”,而是將模型從一個(gè) “壞” 的策略點(diǎn),推向了另一個(gè)同樣 “壞” 但更難被發(fā)現(xiàn)的策略點(diǎn)。因?yàn)樾碌莫?jiǎng)勵(lì)地貌依然存在漏洞,允許這種隱蔽欺騙成為新的最優(yōu)解之一。
證據(jù)二:“違背指令”、“諂媚” 與 “詭辯”
- 核心洞察:研究發(fā)現(xiàn),專門為提升推理能力而訓(xùn)練的模型,其遵循指令(如格式、風(fēng)格、語(yǔ)言)的能力反而會(huì)下降。同樣,在 RLHF 中,模型最終學(xué)會(huì)的不是更 “真實(shí)”,而是更 “受用戶喜歡” 或更 “有說(shuō)服力”,哪怕這意味著犧牲事實(shí)。
- 理論解釋:這些現(xiàn)象都源于不完美的獎(jiǎng)勵(lì)。在違背指令的案例中,獎(jiǎng)勵(lì)信號(hào)沒(méi)有包含指令遵循的部分。在諂媚或詭辯的案例中,獎(jiǎng)勵(lì)模型來(lái)自用戶偏好,與真實(shí)獎(jiǎng)勵(lì)信號(hào)存在顯著的偏差。模型只是在理性地最大化它被賦予的目標(biāo),從而自然地滑向了那些雖非本意但獎(jiǎng)勵(lì)同樣高的策略區(qū)域。
證據(jù)三:跨領(lǐng)域多獎(jiǎng)勵(lì)場(chǎng)景中的敏感性
- 核心洞察:在更復(fù)雜的、需要同時(shí)平衡來(lái)自于多個(gè)不同領(lǐng)域(如數(shù)學(xué)、編碼、安全)的獎(jiǎng)勵(lì)的場(chǎng)景中,論文作者通過(guò)受控實(shí)驗(yàn)證明,僅僅對(duì)其中一個(gè)獎(jiǎng)勵(lì)模型進(jìn)行微調(diào),或者對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行微小的篩選(例如移除 200 個(gè)模棱兩可的樣本),就會(huì)導(dǎo)致最終模型的性能在多個(gè)維度上發(fā)生劇烈變化。
- 理論解釋:這驗(yàn)證了論文提出的 “有效獎(jiǎng)勵(lì) (Effective Reward)” 概念。在多任務(wù)學(xué)習(xí)中,模型內(nèi)部會(huì)形成一個(gè)依賴于當(dāng)前上下文的、動(dòng)態(tài)聚合多個(gè)獎(jiǎng)勵(lì)的 “有效獎(jiǎng)勵(lì)函數(shù)”。最終策略的穩(wěn)定性,取決于這個(gè)內(nèi)部聚合機(jī)制的穩(wěn)定性。數(shù)據(jù)或者獎(jiǎng)勵(lì)信號(hào)的微小變動(dòng),就可能改變聚合的獎(jiǎng)勵(lì)信號(hào),從而重塑整個(gè)有效獎(jiǎng)勵(lì)地貌,引發(fā)策略跳變。
四、影響與展望:從 “煉丹術(shù)” 到 “物理學(xué)”
《策略懸崖》這篇論文的意義,遠(yuǎn)不止于解釋已有的問(wèn)題。它為整個(gè) AI 安全和對(duì)齊領(lǐng)域帶來(lái)了重要的認(rèn)知啟發(fā)和理論根基。
- 挑戰(zhàn)現(xiàn)有范式:它表明,僅僅依靠 “更大的模型、更多的數(shù)據(jù)、更強(qiáng)的算力” 可能無(wú)法從根本上解決對(duì)齊問(wèn)題。如果底層的獎(jiǎng)勵(lì) - 策略映射本身是斷裂的,再?gòu)?qiáng)大的優(yōu)化算法也可能在懸崖邊迷失。未來(lái)的研究必須更加關(guān)注獎(jiǎng)勵(lì)地貌的結(jié)構(gòu)本身。
- 重新審視正則化:論文從數(shù)學(xué)上嚴(yán)格證明,熵正則化(Entropy Regularization) 并非只是一個(gè)提升探索效率的 “小技巧”,而是一個(gè)能恢復(fù) “獎(jiǎng)勵(lì) - 策略映射” 連續(xù)性的根本性工具。它通過(guò)鼓勵(lì)策略的隨機(jī)性,平滑了獎(jiǎng)勵(lì)地貌中的尖峰和懸崖,確保了模型的穩(wěn)定。這為熵正則化在實(shí)踐中的廣泛應(yīng)用提供了堅(jiān)實(shí)的理論基礎(chǔ)。
- 通往可控 AI 的新路徑:理解 “策略懸崖” 也意味著我們可以利用它。既然微小的 “推力” 可以引導(dǎo)策略發(fā)生巨大轉(zhuǎn)變,那么通過(guò)精心設(shè)計(jì)的 “決勝局獎(jiǎng)勵(lì)(Tie-Breaker Rewards)”,我們或許能主動(dòng)地、可控地將模型推向我們期望的、更優(yōu)的策略區(qū)域,實(shí)現(xiàn) “四兩撥千斤” 的精細(xì)控制。
- 對(duì)具身智能的啟示:這項(xiàng)研究甚至對(duì)具身智能、機(jī)器人等領(lǐng)域也有啟發(fā)。當(dāng) AI 需要與物理世界交互時(shí),其策略的穩(wěn)定性和可預(yù)測(cè)性至關(guān)重要?!安呗詰已隆?的存在,提醒我們?cè)趯⑦@些模型賦予物理實(shí)體之前,必須對(duì)獎(jiǎng)勵(lì)與策略之間的復(fù)雜動(dòng)態(tài)有足夠深刻的理解和控制。
五、結(jié)語(yǔ)
長(zhǎng)期以來(lái),AI 對(duì)齊的研究在很大程度上依賴于經(jīng)驗(yàn)、直覺(jué)和試錯(cuò),仿佛一門復(fù)雜的 “煉丹術(shù)”。這篇論文,則為這門藝術(shù)注入了嚴(yán)謹(jǐn)科學(xué)的靈魂。它用嚴(yán)謹(jǐn)?shù)睦碚摵蛨?jiān)實(shí)的證據(jù),揭示了一個(gè)我們長(zhǎng)期以來(lái)隱約感覺(jué)到、卻從未清晰指出的問(wèn)題。
當(dāng)然,正如作者在論文中坦言,這項(xiàng)工作目前仍側(cè)重于理論框架的構(gòu)建,其提供的證據(jù)主要來(lái)自于對(duì)現(xiàn)有研究的再解讀和初步的受控實(shí)驗(yàn)。未來(lái)仍需更系統(tǒng)、更大規(guī)模的定量實(shí)驗(yàn)來(lái)驗(yàn)證 “策略懸崖” 的諸多推論,并基于此理論設(shè)計(jì)出全新的、更穩(wěn)定的強(qiáng)化學(xué)習(xí)算法。
“策略懸崖” 的發(fā)現(xiàn),不是一個(gè)悲觀的終點(diǎn),而是一個(gè)清醒的起點(diǎn)。它告訴我們,馴服 AI 的道路,遠(yuǎn)比我們想象的要復(fù)雜。這篇論文,就像一聲及時(shí)的警鐘,提醒著在 AI 浪潮中急速前行的我們:在建造更高、更智能的大廈之前,我們是否真正理解了這塊地基的物理屬性?這,或許是通往真正安全、可信的通用人工智能之路上,我們必須回答的核心問(wèn)題。
參考文獻(xiàn)
1. T. Korbak, M. Balesni, et al. Chain of thought monitorability: A new and fragile opportunity for AI safety. arXiv preprint arXiv:2507.11473, 2025.
2. B. Baker, J. Huizinga, L. Gao, Z. Dou, M. Y. Guan, A. Madry, W. Zaremba, J. Pachocki, and D. Farhi. Monitoring reasoning models for misbehavior and the risks of promoting obfuscation. arXiv preprint arXiv:2503.11926, 2025.
3. T. Fu, J. Gu, Y. Li, X. Qu, and Y. Cheng. Scaling reasoning, losing control: Evaluating instruction following in large reasoning models. arXiv preprint arXiv:2505.14810, 2025.
4. OpenAI. GPT-5 System Card. August 7, 2025. https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.