網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港科提出新算法革新大模型推理范式：隨機(jī)策略估值竟成「神操作」

2025-10-31 15:40:39　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

論文第一作者何浩然是香港科技大學(xué)博士生，研究方向包括強(qiáng)化學(xué)習(xí)和基礎(chǔ)模型等，研究目標(biāo)是通過經(jīng)驗(yàn)和獎(jiǎng)勵(lì)激發(fā)超級(jí)智能。共同第一作者葉語霄是香港科技大學(xué)一年級(jí)博士。通訊作者為香港科技大學(xué)電子及計(jì)算機(jī)工程系、計(jì)算機(jī)科學(xué)與工程系助理教授潘玲。

在大語言模型（LLM）的數(shù)學(xué)推理任務(wù)中，基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）已成為提升模型推理能力的重要手段。然而，主流方法如 PPO、GRPO 等仍然依賴為傳統(tǒng) RL 場景設(shè)計(jì)的策略梯度更新的學(xué)習(xí)目標(biāo)，本質(zhì)上可以被策略迭代（policy improvement）刻畫，即包含策略評(píng)估（policy evaluation）與策略改進(jìn)（policy improvement）的不斷循環(huán)的過程。這些方法常常面臨訓(xùn)練不穩(wěn)定、多樣性喪失、調(diào)參復(fù)雜等問題。

那么對(duì)于 LLM 推理任務(wù)，有沒有一種更簡潔、更本質(zhì)的解法？

香港科技大學(xué)聯(lián)合階躍以及快手等團(tuán)隊(duì)提出了一個(gè)令人驚訝的答案：只需對(duì)一個(gè)完全隨機(jī)的策略進(jìn)行價(jià)值評(píng)估，就足以找到最優(yōu)推理路徑。他們由此提出 ROVER（Random Policy Valuation for Diverse Reasoning）以極簡思路顛覆傳統(tǒng)范式，跳過傳統(tǒng)強(qiáng)化學(xué)習(xí)推理的策略迭代（policy improvement）循環(huán)。

ROVER 不僅在多項(xiàng)數(shù)學(xué)推理基準(zhǔn)上顯著超越現(xiàn)有方法，更以「極簡主義」實(shí)現(xiàn)高質(zhì)量與高多樣性兼?zhèn)涞耐评砩伞?/p>

目前，論文、代碼以及模型均已開源。

論文地址：https://arxiv.org/abs/2509.24981
論文代碼: https://github.com/tinnerhrhe/ROVER

在 AIME24、AIME25 以及 HMMT25 等高難度任務(wù)上，ROVER 相比于傳統(tǒng)方法大幅提高了 pass@1（+8.2）和 pass@256（+16.8），并且在多種多樣性指標(biāo)上均達(dá)到了新的高度（+17.6%）。并且 ROVER 不需要額外維護(hù)價(jià)值網(wǎng)絡(luò)（value network），也不需要維護(hù)基模型（reference model）計(jì)算 KL，從而更加輕量。

傳統(tǒng)強(qiáng)化學(xué)習(xí)的「痛點(diǎn)困局」：迭代復(fù)雜，代價(jià)高昂

在 LLM 推理優(yōu)化中，主流方法（如 PPO、GRPO）可以被廣義策略迭代（Generalized Policy Iteration）刻畫 —— 反復(fù)執(zhí)行「策略評(píng)估（計(jì)算當(dāng)前策略價(jià)值，如估計(jì)優(yōu)勢(shì)函數(shù) advantage）」與「策略改進(jìn)（更新策略 [數(shù)學(xué)公式]）」。盡管這些方法能提升性能，卻存在核心痛點(diǎn)：

訓(xùn)練穩(wěn)定性差：優(yōu)化目標(biāo)「非定常」，模型易崩潰。最近的工作通過疊加復(fù)雜技巧如 KL 正則約束、裁剪重要性采樣、熵監(jiān)控等。這些「補(bǔ)丁」讓訓(xùn)練如履薄冰，稍有不慎就會(huì)引發(fā)「熵坍塌」（策略多樣性驟降，陷入單一推理路徑）。
PPO 需維護(hù)獨(dú)立的價(jià)值網(wǎng)絡(luò)預(yù)測(cè)狀態(tài)價(jià)值，并反復(fù)執(zhí)行策略迭代：GRPO 等方法也需要維護(hù)基模型（reference model）計(jì)算 KL。這種「重資產(chǎn)」模式，加重了 RL 優(yōu)化的計(jì)算開銷。
推理多樣性流失：為質(zhì)量犧牲探索，pass@k 性能飽和。基于獎(jiǎng)勵(lì)最大化的傳統(tǒng)強(qiáng)化學(xué)習(xí)方法會(huì)使模型過度追求單次推理正確率，犧牲了策略探索能力 —— 模型只會(huì)生成少數(shù)幾種推理路徑，犧牲了 pass@k（多次推理覆蓋更多可行解的能力）。

ROVER 的「極簡革命」：隨機(jī)策略的 Q 值足以指導(dǎo)最優(yōu)決策

研究團(tuán)隊(duì)首先指出，大語言模型推理任務(wù)可被建模為有限時(shí)域馬爾可夫決策過程（MDP），具備以下關(guān)鍵特性：

確定性狀態(tài)轉(zhuǎn)移；
樹狀結(jié)構(gòu)（每個(gè)狀態(tài)有唯一父節(jié)點(diǎn)，不存在不相交子樹）；
二元稀疏獎(jiǎng)勵(lì)（正確 / 錯(cuò)誤）。

這與傳統(tǒng) RL 任務(wù)（如 Atari 游戲、機(jī)器人控制）中常見的隨機(jī)性狀態(tài)轉(zhuǎn)移、循環(huán)圖結(jié)構(gòu)、中間獎(jiǎng)勵(lì)等復(fù)雜設(shè)定截然不同。

「我們是否在用過于復(fù)雜的工具，解決一個(gè)結(jié)構(gòu)上更簡單的問題？」—— 這成為 ROVER 研究的出發(fā)點(diǎn)。

在這一簡單結(jié)構(gòu)中，研究團(tuán)隊(duì)證明了一個(gè)顛覆性結(jié)論：均勻隨機(jī)策略的 Q 值，直接指向最優(yōu)策略。

因此，策略學(xué)習(xí)過程可以簡化為下圖形式。

ROVER 算法流程：三步極簡，免去迭代

（1）Q 值估計(jì)：

（2）策略構(gòu)建：

（3）訓(xùn)練目標(biāo)：

在實(shí)際實(shí)現(xiàn)中，ROVER 還引入了：

這種「自監(jiān)督」式參數(shù)化，讓模型學(xué)習(xí)「相對(duì)改進(jìn)」而非「絕對(duì)價(jià)值」，既減少計(jì)算量，又提升穩(wěn)定性。

ROVER 的損失函數(shù)可以表示為

算法偽代碼如下

實(shí)驗(yàn)結(jié)果：全面領(lǐng)先，多樣性顯著提升

研究團(tuán)隊(duì)在數(shù)學(xué)推理基準(zhǔn)（AIME24/25、HMMT25、AMC、MATH 等）、Countdown 任務(wù)以及 O.O.D. 任務(wù) GPQA-diamond 上驗(yàn)證 ROVER，覆蓋 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型，結(jié)果堪稱「降維打擊」：

1. 數(shù)學(xué)競賽任務(wù)：pass@1 與 pass@k 雙突破

在 Qwen3-8B-Base 模型上，ROVER 的 pass@1 在 AIME24 達(dá) 30.6（比最佳基線 DAPO 高 19.1 分）；在 HMMT25 任務(wù)中，pass@1 從基線最高 7.1 躍升至 14.6（提升 106%）。

更關(guān)鍵的是 pass@k 性能：傳統(tǒng) RL 方法（如 GRPO）的 pass@k 隨 k 增大迅速飽和，而ROVER 在 pass@256 上也能與基線拉開明顯差距，展現(xiàn)持續(xù)探索能力。

2. 策略多樣性：比基線高 17.6%，覆蓋更多解題路徑

采用 LLM-as-Judge 方法評(píng)判所有方法生成的正確答案的推理內(nèi)容多樣性，ROVER 訓(xùn)練的策略多樣性比基線平均提升 +17.6%，在 AIME24 上發(fā)現(xiàn)更多獨(dú)特解題路徑。在其他多樣性指標(biāo)如余弦距離（cosine distance）與利用率（utility）等，ROVER 在不同溫度下仍表現(xiàn)出一致的高多樣性。

受益于多樣性的提升，ROVER 在 GPQA-diamond 等與數(shù)學(xué)無關(guān)的 O.O.D 任務(wù)上也表現(xiàn)最佳。

3. 案例展示：ROVER 發(fā)現(xiàn)全新解法

通過「策略數(shù)量」指標(biāo)（同一問題生成的不同推理路徑數(shù)）評(píng)估，ROVER 在各個(gè)任務(wù)上均能發(fā)現(xiàn)更多的解題策略。如下圖所示，在「2x3 網(wǎng)格數(shù)字排列」問題中，基模型與 GRPO 均僅發(fā)現(xiàn) 2 種策略，而 ROVER 可以發(fā)現(xiàn) 4 種（包括「隔板法」「容斥原理」等不同數(shù)學(xué)工具）。

啟示與展望

ROVER 的提出，不僅是一次技術(shù)突破，更是一次方法論的反思：在某些結(jié)構(gòu)化任務(wù)中，簡化而非復(fù)雜化，才是推進(jìn)性能的關(guān)鍵。「Simplicity is the ultimate sophistication.」 —— ROVER 這一基于簡單隨機(jī)策略的新方法，詮釋了達(dá)芬奇這句名言在 AI 時(shí)代的新內(nèi)涵。

更多方法細(xì)節(jié)與實(shí)驗(yàn)分析請(qǐng)見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.