夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

港科提出新算法革新大模型推理范式:隨機(jī)策略估值竟成「神操作」

0
分享至



論文第一作者何浩然是香港科技大學(xué)博士生,研究方向包括強(qiáng)化學(xué)習(xí)和基礎(chǔ)模型等,研究目標(biāo)是通過經(jīng)驗(yàn)和獎(jiǎng)勵(lì)激發(fā)超級(jí)智能。共同第一作者葉語霄是香港科技大學(xué)一年級(jí)博士。通訊作者為香港科技大學(xué)電子及計(jì)算機(jī)工程系、計(jì)算機(jī)科學(xué)與工程系助理教授潘玲。

在大語言模型(LLM)的數(shù)學(xué)推理任務(wù)中,基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)已成為提升模型推理能力的重要手段。然而,主流方法如 PPO、GRPO 等仍然依賴為傳統(tǒng) RL 場景設(shè)計(jì)的策略梯度更新的學(xué)習(xí)目標(biāo),本質(zhì)上可以被策略迭代(policy improvement)刻畫,即包含策略評(píng)估(policy evaluation)與策略改進(jìn)(policy improvement)的不斷循環(huán)的過程。這些方法常常面臨訓(xùn)練不穩(wěn)定、多樣性喪失、調(diào)參復(fù)雜等問題。

那么對(duì)于 LLM 推理任務(wù),有沒有一種更簡潔、更本質(zhì)的解法?

香港科技大學(xué)聯(lián)合階躍以及快手等團(tuán)隊(duì)提出了一個(gè)令人驚訝的答案:只需對(duì)一個(gè)完全隨機(jī)的策略進(jìn)行價(jià)值評(píng)估,就足以找到最優(yōu)推理路徑。他們由此提出 ROVER(Random Policy Valuation for Diverse Reasoning)以極簡思路顛覆傳統(tǒng)范式,跳過傳統(tǒng)強(qiáng)化學(xué)習(xí)推理的策略迭代(policy improvement)循環(huán)。

ROVER 不僅在多項(xiàng)數(shù)學(xué)推理基準(zhǔn)上顯著超越現(xiàn)有方法,更以「極簡主義」實(shí)現(xiàn)高質(zhì)量與高多樣性兼?zhèn)涞耐评砩伞?/p>

目前,論文、代碼以及模型均已開源。



  • 論文地址:https://arxiv.org/abs/2509.24981
  • 論文代碼: https://github.com/tinnerhrhe/ROVER



在 AIME24、AIME25 以及 HMMT25 等高難度任務(wù)上,ROVER 相比于傳統(tǒng)方法大幅提高了 pass@1(+8.2)和 pass@256(+16.8),并且在多種多樣性指標(biāo)上均達(dá)到了新的高度(+17.6%)。并且 ROVER 不需要額外維護(hù)價(jià)值網(wǎng)絡(luò)(value network),也不需要維護(hù)基模型(reference model)計(jì)算 KL,從而更加輕量。

傳統(tǒng)強(qiáng)化學(xué)習(xí)的「痛點(diǎn)困局」:迭代復(fù)雜,代價(jià)高昂

在 LLM 推理優(yōu)化中,主流方法(如 PPO、GRPO)可以被廣義策略迭代(Generalized Policy Iteration)刻畫 —— 反復(fù)執(zhí)行「策略評(píng)估(計(jì)算當(dāng)前策略價(jià)值,如估計(jì)優(yōu)勢(shì)函數(shù) advantage)」與「策略改進(jìn)(更新策略 [數(shù)學(xué)公式])」。盡管這些方法能提升性能,卻存在核心痛點(diǎn):

  • 訓(xùn)練穩(wěn)定性差:優(yōu)化目標(biāo)「非定常」,模型易崩潰。最近的工作通過疊加復(fù)雜技巧如 KL 正則約束、裁剪重要性采樣、熵監(jiān)控等。這些「補(bǔ)丁」讓訓(xùn)練如履薄冰,稍有不慎就會(huì)引發(fā)「熵坍塌」(策略多樣性驟降,陷入單一推理路徑)。
  • PPO 需維護(hù)獨(dú)立的價(jià)值網(wǎng)絡(luò)預(yù)測(cè)狀態(tài)價(jià)值,并反復(fù)執(zhí)行策略迭代:GRPO 等方法也需要維護(hù)基模型(reference model)計(jì)算 KL。這種「重資產(chǎn)」模式,加重了 RL 優(yōu)化的計(jì)算開銷。
  • 推理多樣性流失:為質(zhì)量犧牲探索,pass@k 性能飽和。基于獎(jiǎng)勵(lì)最大化的傳統(tǒng)強(qiáng)化學(xué)習(xí)方法會(huì)使模型過度追求單次推理正確率,犧牲了策略探索能力 —— 模型只會(huì)生成少數(shù)幾種推理路徑,犧牲了 pass@k(多次推理覆蓋更多可行解的能力)。

ROVER 的「極簡革命」:隨機(jī)策略的 Q 值足以指導(dǎo)最優(yōu)決策

研究團(tuán)隊(duì)首先指出,大語言模型推理任務(wù)可被建模為有限時(shí)域馬爾可夫決策過程(MDP),具備以下關(guān)鍵特性:

  • 確定性狀態(tài)轉(zhuǎn)移;
  • 樹狀結(jié)構(gòu)(每個(gè)狀態(tài)有唯一父節(jié)點(diǎn),不存在不相交子樹);
  • 二元稀疏獎(jiǎng)勵(lì)(正確 / 錯(cuò)誤)。

這與傳統(tǒng) RL 任務(wù)(如 Atari 游戲、機(jī)器人控制)中常見的隨機(jī)性狀態(tài)轉(zhuǎn)移、循環(huán)圖結(jié)構(gòu)、中間獎(jiǎng)勵(lì)等復(fù)雜設(shè)定截然不同。

「我們是否在用過于復(fù)雜的工具,解決一個(gè)結(jié)構(gòu)上更簡單的問題?」—— 這成為 ROVER 研究的出發(fā)點(diǎn)。

在這一簡單結(jié)構(gòu)中,研究團(tuán)隊(duì)證明了一個(gè)顛覆性結(jié)論:均勻隨機(jī)策略的 Q 值,直接指向最優(yōu)策略。







因此,策略學(xué)習(xí)過程可以簡化為下圖形式。



ROVER 算法流程:三步極簡,免去迭代

(1)Q 值估計(jì):



(2)策略構(gòu)建:



(3)訓(xùn)練目標(biāo):

在實(shí)際實(shí)現(xiàn)中,ROVER 還引入了:



這種「自監(jiān)督」式參數(shù)化,讓模型學(xué)習(xí)「相對(duì)改進(jìn)」而非「絕對(duì)價(jià)值」,既減少計(jì)算量,又提升穩(wěn)定性。



ROVER 的損失函數(shù)可以表示為



算法偽代碼如下



實(shí)驗(yàn)結(jié)果:全面領(lǐng)先,多樣性顯著提升

研究團(tuán)隊(duì)在數(shù)學(xué)推理基準(zhǔn)(AIME24/25、HMMT25、AMC、MATH 等)、Countdown 任務(wù)以及 O.O.D. 任務(wù) GPQA-diamond 上驗(yàn)證 ROVER,覆蓋 Qwen3-8B/4B、DeepSeek-R1-1.5B 等模型,結(jié)果堪稱「降維打擊」:

1. 數(shù)學(xué)競賽任務(wù):pass@1 與 pass@k 雙突破

在 Qwen3-8B-Base 模型上,ROVER 的 pass@1 在 AIME24 達(dá) 30.6(比最佳基線 DAPO 高 19.1 分);在 HMMT25 任務(wù)中,pass@1 從基線最高 7.1 躍升至 14.6(提升 106%)。



更關(guān)鍵的是 pass@k 性能:傳統(tǒng) RL 方法(如 GRPO)的 pass@k 隨 k 增大迅速飽和,而ROVER 在 pass@256 上也能與基線拉開明顯差距,展現(xiàn)持續(xù)探索能力。



2. 策略多樣性:比基線高 17.6%,覆蓋更多解題路徑

采用 LLM-as-Judge 方法評(píng)判所有方法生成的正確答案的推理內(nèi)容多樣性,ROVER 訓(xùn)練的策略多樣性比基線平均提升 +17.6%,在 AIME24 上發(fā)現(xiàn)更多獨(dú)特解題路徑。在其他多樣性指標(biāo)如余弦距離(cosine distance)與利用率(utility)等,ROVER 在不同溫度下仍表現(xiàn)出一致的高多樣性。

受益于多樣性的提升,ROVER 在 GPQA-diamond 等與數(shù)學(xué)無關(guān)的 O.O.D 任務(wù)上也表現(xiàn)最佳。



3. 案例展示:ROVER 發(fā)現(xiàn)全新解法

通過「策略數(shù)量」指標(biāo)(同一問題生成的不同推理路徑數(shù))評(píng)估,ROVER 在各個(gè)任務(wù)上均能發(fā)現(xiàn)更多的解題策略。如下圖所示,在「2x3 網(wǎng)格數(shù)字排列」問題中,基模型與 GRPO 均僅發(fā)現(xiàn) 2 種策略,而 ROVER 可以發(fā)現(xiàn) 4 種(包括「隔板法」「容斥原理」等不同數(shù)學(xué)工具)。



啟示與展望

ROVER 的提出,不僅是一次技術(shù)突破,更是一次方法論的反思:在某些結(jié)構(gòu)化任務(wù)中,簡化而非復(fù)雜化,才是推進(jìn)性能的關(guān)鍵。「Simplicity is the ultimate sophistication.」 —— ROVER 這一基于簡單隨機(jī)策略的新方法,詮釋了達(dá)芬奇這句名言在 AI 時(shí)代的新內(nèi)涵。

更多方法細(xì)節(jié)與實(shí)驗(yàn)分析請(qǐng)見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美女醫(yī)生曾琦因作風(fēng)問題被停職!她選錯(cuò)了對(duì)象,追悔莫及痛一生

美女醫(yī)生曾琦因作風(fēng)問題被停職!她選錯(cuò)了對(duì)象,追悔莫及痛一生

鋭娛之樂
2025-11-08 00:05:13
主持人:卡塔爾世界杯像為梅西量身打造的,C羅沒這好運(yùn)加持

主持人:卡塔爾世界杯像為梅西量身打造的,C羅沒這好運(yùn)加持

茜子足球
2025-11-08 14:18:23
2-0!德約贏下71歲老將內(nèi)戰(zhàn):第144次殺入決賽+爭101冠 獎(jiǎng)金7萬歐

2-0!德約贏下71歲老將內(nèi)戰(zhàn):第144次殺入決賽+爭101冠 獎(jiǎng)金7萬歐

風(fēng)過鄉(xiāng)
2025-11-08 08:04:35
“寶寶像狗”刷爆全網(wǎng)!準(zhǔn)媽媽看完B超當(dāng)場笑瘋:一模一樣!

“寶寶像狗”刷爆全網(wǎng)!準(zhǔn)媽媽看完B超當(dāng)場笑瘋:一模一樣!

新歐洲
2025-11-08 19:46:41
巴以沖突最可怕結(jié)果,不是哈馬斯、伊朗戰(zhàn)敗,而是埃及被拖下了水

巴以沖突最可怕結(jié)果,不是哈馬斯、伊朗戰(zhàn)敗,而是埃及被拖下了水

小濤叨叨
2025-11-07 21:21:15
汪小菲打臉大S!馬筱梅婚房是獨(dú)棟別墅帶花園,還為大S兒女準(zhǔn)備房間

汪小菲打臉大S!馬筱梅婚房是獨(dú)棟別墅帶花園,還為大S兒女準(zhǔn)備房間

瞎說娛樂
2025-10-25 10:51:25
字母哥無敵!雄鹿126-110擊敗公牛,誰是贏球功臣?數(shù)據(jù)不會(huì)說謊

字母哥無敵!雄鹿126-110擊敗公牛,誰是贏球功臣?數(shù)據(jù)不會(huì)說謊

毒舌NBA
2025-11-08 11:35:43
【2025.11.7】白百合針對(duì)誰?薛之謙四巡明年?男女藝人影視資源最好的?四大名著翻拍進(jìn)度?

【2025.11.7】白百合針對(duì)誰?薛之謙四巡明年?男女藝人影視資源最好的?四大名著翻拍進(jìn)度?

娛樂真爆姐
2025-11-08 23:04:09
舊金山大學(xué)主帥:如果中國球員想赴美打球,希望我校成為首選

舊金山大學(xué)主帥:如果中國球員想赴美打球,希望我校成為首選

懂球帝
2025-11-08 15:34:04
百威砸出100億,終結(jié)歐冠30年喜力時(shí)代

百威砸出100億,終結(jié)歐冠30年喜力時(shí)代

體育產(chǎn)業(yè)生態(tài)圈
2025-11-08 20:06:06
歡迎!中國男足21歲天才登陸中超,2奪本土金靴,王鈺棟對(duì)手來了

歡迎!中國男足21歲天才登陸中超,2奪本土金靴,王鈺棟對(duì)手來了

國足風(fēng)云
2025-11-08 16:49:15
人這輩子最大的愚蠢,是這四個(gè)字

人這輩子最大的愚蠢,是這四個(gè)字

洞讀君
2025-11-08 22:15:03
曾醫(yī)生和副院長的視頻已傳到了外網(wǎng),網(wǎng)友透露更多內(nèi)幕

曾醫(yī)生和副院長的視頻已傳到了外網(wǎng),網(wǎng)友透露更多內(nèi)幕

魔都姐姐雜談
2025-11-07 11:06:49
謀財(cái)害命的中藥注射液,早該被清理進(jìn)歷史的垃圾堆

謀財(cái)害命的中藥注射液,早該被清理進(jìn)歷史的垃圾堆

老爸講科學(xué)
2025-10-20 16:11:11
宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

八斗小先生
2025-07-17 15:12:37
金融反詐:多家銀行收緊對(duì)公賬戶網(wǎng)絡(luò)交易限額

金融反詐:多家銀行收緊對(duì)公賬戶網(wǎng)絡(luò)交易限額

中經(jīng)金融
2025-11-08 08:32:59
三人包夾防不?。?.26米張子宇兩戰(zhàn)24中22轟55分:僅登場34分鐘

三人包夾防不住!2.26米張子宇兩戰(zhàn)24中22轟55分:僅登場34分鐘

顏小白的籃球夢(mèng)
2025-11-08 14:05:33
《阿凡達(dá)3》中國首映官宣,領(lǐng)先全球11天見面

《阿凡達(dá)3》中國首映官宣,領(lǐng)先全球11天見面

草莓解說體育
2025-11-08 09:18:51
深夜炸了!重磅突發(fā), 下周A股要變盤?

深夜炸了!重磅突發(fā), 下周A股要變盤?

龍行天下虎
2025-11-08 13:51:54
官宣,豪門公布,韋世豪正式簽約,2年合同,頂薪合同,嬌妻期待

官宣,豪門公布,韋世豪正式簽約,2年合同,頂薪合同,嬌妻期待

樂聊球
2025-11-08 13:32:38
2025-11-09 00:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11672文章數(shù) 142501關(guān)注度
往期回顧 全部

科技要聞

美股“AI八巨頭”單周市值損失8000億美元

頭條要聞

張家界荒野求生選手抓到野豬吃得滿嘴流油 賽事方回應(yīng)

頭條要聞

張家界荒野求生選手抓到野豬吃得滿嘴流油 賽事方回應(yīng)

體育要聞

馬刺絞贏火箭,不靠文班亞馬?

娛樂要聞

古二再度放料!秦雯王家衛(wèi)吐槽出現(xiàn)新人物

財(cái)經(jīng)要聞

小馬、文遠(yuǎn)回港上市 但自動(dòng)駕駛還沒贏家

汽車要聞

特斯拉Model Y后驅(qū)長續(xù)航版上線:28.85 萬元

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
本地
公開課
軍事航空

藝術(shù)要聞

1008米!世界新第一高樓項(xiàng)目,迎來第三家中國公司加入

五十多歲的女性秋季別瞎打扮,這3個(gè)技巧實(shí)用還時(shí)髦,快收藏

本地新聞

這屆干飯人,已經(jīng)把博物館吃成了食堂

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

福建艦常駐地為三亞軍港

無障礙瀏覽 進(jìn)入關(guān)懷版 色综合色国产热无码一| 久久久久成人精品| 中文字幕无码一区二区黑人巨大| 最新av资源肉感| 欧洲精品一卡2卡三卡4卡影视| 久久人体视频| 99久久亚洲精品日本无码| 国产成人精品a视频| 好爽操我a成人一区二区| 2019最新久久久视频精品| 久久福利视频免费观看| 久久久久久国精品色费色费s| 亚讲AV无码国产精品色| 欧美经典久久久久久久久久| 丰满大乳 国产精品| 日朝一区二区| 免费国产黄网在线观看| 高清无码免费啪啪啪视频| 六月天色婷婷| 小花毛片俄罗斯的网站| 亚洲福利国产美女久久R| 天堂AV综合在线无码流出| 久久av老汉| 成人影视在线观看一区| 人人妻人人澡人人爽人人爽人人av中国| 粗大黑人巨茎大战欧美成人免费看 | 欧美破苞流血一区二区| 漂亮人妻中文字幕丝袜| 久久久久人妻一区二区三区VR2| 在线精品国产一区二区三区88| AV激情久久| 胖女人操逼视频| 法国性爱视频网站| 日本天堂免费观看| 国产精品美女久久久久久丫| 国产二区1/99| 成人国产一区二区三区精品| 人妻在线免费观看| 亚洲国产欧美一区二区好看电影| 高清无码1区2区| 一区二区在线欧美日韩中文|