夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

<meter id="ylye6"></meter>

^{<thead id="ylye6"></thead>}^{<thead id="ylye6"></thead>}

<sub id="ylye6"></sub>

<style id="ylye6"></style>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴選
郵箱大師
網(wǎng)易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網(wǎng)易官方手機郵箱應用

移動端
網(wǎng)易公開課
網(wǎng)易嚴選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

陳丹琦新作：大模型強化學習的第三條路，8B小模型超越GPT-4o

2025-09-28 17:22:53　來源: 量子位

北京舉報

0

分享至

明敏發(fā)自凹非寺
量子位 | 公眾號 QbitAI

結合RLHF+RLVR，8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陳丹琦新作來了。

他們提出了一個結合RLHF和RLVR優(yōu)點的方法，RLMT（Reinforcement Learning with Model-rewarded Thinking，基于模型獎勵思維的強化學習）

它要求模型在回答之前生成CoT，然后使用人類偏好訓練的獎勵模型來評價輸出。

支持在基礎模型上直接使用，甚至不需要SFT，可以大幅節(jié)省后訓練成本

網(wǎng)友覺得，這種方法為通用強化學習設定了一個新基線：誰制定了偏好的定義，誰就是后訓練時代的“新得分手”。

讓小模型輕松超越大模型

RLVR（通過可驗證獎勵的強化學習）能夠在數(shù)學、代碼等任務中大幅提升模型的推理能力，但是在更開放的任務（比如寫大綱、制定飲食計劃）上的泛化能力有限，這些任務是人類日常推理的常見場景。

本文提出的RLMT就是證明，RLVR范式在可驗證領域之外同樣有效

它要求模型在生成回答之前輸出長思維鏈（CoT），并利用基于人類偏好的獎勵模型（與RLHF中相同）進行在線強化學習。

比如對于非數(shù)學代碼問題，它依舊可以分步驟拆解：回顧→綜合→關鍵主題→核心準則→舉例→結構化回答。

比如在Wildbench（一個基于真實任務建立的基準）上，優(yōu)化后的Qwen2.5-7B大幅領先其他模型。

它的訓練流程如下：

給定一個用戶提示x，模型先生成一個推理軌跡z，在推理基礎上生成最終回答y，獎勵模型r(x,y)對結果進行打分。

數(shù)學上，RLMT優(yōu)化的目標是：

然后使用人類偏好獎勵模型（論文中用的是Skywork-v2），對生成的回答在流暢性、相關性、邏輯性、創(chuàng)意等維度給出分數(shù)。

在優(yōu)化算法方面，RLMT使用在線強化學習算法來更新模型參數(shù)，主要實驗了DPO、PPO、GRPO，結果表明GRPO效果最好。但即使使用DPO/PPO，RLMT也始終優(yōu)于RLHF。

訓練數(shù)據(jù)來自于真實用戶對話，避免像RLVR那樣過度偏向數(shù)學/代碼。

訓練方式有兩種：

Warm-start（帶SFT預熱）：先使用少量SFT數(shù)據(jù)教會模型CoT格式，再用RLMT優(yōu)化；
Zero（無SFT直接訓練）：在基礎模型上直接加入固定前綴提示，讓它學會“思考+回答”結構，通過RLMT強化最終也能超過instruct模型表現(xiàn)。

最終通過RLMT，模型在推理風格上更像人類思考：它自然學會了分組、約束分析、跨部分聯(lián)系、迭代修正等，從而帶來更高質量的對話和寫作效果。

研究團隊主要測試了Llama3.1-8B和Qwen2.5-7B兩個模型的表現(xiàn)效果。

結果顯示小模型經(jīng)過RLMT訓練可超越大模型，大幅簡化后訓練成本。

陳丹琦團隊出品

本項研究一共三位作者：陳丹琦、Adithya Bhaskar、葉曦。

陳丹琦，普林斯頓大學計算機副教授，普林斯頓NLP小組負責人。最近加盟了Thinking Machines Lab。

她本科就讀于清華大學“姚班”，2018年在斯坦福大學獲得計算機科學博士學位，導師為Christopher Manning。曾獲得諾獎風向標之稱的斯隆獎。

她的研究方向主要是自然語言理解、知識表示與推理、問答系統(tǒng)、信息抽取、對話代理等。

研究一作為Adithya Bhaskar和葉曦。

Adithya Bhaskar現(xiàn)在是普林斯頓大學博三學生，師從陳丹琦。

葉曦是普林斯頓語言與智能研究所博士后。

本科畢業(yè)于清華大學，在奧斯汀大學獲得博士學位。主要研究方向是NLP，重點在提高大語言模型的可解釋性和推理能力。

論文地址：
https://arxiv.org/abs/2509.20357

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

強化學習的兩個「大坑」，終于被兩篇ICLR論文給解決了

機器之心Pro 2025-07-17 18:17:19
0 跟貼 0
突破多模態(tài)獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0

當答案失靈，CEO的集體AI焦慮還有解嗎?

虎嗅APP 2025-09-29 21:44:23
0 跟貼 0

十億級參數(shù)，千億級性能，上海AI Lab發(fā)布新一代文檔解析大模型

量子位 2025-09-29 19:02:46
3 跟貼 3
國產(chǎn)大模型集體國慶！最強國產(chǎn)編程模型誕生

智東西 2025-10-01 08:21:24
0 跟貼 0

CAIR開源超聲基座大模型EchoCare“聆音”10余項醫(yī)學任務性能登頂

機器之心Pro 2025-09-30 17:59:48
0 跟貼 0

節(jié)前全球大模型爆發(fā)式更新：DeepSeek、Claude領銜

機器之心Pro 2025-09-30 19:26:07
0 跟貼 0
GPT-5「降智」真相曝光：不是變笨，而是五個超級開關沒激活

新智元 2025-09-30 21:50:46
0 跟貼 0

Mini-Omni-Reasoner：實時推理，定義下一代端到端對話模型

機器之心Pro 2025-09-22 14:01:53
0 跟貼 0
剛剛，OpenAI Sora 2重磅登場！首個APP上線，或將成為AI時代新TikTok

新智元 2025-10-01 06:56:52
2 跟貼 2
OpenAI進軍AI視頻社交賽道：Sora模型迎來重磅升級

財聯(lián)社 2025-10-01 04:35:22
0 跟貼 0
抖音集團張瑩：以AI技術構建反詐體系，筑牢平臺安全防線

通信世界 2025-10-01 09:14:42
0 跟貼 0
十年怪病求醫(yī)無果，GPT一眼看穿基因突變

機器之心Pro 2025-07-07 19:48:49
0 跟貼 0
GPT五代同堂答題，初代成網(wǎng)友白月光

機器之心Pro 2025-08-20 16:13:28
0 跟貼 0
Sora 2來了！OpenAI還發(fā)了“AI抖音”

智東西 2025-10-01 07:54:42
0 跟貼 0
阿里發(fā)布信息檢索Agent，可自主上網(wǎng)查資料，GAIA基準超越GPT-4o

量子位 2025-06-27 14:00:19
67 跟貼 67
這一個Tab鍵，我愿意單獨付費：Cursor在線強化學習優(yōu)化代碼建議

機器之心Pro 2025-09-15 10:35:28
14 跟貼 14
強化學習之父給LLM判死刑！站隊LeCun：我們?nèi)沐e了

新智元 2025-09-29 18:25:09
0 跟貼 0
螞蟻首個萬億參數(shù)推理大模型，開源！

智東西 2025-09-30 17:05:11
0 跟貼 0
7+3=8？為啥中秋國慶兩節(jié)，只休八天？

記者李喜喆 2025-09-26 22:56:26
0 跟貼 0
北郵與騰訊AI Lab提出MoE-CL架構，解決大模型持續(xù)學習核心痛點

機器之心Pro 2025-09-30 18:33:03
0 跟貼 0
英美游客在非洲觀光太靠近小象母象遭公象怒追獨木舟被掀翻 #英美游客在非洲遭大象追趕襲擊 #非洲

海外網(wǎng) 2025-09-30 11:17:28
1147 跟貼 1147
男生滿心歡喜，準備上體育課，結果數(shù)學老師來了！

趣事制造機 2025-09-29 14:33:08
1 跟貼 1
139三年級被5除余4被3除余2被2除余1，這個數(shù)是幾？不一樣咋做

我服子佩 2025-09-30 12:17:16
1 跟貼 1
三星堆公布重大發(fā)現(xiàn)！專家：種種跡象表明，三星堆可能爆發(fā)過內(nèi)戰(zhàn)，神權貴族集團受到嚴重打擊，城市水系也因此改變

每日經(jīng)濟新聞 2025-09-27 22:27:12
12537 跟貼 12537
可能是目前效果最好的開源生圖模型，混元生圖3.0來了

量子位 2025-09-30 20:56:55
1 跟貼 1
小學數(shù)學老師被“逼瘋”的一天，教孩子用手指頭數(shù)數(shù)還能算不明白網(wǎng)友：看這眼神我就知道他沒聽進去

營天下 2025-09-29 16:08:38
0 跟貼 0
輔導妹妹作業(yè)有多難？初中生哥哥教小學生妹妹數(shù)學題，教到最后給哥哥“氣笑了”

每日看點匯 2025-09-30 14:18:10
0 跟貼 0
英國學霸遇九九乘法表秒變“數(shù)學小白” 網(wǎng)友：我覺得自己“強的可怕”

江西晨報 2025-09-29 23:13:17
1 跟貼 1
105啥規(guī)律？啥規(guī)律？上高中的兒子都沒看出來，真的這么難嗎

我服子佩 2025-09-29 16:05:00
0 跟貼 0
數(shù)學競賽題解分式方程，怎么快速求解？

三樂大掌柜 2025-09-28 11:20:30
1 跟貼 1
若四邊形 ABCD 的面積為 24平方厘米，求三角形 BEF 的面積

公考客棧店小二 2025-09-28 23:00:28
0 跟貼 0
見過的高手有很多，第一次見到玩三角函數(shù)的，他數(shù)學一定很好

聰聰熱點看看 2025-09-30 15:10:35
0 跟貼 0
圓的半徑是10厘米，求陰影部分的面積

公考客棧店小二 2025-09-29 14:00:00
0 跟貼 0
112一升二的小朋友們，要出類拔萃必須提前學習，這個知識太重要

我服子佩 2025-09-29 12:13:00
0 跟貼 0
很有趣的一道題，兩種方法求A值

阿航觀世界 2025-09-30 10:26:22
4 跟貼 4
114學生說：老師我考你一道題，身為數(shù)學老師的我竟然答錯了

我服子佩 2025-09-29 11:14:00
0 跟貼 0
利用冪的運算公式來求代數(shù)式的值

三樂大掌柜 2025-09-30 11:20:06
1 跟貼 1
135二年級第二單元這題啥意思，結果到底是哪一個？快來看

我服子佩 2025-09-30 22:46:07
1 跟貼 1
雙重二次根式化簡和代數(shù)式求值的綜合題目

三樂大掌柜 2025-09-26 16:46:36
1 跟貼 1

美陸軍部長：如果中美打起來，中國有先進裝備，美國有鋼鐵般意志

美陸軍部長：如果中美打起來，中國有先進裝備，美國有鋼鐵般意志

時時有聊

2025-10-01 07:26:06

徹底爆了！昆明多家公司已停止接單

徹底爆了！昆明多家公司已停止接單

掌上春城

2025-09-30 22:13:23

小天賜，終為父母當年的“沖動”買了單，年僅6歲活得不像個小孩

小天賜，終為父母當年的“沖動”買了單，年僅6歲活得不像個小孩

禾寒敘

2025-09-30 19:15:35

釋永信交代了全過程令人吃驚！你想象不到他的生活有多豪多豐富！

釋永信交代了全過程令人吃驚！你想象不到他的生活有多豪多豐富！

娛樂看阿敞

2025-09-20 10:30:24

喊上門按摩，發(fā)現(xiàn)是女同學媽媽，結束后她問我：還要別的服務嗎？

喊上門按摩，發(fā)現(xiàn)是女同學媽媽，結束后她問我：還要別的服務嗎？

凱裕說故事

2025-09-03 16:59:48

來自吉利的銷冠教科書！連續(xù)月銷破4萬，星愿太狠了

來自吉利的銷冠教科書！連續(xù)月銷破4萬，星愿太狠了

汽車排行榜談

2025-09-28 20:32:56

遭騙貸33億的四川城商行，被薅走5年盈利、近3年追回966萬績效

遭騙貸33億的四川城商行，被薅走5年盈利、近3年追回966萬績效

湘財Plus

2025-09-30 21:19:38

原來我們都被騙了！官媒發(fā)文，揭開18歲全紅嬋真實處境’誤會太深

原來我們都被騙了！官媒發(fā)文，揭開18歲全紅嬋真實處境’誤會太深

行走的知識庫

2025-10-01 05:46:00

為什么黃種人、黑種人和白種人能自由交配，難道沒有生殖隔離嗎？

為什么黃種人、黑種人和白種人能自由交配，難道沒有生殖隔離嗎？

詩意世界

2025-08-08 17:27:02

俄羅斯和日本，為何都不承認庫頁島屬于清朝？原因非常簡單！

俄羅斯和日本，為何都不承認庫頁島屬于清朝？原因非常簡單！

通文知史

2025-09-30 17:45:03

中國從來不是移民國家！

特例的貓

2025-10-01 08:48:29

蘇專家透露：跟中國鬧掰是蘇聯(lián)目光短淺之舉，是蘇外交史最大失敗

蘇專家透露：跟中國鬧掰是蘇聯(lián)目光短淺之舉，是蘇外交史最大失敗

南書房

2025-09-30 16:45:14

若熱-熱蘇斯回應C羅亞冠輪休：他已經(jīng)40歲了，我們擔心他受傷

若熱-熱蘇斯回應C羅亞冠輪休：他已經(jīng)40歲了，我們擔心他受傷

懂球帝

2025-09-30 23:51:16

王楚欽發(fā)球遮擋，裁判爭議判罰！莎頭隨后回擊方式，卻讓肖戰(zhàn)點頭

王楚欽發(fā)球遮擋，裁判爭議判罰！莎頭隨后回擊方式，卻讓肖戰(zhàn)點頭

嘴炮體壇

2025-09-30 19:02:12

極目政情丨60歲江蘇省長許昆林履新遼寧省委書記，他15歲上大學，曾在國家部委工作30多年

極目政情丨60歲江蘇省長許昆林履新遼寧省委書記，他15歲上大學，曾在國家部委工作30多年

極目新聞

2025-09-30 18:02:29

劉亦菲和大佬聚餐撒嬌，轉頭對身邊人翻白眼，難怪向太說她太愛裝

劉亦菲和大佬聚餐撒嬌，轉頭對身邊人翻白眼，難怪向太說她太愛裝

小咪侃娛圈

2025-09-25 14:30:45

24小時連簽6人！美媒5角度詳解勇士隊全新陣容：首發(fā)五虎獲A替補C

24小時連簽6人！美媒5角度詳解勇士隊全新陣容：首發(fā)五虎獲A替補C

鍋子籃球

2025-09-30 22:50:04

俄“反侵略”之戰(zhàn)即將打響，普京簽下總統(tǒng)令，對中國只有一個要求

俄“反侵略”之戰(zhàn)即將打響，普京簽下總統(tǒng)令，對中國只有一個要求

阿芒娛樂說

2025-09-30 11:06:50

杭州保姆縱火案通靈實錄:通靈人與被害人交流,得知朱小貞真實死因

杭州保姆縱火案通靈實錄:通靈人與被害人交流,得知朱小貞真實死因

可兒故事匯

2024-08-29 12:50:53

洛陽考古大發(fā)現(xiàn)！沉睡1500年！規(guī)模超羅馬3倍，就在中國黃土之下

洛陽考古大發(fā)現(xiàn)！沉睡1500年！規(guī)模超羅馬3倍，就在中國黃土之下

興趣知識

2025-09-16 15:24:16

追蹤人工智能動態(tài)

11434文章數(shù) 176286關注度

往期回顧全部

科技要聞

天問二號最新影像！五星紅旗與地球同框

頭條要聞

牛彈琴：特朗普果然出手了美國軍隊要有大變革

頭條要聞

牛彈琴：特朗普果然出手了美國軍隊要有大變革

體育要聞

揭秘庫明加續(xù)約：勇士奢侈稅增7000萬

娛樂要聞

和張藝謀離婚后，前妻肖華現(xiàn)狀

財經(jīng)要聞

這五大消費趨勢，有望貫穿國慶長假

汽車要聞

升級端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

家居

數(shù)碼

公開課

軍事航空

教育要聞

2025年銀齡講學計劃發(fā)布，招募7000名退休教師

家居要聞

市區(qū)綠洲鏈接社區(qū)商業(yè)

重慶目耳進入金屬叢林
重塑品牌煙火氣與價值
再塑山居隱逸理想生活

數(shù)碼要聞

AMD下代顯卡光追和動畫性能大提升！官方詳解將硬件級支持DGF

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
最牛高中校長：真正的好學生都是玩出來的
李彥宏：百度離破產(chǎn)30天

軍事要聞

美軍將領大會召開美防長提出10項新指令

© 1997-2025 網(wǎng)易公司版權所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版国产av大陆精品一区二区三区| 亚洲gv在线观看| 国产一区二区女内射| 无码av免费永久免费永久专区| 国产AV熟女内射不卡| 北条麻妃av高清无码| 成人片好好热免费在线观看av| 亚洲精品久久区二区三区蜜桃臀| 一区二区三区亚洲| 欧美激情传煤| 亚洲免费无码一区二区 | 人妻无码精品久久久久久| 国内不卡的一区二区三区| 无码久久人妻一区二区浴池| 性xxxx视频播放免费| 成熟的丰满少妇中文字幕| 丰满少妇熟女高潮流白浆| 欧美一区二区三区区成人影院欧美| 国语精品视频在线观看不卡| 日本人妻一区二区| 熟女白浆一区二区三区| 亚洲精品蜜桃| 紧爽喷视频| 精品少妇一区二AV| 日日人人爽人人爽人人片AV| 丰满少妇野战| 国产精品久久久久久久免费看| 亚洲日韩精品成人无码专区AV| 精久国产av一区二区三区孕妇| 五月婷婷开心网| 久久夜色精品国产亚洲| 精品国产乱码久久久久久郑州公司| 国产精品久久久久不卡绿巨人| 中文字幕日韩AV一区| 色爱综合另类图片av| 精品国产熟女| 日本熟熟妇xxxxx精品熟妇| 在线播放你懂的| 高跟肉丝少妇A片在线| 无码人妻精品中文字幕| 99爱在线精品免费观看|

<pre id="si5wt"><var id="si5wt"></var></pre>

<cite id="si5wt"></cite>

<cite id="si5wt"></cite>