夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

陳丹琦新作:大模型強化學習的第三條路,8B小模型超越GPT-4o

0
分享至

明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

結合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。

陳丹琦新作來了。



他們提出了一個結合RLHF和RLVR優(yōu)點的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型獎勵思維的強化學習)

它要求模型在回答之前生成CoT,然后使用人類偏好訓練的獎勵模型來評價輸出。

支持在基礎模型上直接使用,甚至不需要SFT,可以大幅節(jié)省后訓練成本



網(wǎng)友覺得,這種方法為通用強化學習設定了一個新基線:誰制定了偏好的定義,誰就是后訓練時代的“新得分手”。



讓小模型輕松超越大模型

RLVR(通過可驗證獎勵的強化學習)能夠在數(shù)學、代碼等任務中大幅提升模型的推理能力,但是在更開放的任務(比如寫大綱、制定飲食計劃)上的泛化能力有限,這些任務是人類日常推理的常見場景。

本文提出的RLMT就是證明,RLVR范式在可驗證領域之外同樣有效

它要求模型在生成回答之前輸出長思維鏈(CoT),并利用基于人類偏好的獎勵模型(與RLHF中相同)進行在線強化學習。



比如對于非數(shù)學代碼問題,它依舊可以分步驟拆解:回顧→綜合→關鍵主題→核心準則→舉例→結構化回答。



比如在Wildbench(一個基于真實任務建立的基準)上,優(yōu)化后的Qwen2.5-7B大幅領先其他模型。



它的訓練流程如下:

給定一個用戶提示x,模型先生成一個推理軌跡z,在推理基礎上生成最終回答y,獎勵模型r(x,y)對結果進行打分。

數(shù)學上,RLMT優(yōu)化的目標是:



然后使用人類偏好獎勵模型(論文中用的是Skywork-v2),對生成的回答在流暢性、相關性、邏輯性、創(chuàng)意等維度給出分數(shù)。

在優(yōu)化算法方面,RLMT使用在線強化學習算法來更新模型參數(shù),主要實驗了DPO、PPO、GRPO,結果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始終優(yōu)于RLHF。



訓練數(shù)據(jù)來自于真實用戶對話,避免像RLVR那樣過度偏向數(shù)學/代碼。

訓練方式有兩種:

  • Warm-start(帶SFT預熱):先使用少量SFT數(shù)據(jù)教會模型CoT格式,再用RLMT優(yōu)化;
  • Zero(無SFT直接訓練):在基礎模型上直接加入固定前綴提示,讓它學會“思考+回答”結構,通過RLMT強化最終也能超過instruct模型表現(xiàn)。

最終通過RLMT,模型在推理風格上更像人類思考:它自然學會了分組、約束分析、跨部分聯(lián)系、迭代修正等,從而帶來更高質量的對話和寫作效果。



研究團隊主要測試了Llama3.1-8B和Qwen2.5-7B兩個模型的表現(xiàn)效果。

結果顯示小模型經(jīng)過RLMT訓練可超越大模型,大幅簡化后訓練成本。



陳丹琦團隊出品

本項研究一共三位作者:陳丹琦、Adithya Bhaskar、葉曦。

陳丹琦,普林斯頓大學計算機副教授,普林斯頓NLP小組負責人。最近加盟了Thinking Machines Lab。

她本科就讀于清華大學“姚班”,2018年在斯坦福大學獲得計算機科學博士學位,導師為Christopher Manning。曾獲得諾獎風向標之稱的斯隆獎。

她的研究方向主要是自然語言理解、知識表示與推理、問答系統(tǒng)、信息抽取、對話代理等。



研究一作為Adithya Bhaskar和葉曦。

Adithya Bhaskar現(xiàn)在是普林斯頓大學博三學生,師從陳丹琦。



葉曦是普林斯頓語言與智能研究所博士后。

本科畢業(yè)于清華大學,在奧斯汀大學獲得博士學位。主要研究方向是NLP,重點在提高大語言模型的可解釋性和推理能力。



論文地址:
https://arxiv.org/abs/2509.20357

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美陸軍部長:如果中美打起來,中國有先進裝備,美國有鋼鐵般意志

美陸軍部長:如果中美打起來,中國有先進裝備,美國有鋼鐵般意志

時時有聊
2025-10-01 07:26:06
徹底爆了!昆明多家公司已停止接單

徹底爆了!昆明多家公司已停止接單

掌上春城
2025-09-30 22:13:23
小天賜,終為父母當年的“沖動”買了單,年僅6歲活得不像個小孩

小天賜,終為父母當年的“沖動”買了單,年僅6歲活得不像個小孩

禾寒敘
2025-09-30 19:15:35
釋永信交代了全過程令人吃驚!你想象不到他的生活有多豪多豐富!

釋永信交代了全過程令人吃驚!你想象不到他的生活有多豪多豐富!

娛樂看阿敞
2025-09-20 10:30:24
喊上門按摩,發(fā)現(xiàn)是女同學媽媽,結束后她問我:還要別的服務嗎?

喊上門按摩,發(fā)現(xiàn)是女同學媽媽,結束后她問我:還要別的服務嗎?

凱裕說故事
2025-09-03 16:59:48
來自吉利的銷冠教科書!連續(xù)月銷破4萬,星愿太狠了

來自吉利的銷冠教科書!連續(xù)月銷破4萬,星愿太狠了

汽車排行榜談
2025-09-28 20:32:56
遭騙貸33億的四川城商行,被薅走5年盈利、近3年追回966萬績效

遭騙貸33億的四川城商行,被薅走5年盈利、近3年追回966萬績效

湘財Plus
2025-09-30 21:19:38
原來我們都被騙了!官媒發(fā)文,揭開18歲全紅嬋真實處境’誤會太深

原來我們都被騙了!官媒發(fā)文,揭開18歲全紅嬋真實處境’誤會太深

行走的知識庫
2025-10-01 05:46:00
為什么黃種人、黑種人和白種人能自由交配,難道沒有生殖隔離嗎?

為什么黃種人、黑種人和白種人能自由交配,難道沒有生殖隔離嗎?

詩意世界
2025-08-08 17:27:02
俄羅斯和日本,為何都不承認庫頁島屬于清朝?原因非常簡單!

俄羅斯和日本,為何都不承認庫頁島屬于清朝?原因非常簡單!

通文知史
2025-09-30 17:45:03
中國從來不是移民國家!

中國從來不是移民國家!

特例的貓
2025-10-01 08:48:29
蘇專家透露:跟中國鬧掰是蘇聯(lián)目光短淺之舉,是蘇外交史最大失敗

蘇專家透露:跟中國鬧掰是蘇聯(lián)目光短淺之舉,是蘇外交史最大失敗

南書房
2025-09-30 16:45:14
若熱-熱蘇斯回應C羅亞冠輪休:他已經(jīng)40歲了,我們擔心他受傷

若熱-熱蘇斯回應C羅亞冠輪休:他已經(jīng)40歲了,我們擔心他受傷

懂球帝
2025-09-30 23:51:16
王楚欽發(fā)球遮擋,裁判爭議判罰!莎頭隨后回擊方式,卻讓肖戰(zhàn)點頭

王楚欽發(fā)球遮擋,裁判爭議判罰!莎頭隨后回擊方式,卻讓肖戰(zhàn)點頭

嘴炮體壇
2025-09-30 19:02:12
極目政情丨60歲江蘇省長許昆林履新遼寧省委書記,他15歲上大學,曾在國家部委工作30多年

極目政情丨60歲江蘇省長許昆林履新遼寧省委書記,他15歲上大學,曾在國家部委工作30多年

極目新聞
2025-09-30 18:02:29
劉亦菲和大佬聚餐撒嬌,轉頭對身邊人翻白眼,難怪向太說她太愛裝

劉亦菲和大佬聚餐撒嬌,轉頭對身邊人翻白眼,難怪向太說她太愛裝

小咪侃娛圈
2025-09-25 14:30:45
24小時連簽6人!美媒5角度詳解勇士隊全新陣容:首發(fā)五虎獲A替補C

24小時連簽6人!美媒5角度詳解勇士隊全新陣容:首發(fā)五虎獲A替補C

鍋子籃球
2025-09-30 22:50:04
俄“反侵略”之戰(zhàn)即將打響,普京簽下總統(tǒng)令,對中國只有一個要求

俄“反侵略”之戰(zhàn)即將打響,普京簽下總統(tǒng)令,對中國只有一個要求

阿芒娛樂說
2025-09-30 11:06:50
杭州保姆縱火案通靈實錄:通靈人與被害人交流,得知朱小貞真實死因

杭州保姆縱火案通靈實錄:通靈人與被害人交流,得知朱小貞真實死因

可兒故事匯
2024-08-29 12:50:53
洛陽考古大發(fā)現(xiàn)!沉睡1500年!規(guī)模超羅馬3倍,就在中國黃土之下

洛陽考古大發(fā)現(xiàn)!沉睡1500年!規(guī)模超羅馬3倍,就在中國黃土之下

興趣知識
2025-09-16 15:24:16
2025-10-01 10:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11434文章數(shù) 176286關注度
往期回顧 全部

科技要聞

天問二號最新影像!五星紅旗與地球同框

頭條要聞

牛彈琴:特朗普果然出手了 美國軍隊要有大變革

頭條要聞

牛彈琴:特朗普果然出手了 美國軍隊要有大變革

體育要聞

揭秘庫明加續(xù)約:勇士奢侈稅增7000萬

娛樂要聞

和張藝謀離婚后,前妻肖華現(xiàn)狀

財經(jīng)要聞

這五大消費趨勢,有望貫穿國慶長假

汽車要聞

升級端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
公開課
軍事航空

教育要聞

2025年銀齡講學計劃發(fā)布,招募7000名退休教師

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

數(shù)碼要聞

AMD下代顯卡光追和動畫性能大提升!官方詳解將硬件級支持DGF

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍將領大會召開 美防長提出10項新指令

無障礙瀏覽 進入關懷版 国产av大陆精品一区二区三区| 亚洲gv在线观看| 国产一区二区女内射| 无码av免费永久免费永久专区| 国产AV熟女内射不卡| 北条麻妃av高清无码| 成人片好好热免费在线观看av| 亚洲精品久久区二区三区蜜桃臀| 一区二区三区亚洲| 欧美激情传煤| 亚洲免费无码一区二区 | 人妻无码精品久久久久久| 国内不卡的一区二区三区| 无码久久人妻一区二区浴池| 性xxxx视频播放免费| 成熟的丰满少妇中文字幕| 丰满少妇熟女高潮流白浆| 欧美一区二区三区区成人影院欧美| 国语精品视频在线观看不卡| 日本人妻一区二区| 熟女白浆一区二区三区| 亚洲精品蜜桃| 紧 爽 喷 视频| 精品少妇一区二AV| 日日人人爽人人爽人人片AV| 丰满少妇野战| 国产精品久久久久久久免费看| 亚洲日韩精品成人无码专区AV| 精久国产av一区二区三区孕妇| 五月婷婷开心网| 久久夜色精品国产亚洲| 精品国产乱码久久久久久郑州公司| 国产精品久久久久不卡绿巨人| 中文字幕日韩AV一区| 色爱综合另类图片av| 精品国产熟女| 日本熟熟妇xxxxx精品熟妇| 在线播放你懂的| 高跟肉丝少妇A片在线| 无码人妻精品中文字幕| 99爱在线精品免费观看|