明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
結合RLHF+RLVR,8B小模型就能超越GPT-4o、媲美Claude-3.7-Sonnet。
陳丹琦新作來了。
他們提出了一個結合RLHF和RLVR優(yōu)點的方法,RLMT(Reinforcement Learning with Model-rewarded Thinking,基于模型獎勵思維的強化學習)
它要求模型在回答之前生成CoT,然后使用人類偏好訓練的獎勵模型來評價輸出。
支持在基礎模型上直接使用,甚至不需要SFT,可以大幅節(jié)省后訓練成本
網(wǎng)友覺得,這種方法為通用強化學習設定了一個新基線:誰制定了偏好的定義,誰就是后訓練時代的“新得分手”。
讓小模型輕松超越大模型
RLVR(通過可驗證獎勵的強化學習)能夠在數(shù)學、代碼等任務中大幅提升模型的推理能力,但是在更開放的任務(比如寫大綱、制定飲食計劃)上的泛化能力有限,這些任務是人類日常推理的常見場景。
本文提出的RLMT就是證明,RLVR范式在可驗證領域之外同樣有效
它要求模型在生成回答之前輸出長思維鏈(CoT),并利用基于人類偏好的獎勵模型(與RLHF中相同)進行在線強化學習。
比如對于非數(shù)學代碼問題,它依舊可以分步驟拆解:回顧→綜合→關鍵主題→核心準則→舉例→結構化回答。
比如在Wildbench(一個基于真實任務建立的基準)上,優(yōu)化后的Qwen2.5-7B大幅領先其他模型。
它的訓練流程如下:
給定一個用戶提示x,模型先生成一個推理軌跡z,在推理基礎上生成最終回答y,獎勵模型r(x,y)對結果進行打分。
數(shù)學上,RLMT優(yōu)化的目標是:
然后使用人類偏好獎勵模型(論文中用的是Skywork-v2),對生成的回答在流暢性、相關性、邏輯性、創(chuàng)意等維度給出分數(shù)。
在優(yōu)化算法方面,RLMT使用在線強化學習算法來更新模型參數(shù),主要實驗了DPO、PPO、GRPO,結果表明GRPO效果最好。但即使使用DPO/PPO,RLMT也始終優(yōu)于RLHF。
訓練數(shù)據(jù)來自于真實用戶對話,避免像RLVR那樣過度偏向數(shù)學/代碼。
訓練方式有兩種:
- Warm-start(帶SFT預熱):先使用少量SFT數(shù)據(jù)教會模型CoT格式,再用RLMT優(yōu)化;
- Zero(無SFT直接訓練):在基礎模型上直接加入固定前綴提示,讓它學會“思考+回答”結構,通過RLMT強化最終也能超過instruct模型表現(xiàn)。
最終通過RLMT,模型在推理風格上更像人類思考:它自然學會了分組、約束分析、跨部分聯(lián)系、迭代修正等,從而帶來更高質量的對話和寫作效果。
研究團隊主要測試了Llama3.1-8B和Qwen2.5-7B兩個模型的表現(xiàn)效果。
結果顯示小模型經(jīng)過RLMT訓練可超越大模型,大幅簡化后訓練成本。
陳丹琦團隊出品
本項研究一共三位作者:陳丹琦、Adithya Bhaskar、葉曦。
陳丹琦,普林斯頓大學計算機副教授,普林斯頓NLP小組負責人。最近加盟了Thinking Machines Lab。
她本科就讀于清華大學“姚班”,2018年在斯坦福大學獲得計算機科學博士學位,導師為Christopher Manning。曾獲得諾獎風向標之稱的斯隆獎。
她的研究方向主要是自然語言理解、知識表示與推理、問答系統(tǒng)、信息抽取、對話代理等。
研究一作為Adithya Bhaskar和葉曦。
Adithya Bhaskar現(xiàn)在是普林斯頓大學博三學生,師從陳丹琦。
葉曦是普林斯頓語言與智能研究所博士后。
本科畢業(yè)于清華大學,在奧斯汀大學獲得博士學位。主要研究方向是NLP,重點在提高大語言模型的可解釋性和推理能力。
論文地址:
https://arxiv.org/abs/2509.20357
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.