夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華團隊:1.5B 模型新基線!用「最笨」的 RL 配方達到頂尖性能

0
分享至



如果有人告訴你:不用分階段做強化學習、不搞課程學習、不動態(tài)調參,只用最基礎的 RL 配方就能達到小模型數(shù)學推理能力 SOTA,你信嗎?

清華團隊用兩個 1.5B 模型給出了答案:不僅可行,還特別高效。

  • 核心發(fā)現(xiàn): 單階段訓練 + 固定超參數(shù) = SOTA 性能 + 省一半算力
  • 意外之喜: 訓練曲線平滑得像教科書,4000 步?jīng)]遇到任何 "典型問題"
  • 關鍵啟示: 充分 scale 的簡單 baseline,可能比我們想象的強大得多





  • 技術博客:https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
  • 開源模型:https://huggingface.co/collections/hbx/justrl
  • 評測腳本:https://github.com/thunlp/JustRL

背景:RL 訓練小模型的 "技術軍備競賽"

2025 年初,DeepSeek-R1 開源后,如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向。短短幾個月內(nèi),這個領域經(jīng)歷了快速的技術演進:早期的工作嘗試超參數(shù)調優(yōu)和長度控制;隨后出現(xiàn)了多階段漸進訓練,每個階段調整數(shù)據(jù)難度和 RL 超參數(shù);也有方法引入了課程學習,用部分解作為提示精心設計難度梯度;最激進的做法直接將 rollout 數(shù)量提升到 512 次,用算力進行暴力探索。



近期工作用到的技術對比

這些方法都取得了不錯的效果,性能在不斷刷新。 動態(tài)采樣、KL 重置、自適應懲罰、長度控制…… 各種穩(wěn)定技術和優(yōu)化 trick 被逐一引入。每個新工作都在前人基礎上增加新的模塊和機制,整個訓練 pipeline 變得越來越復雜。

然而,這種復雜度的增長也帶來了困惑:這些技術真的都是必要的嗎?當不同工作組合使用不同的技術子集時,我們很難分辨哪些是解決根本問題的,哪些只是在修補其他設計選擇帶來的副作用。更重要的是,如果 baseline 本身就不穩(wěn)定,那么為了穩(wěn)定它而加入的技術,可能只是在治標而非治本。

清華團隊帶著一個樸素的想法開始了這項工作:"如果我們用最基礎的配方,但訓練得足夠充分,能到什么水平?"

于是就有了JustRL—— 名字的意思是 "就這樣"。

方法:極簡到極致的訓練配方

JustRL 的設計哲學是 "減到不能再減"。研究者刻意避免了近期工作中常見的復雜技術,只保留了最基礎的組件。

訓練配方簡單到令人意外: 算法使用標準的 GRPO,沒有任何魔改;訓練只有一個階段,從頭到尾連續(xù)進行;超參數(shù)完全固定,不做任何動態(tài)調整;數(shù)據(jù)來自常規(guī)的數(shù)學問題集,不進行離線難度篩選、不做數(shù)據(jù)增強、不使用 dynamic sampling。

更關鍵的是,同一套超參數(shù)在兩個完全不同的起點上都有效。 第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座,這是一個相對較弱的起點(AIME 2024 準確率 29%);第二個實驗使用 OpenMath-Nemotron-1.5B,這已經(jīng)是一個相當強的基座(AIME 2024 準確率 61%)。研究者沒有針對不同模型調整任何參數(shù),在 9 個數(shù)學推理基準(AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025)上的全面評測顯示,JustRL 達到了 1.5B 模型的最高水平。



一個關鍵問題:會不會是用了更多算力?正好相反,我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B,最終在 9 項基準上平均達到 54.87%,超越了采用 9 階段訓練的 ProRL-V2(53.08%)。更值得注意的是計算效率:JustRL 使用的總 token 預算約為 1.4E+11,僅為 ProRL-V2 的一半,為 BroRL 的五分之一。在算力 - 性能的權衡上,JustRL 達到了一個新的平衡點。

從強基座起步的 JustRL-Nemotron-1.5B 表現(xiàn)更加出色,平均準確率達到 64.32%,略微超過使用課程學習的 QuestA(63.81%)。關鍵的差異在于,QuestA 需要完整的推理軌跡來構建 hint,還要分階段調整提示難度;而 JustRL只需要標準的問題與標答,不需要額外的數(shù)據(jù)工程,總 token 預算也相對較小。

整個訓練在 32 張 A800-80GB GPU 上進行,每個模型訓練約 15 天。相比一些需要多階段訓練、頻繁調參的方法,JustRL 的工程復雜度和計算開銷都顯著更低。這些結果的意義不僅在于數(shù)字本身,更在于它們揭示的一個可能性:很多時候,我們可能低估了簡單方法在充分 scale 下的潛力。

意外發(fā)現(xiàn):4000 步訓練,異常平穩(wěn)

也許比最終性能更令人驚訝的是訓練過程本身。研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態(tài)指標:策略熵、平均獎勵、響應長度。

策略熵始終在 1.2-1.4 范圍內(nèi)健康震蕩,沒有出現(xiàn)向上漂移(探索崩塌)或向下崩潰(過早收斂);平均獎勵從 - 0.6 單調上升到 +0.4,雖然有噪聲但趨勢清晰,沒有長時間的 plateau 或突然的下跌;響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens,并穩(wěn)定在這個范圍,這一切都是在沒有使用 overlong penalty 的情況下發(fā)生的,僅僅設置了最大 16k 的上下文長度。



JustRL-DeepSeek-1.5B 的訓練 dynamic

這與很多現(xiàn)有工作報告的訓練困難形成鮮明對比。

  • ProRL:"我們觀察到熵崩潰和訓練不穩(wěn)定性…"
  • BroRL:"訓練到瓶頸只能加 rollout 加大探索…"
  • QuestA:"需要課程學習避免熵崩塌(簡單題)或者減緩學習效率(難任務)…"

而在 JustRL 的訓練中,這些問題都沒有出現(xiàn)。這給了我們一個有趣的觀察:也許在某些配置下,當 baseline 足夠簡單、訓練規(guī)模足夠充分時,一些在復雜系統(tǒng)中出現(xiàn)的穩(wěn)定性問題可能就不容易發(fā)生。

一個有趣的插曲:加 "優(yōu)化" 反而更差

訓練過程中,團隊嘗試了兩個 "按常理應該有幫助" 的修改。這兩個實驗的結果頗具啟發(fā)性。

第一個實驗是加入顯式的長度懲罰。 動機很直接:不少工作證明長度懲罰有效,那么添加一個懲罰項應該能讓模型輸出更簡潔,提高訓練效率。結果卻令人意外:性能從 55% 下降到 50%。深入分析發(fā)現(xiàn),顯式懲罰導致了熵崩塌,熵值從 1.2-1.4 降到 0.4-0.6 ,探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略,就被迫收斂到更短的響應上。

第二個實驗是換用更寬松的驗證器。 邏輯同樣合理:減少假陰性(正確答案被誤判為錯誤)應該能提供更清晰的學習信號。但性能繼續(xù)下滑到 45%??赡艿脑虬ǎ焊鼘捤傻尿炞C器雖然減少了誤判,但也降低了學習信號的細粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區(qū)分;另一種可能是,嚴格的格式要求實際上在迫使模型發(fā)展更魯棒的內(nèi)部推理,而寬松的驗證器消除了這種壓力。



兩組 ablation 效果

這說明什么?一方面,ablation 在接近 2ksteps 的尺度上才開始分道揚鑣,意味著現(xiàn)有的 RL tricks ablation 可能在小規(guī)模上(幾十 / 幾百步)得到的結論不一定適合于大規(guī)模 scaling,要驗證 tricks 的作用可能長期才能看出區(qū)別;另一方面,不是說這些技術本身不好(它們在其他工作中確實有效),而是:

  • 技術的價值高度依賴于baseline 的特性
  • 在一個穩(wěn)定的 baseline 上,某些 "優(yōu)化" 可能適得其反
  • 不是所有看起來合理的東西都該加

這個工作想說什么?

不是要證明 "簡單永遠最好"

  • 不是說: "復雜方法都沒用"
  • 而是說: "我們可能低估了簡單方法在充分 scale 下的潛力"
  • 不是說: "大家都做錯了"
  • 而是說: "建立清晰的簡單 baseline,能更準確地評估復雜技術的價值"
  • 不是說: "永遠別用復雜技術"
  • 而是說: "先驗證簡單方法的極限在哪,再決定是否需要復雜度"

寫在最后:關于 "夠用" 的哲學

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是:在不斷追求技術創(chuàng)新的同時,別忘了回頭看看 —— 最樸素的方法,在足夠的努力下,能做到什么程度。

也許在 RL 訓練小模型這個領域,我們一直在做加法:加階段、加調度、加采樣策略、加穩(wěn)定技巧。也許現(xiàn)在是時候試試奧卡姆剃刀的做法:減到不能再減,看看還剩什么。JustRL 的發(fā)現(xiàn)是:剩下的,可能已經(jīng)夠用了。

如果你正在做 RL,不妨試試:先把簡單配方訓練充分,看看它能帶你走多遠。

也許你會發(fā)現(xiàn):夠用了。

也許你會發(fā)現(xiàn):還不夠,但現(xiàn)在你知道差在哪了。

無論哪種,都是有價值的收獲。"如無必要,勿增實體"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“3女帶4孩續(xù)面”案將于下月開庭,面館老板稱“不接受調解,需當事人還原真相”,顧客馬女士回應

“3女帶4孩續(xù)面”案將于下月開庭,面館老板稱“不接受調解,需當事人還原真相”,顧客馬女士回應

極目新聞
2025-11-13 10:20:58
多地政府主要領導調整!原市長升任市委書記后,他接任

多地政府主要領導調整!原市長升任市委書記后,他接任

魯中晨報
2025-11-13 10:31:07
狗咬人被摔死,狗主人上門理論被反殺

狗咬人被摔死,狗主人上門理論被反殺

中國新聞周刊
2025-11-13 12:44:20
副院長與曾主任合照被挖出,網(wǎng)友:果然有緣

副院長與曾主任合照被挖出,網(wǎng)友:果然有緣

深度報
2025-11-11 21:42:52
20人全部遇難,埃爾多安:墜毀的軍用運輸機黑匣子已找到,正開展檢查工作

20人全部遇難,埃爾多安:墜毀的軍用運輸機黑匣子已找到,正開展檢查工作

環(huán)球網(wǎng)資訊
2025-11-13 15:14:35
張家港發(fā)布情況通報

張家港發(fā)布情況通報

新京報
2025-11-13 15:52:22
川普逼宮BBC:10億美元律師函震碎英國左翼神話

川普逼宮BBC:10億美元律師函震碎英國左翼神話

斌聞天下
2025-11-13 07:35:03
我家狗比你家人值錢:狗咬人被摔死,狗主人帶9人破門而入遭反殺

我家狗比你家人值錢:狗咬人被摔死,狗主人帶9人破門而入遭反殺

漢史趣聞
2025-11-13 09:00:16
瘋狂至極!日本自民黨發(fā)聲:中國不解決薛劍問題將面臨嚴厲措施!

瘋狂至極!日本自民黨發(fā)聲:中國不解決薛劍問題將面臨嚴厲措施!

時時有聊
2025-11-13 07:45:08
河北省廊坊市人大常委會黨組書記、主任張海川被查

河北省廊坊市人大常委會黨組書記、主任張海川被查

新京報
2025-11-13 17:15:03
知名女星涉嫌超速駕駛致人受傷!此前確診精神疾病

知名女星涉嫌超速駕駛致人受傷!此前確診精神疾病

極目新聞
2025-11-13 15:15:31
ESPN:上海海港已得知奧斯卡心臟問題,愿意為其提供治療幫助

ESPN:上海海港已得知奧斯卡心臟問題,愿意為其提供治療幫助

懂球帝
2025-11-13 11:12:07
持續(xù)發(fā)酵!毆打93歲母親的逆子個人信息曝光,全網(wǎng)要求嚴懲

持續(xù)發(fā)酵!毆打93歲母親的逆子個人信息曝光,全網(wǎng)要求嚴懲

鋭娛之樂
2025-11-12 14:12:43
證監(jiān)會剛剛發(fā)布重磅新規(guī)!A股休市制度有變,1.26億散戶注意

證監(jiān)會剛剛發(fā)布重磅新規(guī)!A股休市制度有變,1.26億散戶注意

慧眼看世界哈哈
2025-11-13 06:21:45
廣東省傳記文學學會副秘書長林峰突發(fā)疾病逝世,年僅41歲

廣東省傳記文學學會副秘書長林峰突發(fā)疾病逝世,年僅41歲

澎湃新聞
2025-11-13 14:24:26
“狗咬人引發(fā)命案”:死者妹妹說:我們才是受害者,網(wǎng)友不分黑白

“狗咬人引發(fā)命案”:死者妹妹說:我們才是受害者,網(wǎng)友不分黑白

漢史趣聞
2025-11-13 10:10:57
馬云全面高調殺回來了

馬云全面高調殺回來了

華爾街見聞官方
2025-11-12 21:19:17
正式公布!再見了,徐杰!中國男籃19人大名單

正式公布!再見了,徐杰!中國男籃19人大名單

籃球實戰(zhàn)寶典
2025-11-13 00:05:58
高市話音剛落,解放軍艦隊起航,萬噸艦帶隊,橫穿日本土警告?

高市話音剛落,解放軍艦隊起航,萬噸艦帶隊,橫穿日本土警告?

時時有聊
2025-11-13 07:14:45
鬧大了:退貂女子全網(wǎng)社死,商家再放猛招:不計成本,追究到底

鬧大了:退貂女子全網(wǎng)社死,商家再放猛招:不計成本,追究到底

詩意世界
2025-11-12 18:03:04
2025-11-13 17:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11709文章數(shù) 142505關注度
往期回顧 全部

科技要聞

深夜重磅!GPT-5.1發(fā)布,奧特曼大談情商

頭條要聞

狗咬人被摔死狗主人上門理論被反殺 被告人家屬發(fā)聲

頭條要聞

狗咬人被摔死狗主人上門理論被反殺 被告人家屬發(fā)聲

體育要聞

保羅,看看你對馬刺干的好事!

娛樂要聞

王鶴棣孟子義真要搭?

財經(jīng)要聞

源峰25億賭局!漢堡王中國"賣身"求生

汽車要聞

具備高階輔助駕駛功能 歐拉5預售價10.98萬起

態(tài)度原創(chuàng)

藝術
教育
時尚
數(shù)碼
家居

藝術要聞

黃君璧:仿古山水冊

教育要聞

銀川科技學院就業(yè)深造怎么樣?高就業(yè)率+百余所海外名校,穩(wěn)了!

今年最好看的4件大衣!

數(shù)碼要聞

1 塊 SSD + 1 塊 HDD:OWC 推出雷電 5 存儲擴展塢 StudioStack

家居要聞

莫奈時間 重構先鋒概念

無障礙瀏覽 進入關懷版 亚洲欧洲精品日韩av| 国产第19页精品| 一级丰满老熟女免费| 人人操人人干网| 亚洲伊人久久大香线蕉综合图片| 狠狠综合久久av一区二| 宾馆拿下的老熟妇| 午夜不卡欧美AAAAAA在线观看| 久热这里只有精品6| 男女免费观看在线爽爽爽视频| 无码国产精品| 无码丰满熟妇| 欧美一区二区三区性jav| 黑人无码av| 亚洲一级特黄大片一级特黄| 大学生被无套内射精子视频| 欧美国产成人性色一区二区三区| 亚洲国产日韩视频观看| 玩朋友的丰满人妻| 欧美成人精品一区| 人人妻人人做人人爽夜欢视频 | 国产伦精品一二三区| 日本在线a一区视频高清视频| 久久综合久久综合久久| 国色天香精品一卡2卡3卡| 国产超碰无码最新上传| 乱人伦人妻中文字幕| 丰满爆乳在线播放| 国产精品中文字幕av| 可以在线观看的AV| 亚洲无码极品在线播放| 亚洲午夜av一区二区| 少妇精品无码一区二区三区卖人 | 无码一区二区三区AV免费| 天天色 色综合| 久久精品又黑又粗| 国产极品美女到高潮| 一区二区三区加勒比AV| 99热精品站长工具| 麻豆天美国产一区在线播放| 丁香五月麻豆|