網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

清華團隊：1.5B 模型新基線！用「最笨」的 RL 配方達到頂尖性能

2025-11-13 14:56:23　來源: 機器之心Pro

天津舉報

分享至

如果有人告訴你：不用分階段做強化學習、不搞課程學習、不動態(tài)調參，只用最基礎的 RL 配方就能達到小模型數(shù)學推理能力 SOTA，你信嗎？

清華團隊用兩個 1.5B 模型給出了答案：不僅可行，還特別高效。

核心發(fā)現(xiàn)：單階段訓練 + 固定超參數(shù) = SOTA 性能 + 省一半算力
意外之喜：訓練曲線平滑得像教科書，4000 步?jīng)]遇到任何 "典型問題"
關鍵啟示：充分 scale 的簡單 baseline，可能比我們想象的強大得多

技術博客：https://relieved-cafe-fe1.notion.site/JustRL-Scaling-a-1-5B-LLM-with-a-Simple-RL-Recipe-24f6198b0b6b80e48e74f519bfdaf0a8
開源模型：https://huggingface.co/collections/hbx/justrl
評測腳本：https://github.com/thunlp/JustRL

背景：RL 訓練小模型的 "技術軍備競賽"

2025 年初，DeepSeek-R1 開源后，如何用 RL 訓練 1.5B 級別的推理模型成為了熱門研究方向。短短幾個月內(nèi)，這個領域經(jīng)歷了快速的技術演進：早期的工作嘗試超參數(shù)調優(yōu)和長度控制；隨后出現(xiàn)了多階段漸進訓練，每個階段調整數(shù)據(jù)難度和 RL 超參數(shù)；也有方法引入了課程學習，用部分解作為提示精心設計難度梯度；最激進的做法直接將 rollout 數(shù)量提升到 512 次，用算力進行暴力探索。

近期工作用到的技術對比

這些方法都取得了不錯的效果，性能在不斷刷新。動態(tài)采樣、KL 重置、自適應懲罰、長度控制…… 各種穩(wěn)定技術和優(yōu)化 trick 被逐一引入。每個新工作都在前人基礎上增加新的模塊和機制，整個訓練 pipeline 變得越來越復雜。

然而，這種復雜度的增長也帶來了困惑：這些技術真的都是必要的嗎？當不同工作組合使用不同的技術子集時，我們很難分辨哪些是解決根本問題的，哪些只是在修補其他設計選擇帶來的副作用。更重要的是，如果 baseline 本身就不穩(wěn)定，那么為了穩(wěn)定它而加入的技術，可能只是在治標而非治本。

清華團隊帶著一個樸素的想法開始了這項工作："如果我們用最基礎的配方，但訓練得足夠充分，能到什么水平？"

于是就有了JustRL—— 名字的意思是 "就這樣"。

方法：極簡到極致的訓練配方

JustRL 的設計哲學是 "減到不能再減"。研究者刻意避免了近期工作中常見的復雜技術，只保留了最基礎的組件。

訓練配方簡單到令人意外：算法使用標準的 GRPO，沒有任何魔改；訓練只有一個階段，從頭到尾連續(xù)進行；超參數(shù)完全固定，不做任何動態(tài)調整；數(shù)據(jù)來自常規(guī)的數(shù)學問題集，不進行離線難度篩選、不做數(shù)據(jù)增強、不使用 dynamic sampling。

更關鍵的是，同一套超參數(shù)在兩個完全不同的起點上都有效。第一個實驗使用 DeepSeek-R1-Distill-Qwen-1.5B 作為基座，這是一個相對較弱的起點（AIME 2024 準確率 29%）；第二個實驗使用 OpenMath-Nemotron-1.5B，這已經(jīng)是一個相當強的基座（AIME 2024 準確率 61%）。研究者沒有針對不同模型調整任何參數(shù)，在 9 個數(shù)學推理基準（AIME 2024/2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT/CMIMC/BRUMO 2025）上的全面評測顯示，JustRL 達到了 1.5B 模型的最高水平。

一個關鍵問題：會不會是用了更多算力？正好相反，我們用了更少。

從弱基座起步的 JustRL-DeepSeek-1.5B，最終在 9 項基準上平均達到 54.87%，超越了采用 9 階段訓練的 ProRL-V2（53.08%）。更值得注意的是計算效率：JustRL 使用的總 token 預算約為 1.4E+11，僅為 ProRL-V2 的一半，為 BroRL 的五分之一。在算力 - 性能的權衡上，JustRL 達到了一個新的平衡點。

從強基座起步的 JustRL-Nemotron-1.5B 表現(xiàn)更加出色，平均準確率達到 64.32%，略微超過使用課程學習的 QuestA（63.81%）。關鍵的差異在于，QuestA 需要完整的推理軌跡來構建 hint，還要分階段調整提示難度；而 JustRL只需要標準的問題與標答，不需要額外的數(shù)據(jù)工程，總 token 預算也相對較小。

整個訓練在 32 張 A800-80GB GPU 上進行，每個模型訓練約 15 天。相比一些需要多階段訓練、頻繁調參的方法，JustRL 的工程復雜度和計算開銷都顯著更低。這些結果的意義不僅在于數(shù)字本身，更在于它們揭示的一個可能性：很多時候，我們可能低估了簡單方法在充分 scale 下的潛力。

意外發(fā)現(xiàn)：4000 步訓練，異常平穩(wěn)

也許比最終性能更令人驚訝的是訓練過程本身。研究者詳細記錄了 JustRL-DeepSeek-1.5B 整個 4000 步 RL 過程中的關鍵動態(tài)指標：策略熵、平均獎勵、響應長度。

策略熵始終在 1.2-1.4 范圍內(nèi)健康震蕩，沒有出現(xiàn)向上漂移（探索崩塌）或向下崩潰（過早收斂）；平均獎勵從 - 0.6 單調上升到 +0.4，雖然有噪聲但趨勢清晰，沒有長時間的 plateau 或突然的下跌；響應長度從初始的 8000 tokens 自然壓縮到 4000-5000 tokens，并穩(wěn)定在這個范圍，這一切都是在沒有使用 overlong penalty 的情況下發(fā)生的，僅僅設置了最大 16k 的上下文長度。

JustRL-DeepSeek-1.5B 的訓練 dynamic

這與很多現(xiàn)有工作報告的訓練困難形成鮮明對比。

ProRL："我們觀察到熵崩潰和訓練不穩(wěn)定性…"
BroRL："訓練到瓶頸只能加 rollout 加大探索…"
QuestA："需要課程學習避免熵崩塌（簡單題）或者減緩學習效率（難任務）…"

而在 JustRL 的訓練中，這些問題都沒有出現(xiàn)。這給了我們一個有趣的觀察：也許在某些配置下，當 baseline 足夠簡單、訓練規(guī)模足夠充分時，一些在復雜系統(tǒng)中出現(xiàn)的穩(wěn)定性問題可能就不容易發(fā)生。

一個有趣的插曲：加 "優(yōu)化" 反而更差

訓練過程中，團隊嘗試了兩個 "按常理應該有幫助" 的修改。這兩個實驗的結果頗具啟發(fā)性。

第一個實驗是加入顯式的長度懲罰。動機很直接：不少工作證明長度懲罰有效，那么添加一個懲罰項應該能讓模型輸出更簡潔，提高訓練效率。結果卻令人意外：性能從 55% 下降到 50%。深入分析發(fā)現(xiàn)，顯式懲罰導致了熵崩塌，熵值從 1.2-1.4 降到 0.4-0.6 ，探索空間被過早壓縮。模型還沒來得及充分探索有效的解題策略，就被迫收斂到更短的響應上。

第二個實驗是換用更寬松的驗證器。邏輯同樣合理：減少假陰性（正確答案被誤判為錯誤）應該能提供更清晰的學習信號。但性能繼續(xù)下滑到 45%?？赡艿脑虬ǎ焊鼘捤傻尿炞C器雖然減少了誤判，但也降低了學習信號的細粒度 ——"幾乎正確" 和 "完全正確" 不再有明顯區(qū)分；另一種可能是，嚴格的格式要求實際上在迫使模型發(fā)展更魯棒的內(nèi)部推理，而寬松的驗證器消除了這種壓力。

兩組 ablation 效果

這說明什么？一方面，ablation 在接近 2ksteps 的尺度上才開始分道揚鑣，意味著現(xiàn)有的 RL tricks ablation 可能在小規(guī)模上（幾十 / 幾百步）得到的結論不一定適合于大規(guī)模 scaling，要驗證 tricks 的作用可能長期才能看出區(qū)別；另一方面，不是說這些技術本身不好（它們在其他工作中確實有效），而是：

技術的價值高度依賴于baseline 的特性
在一個穩(wěn)定的 baseline 上，某些 "優(yōu)化" 可能適得其反
不是所有看起來合理的東西都該加

這個工作想說什么？

不是要證明 "簡單永遠最好"

不是說： "復雜方法都沒用"
而是說： "我們可能低估了簡單方法在充分 scale 下的潛力"
不是說： "大家都做錯了"
而是說： "建立清晰的簡單 baseline，能更準確地評估復雜技術的價值"
不是說： "永遠別用復雜技術"
而是說： "先驗證簡單方法的極限在哪，再決定是否需要復雜度"

寫在最后：關于 "夠用" 的哲學

"Perfection is achieved, not when there is nothing more to add, but when there is nothing left to take away.“
— Antoine de Saint-Exupéry, Airman's Odyssey

JustRL 不是要證明 "簡單就是答案"。它想提醒的是：在不斷追求技術創(chuàng)新的同時，別忘了回頭看看 —— 最樸素的方法，在足夠的努力下，能做到什么程度。

也許在 RL 訓練小模型這個領域，我們一直在做加法：加階段、加調度、加采樣策略、加穩(wěn)定技巧。也許現(xiàn)在是時候試試奧卡姆剃刀的做法：減到不能再減，看看還剩什么。JustRL 的發(fā)現(xiàn)是：剩下的，可能已經(jīng)夠用了。

如果你正在做 RL，不妨試試：先把簡單配方訓練充分，看看它能帶你走多遠。

也許你會發(fā)現(xiàn)：夠用了。

也許你會發(fā)現(xiàn)：還不夠，但現(xiàn)在你知道差在哪了。

無論哪種，都是有價值的收獲。"如無必要，勿增實體"。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.