網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

斯坦福：優(yōu)化器「諸神之戰(zhàn)」？AdamW 憑「穩(wěn)定」勝出

2025-09-08 14:19:51　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

自 2014 年提出以來，Adam 及其改進版 AdamW 長期占據(jù)開放權(quán)重語言模型預(yù)訓練的主導地位，幫助模型在海量數(shù)據(jù)下保持穩(wěn)定并實現(xiàn)較快收斂。

隨著模型規(guī)模迅速擴大，預(yù)訓練已成為計算密集型任務(wù)的典型代表，在大模型研發(fā)中往往是最主要的計算開銷。在這種背景下，優(yōu)化器的設(shè)計直接關(guān)系到收斂速度與計算成本。

研究者們探索了多種改進方向，其中最快的優(yōu)化器往往采用矩陣型預(yù)條件子（如 Muon、Soap、Kron），相較于經(jīng)過嚴格調(diào)優(yōu)的 AdamW，可以帶來約 30–40% 的迭代級別加速。

斯坦福大學 Percy Liang 團隊的研究指出，盡管存在許多聲稱能提供顯著加速（1.4 至 2 倍）的替代方案，AdamW 依然是預(yù)訓練的穩(wěn)健首選，但矩陣型方法在特定數(shù)據(jù)–模型比例下展現(xiàn)出明顯優(yōu)勢。

論文標題：Fantastic Pretraining Optimizers and Where to Find Them
論文地址：https://www.arxiv.org/pdf/2509.02046v1
Github：https://github.com/marin-community/marin/issues/1290
博客：https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者認為，這種現(xiàn)象可能源于兩個關(guān)鍵的方法論缺陷：

問題 1：不公平的超參數(shù)調(diào)優(yōu)。

基線模型通常調(diào)優(yōu)不足：在常用的 AdamW 基線中，僅僅是調(diào)優(yōu)學習率這一個參數(shù)，就能在 1.3 億參數(shù)規(guī)模的模型上實現(xiàn) 2 倍的加速。

固定共享的超參數(shù)并不能保證比較的公平性：例如，與標準的權(quán)重衰減值 0.1 相比，Lion 優(yōu)化器更偏好較高的權(quán)重衰減值（如 0.6）。

左：常用的 AdamW 基線存在調(diào)優(yōu)不足的問題。在 Brown 等人 [2020] 提出、并被后續(xù)多項研究采用的 GPT-3 訓練方案中，僅僅針對一個 1 億參數(shù)的模型調(diào)整學習率這一個超參數(shù)，便可實現(xiàn)高達 2 倍的加速，這凸顯了進行恰當超參數(shù)優(yōu)化的重要性。右：在不同優(yōu)化器之間固定超參數(shù)并不能保證比較的公平性。在以往的研究中，像學習率和權(quán)重衰減這類共享超參數(shù)通常被設(shè)為常量。然而，即使是概念上相似的優(yōu)化器，其對應(yīng)的最優(yōu)超參數(shù)也可能大相徑庭。

問題 2：測試規(guī)模不足

大多數(shù)測試僅使用小型模型（參數(shù)遠小于 10 億）或遵循 Chinchilla 論文提出的 1 倍數(shù)據(jù)配比。那么，在更大規(guī)模的模型或更高的數(shù)據(jù)配比下，結(jié)果會如何呢？

此外，訓練早期的檢查點也可能產(chǎn)生誤導，在學習率衰減階段，不同方法的損失曲線可能會發(fā)生交叉，從而導致最終排名反轉(zhuǎn)。因此，必須在（不同的）設(shè)定下進行訓練結(jié)束時的最終評估。

左：加速效果隨模型規(guī)模的增大而衰減。盡管一些優(yōu)化器在參數(shù)量小于 10 億的模型上相比 AdamW 能展現(xiàn)出較高的加速比（1.3-1.4 倍），但當模型規(guī)模增至 12 億參數(shù)時，其加速比會衰減至僅 1.1 倍。右：基于矩陣的優(yōu)化器性能穩(wěn)定優(yōu)于基于標量的優(yōu)化器。該圖展示了三種基于標量的優(yōu)化器（AdamW, Nesterov AdamW, Mars）和三種基于矩陣的優(yōu)化器（Kron, Soap, Muon）在不同 Chinchilla 數(shù)據(jù)配比下訓練時的損失曲線?；诰仃嚨膬?yōu)化器相比基于標量的優(yōu)化器實現(xiàn)了一致的加速效果。此外，在過訓練（overtrained）的情況下，這三種基于矩陣的優(yōu)化器最終會收斂到相似的損失值。

為了驗證這一假設(shè)，研究人員進行了系統(tǒng)性的比較研究，涵蓋了十一種不同的深度學習優(yōu)化器。他們在多種模型規(guī)模（從 1 億到 12 億參數(shù)）和數(shù)據(jù)–模型比例（參照 Chinchilla 最優(yōu)比例的 1 倍至 8 倍）下，為每一種優(yōu)化器都進行了嚴謹、獨立的超參數(shù)調(diào)優(yōu)。

本研究所使用的優(yōu)化器。

研究發(fā)現(xiàn)：

獨立調(diào)優(yōu)至關(guān)重要：一個優(yōu)化器的最優(yōu)超參數(shù)配置往往無法直接遷移到另一種優(yōu)化器上。如果缺乏獨立調(diào)優(yōu)，不僅比較結(jié)果缺乏公平性，而且新優(yōu)化器相較于精心調(diào)優(yōu)過的 AdamW，實際加速效果遠低于其聲稱的數(shù)值。
短期評估具有誤導性：僅在短時間訓練窗口內(nèi)評估優(yōu)化器性能是不可靠的。隨著訓練的進行和學習率衰減，不同優(yōu)化器的性能排名可能會發(fā)生逆轉(zhuǎn)，其損失曲線甚至會多次交叉。
矩陣方法性能領(lǐng)先：所有速度最快的優(yōu)化器都采用了基于矩陣的預(yù)條件子，而非傳統(tǒng)的逐元素標量縮放。Muon、Soap 和 Kron 等方法，相比嚴格調(diào)優(yōu)后的 AdamW，能夠?qū)崿F(xiàn) 30–40% 的單步訓練速度提升。

有趣的是，最優(yōu)選擇也與具體場景相關(guān)：在標準 Chinchilla 數(shù)據(jù)比例下，Muon 表現(xiàn)最佳；而當數(shù)據(jù)量相對于模型規(guī)模的比例提升至 8 倍以上時，Soap 則成為更優(yōu)的選擇。

方法

研究設(shè)計了一套嚴謹?shù)姆椒ㄕ搧碓u估這些優(yōu)化器，該方法分為三個主要階段。首先是通用設(shè)置階段，明確了實驗環(huán)境。研究使用了四種不同規(guī)模的 Transformer 模型，參數(shù)量從 130M 到 1.2B，序列長度均為 4096，并詳細列舉了各模型層數(shù)、隱藏維度等具體配置。

所研究的各個模型規(guī)模的詳細架構(gòu)超參數(shù)。

數(shù)據(jù)方面，研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 數(shù)據(jù)集，并使用 LLaMA-3 分詞器進行分詞，確保了訓練數(shù)據(jù)的豐富性。評估的優(yōu)化器涵蓋了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia，代表了當前深度學習優(yōu)化領(lǐng)域的主流和前沿方法。

階段 I: 全面參數(shù)掃描

研究旨在解決基線優(yōu)化器超參數(shù)調(diào)整不當導致其性能被低估的問題。研究采用了坐標下降法，對所有優(yōu)化器的超參數(shù)（包括學習率、權(quán)重衰減、預(yù)熱步數(shù)、β?、β?、ε、最大梯度范數(shù)和批次大小）在預(yù)設(shè)網(wǎng)格上進行了詳盡搜索。

這一階段的實驗設(shè)置涵蓋了 130M、300M 和 500M 模型在 1 倍 Chinchilla 數(shù)據(jù)量下的訓練，以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下的訓練。

研究發(fā)現(xiàn)，對每個優(yōu)化器進行嚴格的超參數(shù)調(diào)整至關(guān)重要，因為不同優(yōu)化器之間的最優(yōu)超參數(shù)配置差異顯著，盲目遷移超參數(shù)會導致不公平的比較。

此外，研究也觀察到，與經(jīng)過精心調(diào)整的基線 AdamW 相比，實際的加速效果普遍低于此前一些研究所聲稱的水平。

階段 II: 敏感超參數(shù)識別

研究根據(jù)第一階段的結(jié)果，識別出那些最優(yōu)值會隨模型規(guī)模變化的敏感超參數(shù)，例如學習率和預(yù)熱長度。隨后，這些敏感超參數(shù)在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下進行了進一步的網(wǎng)格搜索。

第一階段與第二階段的主要結(jié)果。上圖：我們繪制了第一階段和第二階段實驗中，模型在 C4/EN 數(shù)據(jù)集上的驗證集損失。圖中的每一個點都對應(yīng)于每種優(yōu)化器在相應(yīng)的 Chinchilla 數(shù)據(jù)配比下所能達到的最優(yōu)損失值。下圖：我們針對部分優(yōu)化器，繪制了它們在 HellaSwag 基準上的性能。這些優(yōu)化器包括：AdamW 基線、性能排名前 2 的基于標量的優(yōu)化器，以及性能排名前 3 的基于矩陣的優(yōu)化器。性能數(shù)據(jù)來自于它們各自最優(yōu)的運行批次。

通過結(jié)合前兩個階段的結(jié)果，研究獲得了 12 種不同設(shè)置下的近乎最優(yōu)超參數(shù)集及其對應(yīng)的損失。為了量化不同優(yōu)化器相對于 AdamW 的加速效果，研究擬合了 AdamW 損失隨數(shù)據(jù)預(yù)算變化的縮放定律，并以此計算出達到相同損失所需的 AdamW 數(shù)據(jù)量與優(yōu)化器實際所需數(shù)據(jù)量之比，作為加速比。

研究發(fā)現(xiàn)，基于矩陣的優(yōu)化器雖然表現(xiàn)普遍優(yōu)于基于標量的優(yōu)化器，但其加速比在實際測試中均未超過 1.4 倍。許多替代優(yōu)化器在小規(guī)模模型或有限數(shù)據(jù)比例下看似具有優(yōu)勢，但隨著模型規(guī)模擴大，這些加速優(yōu)勢逐漸消失甚至反轉(zhuǎn)，AdamW 依然是最穩(wěn)健的預(yù)訓練首選。

階段 III: 案例研究

該階段旨在對更大規(guī)模的實驗進行深入探索。研究首先檢驗了超參數(shù)的擬合程度，通過擬合形式為的平滑定律，預(yù)測了在模型規(guī)模 N 和數(shù)據(jù)規(guī)模 D 下的最優(yōu)設(shè)置。

為了驗證這些縮放定律，研究對 1.2B 模型在 1 倍 Chinchilla 數(shù)據(jù)量下進行了全面掃描，結(jié)果顯示預(yù)測的配置與實際最優(yōu)配置之間的性能差異極小，證明了預(yù)測的有效性。

隨后，研究進行了兩項案例研究：一是訓練 1.2B 模型在 1 至 8 倍 Chinchilla 數(shù)據(jù)量下，以檢驗優(yōu)化器加速效果隨模型規(guī)模擴展的變化；二是在 16 倍 Chinchilla 數(shù)據(jù)量下訓練 130M 和 300M 模型，以觀察在極端數(shù)據(jù)量與模型比例下的優(yōu)化器表現(xiàn)。

案例分析。左圖：在 12 億參數(shù)模型上，AdamW、NAdamW、Muon 和 Soap 四種優(yōu)化器的驗證集損失縮放情況。結(jié)果顯示，Muon 和 Soap 相比 AdamW 仍有顯著的加速效果，但相比 NAdamW 已無明顯加速優(yōu)勢。中圖：采用與圖 3 相同的方法估算加速比。我們觀察到，Muon 和 Soap 的加速比隨模型規(guī)模增大而衰減，最終降至僅 1.1 倍。右圖：在 3 億參數(shù)模型和 16 倍 Chinchilla 數(shù)據(jù)配比的設(shè)定下，實驗結(jié)果表明，當數(shù)據(jù)與模型的比例進一步增大時，Soap 的性能優(yōu)于 Muon。

這一階段的結(jié)果進一步揭示了 Muon 優(yōu)化器的潛在局限性：盡管 Muon 對高達 1.2B 參數(shù)的模型仍有加速效果，但加速比會下降到 1.2 倍以下。在高數(shù)據(jù)與模型比例（如 16 倍 Chinchilla）下，NAdamW 和 Soap 在 130M 模型上超越了 Muon，且 Soap 在 300M 模型上也超過了 Muon。研究推測，在數(shù)據(jù)與模型比例很高時，Soap 和 Kron 所維持的二階動量變得更為有效。

更多細節(jié)請閱讀原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.