機器之心報道
機器之心編輯部
自 2014 年提出以來,Adam 及其改進版 AdamW 長期占據(jù)開放權(quán)重語言模型預(yù)訓練的主導地位,幫助模型在海量數(shù)據(jù)下保持穩(wěn)定并實現(xiàn)較快收斂。
隨著模型規(guī)模迅速擴大,預(yù)訓練已成為計算密集型任務(wù)的典型代表,在大模型研發(fā)中往往是最主要的計算開銷。在這種背景下,優(yōu)化器的設(shè)計直接關(guān)系到收斂速度與計算成本。
研究者們探索了多種改進方向,其中最快的優(yōu)化器往往采用矩陣型預(yù)條件子(如 Muon、Soap、Kron),相較于經(jīng)過嚴格調(diào)優(yōu)的 AdamW,可以帶來約 30–40% 的迭代級別加速。
斯坦福大學 Percy Liang 團隊的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預(yù)訓練的穩(wěn)健首選,但矩陣型方法在特定數(shù)據(jù)–模型比例下展現(xiàn)出明顯優(yōu)勢。
- 論文標題:Fantastic Pretraining Optimizers and Where to Find Them
- 論文地址:https://www.arxiv.org/pdf/2509.02046v1
- Github:https://github.com/marin-community/marin/issues/1290
- 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ
研究者認為,這種現(xiàn)象可能源于兩個關(guān)鍵的方法論缺陷:
- 問題 1:不公平的超參數(shù)調(diào)優(yōu)。
基線模型通常調(diào)優(yōu)不足:在常用的 AdamW 基線中,僅僅是調(diào)優(yōu)學習率這一個參數(shù),就能在 1.3 億參數(shù)規(guī)模的模型上實現(xiàn) 2 倍的加速。
固定共享的超參數(shù)并不能保證比較的公平性:例如,與標準的權(quán)重衰減值 0.1 相比,Lion 優(yōu)化器更偏好較高的權(quán)重衰減值(如 0.6)。
左:常用的 AdamW 基線存在調(diào)優(yōu)不足的問題。 在 Brown 等人 [2020] 提出、并被后續(xù)多項研究采用的 GPT-3 訓練方案中,僅僅針對一個 1 億參數(shù)的模型調(diào)整學習率這一個超參數(shù),便可實現(xiàn)高達 2 倍的加速,這凸顯了進行恰當超參數(shù)優(yōu)化的重要性。右:在不同優(yōu)化器之間固定超參數(shù)并不能保證比較的公平性。 在以往的研究中,像學習率和權(quán)重衰減這類共享超參數(shù)通常被設(shè)為常量。然而,即使是概念上相似的優(yōu)化器,其對應(yīng)的最優(yōu)超參數(shù)也可能大相徑庭。
- 問題 2:測試規(guī)模不足
大多數(shù)測試僅使用小型模型(參數(shù)遠小于 10 億)或遵循 Chinchilla 論文提出的 1 倍數(shù)據(jù)配比。那么,在更大規(guī)模的模型或更高的數(shù)據(jù)配比下,結(jié)果會如何呢?
此外,訓練早期的檢查點也可能產(chǎn)生誤導,在學習率衰減階段,不同方法的損失曲線可能會發(fā)生交叉,從而導致最終排名反轉(zhuǎn)。因此,必須在(不同的)設(shè)定下進行訓練結(jié)束時的最終評估。
左:加速效果隨模型規(guī)模的增大而衰減。 盡管一些優(yōu)化器在參數(shù)量小于 10 億的模型上相比 AdamW 能展現(xiàn)出較高的加速比(1.3-1.4 倍),但當模型規(guī)模增至 12 億參數(shù)時,其加速比會衰減至僅 1.1 倍。右:基于矩陣的優(yōu)化器性能穩(wěn)定優(yōu)于基于標量的優(yōu)化器。 該圖展示了三種基于標量的優(yōu)化器(AdamW, Nesterov AdamW, Mars)和三種基于矩陣的優(yōu)化器(Kron, Soap, Muon)在不同 Chinchilla 數(shù)據(jù)配比下訓練時的損失曲線?;诰仃嚨膬?yōu)化器相比基于標量的優(yōu)化器實現(xiàn)了一致的加速效果。此外,在過訓練(overtrained)的情況下,這三種基于矩陣的優(yōu)化器最終會收斂到相似的損失值。
為了驗證這一假設(shè),研究人員進行了系統(tǒng)性的比較研究,涵蓋了十一種不同的深度學習優(yōu)化器。他們在多種模型規(guī)模(從 1 億到 12 億參數(shù))和數(shù)據(jù)–模型比例(參照 Chinchilla 最優(yōu)比例的 1 倍至 8 倍)下,為每一種優(yōu)化器都進行了嚴謹、獨立的超參數(shù)調(diào)優(yōu)。
本研究所使用的優(yōu)化器。
研究發(fā)現(xiàn):
- 獨立調(diào)優(yōu)至關(guān)重要:一個優(yōu)化器的最優(yōu)超參數(shù)配置往往無法直接遷移到另一種優(yōu)化器上。如果缺乏獨立調(diào)優(yōu),不僅比較結(jié)果缺乏公平性,而且新優(yōu)化器相較于精心調(diào)優(yōu)過的 AdamW,實際加速效果遠低于其聲稱的數(shù)值。
- 短期評估具有誤導性:僅在短時間訓練窗口內(nèi)評估優(yōu)化器性能是不可靠的。隨著訓練的進行和學習率衰減,不同優(yōu)化器的性能排名可能會發(fā)生逆轉(zhuǎn),其損失曲線甚至會多次交叉。
- 矩陣方法性能領(lǐng)先:所有速度最快的優(yōu)化器都采用了基于矩陣的預(yù)條件子,而非傳統(tǒng)的逐元素標量縮放。Muon、Soap 和 Kron 等方法,相比嚴格調(diào)優(yōu)后的 AdamW,能夠?qū)崿F(xiàn) 30–40% 的單步訓練速度提升。
有趣的是,最優(yōu)選擇也與具體場景相關(guān):在標準 Chinchilla 數(shù)據(jù)比例下,Muon 表現(xiàn)最佳;而當數(shù)據(jù)量相對于模型規(guī)模的比例提升至 8 倍以上時,Soap 則成為更優(yōu)的選擇。
方法
研究設(shè)計了一套嚴謹?shù)姆椒ㄕ搧碓u估這些優(yōu)化器,該方法分為三個主要階段。首先是通用設(shè)置階段,明確了實驗環(huán)境。研究使用了四種不同規(guī)模的 Transformer 模型,參數(shù)量從 130M 到 1.2B,序列長度均為 4096,并詳細列舉了各模型層數(shù)、隱藏維度等具體配置。
所研究的各個模型規(guī)模的詳細架構(gòu)超參數(shù)。
數(shù)據(jù)方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 數(shù)據(jù)集,并使用 LLaMA-3 分詞器進行分詞,確保了訓練數(shù)據(jù)的豐富性。評估的優(yōu)化器涵蓋了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了當前深度學習優(yōu)化領(lǐng)域的主流和前沿方法。
階段 I: 全面參數(shù)掃描
研究旨在解決基線優(yōu)化器超參數(shù)調(diào)整不當導致其性能被低估的問題。研究采用了坐標下降法,對所有優(yōu)化器的超參數(shù)(包括學習率、權(quán)重衰減、預(yù)熱步數(shù)、β?、β?、ε、最大梯度范數(shù)和批次大小)在預(yù)設(shè)網(wǎng)格上進行了詳盡搜索。
這一階段的實驗設(shè)置涵蓋了 130M、300M 和 500M 模型在 1 倍 Chinchilla 數(shù)據(jù)量下的訓練,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下的訓練。
研究發(fā)現(xiàn),對每個優(yōu)化器進行嚴格的超參數(shù)調(diào)整至關(guān)重要,因為不同優(yōu)化器之間的最優(yōu)超參數(shù)配置差異顯著,盲目遷移超參數(shù)會導致不公平的比較。
此外,研究也觀察到,與經(jīng)過精心調(diào)整的基線 AdamW 相比,實際的加速效果普遍低于此前一些研究所聲稱的水平。
階段 II: 敏感超參數(shù)識別
研究根據(jù)第一階段的結(jié)果,識別出那些最優(yōu)值會隨模型規(guī)模變化的敏感超參數(shù),例如學習率和預(yù)熱長度。隨后,這些敏感超參數(shù)在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下進行了進一步的網(wǎng)格搜索。
第一階段與第二階段的主要結(jié)果。上圖: 我們繪制了第一階段和第二階段實驗中,模型在 C4/EN 數(shù)據(jù)集上的驗證集損失。圖中的每一個點都對應(yīng)于每種優(yōu)化器在相應(yīng)的 Chinchilla 數(shù)據(jù)配比下所能達到的最優(yōu)損失值。下圖: 我們針對部分優(yōu)化器,繪制了它們在 HellaSwag 基準上的性能。這些優(yōu)化器包括:AdamW 基線、性能排名前 2 的基于標量的優(yōu)化器,以及性能排名前 3 的基于矩陣的優(yōu)化器。性能數(shù)據(jù)來自于它們各自最優(yōu)的運行批次。
通過結(jié)合前兩個階段的結(jié)果,研究獲得了 12 種不同設(shè)置下的近乎最優(yōu)超參數(shù)集及其對應(yīng)的損失。為了量化不同優(yōu)化器相對于 AdamW 的加速效果,研究擬合了 AdamW 損失隨數(shù)據(jù)預(yù)算變化的縮放定律,并以此計算出達到相同損失所需的 AdamW 數(shù)據(jù)量與優(yōu)化器實際所需數(shù)據(jù)量之比,作為加速比。
研究發(fā)現(xiàn),基于矩陣的優(yōu)化器雖然表現(xiàn)普遍優(yōu)于基于標量的優(yōu)化器,但其加速比在實際測試中均未超過 1.4 倍。許多替代優(yōu)化器在小規(guī)模模型或有限數(shù)據(jù)比例下看似具有優(yōu)勢,但隨著模型規(guī)模擴大,這些加速優(yōu)勢逐漸消失甚至反轉(zhuǎn),AdamW 依然是最穩(wěn)健的預(yù)訓練首選。
階段 III: 案例研究
該階段旨在對更大規(guī)模的實驗進行深入探索。研究首先檢驗了超參數(shù)的擬合程度,通過擬合形式為 的平滑定律,預(yù)測了在模型規(guī)模 N 和數(shù)據(jù)規(guī)模 D 下的最優(yōu)設(shè)置。
為了驗證這些縮放定律,研究對 1.2B 模型在 1 倍 Chinchilla 數(shù)據(jù)量下進行了全面掃描,結(jié)果顯示預(yù)測的配置與實際最優(yōu)配置之間的性能差異極小,證明了預(yù)測的有效性。
隨后,研究進行了兩項案例研究:一是訓練 1.2B 模型在 1 至 8 倍 Chinchilla 數(shù)據(jù)量下,以檢驗優(yōu)化器加速效果隨模型規(guī)模擴展的變化;二是在 16 倍 Chinchilla 數(shù)據(jù)量下訓練 130M 和 300M 模型,以觀察在極端數(shù)據(jù)量與模型比例下的優(yōu)化器表現(xiàn)。
案例分析。左圖: 在 12 億參數(shù)模型上,AdamW、NAdamW、Muon 和 Soap 四種優(yōu)化器的驗證集損失縮放情況。結(jié)果顯示,Muon 和 Soap 相比 AdamW 仍有顯著的加速效果,但相比 NAdamW 已無明顯加速優(yōu)勢。中圖: 采用與圖 3 相同的方法估算加速比。我們觀察到,Muon 和 Soap 的加速比隨模型規(guī)模增大而衰減,最終降至僅 1.1 倍。右圖: 在 3 億參數(shù)模型和 16 倍 Chinchilla 數(shù)據(jù)配比的設(shè)定下,實驗結(jié)果表明,當數(shù)據(jù)與模型的比例進一步增大時,Soap 的性能優(yōu)于 Muon。
這一階段的結(jié)果進一步揭示了 Muon 優(yōu)化器的潛在局限性:盡管 Muon 對高達 1.2B 參數(shù)的模型仍有加速效果,但加速比會下降到 1.2 倍以下。在高數(shù)據(jù)與模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超過了 Muon。研究推測,在數(shù)據(jù)與模型比例很高時,Soap 和 Kron 所維持的二階動量變得更為有效。
更多細節(jié)請閱讀原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.