夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福:優(yōu)化器「諸神之戰(zhàn)」?AdamW 憑「穩(wěn)定」勝出

0
分享至



機器之心報道

機器之心編輯部

自 2014 年提出以來,Adam 及其改進版 AdamW 長期占據(jù)開放權(quán)重語言模型預(yù)訓練的主導地位,幫助模型在海量數(shù)據(jù)下保持穩(wěn)定并實現(xiàn)較快收斂。

隨著模型規(guī)模迅速擴大,預(yù)訓練已成為計算密集型任務(wù)的典型代表,在大模型研發(fā)中往往是最主要的計算開銷。在這種背景下,優(yōu)化器的設(shè)計直接關(guān)系到收斂速度與計算成本。

研究者們探索了多種改進方向,其中最快的優(yōu)化器往往采用矩陣型預(yù)條件子(如 Muon、Soap、Kron),相較于經(jīng)過嚴格調(diào)優(yōu)的 AdamW,可以帶來約 30–40% 的迭代級別加速。

斯坦福大學 Percy Liang 團隊的研究指出,盡管存在許多聲稱能提供顯著加速(1.4 至 2 倍)的替代方案,AdamW 依然是預(yù)訓練的穩(wěn)健首選,但矩陣型方法在特定數(shù)據(jù)–模型比例下展現(xiàn)出明顯優(yōu)勢。



  • 論文標題:Fantastic Pretraining Optimizers and Where to Find Them
  • 論文地址:https://www.arxiv.org/pdf/2509.02046v1
  • Github:https://github.com/marin-community/marin/issues/1290
  • 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者認為,這種現(xiàn)象可能源于兩個關(guān)鍵的方法論缺陷:

  • 問題 1:不公平的超參數(shù)調(diào)優(yōu)。

基線模型通常調(diào)優(yōu)不足:在常用的 AdamW 基線中,僅僅是調(diào)優(yōu)學習率這一個參數(shù),就能在 1.3 億參數(shù)規(guī)模的模型上實現(xiàn) 2 倍的加速。

固定共享的超參數(shù)并不能保證比較的公平性:例如,與標準的權(quán)重衰減值 0.1 相比,Lion 優(yōu)化器更偏好較高的權(quán)重衰減值(如 0.6)。



左:常用的 AdamW 基線存在調(diào)優(yōu)不足的問題。 在 Brown 等人 [2020] 提出、并被后續(xù)多項研究采用的 GPT-3 訓練方案中,僅僅針對一個 1 億參數(shù)的模型調(diào)整學習率這一個超參數(shù),便可實現(xiàn)高達 2 倍的加速,這凸顯了進行恰當超參數(shù)優(yōu)化的重要性。右:在不同優(yōu)化器之間固定超參數(shù)并不能保證比較的公平性。 在以往的研究中,像學習率和權(quán)重衰減這類共享超參數(shù)通常被設(shè)為常量。然而,即使是概念上相似的優(yōu)化器,其對應(yīng)的最優(yōu)超參數(shù)也可能大相徑庭。

  • 問題 2:測試規(guī)模不足

大多數(shù)測試僅使用小型模型(參數(shù)遠小于 10 億)或遵循 Chinchilla 論文提出的 1 倍數(shù)據(jù)配比。那么,在更大規(guī)模的模型或更高的數(shù)據(jù)配比下,結(jié)果會如何呢?

此外,訓練早期的檢查點也可能產(chǎn)生誤導,在學習率衰減階段,不同方法的損失曲線可能會發(fā)生交叉,從而導致最終排名反轉(zhuǎn)。因此,必須在(不同的)設(shè)定下進行訓練結(jié)束時的最終評估。



左:加速效果隨模型規(guī)模的增大而衰減。 盡管一些優(yōu)化器在參數(shù)量小于 10 億的模型上相比 AdamW 能展現(xiàn)出較高的加速比(1.3-1.4 倍),但當模型規(guī)模增至 12 億參數(shù)時,其加速比會衰減至僅 1.1 倍。右:基于矩陣的優(yōu)化器性能穩(wěn)定優(yōu)于基于標量的優(yōu)化器。 該圖展示了三種基于標量的優(yōu)化器(AdamW, Nesterov AdamW, Mars)和三種基于矩陣的優(yōu)化器(Kron, Soap, Muon)在不同 Chinchilla 數(shù)據(jù)配比下訓練時的損失曲線?;诰仃嚨膬?yōu)化器相比基于標量的優(yōu)化器實現(xiàn)了一致的加速效果。此外,在過訓練(overtrained)的情況下,這三種基于矩陣的優(yōu)化器最終會收斂到相似的損失值。

為了驗證這一假設(shè),研究人員進行了系統(tǒng)性的比較研究,涵蓋了十一種不同的深度學習優(yōu)化器。他們在多種模型規(guī)模(從 1 億到 12 億參數(shù))和數(shù)據(jù)–模型比例(參照 Chinchilla 最優(yōu)比例的 1 倍至 8 倍)下,為每一種優(yōu)化器都進行了嚴謹、獨立的超參數(shù)調(diào)優(yōu)。



本研究所使用的優(yōu)化器。

研究發(fā)現(xiàn):

  • 獨立調(diào)優(yōu)至關(guān)重要:一個優(yōu)化器的最優(yōu)超參數(shù)配置往往無法直接遷移到另一種優(yōu)化器上。如果缺乏獨立調(diào)優(yōu),不僅比較結(jié)果缺乏公平性,而且新優(yōu)化器相較于精心調(diào)優(yōu)過的 AdamW,實際加速效果遠低于其聲稱的數(shù)值。
  • 短期評估具有誤導性:僅在短時間訓練窗口內(nèi)評估優(yōu)化器性能是不可靠的。隨著訓練的進行和學習率衰減,不同優(yōu)化器的性能排名可能會發(fā)生逆轉(zhuǎn),其損失曲線甚至會多次交叉。
  • 矩陣方法性能領(lǐng)先:所有速度最快的優(yōu)化器都采用了基于矩陣的預(yù)條件子,而非傳統(tǒng)的逐元素標量縮放。Muon、Soap 和 Kron 等方法,相比嚴格調(diào)優(yōu)后的 AdamW,能夠?qū)崿F(xiàn) 30–40% 的單步訓練速度提升。

有趣的是,最優(yōu)選擇也與具體場景相關(guān):在標準 Chinchilla 數(shù)據(jù)比例下,Muon 表現(xiàn)最佳;而當數(shù)據(jù)量相對于模型規(guī)模的比例提升至 8 倍以上時,Soap 則成為更優(yōu)的選擇。



方法

研究設(shè)計了一套嚴謹?shù)姆椒ㄕ搧碓u估這些優(yōu)化器,該方法分為三個主要階段。首先是通用設(shè)置階段,明確了實驗環(huán)境。研究使用了四種不同規(guī)模的 Transformer 模型,參數(shù)量從 130M 到 1.2B,序列長度均為 4096,并詳細列舉了各模型層數(shù)、隱藏維度等具體配置。



所研究的各個模型規(guī)模的詳細架構(gòu)超參數(shù)。

數(shù)據(jù)方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 數(shù)據(jù)集,并使用 LLaMA-3 分詞器進行分詞,確保了訓練數(shù)據(jù)的豐富性。評估的優(yōu)化器涵蓋了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了當前深度學習優(yōu)化領(lǐng)域的主流和前沿方法。

階段 I: 全面參數(shù)掃描

研究旨在解決基線優(yōu)化器超參數(shù)調(diào)整不當導致其性能被低估的問題。研究采用了坐標下降法,對所有優(yōu)化器的超參數(shù)(包括學習率、權(quán)重衰減、預(yù)熱步數(shù)、β?、β?、ε、最大梯度范數(shù)和批次大小)在預(yù)設(shè)網(wǎng)格上進行了詳盡搜索。

這一階段的實驗設(shè)置涵蓋了 130M、300M 和 500M 模型在 1 倍 Chinchilla 數(shù)據(jù)量下的訓練,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下的訓練。

研究發(fā)現(xiàn),對每個優(yōu)化器進行嚴格的超參數(shù)調(diào)整至關(guān)重要,因為不同優(yōu)化器之間的最優(yōu)超參數(shù)配置差異顯著,盲目遷移超參數(shù)會導致不公平的比較。

此外,研究也觀察到,與經(jīng)過精心調(diào)整的基線 AdamW 相比,實際的加速效果普遍低于此前一些研究所聲稱的水平。

階段 II: 敏感超參數(shù)識別

研究根據(jù)第一階段的結(jié)果,識別出那些最優(yōu)值會隨模型規(guī)模變化的敏感超參數(shù),例如學習率和預(yù)熱長度。隨后,這些敏感超參數(shù)在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 數(shù)據(jù)量下進行了進一步的網(wǎng)格搜索。



第一階段與第二階段的主要結(jié)果。上圖: 我們繪制了第一階段和第二階段實驗中,模型在 C4/EN 數(shù)據(jù)集上的驗證集損失。圖中的每一個點都對應(yīng)于每種優(yōu)化器在相應(yīng)的 Chinchilla 數(shù)據(jù)配比下所能達到的最優(yōu)損失值。下圖: 我們針對部分優(yōu)化器,繪制了它們在 HellaSwag 基準上的性能。這些優(yōu)化器包括:AdamW 基線、性能排名前 2 的基于標量的優(yōu)化器,以及性能排名前 3 的基于矩陣的優(yōu)化器。性能數(shù)據(jù)來自于它們各自最優(yōu)的運行批次。

通過結(jié)合前兩個階段的結(jié)果,研究獲得了 12 種不同設(shè)置下的近乎最優(yōu)超參數(shù)集及其對應(yīng)的損失。為了量化不同優(yōu)化器相對于 AdamW 的加速效果,研究擬合了 AdamW 損失隨數(shù)據(jù)預(yù)算變化的縮放定律,并以此計算出達到相同損失所需的 AdamW 數(shù)據(jù)量與優(yōu)化器實際所需數(shù)據(jù)量之比,作為加速比。

研究發(fā)現(xiàn),基于矩陣的優(yōu)化器雖然表現(xiàn)普遍優(yōu)于基于標量的優(yōu)化器,但其加速比在實際測試中均未超過 1.4 倍。許多替代優(yōu)化器在小規(guī)模模型或有限數(shù)據(jù)比例下看似具有優(yōu)勢,但隨著模型規(guī)模擴大,這些加速優(yōu)勢逐漸消失甚至反轉(zhuǎn),AdamW 依然是最穩(wěn)健的預(yù)訓練首選。

階段 III: 案例研究

該階段旨在對更大規(guī)模的實驗進行深入探索。研究首先檢驗了超參數(shù)的擬合程度,通過擬合形式為 的平滑定律,預(yù)測了在模型規(guī)模 N 和數(shù)據(jù)規(guī)模 D 下的最優(yōu)設(shè)置。

為了驗證這些縮放定律,研究對 1.2B 模型在 1 倍 Chinchilla 數(shù)據(jù)量下進行了全面掃描,結(jié)果顯示預(yù)測的配置與實際最優(yōu)配置之間的性能差異極小,證明了預(yù)測的有效性。

隨后,研究進行了兩項案例研究:一是訓練 1.2B 模型在 1 至 8 倍 Chinchilla 數(shù)據(jù)量下,以檢驗優(yōu)化器加速效果隨模型規(guī)模擴展的變化;二是在 16 倍 Chinchilla 數(shù)據(jù)量下訓練 130M 和 300M 模型,以觀察在極端數(shù)據(jù)量與模型比例下的優(yōu)化器表現(xiàn)。



案例分析。左圖: 在 12 億參數(shù)模型上,AdamW、NAdamW、Muon 和 Soap 四種優(yōu)化器的驗證集損失縮放情況。結(jié)果顯示,Muon 和 Soap 相比 AdamW 仍有顯著的加速效果,但相比 NAdamW 已無明顯加速優(yōu)勢。中圖: 采用與圖 3 相同的方法估算加速比。我們觀察到,Muon 和 Soap 的加速比隨模型規(guī)模增大而衰減,最終降至僅 1.1 倍。右圖: 在 3 億參數(shù)模型和 16 倍 Chinchilla 數(shù)據(jù)配比的設(shè)定下,實驗結(jié)果表明,當數(shù)據(jù)與模型的比例進一步增大時,Soap 的性能優(yōu)于 Muon。

這一階段的結(jié)果進一步揭示了 Muon 優(yōu)化器的潛在局限性:盡管 Muon 對高達 1.2B 參數(shù)的模型仍有加速效果,但加速比會下降到 1.2 倍以下。在高數(shù)據(jù)與模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超過了 Muon。研究推測,在數(shù)據(jù)與模型比例很高時,Soap 和 Kron 所維持的二階動量變得更為有效。

更多細節(jié)請閱讀原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
人形機器人:金發(fā)科技、巖山科技、領(lǐng)益智造、歐菲光,潛力誰大

人形機器人:金發(fā)科技、巖山科技、領(lǐng)益智造、歐菲光,潛力誰大

我不叫阿哏
2025-09-08 17:13:27
最后一刻認慫,菲方宣布:已完成仁愛礁補給,“沒發(fā)生不幸事件”

最后一刻認慫,菲方宣布:已完成仁愛礁補給,“沒發(fā)生不幸事件”

跳跳歷史
2025-09-06 11:55:03
世紀名場面被井柏然碰上了,劉雯緊貼著他,看清倪妮坐哪網(wǎng)友炸了

世紀名場面被井柏然碰上了,劉雯緊貼著他,看清倪妮坐哪網(wǎng)友炸了

千言娛樂記
2025-09-08 23:25:10
他真用蘑菇做了艘船!在海上劃了12小時,居然沒事?!

他真用蘑菇做了艘船!在海上劃了12小時,居然沒事?!

英國那些事兒
2025-09-08 23:27:10
你知道嗎,九三閱兵除了領(lǐng)隊是上校大校,徒步方隊里還有中校

你知道嗎,九三閱兵除了領(lǐng)隊是上校大校,徒步方隊里還有中校

原來仙女不講理
2025-09-08 16:52:03
鄭伊健也沒想到,分手26年,前女友邵美琪已是他高攀不起的存在

鄭伊健也沒想到,分手26年,前女友邵美琪已是他高攀不起的存在

銀河史記
2025-09-08 20:26:16
固態(tài)電池又一重磅會議即將召開 板塊有望迎來持續(xù)催化

固態(tài)電池又一重磅會議即將召開 板塊有望迎來持續(xù)催化

財聯(lián)社
2025-09-09 08:23:16
普京對26國下戰(zhàn)書,不到48小時,俄軍810架無人機,狂炸11小時

普京對26國下戰(zhàn)書,不到48小時,俄軍810架無人機,狂炸11小時

南權(quán)先生
2025-09-08 14:45:03
凡蒂諾曬梅西捧大力神杯照:兩天后會有重大消息宣布,C羅很失望

凡蒂諾曬梅西捧大力神杯照:兩天后會有重大消息宣布,C羅很失望

姜大叔侃球
2025-09-09 10:06:35
中國出手了!對歐盟豬肉實施62.4%重稅,國內(nèi)豬價或迎大變革?

中國出手了!對歐盟豬肉實施62.4%重稅,國內(nèi)豬價或迎大變革?

小舟談歷史
2025-09-08 18:32:01
女民兵領(lǐng)隊王媛爆火!又美又颯當八年連長,老公壓力大曬照宣主權(quán)

女民兵領(lǐng)隊王媛爆火!又美又颯當八年連長,老公壓力大曬照宣主權(quán)

鋭娛之樂
2025-09-08 20:29:05
鄉(xiāng)黨委書記在學校調(diào)戲女老師,沒想到女老師的老公竟是縣委書記

鄉(xiāng)黨委書記在學校調(diào)戲女老師,沒想到女老師的老公竟是縣委書記

南山青松
2024-06-18 17:57:38
關(guān)于全市放假通知!休息13天!

關(guān)于全市放假通知!休息13天!

感覺會火
2025-09-08 12:09:12
上映5天,僅27個觀眾,總票房才764元,年度最慘電影誕生了

上映5天,僅27個觀眾,總票房才764元,年度最慘電影誕生了

深析古今
2025-09-08 14:07:49
杭州市公安局臨平區(qū)分局原二級調(diào)研員朱惟悟被“雙開”

杭州市公安局臨平區(qū)分局原二級調(diào)研員朱惟悟被“雙開”

魯中晨報
2025-09-09 10:21:07
英超開賽3輪,首位下課主帥誕生:率隊領(lǐng)先曼城1分,剛續(xù)約被解雇

英超開賽3輪,首位下課主帥誕生:率隊領(lǐng)先曼城1分,剛續(xù)約被解雇

球場沒跑道
2025-09-09 11:16:10
我64歲,退休金8500存款20萬,血的教訓告訴我,不要跟誰再續(xù)前緣

我64歲,退休金8500存款20萬,血的教訓告訴我,不要跟誰再續(xù)前緣

宅家伍菇?jīng)?/span>
2024-08-09 15:00:02
隊記:楊瀚森能有普拉姆利的生涯 就是中國第二好的NBA球員了

隊記:楊瀚森能有普拉姆利的生涯 就是中國第二好的NBA球員了

直播吧
2025-09-09 11:17:14
張*峰翻車了!

張*峰翻車了!

梳子姐
2025-09-06 16:33:18
恭喜女籃,籃協(xié)官宣,名帥上任,48歲,名宿,宮魯鳴下課有結(jié)論了

恭喜女籃,籃協(xié)官宣,名帥上任,48歲,名宿,宮魯鳴下課有結(jié)論了

東球弟
2025-09-08 12:57:10
2025-09-09 13:03:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11257文章數(shù) 142444關(guān)注度
往期回顧 全部

科技要聞

王騰辟謠:我沒有竊取公司機密,收人錢財

頭條要聞

夫妻在合租房生養(yǎng)娃遭室友投訴要求搬離 網(wǎng)友吵翻了

頭條要聞

夫妻在合租房生養(yǎng)娃遭室友投訴要求搬離 網(wǎng)友吵翻了

體育要聞

二十年,屬于詹姆斯和中國球迷的雙向奔赴

娛樂要聞

許凱待播劇還能播嗎?

財經(jīng)要聞

桂浩明:牛還在

汽車要聞

國內(nèi)售價272.8萬起 新款保時捷911 Turbo S首發(fā)

態(tài)度原創(chuàng)

家居
手機
教育
旅游
藝術(shù)

家居要聞

浪漫氤氳 奏響人居新篇

手機要聞

魅族 StarV Snap AI 拍攝眼鏡亮相,9 月 15 日發(fā)布

教育要聞

頭發(fā)一周剪了兩次,“不行,還要剪”!中學生頭發(fā)到底要短到什么程度

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關(guān)懷版 亚洲精品永久www嫩草| 超碰人妻人人操| 娇妻被交换粗又大又硬视频| 夜夜爽麻豆xxx| 久久国产精品娇妻素人| 国产伦精品一区二区三区视频我| 人妻无码中文字幕免费视频蜜桃| 色www视频永久免费| 国产粉嫩无套第一次| 色婷婷亚洲婷婷五月| 中文字幕日本人妻久久久免费| 欧美乱伦视频网站| 欧美成人天天综合在线| 亚洲第一国产综合| 国产精品对白交换视频| xxxx丰满少妇高潮| 国产啪视频免费观看视频| 日本成人xxxx| 人人妻人人人澡人人爽欧美一区| 精品国产三级| 超碰日本人妻| 久久久精品久久日韩一区综合| 亚洲视频日韩视欧美视频| 最新地址av| 欧美日韩1AV| 男人天堂免费小视频| 97人妻中文字幕总站| 污片网站爽妇网| 毛片免费看偷拍狂| 中国国产免费毛卡片| 亚洲无码成人高清久久| 都市 人妻 春色 校园| 国产人成激情视频在线观看| 九九热国产在线| 密乳AV熟女| 久久精品动漫| 精品免费在线视频| 亚洲成aⅴ人片| 国产毛片一区二区三区不卡在线| 国产麻豆精品在线观看| 国产精品久久久久免费Aⅴ|