夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

HuggingFace發(fā)布實(shí)戰(zhàn)指南,從決策到落地手把手教你訓(xùn)練大模型

0
分享至




機(jī)器之心報(bào)道

機(jī)器之心編輯部

近期,HuggingFace 發(fā)布的超過 200 頁的超長技術(shù)博客,系統(tǒng)性地分享訓(xùn)練先進(jìn) LLM 的端到端經(jīng)驗(yàn)。



博客的重點(diǎn)是 LLM 開發(fā)過程中「混亂的現(xiàn)實(shí)」。它坦誠地記錄了哪些方法有效、哪些會(huì)失敗,以及如何應(yīng)對(duì)實(shí)際工程中遇到的陷阱。內(nèi)容基于團(tuán)隊(duì)的實(shí)際項(xiàng)目經(jīng)驗(yàn),特別是他們近期使用 384 塊 H100 GPU 訓(xùn)練 3B 參數(shù)模型 SmolLM3 的過程。

博客中提供了深入的技術(shù)細(xì)節(jié)、代碼片段和調(diào)試技巧,對(duì)于有興趣親自構(gòu)建 LLM 的讀者來說非常有指導(dǎo)意義。

  • 博客地址:https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#positional-encodings--long-context

訓(xùn)練羅盤:Why→What→How



這一部分是在投入技術(shù)細(xì)節(jié)(如何訓(xùn)練)之前,提出了一個(gè)關(guān)鍵問題:「你是否真的需要訓(xùn)練這個(gè)模型」?

鑒于(如 Qwen、Gemma、Llama 等)世界級(jí)開源模型層出不窮,大多數(shù)人可能并不需要從頭開始訓(xùn)練自己的模型。



Why

文章列舉了一些不應(yīng)該訓(xùn)練模型的錯(cuò)誤理由,例如:「我們有閑置算力」、「別人都在做」或「AI 是未來」。

然后提供了一個(gè)流程圖,幫助你思考是否真的訓(xùn)練一個(gè)自己的模型。



當(dāng)你發(fā)現(xiàn):現(xiàn)有模型不可用 —> 提示詞工程無法解決 —> 微調(diào)無法解決,你就可以考慮從頭開始訓(xùn)練了。

定制化預(yù)訓(xùn)練通常適用于三個(gè)主要領(lǐng)域:

  • 研究:你有一個(gè)明確的科學(xué)問題需要回答。例如,測(cè)試新的優(yōu)化器、探索模型能力(如僅用強(qiáng)化學(xué)習(xí))或測(cè)試新的數(shù)據(jù)集(如純合成數(shù)據(jù))。
  • 生產(chǎn):你的業(yè)務(wù)有無法被滿足的特定需求。如 DNA、法律、金融等高度專業(yè)化的詞匯或邏輯; 需要在特定硬件(如無人機(jī)、本地 FPGA)上運(yùn)行,或有嚴(yán)格的延遲要求;處于受監(jiān)管行業(yè),需要對(duì)訓(xùn)練數(shù)據(jù)和模型行為有 100% 的控制和可追溯性。
  • 戰(zhàn)略開源:你發(fā)現(xiàn)并有能力填補(bǔ)當(dāng)前開源生態(tài)系統(tǒng)中的一個(gè)特定空白。

What

一旦你明確了「Why」,就可以推導(dǎo)出「訓(xùn)練什么 (What)」。包括模型類型(密集型、MoE、混合型、某種新型)、模型大小、架構(gòu)細(xì)節(jié)和數(shù)據(jù)混合。

同時(shí)前面的領(lǐng)域目標(biāo)決定了你的訓(xùn)練決策:例如,為設(shè)備端運(yùn)行 —> 訓(xùn)練小型高效模型;需要多語言能力 —> 使用更大的 tokenizer 詞匯表;超長上下文 —> 混合架構(gòu)。

這個(gè)決策過程分為兩個(gè)階段。將你的約束(來自「Why」)映射到具體的模型規(guī)格;驗(yàn)證:通過系統(tǒng)性的實(shí)驗(yàn)(消融實(shí)驗(yàn))來測(cè)試你的選擇。

文章指出了成功 LLM 訓(xùn)練團(tuán)隊(duì)的兩個(gè)關(guān)鍵特質(zhì):

  • 迭代速度:訓(xùn)練 LLM 是一個(gè)「邊訓(xùn)練邊學(xué)」的過程。能夠快速、頻繁地(例如每季度而不是每年)迭代訓(xùn)練新模型的團(tuán)隊(duì),會(huì)進(jìn)步得更快。
  • 數(shù)據(jù)管理:最優(yōu)秀的團(tuán)隊(duì)是那些「癡迷于高質(zhì)量數(shù)據(jù)」的團(tuán)隊(duì),數(shù)據(jù)質(zhì)量的影響遠(yuǎn)超架構(gòu)選擇。

文章還建議,預(yù)訓(xùn)練團(tuán)隊(duì)一開始不需要很多人(2-3 人足矣),關(guān)鍵是配備足夠的算力并保持快速迭代。

每一個(gè)大型模型都始于一個(gè)小型消融

在開始訓(xùn)練 LLM 之前,需要做出一系列關(guān)鍵決策(架構(gòu)、優(yōu)化器、數(shù)據(jù)組合等)。人們常以為這些決策是靠深思熟慮得出的,但僅憑推理是不夠的,因?yàn)?LLM 的行為常常反直覺。

一個(gè)典型的例子是:使用看似「最高質(zhì)量」的 arXiv 科學(xué)論文數(shù)據(jù),反而可能會(huì)損害模型(尤其是小模型)的性能,因?yàn)樗^于專業(yè)化,缺乏通用文本的多樣性。

既然純粹的思考行不通,答案就是像經(jīng)驗(yàn)主義者一樣「運(yùn)行大量實(shí)驗(yàn)」(即消融實(shí)驗(yàn))。

設(shè)置消融實(shí)驗(yàn)的完整流程:

選擇你的基線

不要從零開始,應(yīng)該選擇一個(gè)已被驗(yàn)證的、成熟的架構(gòu)(如 Llama 3.1、Qwen3、Gemma3)作為起點(diǎn),這樣可以繼承所有已知的優(yōu)化和穩(wěn)定性經(jīng)驗(yàn)。



基線雖好,但并非為你量身定制,因此需要修改。然而,「任何架構(gòu)上的改變都伴隨著風(fēng)險(xiǎn)」。為此,必須遵守「去風(fēng)險(xiǎn)」的紀(jì)律,即:「除非你測(cè)試過它確實(shí)有幫助,否則不要改變?nèi)魏螙|西。」

修改的難點(diǎn)在于組件太多且相互作用。你不能測(cè)試所有組合。正確的方法是:一次只測(cè)試一個(gè)有潛力的變更。如果它有效,就將其整合,使其成為新的基線,然后再測(cè)試下一個(gè)變更。

選擇訓(xùn)練框架

這是一個(gè)關(guān)鍵的技術(shù)決策,需要在功能、穩(wěn)定性和吞吐量之間權(quán)衡。

文章對(duì)比了幾個(gè)主流框架:

  • Megatron-LM / DeepSpeed:功能強(qiáng)大,經(jīng)過實(shí)戰(zhàn)考驗(yàn),但代碼庫龐大且復(fù)雜。
  • TorchTitan:更輕量級(jí),易于上手和實(shí)驗(yàn),但相對(duì)較新。
  • nanotron (作者自研):提供了完全的靈活性,但需要大量投入來開發(fā)和測(cè)試。



設(shè)計(jì)消融實(shí)驗(yàn)

實(shí)驗(yàn)必須足夠快(以便快速迭代)和足夠可靠(結(jié)果能外推到最終模型),有兩種主要方法:

  • 全尺寸模型,少量數(shù)據(jù): 使用最終模型的尺寸(如 SmolLM3 使用 3B 模型),但在更少的 Token 上訓(xùn)練(如 100B 而非 11T)。
  • 小型代理模型: 如果目標(biāo)模型太大(如 1T 參數(shù)),則使用一個(gè)按比例縮小的代理模型(如 3B 模型)進(jìn)行實(shí)驗(yàn)。

接下來文章介紹了其基準(zhǔn)消融設(shè)置(1B 的 Llama 模型,訓(xùn)練 45B Token),并展示了配置文件的關(guān)鍵部分(數(shù)據(jù)、模型、優(yōu)化器等)。

理解哪些有效:評(píng)估

文章指出,評(píng)估實(shí)驗(yàn)結(jié)果時(shí),只看訓(xùn)練損失 (Loss) 是不可靠的。例如,訓(xùn)練維基百科的 Loss 更低,但不代表模型能力更強(qiáng);更換分詞器也會(huì)導(dǎo)致 Loss 無法直接比較。因此,必須使用更細(xì)粒度的下游評(píng)估。

一個(gè)可靠的評(píng)估任務(wù)應(yīng)具備四個(gè)標(biāo)準(zhǔn):單調(diào)性、低噪聲、超隨機(jī)性能和排名一致性。

特別是在早期實(shí)驗(yàn)中,「完形填空(CF)」格式比「多項(xiàng)選擇(MCF)」更優(yōu)越,因?yàn)楹笳撸ㄈ?MMLU)在模型訓(xùn)練的早期階段表現(xiàn)接近隨機(jī),無法提供有效的早期信號(hào)。

消融實(shí)驗(yàn)的真正價(jià)值不僅在于構(gòu)建好模型,更在于它為未來的調(diào)試提供了信心:當(dāng)主訓(xùn)練不可避免地出錯(cuò)時(shí),系統(tǒng)性的實(shí)驗(yàn)結(jié)果能幫助團(tuán)隊(duì)快速定位問題。

不過,這種價(jià)值的成本極其昂貴。以 SmolLM3 為例,消融和調(diào)試所消耗的 GPU 時(shí)間超過了主訓(xùn)練運(yùn)行的一半。



模型架構(gòu)設(shè)計(jì)

這部分內(nèi)容詳細(xì)闡述了設(shè)計(jì)和確定 LLM 架構(gòu)的完整決策過程,從高層目標(biāo)到具體的組件選擇和超參數(shù)設(shè)置。

文章以一個(gè)名為 SmolLM3 的 3B(30億參數(shù))模型為例,系統(tǒng)性地展示了如何從零開始構(gòu)建一個(gè)模型的「藍(lán)圖」。

文章深入探討了構(gòu)成現(xiàn)代 Transformer 的核心架構(gòu)選擇并指出,當(dāng)今的模型(如 Qwen3、Gemma3)共享 Transformer 基礎(chǔ),但通過組件改進(jìn)(如 GQA、位置編碼)來解決具體問題(如內(nèi)存、穩(wěn)定性)。

  • 注意力機(jī)制:這是推理時(shí)的主要瓶頸,關(guān)鍵在于 KV 緩存。文章對(duì)比了 MHA(標(biāo)準(zhǔn),高內(nèi)存)、MQA(極端壓縮,可能損失性能)和 GQA(分組查詢)。消融實(shí)驗(yàn)證實(shí),GQA 在性能上與 MHA 相當(dāng),但極大節(jié)省了 KV 緩存,是 SmolLM3 的最終選擇。
  • 長上下文:文章探討了兩種策略。首先是文檔掩碼,在訓(xùn)練「打包」的數(shù)據(jù)時(shí),它能防止模型關(guān)注到序列中不相關(guān)的其他文檔,這被證實(shí)對(duì)長上下文擴(kuò)展至關(guān)重要。其次是位置編碼,標(biāo)準(zhǔn) RoPE 在長序列上外推能力有限。SmolLM3 采用了 NoPE(實(shí)為 RNoPE)的混合策略,即交替使用 RoPE 層(處理短上下文)和 NoPE 層(處理長距離檢索),消融實(shí)驗(yàn)表明這種方法在不犧牲短上下文性能的同時(shí),為長上下文打下了基礎(chǔ)。
  • 嵌入共享:對(duì)于 SmolLM3 這樣的小模型,嵌入層占比較大。文章通過消融實(shí)驗(yàn)證明,將參數(shù)用于增加模型深度(更多層)比用于「解綁」輸入和輸出嵌入層更有效。因此,SmolLM3 采用了嵌入共享。
  • 穩(wěn)定性:為防止大規(guī)模訓(xùn)練崩潰,文章測(cè)試了 Z-loss、QK-norm 等技術(shù)。最終,SmolLM3 采用了 OLMo2 的技巧,即移除嵌入層的權(quán)重衰減,以提高穩(wěn)定性。

文章對(duì)比了密集型、MoE(混合專家)和 Hybrid(混合模型)三種架構(gòu)。MoE 通過稀疏激活(只激活部分「專家」)來用更少的計(jì)算換取更大的容量,但內(nèi)存占用極高。Hybrid(如 Mamba)則通過線性注意力或 SSM 來解決 Transformer 在長上下文上的計(jì)算瓶頸。SmolLM3 因其「端側(cè)部署」的目標(biāo)(內(nèi)存受限)而堅(jiān)持使用密集型架構(gòu)。

隨后,文章轉(zhuǎn)向了常被低估的Tokenizer。選擇分詞器涉及詞匯量大?。ㄓ绊憠嚎s率和嵌入矩陣大?。┖退惴ǎ˙PE 最常用)。

文章引入了「Fertility」(每詞平均 Token 數(shù))和「連續(xù)詞比例」作為評(píng)估指標(biāo)。通過對(duì)比 Llama3、Gemma3、Qwen3 等,SmolLM3 最終選擇了 Llama3 的 128k 詞匯表,因?yàn)樗谀繕?biāo)語言和模型大小之間取得了最佳平衡。

接下來,文章探討了決定訓(xùn)練過程的核心要素:優(yōu)化器、學(xué)習(xí)率和批量大小。文章指出,直接借用其他模型的超參數(shù)雖然簡單,但可能不是最優(yōu)的,因?yàn)檫@些值是針對(duì)特定的架構(gòu)、數(shù)據(jù)和約束條件優(yōu)化的。

最后回顧了關(guān)于模型規(guī)模(參數(shù)量 N)和數(shù)據(jù)量(Token 數(shù) D)的經(jīng)典權(quán)衡。

數(shù)據(jù)管理藝術(shù)

這部分內(nèi)容詳細(xì)闡述了「數(shù)據(jù)策展的藝術(shù)」,強(qiáng)調(diào)了在 LLM 訓(xùn)練中,數(shù)據(jù)是決定模型「學(xué)到什么」的關(guān)鍵因素,其重要性甚至超過了模型架構(gòu)。

模型架構(gòu)決定了模型如何學(xué)習(xí),而數(shù)據(jù)則決定了模型學(xué)習(xí)的內(nèi)容。如果數(shù)據(jù)質(zhì)量差或「混合比例」不當(dāng),再好的架構(gòu)或超參數(shù)也無法挽救。

文章指出,構(gòu)建一個(gè)優(yōu)秀的數(shù)據(jù)集并不僅僅是收集好數(shù)據(jù),而是要設(shè)計(jì)一個(gè)訓(xùn)練混合

例如,過分增加代碼數(shù)據(jù)的比例(「上采樣」)會(huì)隱式地減少其他數(shù)據(jù)的比例,可能損害模型的通用能力。

此外,對(duì)于像 SmolLM3 這樣需要 11T Token 的超長訓(xùn)練,如果只使用「最高質(zhì)量」的數(shù)據(jù),將導(dǎo)致嚴(yán)重的數(shù)據(jù)重復(fù),這對(duì)模型性能有害。

為了解決這些平衡性問題,現(xiàn)代 LLM 訓(xùn)練已經(jīng)從「靜態(tài)混合」(如 GPT-3)演變?yōu)槎嚯A段訓(xùn)練(如 Llama3、SmolLM2)。這種方法在訓(xùn)練過程中動(dòng)態(tài)地改變數(shù)據(jù)混合比例。

其核心洞察是,模型的最終行為深受其在訓(xùn)練末期看到的數(shù)據(jù)的影響。因此,策略是:

  • 在訓(xùn)練早期,使用豐富、多樣化但質(zhì)量稍低的數(shù)據(jù)(如網(wǎng)頁文本)。
  • 在訓(xùn)練末期(特別是在學(xué)習(xí)率衰減的「退火階段」),引入稀缺、高質(zhì)量的數(shù)據(jù)(如專業(yè)數(shù)學(xué)和代碼數(shù)據(jù)集),以最大化其影響力。

何時(shí)改變混合比例通常由性能驅(qū)動(dòng)的干預(yù)決定:例如,當(dāng)發(fā)現(xiàn)模型的數(shù)學(xué)能力停滯不前時(shí),就是引入更多高質(zhì)量數(shù)學(xué)數(shù)據(jù)的信號(hào)。

確定數(shù)據(jù)配方的過程依賴于系統(tǒng)的消融實(shí)驗(yàn)。與架構(gòu)不同,數(shù)據(jù)混合的消融實(shí)驗(yàn)必須在目標(biāo)模型規(guī)模(例如 3B)上運(yùn)行,因?yàn)槟P偷娜萘繒?huì)顯著影響它吸收不同數(shù)據(jù)的效果。

文章介紹了兩種主要的實(shí)驗(yàn)方法:

  • 從零開始的消融:使用目標(biāo)模型(如 3B)進(jìn)行短期訓(xùn)練(如 100B Token),以測(cè)試不同的初始混合比例。
  • 退火實(shí)驗(yàn):這是測(cè)試多階段課程的關(guān)鍵。團(tuán)隊(duì)會(huì)從主訓(xùn)練中(例如在 7T Token 處)獲取一個(gè)檢查點(diǎn),然后用新的數(shù)據(jù)混合(例如 40% 基線 + 60% 新數(shù)學(xué)數(shù)據(jù))繼續(xù)訓(xùn)練一小段時(shí)間(如 50B Token),以驗(yàn)證新數(shù)據(jù)在后期引入的有效性。

作者提到,盡管存在 DoReMi 等自動(dòng)優(yōu)化方法,但在他們的實(shí)踐中,仔細(xì)的手動(dòng)消融實(shí)驗(yàn)仍然是 SOTA 模型(包括 SmolLM3)確定數(shù)據(jù)混合的最佳途徑。

文章最后以 SmolLM3 為例,展示了如何應(yīng)用這些原則。

堪比「馬拉松」的長周期訓(xùn)練

從前面來看,此時(shí)已經(jīng)準(zhǔn)備好了大部分的工作,經(jīng)過驗(yàn)證的模型架構(gòu)、最終確定的數(shù)據(jù)混合方案、調(diào)好的超參數(shù),剩下的任務(wù)就是搭建好基礎(chǔ)設(shè)施(這在最后講解),然后「開始」訓(xùn)練。而訓(xùn)練是一個(gè)堪比「馬拉松」的長周期過程,過程中可能會(huì)出現(xiàn)各種情況,所以要做好面對(duì)各種挑戰(zhàn)的準(zhǔn)備。

而這部分主要講的就是,訓(xùn)練前的「飛行前檢查」、過程中那些不可避免的意外狀況,以及如何保持系統(tǒng)穩(wěn)定、不中斷。

文章以啟動(dòng) SmolLM3 前執(zhí)行的「起飛前檢查」清單為例,展示了在開始訓(xùn)練前的準(zhǔn)備工作,包括基礎(chǔ)設(shè)施準(zhǔn)備、評(píng)測(cè)系統(tǒng)準(zhǔn)備、Checkpoint 與自動(dòng)恢復(fù)機(jī)制、指標(biāo)日志記錄、訓(xùn)練配置復(fù)核等。

尤其是在最后按下「訓(xùn)練」按鈕之前的訓(xùn)練配置復(fù)核,一定要仔細(xì)檢查訓(xùn)練配置文件、啟動(dòng)腳本、Slurm 提交命令等,以確保參數(shù)、路徑、環(huán)境變量都正確無誤。

當(dāng)然,即使做好了萬全準(zhǔn)備,在規(guī)?;?xùn)練過程中,也依然會(huì)遇到一些問題。比如在訓(xùn)練啟動(dòng)后的短短數(shù)小時(shí)內(nèi)系統(tǒng)的吞吐率(throughput)驟然下滑、持續(xù)下滑,以及在引入新的 dataloader(數(shù)據(jù)加載器) 后,雖然吞吐率下降的問題不再出現(xiàn),但損失曲線(loss curve)卻明顯變得更加噪聲化,波動(dòng)比以前大得多等等,各種問題隨時(shí)都會(huì)出現(xiàn),所以要做好及時(shí)應(yīng)對(duì)各種問題的準(zhǔn)備。

另外,文章還指出,在現(xiàn)代 LLM 的預(yù)訓(xùn)練中,通常會(huì)采用多階段訓(xùn)練策略(multi-stage training),每個(gè)階段使用不同的數(shù)據(jù)混合比例,并在最后階段進(jìn)行上下文長度擴(kuò)展。比如 Qwen3 就采用了通用階段、推理階段、長上下文階段的三階段訓(xùn)練方案。而 SmolLM3 采用了類似的理念,在訓(xùn)練過程中計(jì)劃性地引入高質(zhì)量數(shù)據(jù)集并擴(kuò)展上下文長度,同時(shí)根據(jù)性能監(jiān)控結(jié)果進(jìn)行動(dòng)態(tài)調(diào)整。

超越基礎(chǔ)模型——2025 年的后訓(xùn)練階段

這部分主要介紹了模型的后訓(xùn)練(Post-training)。以 SmolLM3 為例,在完成預(yù)訓(xùn)練(Pre-training)后就擁有了 SmolLM3 的原始能力(raw ability),但在 GPU 的溫度還未降下之前,就進(jìn)入了后訓(xùn)練(Post-training)階段。



當(dāng)然,在這一切開始之前,就像預(yù)訓(xùn)練階段一樣,你也要問自己三個(gè)問題:

  • 你是不是真的需要后訓(xùn)練?如今許多開源權(quán)重模型在各種任務(wù)上已能媲美閉源模型,其中一些甚至可以在本地運(yùn)行(通過量化與低計(jì)算配置)。如果你的目標(biāo)只是一個(gè)通用助手,那么 Hugging Face Hub 上的現(xiàn)成模型可能已經(jīng)足夠好,沒必要重新訓(xùn)練。
  • 你是否擁有高質(zhì)量、領(lǐng)域特定的數(shù)據(jù)?后訓(xùn)練的最大價(jià)值體現(xiàn)在特定任務(wù)或領(lǐng)域上。若通用模型在這些場景下表現(xiàn)欠佳,高質(zhì)量的專用數(shù)據(jù)能讓你定向優(yōu)化輸出效果。
  • 你能衡量成功的標(biāo)準(zhǔn)嗎?如果沒有清晰的評(píng)估標(biāo)準(zhǔn),你將無法判斷后訓(xùn)練是否真的給你帶來了改進(jìn)。

如果確定了要進(jìn)行后訓(xùn)練,那么又出現(xiàn)一個(gè)問題,你想要后訓(xùn)練實(shí)現(xiàn)什么目標(biāo):一個(gè)嚴(yán)格執(zhí)行指令、幾乎不偏題的模型?一個(gè)多才多藝的助手,能靈活切換語氣與角色?一個(gè)擅長數(shù)學(xué)、代碼或推理任務(wù)的「思考引擎」?還是一個(gè)能多語言流暢交流的通用對(duì)話體?

只有明確目標(biāo)才能選擇合適的技術(shù)路線。

而一旦前面這幾個(gè)問題答案都明確之后,接下來就要開始進(jìn)行訓(xùn)練了,主要步驟包括:

  • 監(jiān)督微調(diào)(SFT):注入核心任務(wù)能力;
  • 偏好優(yōu)化(PO):直接從人類或 AI 偏好中學(xué)習(xí);
  • 強(qiáng)化學(xué)習(xí)(RL):在監(jiān)督數(shù)據(jù)之外提升模型的可靠性與推理深度;
  • 數(shù)據(jù)篩選與整理(Data Curation):平衡數(shù)據(jù)的多樣性與質(zhì)量;
  • 評(píng)估體系(Evaluation):持續(xù)跟蹤進(jìn)展并及早發(fā)現(xiàn)性能回退。

文章以 SmolLM3 為例,回答了在進(jìn)行后訓(xùn)練階段需要回答的幾大問題:

SmolLM3 是一個(gè)優(yōu)秀的基礎(chǔ)模型,但要在發(fā)布前變得可用,必須經(jīng)過后訓(xùn)練。同時(shí),混合推理模型(如 Qwen3 系列)正快速興起,但開源社區(qū)中缺乏公開可復(fù)現(xiàn)的訓(xùn)練配方。因此,SmolLM3 的后訓(xùn)練目標(biāo)有兩點(diǎn):打造一個(gè)可實(shí)用的高質(zhì)量模型;貢獻(xiàn)一份完整開源的訓(xùn)練方案,讓它能與 Qwen3 的 1.7B 和 4B 模型一同位列行業(yè)前沿。

而在后訓(xùn)練的實(shí)戰(zhàn)階段時(shí),需要做很多事情,比如選擇后訓(xùn)練框架、工具等。不同的框架各自支持不同的算法類型、微調(diào)方法、可擴(kuò)展能力等。

文章總結(jié)了一些主要的框架在后訓(xùn)練各環(huán)節(jié)中的支持范圍,涵蓋從監(jiān)督微調(diào)到偏好優(yōu)化,再到強(qiáng)化學(xué)習(xí)等核心領(lǐng)域的能力對(duì)比。



而在主要步驟階段,文章解答了為何幾乎所有的后訓(xùn)練流程都是以監(jiān)督微調(diào)為起點(diǎn),原因很簡單:

  • 便宜:相較于 RL,SFT 對(duì)算力要求低得多。你通??梢栽谳^短時(shí)間內(nèi)、用較少 GPU,獲得顯著性能提升——而無需「燒光硅片」。
  • 穩(wěn)定:不同于 RL 那種對(duì)獎(jiǎng)勵(lì)設(shè)計(jì)和超參數(shù)極度敏感的訓(xùn)練方式,SFT「開箱即用」——幾乎不會(huì)崩。
  • 是最好的基線:一個(gè)良好的 SFT 檢查點(diǎn)(checkpoint)通常能提供你所需的大部分性能提升,并讓后續(xù)如 DPO 或 RLHF 等方法的訓(xùn)練更加高效。

基礎(chǔ)設(shè)施:被忽視的關(guān)鍵一環(huán)

這部分主要是將基礎(chǔ)設(shè)施,因?yàn)榇蠖鄶?shù)從事模型訓(xùn)練的人都非常關(guān)心模型架構(gòu)和數(shù)據(jù)質(zhì)量,而忽視了底層的基礎(chǔ)設(shè)施,認(rèn)為「租幾塊 GPU,撞上 Pytorch 就可以了」。然而并非如此,如果用一個(gè)比喻來形容,那就是「預(yù)訓(xùn)練是蛋糕坯,后訓(xùn)練是上面的糖霜和櫻桃,而基礎(chǔ)設(shè)施就是工業(yè)級(jí)烤箱」。沒有它,一切無從談起。

像在訓(xùn)練 SmolLM3 時(shí),使用了 384 塊 H100 GPU,持續(xù)了將近一個(gè)月,總共處理了 11 萬億個(gè) token,工程量之浩大,過程之繁瑣。

文章指出,對(duì)于基礎(chǔ)設(shè)施,你首先需要知道的是,GPU 的構(gòu)成、內(nèi)存層級(jí)的工作方式、CPU 與 GPU 之間的通信方式、獲取 GPU 時(shí)的注意事項(xiàng),以及在投入長期訓(xùn)練任務(wù)前如何測(cè)試它們。



CPU 與 GPU 之間的通信路徑

其中,需要注意的是,在大型模型訓(xùn)練中,擁有足夠多且高速的 GPU 固然重要,但由于 LLM 訓(xùn)練通常持續(xù)數(shù)周甚至數(shù)月,持續(xù)追蹤 GPU 的健康狀態(tài)就成為了保持訓(xùn)練穩(wěn)定性的關(guān)鍵。

文章以 SmolLM3 的訓(xùn)練為例,列舉了對(duì) GPU 進(jìn)行全面診斷的工具:

  • GPU Fryer(內(nèi)部工具):一款 GPU 壓力測(cè)試工具,用于檢測(cè)是否存在熱降頻;顯存錯(cuò)誤;性能異常等潛在問題。
  • NVIDIA DCGM(數(shù)據(jù)中心 GPU 管理器):一款被廣泛使用的 GPU 診斷與監(jiān)控工具,能夠執(zhí)行深度檢測(cè),以驗(yàn)證 GPU 硬件、監(jiān)控性能,并定位故障或功率異常的根本原因。診斷范圍包括:計(jì)算單元完整性;PCIe 連接穩(wěn)定性;內(nèi)存完整性;熱穩(wěn)定性等。

最后,關(guān)于訓(xùn)練模型到底要用多少塊 GPU,文章指出決策的核心在于訓(xùn)練時(shí)間、成本與擴(kuò)展效率之間權(quán)衡的過程。用一個(gè)公式來估算就是:



其中,所需總 FLOPs,訓(xùn)練模型所需的計(jì)算量,取決于模型規(guī)模、訓(xùn)練 token 數(shù)量和架構(gòu)設(shè)計(jì);單 GPU 吞吐量,即每張 GPU 際每秒可執(zhí)行的 FLOPs 數(shù)量;目標(biāo)訓(xùn)練時(shí)長,就是你期望訓(xùn)練完成所需的時(shí)間。

以 SmolLM3 為例,根據(jù)模型規(guī)模 30 億參數(shù)、訓(xùn)練 token 數(shù):11 萬億、目標(biāo)訓(xùn)練時(shí)間約 4 周等信息,代入 GPU 需求公式得出的結(jié)果約為 379 GPUs。

這一計(jì)算結(jié)果指向了一個(gè)合理的范圍:約 375–400 張 H100 GPU,而最后實(shí)際上是部署了 384 張 H100,這一規(guī)模既符合我們的并行化策略(parallelism strategy),也為訓(xùn)練中可能出現(xiàn)的節(jié)點(diǎn)故障、重啟等意外情況預(yù)留了充足的緩沖空間,從而確保模型能在約 4 周時(shí)間內(nèi)順利完成訓(xùn)練。

而這也再次證明基礎(chǔ)設(shè)施對(duì)于模型訓(xùn)練的重要性,不要忽視它!

更多信息,可以查看原文!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國內(nèi)自駕游最經(jīng)典的27條路線,適合退休人士,爭取一年走2條!

國內(nèi)自駕游最經(jīng)典的27條路線,適合退休人士,爭取一年走2條!

走吧自駕游
2025-11-05 18:04:38
俄媒:增加對(duì)華出口將使俄氣公司的收入在2029年前增長20%,凈利潤增長23%

俄媒:增加對(duì)華出口將使俄氣公司的收入在2029年前增長20%,凈利潤增長23%

俄羅斯衛(wèi)星通訊社
2025-11-09 16:14:43
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
她這大體格身材,目測(cè)身高185,顏值不低,啥人能配的上她呢

她這大體格身材,目測(cè)身高185,顏值不低,啥人能配的上她呢

草莓解說體育
2025-10-18 00:03:22
江西棄嬰被加拿大夫婦收養(yǎng),獲奧運(yùn)會(huì)冠軍后稱:我不會(huì)認(rèn)親生父母

江西棄嬰被加拿大夫婦收養(yǎng),獲奧運(yùn)會(huì)冠軍后稱:我不會(huì)認(rèn)親生父母

卷史
2025-11-08 14:48:31
辛芷蕾硬剛郝蕾!發(fā)文否認(rèn)靠花錢運(yùn)作拿獎(jiǎng),網(wǎng)友:聲音越響心越虛

辛芷蕾硬剛郝蕾!發(fā)文否認(rèn)靠花錢運(yùn)作拿獎(jiǎng),網(wǎng)友:聲音越響心越虛

小海娛計(jì)
2025-11-07 16:21:38
霍啟剛也沒想到,他79歲的父親霍震霆,如今還能再為霍家“爭光”

霍啟剛也沒想到,他79歲的父親霍震霆,如今還能再為霍家“爭光”

墨羽怪談
2025-11-07 22:27:16
萬科欠社會(huì)一個(gè)真相,高管欠大眾一個(gè)交代,深鐵欠國家一絲作為

萬科欠社會(huì)一個(gè)真相,高管欠大眾一個(gè)交代,深鐵欠國家一絲作為

我不叫阿哏
2025-11-10 10:29:21
網(wǎng)友改裝167度電池純電車 續(xù)航破千公里 還帶家人上路

網(wǎng)友改裝167度電池純電車 續(xù)航破千公里 還帶家人上路

手機(jī)中國
2025-11-07 15:46:03
一周最少一百次!45歲男子查出雙腎壞死,醫(yī)生:多次勸,就不聽!

一周最少一百次!45歲男子查出雙腎壞死,醫(yī)生:多次勸,就不聽!

觀星賞月
2025-11-10 11:14:42
俄羅斯讓中國心寒?比西方圍堵更恐怖的,是我們看輕了自己的實(shí)力

俄羅斯讓中國心寒?比西方圍堵更恐怖的,是我們看輕了自己的實(shí)力

老范談史
2025-11-09 01:20:39
馬卡:小西蒙尼如今表現(xiàn)出色,離不開去年梅西對(duì)他的明智建議

馬卡:小西蒙尼如今表現(xiàn)出色,離不開去年梅西對(duì)他的明智建議

懂球帝
2025-11-09 20:50:05
副院長和女主任值班室“加班”,監(jiān)控全拍下來了!

副院長和女主任值班室“加班”,監(jiān)控全拍下來了!

聽風(fēng)聽你
2025-11-06 18:53:41
明明祖副院長的護(hù)士長妻子貌美如花,為何輸給了其貌不揚(yáng)的曾醫(yī)生

明明祖副院長的護(hù)士長妻子貌美如花,為何輸給了其貌不揚(yáng)的曾醫(yī)生

剛哥說法365
2025-11-09 19:28:35
趙露思伯樂兼經(jīng)紀(jì)人李煒首次公開發(fā)文,網(wǎng)友紛紛評(píng)論區(qū)喊話

趙露思伯樂兼經(jīng)紀(jì)人李煒首次公開發(fā)文,網(wǎng)友紛紛評(píng)論區(qū)喊話

花心電影
2025-11-10 08:52:18
朱德去世后,中央費(fèi)盡周折在攀枝花找到一名老婦,幫他完成遺愿

朱德去世后,中央費(fèi)盡周折在攀枝花找到一名老婦,幫他完成遺愿

丞丞故事匯
2025-11-02 13:43:12
金門馬祖成“空城”!臺(tái)軍精銳突然撤離,專家:這是給解放軍送“見面禮”

金門馬祖成“空城”!臺(tái)軍精銳突然撤離,專家:這是給解放軍送“見面禮”

起喜電影
2025-11-10 10:59:27
我在部隊(duì)當(dāng)了5年通訊兵,退伍發(fā)現(xiàn)村后頭的信號(hào)塔每晚都準(zhǔn)時(shí)閃3下

我在部隊(duì)當(dāng)了5年通訊兵,退伍發(fā)現(xiàn)村后頭的信號(hào)塔每晚都準(zhǔn)時(shí)閃3下

五元講堂
2025-11-05 10:35:02
大家別被電視劇沉默的榮耀給騙了,真實(shí)的吳石將軍其實(shí)是這樣!

大家別被電視劇沉默的榮耀給騙了,真實(shí)的吳石將軍其實(shí)是這樣!

生性灑脫
2025-11-07 11:59:03
22歲中國小伙連贏3個(gè)老外奪冠

22歲中國小伙連贏3個(gè)老外奪冠

大象新聞
2025-11-10 11:46:05
2025-11-10 12:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11679文章數(shù) 142502關(guān)注度
往期回顧 全部

科技要聞

存儲(chǔ)芯片大廠漲價(jià)50%!華強(qiáng)北一天一個(gè)價(jià)

頭條要聞

牛彈琴:特朗普宣布要發(fā)錢了 每個(gè)美國人至少2000美元

頭條要聞

牛彈琴:特朗普宣布要發(fā)錢了 每個(gè)美國人至少2000美元

體育要聞

戰(zhàn)績崩盤!東契奇交易余震撕裂獨(dú)行俠

娛樂要聞

郝蕾風(fēng)波升級(jí)?

財(cái)經(jīng)要聞

俄羅斯大幅加稅 中國汽車出口驟降58%

汽車要聞

智能又務(wù)實(shí) 奇瑞瑞虎9X不只有性價(jià)比

態(tài)度原創(chuàng)

旅游
健康
藝術(shù)
教育
時(shí)尚

旅游要聞

行進(jìn)的海岸線丨渤海灣畔“漁旅融合” 小漁村啟動(dòng)藍(lán)色新引擎

超聲探頭會(huì)加重受傷情況嗎?

藝術(shù)要聞

“隸書之冠”劉炳森:楷書藝術(shù)之美驚艷四座

教育要聞

成都中小學(xué)生喜提秋假!不掃興的爸媽這樣安排

“小黑靴”今年冬天又火了!這4組搭配照著搭就很時(shí)髦

無障礙瀏覽 進(jìn)入關(guān)懷版 久久久久久动漫| 2020国产在线视精品在| 无码精品人娄一区二区三区涊爱| 久久久国产精品黄毛片| 人人妻人人人澡人人爽欧美一区| 人妻内射一区二区在线视频| 92精品国产自产在线观看481页 | 美国日本在线| 色五月女人影视| 丰满少妇与性猛交| 国产香蕉国产精品偷在线观看| 色欲人妻破解| 国产成人手机高清在线观看网站 | 国产一级做人aC视频| 粉嫩蜜臀av一区二区三区| 日本高潮少妇一区二区| 爆乳熟妇一区二区三区| 亚洲一区二区黄| 国产精品不卡一区二区在线| 亚洲熟妇无码AV在线少妇| 成人免费日韩一区| 精品高潮久久| 人人草人人干人人草| 人人摸人人插| 欧美裸体XXX极品少妇| 精品无码国产一区二区三区51安| 嫖富婆舒服一区二区| 强伦人妻一区二区三区视频18| 69人妻精品中文字幕| 人人透人人爽| 日韩小视频在线观看| 操老熟女操老女人| 泰国性XXXX极品高清HD| 2020高清无马视频无套内射| 熟女国产乱伦| 欧美日韩专区| www.好屌妞.com| 天天做夜夜爽| 在线亚洲妇色中文色综合| 国产又色又爽又黄的视频在线| 亚洲国产精品综合久久网各|