Huggingface 發(fā)布 SmolLM3 3B LLM
性能上超越 Llama-3.2-3B 和 Qwen2.5-3B,同時與更大的 4B 模型 Gemma3 持平
除了開源模型本身外,還開源了使用公共數(shù)據(jù)集和訓(xùn)練框架訓(xùn)練模型的方法
- 3B 模型在 11T Toekn 上訓(xùn)練
- 具備雙模式推理的指令模型
-支持 6 種語言的多語言
- 最長支持 128K 上下文
架構(gòu)與訓(xùn)練細(xì)節(jié)
采用 Transformer 解碼器架構(gòu),基于 Llama 并做了多項優(yōu)化:
Grouped Query Attention : 替換多頭注意力,減少推理時 KV cache 占用。
NoPE: 部分層移除旋轉(zhuǎn)位置編碼,提升長上下文表現(xiàn)。
Intra-Document Masking: 保證同一序列不同文檔間不可互相注意,提升訓(xùn)練穩(wěn)定性。
Embedding 層無權(quán)重衰減: 參考 OLMo 2,提升訓(xùn)練穩(wěn)定性。
訓(xùn)練配置:2.36M tokens 全局 batch,序列長度 4096,AdamW 優(yōu)化器,24 天內(nèi)用 384 張 H100 GPU 訓(xùn)練。
數(shù)據(jù)混合與多階段訓(xùn)練
采用三階段訓(xùn)練策略,逐步調(diào)整 Web、代碼、數(shù)學(xué)數(shù)據(jù)比例,總計訓(xùn)練 11.2T tokens。
階段 1:以 Web 數(shù)據(jù)為主,奠定基礎(chǔ)能力。
階段 2:提升高質(zhì)量數(shù)學(xué)和代碼數(shù)據(jù)比例。
階段 3:進(jìn)一步提升數(shù)學(xué)和代碼數(shù)據(jù)占比,加入推理數(shù)據(jù)。
訓(xùn)練后期進(jìn)行“mid-training”,分別針對長上下文和推理能力做短期訓(xùn)練。
長上下文與推理能力提升
長上下文擴展:通過兩階段訓(xùn)練將上下文窗口從 4k 擴展到 64k,并用 YARN 技術(shù)在推理時支持到 128k。
后訓(xùn)練與模型對齊
采用雙模式 chat 模板,用戶可通過 `/think`和 `/no_think`切換模式。
支持工具調(diào)用(XML/Python 工具)。
SFT 階段用 1.8B tokens 進(jìn)行監(jiān)督微調(diào),平衡推理與非推理能力。
用 Anchored Preference Optimization (APO) 進(jìn)行偏好對齊,提升模型輸出質(zhì)量。
通過模型合并(MergeKit),結(jié)合 APO 檢查點和長上下文能力強的中間模型,最終模型兼顧推理和長上下文表現(xiàn)。
詳細(xì)信息:huggingface.co/blog/smollm3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.