新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】英偉達(dá)發(fā)布全新架構(gòu)9B模型,以Mamba-Transformer混合架構(gòu)實(shí)現(xiàn)推理吞吐量最高提升6倍,對(duì)標(biāo)Qwen3-8B并在數(shù)學(xué)、代碼、推理與長(zhǎng)上下文任務(wù)中表現(xiàn)持平或更優(yōu)。
萬萬沒想到,現(xiàn)在還緊跟我們的開源模型竟然是英偉達(dá)。
剛剛,英偉達(dá)發(fā)布了一個(gè)只有9B大小的NVIDIA Nemotron Nano 2模型。
對(duì)標(biāo)的是業(yè)界標(biāo)桿,千問的Qwen3-8B,但這個(gè)模型是一個(gè)完全不同的混合架構(gòu)。
用英偉達(dá)的說法,這是一款革命性的Mamba-Transformer混合架構(gòu)語言模型。
在復(fù)雜推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。
它的誕生只有一個(gè)目標(biāo):在復(fù)雜的推理任務(wù)中,實(shí)現(xiàn)無與倫比的吞吐量,同時(shí)保持同級(jí)別模型中頂尖的精度!
在官網(wǎng)簡(jiǎn)單測(cè)試一下,一些經(jīng)典問題,都能答對(duì)。
英偉達(dá)還做了3個(gè)小工具,可以實(shí)時(shí)查天氣、描述哈利波特里的角色和幫你想顏色。
不過9B模型還是小了點(diǎn),當(dāng)你問「SamAltman、馬斯克和黃仁勛誰更值得信任」時(shí),模型會(huì)犯蠢把馬斯克翻譯成麻克,哈哈哈。
而且,也不愧是親兒子,模型認(rèn)為黃仁勛最值得信任。
速度的奧秘
Mamba-2架構(gòu)加持!
Nemotron-Nano-9B-v2的強(qiáng)大,源于其創(chuàng)新的Nemotron-H架構(gòu)。
用閃電般快速的Mamba-2層,替換了傳統(tǒng)Transformer架構(gòu)中絕大多數(shù)的自注意力層。
當(dāng)模型需要進(jìn)行長(zhǎng)篇大論的思考、生成復(fù)雜的長(zhǎng)思維鏈時(shí),它的推理速度得到了史詩級(jí)的提升!
簡(jiǎn)單介紹下Mamba架構(gòu)
我們都知道Transformer架構(gòu),但是這么年過去,有沒有新架構(gòu)出現(xiàn)?
有的。
比如Meta公開推進(jìn)JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))和大概念模型(LCMs)、狀態(tài)空間模型(就是Mamba)、記憶模型或擴(kuò)散語言模型等。
谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了約50%研究力量。
OpenAI雖然嘴上說著有信心訓(xùn)練到GPT-8,但很可能也在儲(chǔ)備新架構(gòu)。
而根據(jù)Reddit社區(qū)的討論,Ilya的SSI最可能就是用全新的架構(gòu),但是什么,還沒人知道。
Mamba是一種完全無注意力機(jī)制的序列建模架構(gòu),基于結(jié)構(gòu)化狀態(tài)空間模型(SSMs)。
通過「選擇性機(jī)制」根據(jù)當(dāng)前輸入動(dòng)態(tài)調(diào)整參數(shù),從而專注于保留相關(guān)信息并忽略無關(guān)信息。
在處理超長(zhǎng)序列時(shí),Mamba的推理速度據(jù)稱可比Transformer快3–5倍,且其復(fù)雜度為線性級(jí)別,支持極長(zhǎng)的上下文(甚至達(dá)到百萬級(jí)token)。
為什么要混合Mamba與Transformer?
Transformer雖然效果出眾,但在處理長(zhǎng)序列時(shí)存在顯著的計(jì)算和內(nèi)存瓶頸(自注意力機(jī)制導(dǎo)致的O(n^2)規(guī)模)。
而Mamba擅長(zhǎng)在長(zhǎng)上下文中高效建模,但在「記憶復(fù)制(copying)」或「上下文學(xué)習(xí)(in?contextlearning)」等任務(wù)上可能稍顯不足。
從120億到90億的極限淬煉
NemotronNanov2的訓(xùn)練按照下面幾個(gè)步驟:
· 「暴力」預(yù)訓(xùn)練
首先在一個(gè)擁有20萬億Token的海量數(shù)據(jù)集上,利用先進(jìn)的FP8訓(xùn)練方案,鍛造出一個(gè)120億參數(shù)基礎(chǔ)模型——Nemotron-Nano-12B-v2-Base。
這聽著就非常像DeepSeek-R1:DeepSeek?R1-Zero是直接基于DeepSeek?V3-Base進(jìn)行純強(qiáng)化學(xué)習(xí)訓(xùn)練的初始模型。
而DeepSeek?R1則在此基礎(chǔ)上加入了監(jiān)督微調(diào)作為冷啟動(dòng),再用強(qiáng)化學(xué)習(xí)精煉,從而獲得更好的可讀性與性能。
Nemotron-Nano-12B-v2-Base的預(yù)訓(xùn)練,涵蓋高質(zhì)量網(wǎng)頁、多語言、數(shù)學(xué)、代碼、學(xué)術(shù)等數(shù)據(jù),重點(diǎn)構(gòu)建了高保真的數(shù)學(xué)和代碼數(shù)據(jù)集。
· 極限壓縮與蒸餾
結(jié)合SFT、DPO、GRPO、RLHF等多階段對(duì)齊方法,提升了推理、對(duì)話、工具調(diào)用與安全性。
完成對(duì)齊后,祭出Minitron策略,對(duì)這個(gè)120B參數(shù)的模型進(jìn)行極限壓縮與蒸餾。
Minitron策略是一種由NVIDIA提出的模型壓縮方法,主要通過結(jié)構(gòu)化剪枝(pruning)與知識(shí)蒸餾(distillation)來實(shí)現(xiàn)對(duì)大型語言模型的高效壓縮與性能保持。
· 最終目標(biāo)
通過Minitron剪枝與蒸餾,將12B基礎(chǔ)模型壓縮為9B參數(shù),確保單張A10GGPU(22GiB)即可支持128k上下文。
性能碾壓,精度與速度全都要!
是騾子是馬,拉出來遛遛!
與Qwen3-8B等同級(jí)別強(qiáng)手相比,Nemotron-Nano-9B-v2在各大推理基準(zhǔn)測(cè)試中,精度平起平坐,甚至更勝一籌!
在數(shù)學(xué)(GSM8K、MATH)、代碼(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、長(zhǎng)上下文(RULER128k)等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于或持平同類開源模型(如Qwen3-8B、Gemma3-12B).
并在8k輸入/16k輸出場(chǎng)景下實(shí)現(xiàn)6.3×吞吐量提升。
全面開源
英偉達(dá)宣布在HuggingFace平臺(tái)上,全面開放以下資源:
正在HuggingFace上發(fā)布以下三個(gè)模型,它們均支持128K的上下文長(zhǎng)度:
NVIDIA-Nemotron-Nano-9B-v2:對(duì)齊并剪枝的推理模型
NVIDIA-Nemotron-Nano-9B-v2-Base:一個(gè)經(jīng)過剪枝的基礎(chǔ)模型
NVIDIA-Nemotron-Nano-12B-v2-Base:對(duì)齊或剪枝之前的基模型
除了模型,英偉達(dá)表示我們的數(shù)據(jù)集也很強(qiáng),并開源了用于預(yù)訓(xùn)練的大部分?jǐn)?shù)據(jù)。
Nemotron-Pre-Training-Dataset-v1數(shù)據(jù)集集合包含6.6萬億個(gè)高質(zhì)量網(wǎng)頁爬取、數(shù)學(xué)、代碼、SFT和多語言問答數(shù)據(jù)的token,該數(shù)據(jù)集被組織為四個(gè)類別:
Nemotron-CC-v2:Nemotron-CC(Su等,2025)的后續(xù)版本,新增了八組CommonCrawl快照(2024–2025)。該數(shù)據(jù)經(jīng)過全局去重,并使用Qwen3-30B-A3B進(jìn)行了合成改寫。此外,它還包含以15種語言翻譯的合成多樣化問答對(duì),支持強(qiáng)大的多語言推理和通用知識(shí)預(yù)訓(xùn)練。
Nemotron-CC-Math-v1:一個(gè)專注于數(shù)學(xué)的1330億Tokens數(shù)據(jù)集,源自NVIDIA的Lynx+LLM流水線對(duì)CommonCrawl的處理結(jié)果,該方法在將數(shù)學(xué)內(nèi)容標(biāo)準(zhǔn)化為L(zhǎng)aTeX的同時(shí)保留了公式和代碼格式。這確保了關(guān)鍵的數(shù)學(xué)內(nèi)容和代碼片段保持完整,從而生成出在基準(zhǔn)測(cè)試中優(yōu)于以往數(shù)學(xué)數(shù)據(jù)集的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。
Nemotron-Pretraining-Code-v1:一個(gè)大規(guī)模的精選代碼數(shù)據(jù)集,來源為GitHub,經(jīng)過多階段去重、許可證執(zhí)行和啟發(fā)式質(zhì)量檢查篩選。該數(shù)據(jù)集還包含11種編程語言的LLM生成代碼問答對(duì)。
Nemotron-Pretraining-SFT-v1:一個(gè)合成生成的數(shù)據(jù)集,涵蓋STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、學(xué)術(shù)、推理及多語言領(lǐng)域。其中包括從高質(zhì)量的數(shù)學(xué)和科學(xué)原始數(shù)據(jù)中生成的復(fù)雜選擇題和分析型問題、研究生水平的學(xué)術(shù)文本,以及涵蓋數(shù)學(xué)、編程、通用問答和推理任務(wù)的指令調(diào)優(yōu)SFT數(shù)據(jù)。
Nemotron-Pretraining-Dataset-sample:數(shù)據(jù)集的一個(gè)小規(guī)模采樣版本提供了10個(gè)具有代表性的子集,展示了高質(zhì)量的問答數(shù)據(jù)、面向數(shù)學(xué)的抽取內(nèi)容、代碼元數(shù)據(jù)以及SFT風(fēng)格的指令數(shù)據(jù)。
最后是感慨下,Meta作為一開始的開源旗幟,現(xiàn)在也逐漸開始轉(zhuǎn)向閉源,或者起碼是在Llama上的策略已經(jīng)被調(diào)整。
目前真正在開源領(lǐng)域努力還是以國內(nèi)的模型為主,雖然OpenAI前不久也開源了兩個(gè),不過雷聲大雨點(diǎn)小。
英偉達(dá)雖然一直賣鏟子,但也靜悄悄的發(fā)布了不少開源。
感興趣可以在如下網(wǎng)址體驗(yàn),除了英偉達(dá)自家的,很多開源模型都能找到。
模型體驗(yàn)網(wǎng)址:
https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2
參考資料:
https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.