網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta沒做的，英偉達(dá)做了！全新架構(gòu)吞吐量狂飆6倍，20萬億Token訓(xùn)練

2025-08-19 09:18:14　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧

【新智元導(dǎo)讀】英偉達(dá)發(fā)布全新架構(gòu)9B模型，以Mamba-Transformer混合架構(gòu)實(shí)現(xiàn)推理吞吐量最高提升6倍，對(duì)標(biāo)Qwen3-8B并在數(shù)學(xué)、代碼、推理與長(zhǎng)上下文任務(wù)中表現(xiàn)持平或更優(yōu)。

萬萬沒想到，現(xiàn)在還緊跟我們的開源模型竟然是英偉達(dá)。

剛剛，英偉達(dá)發(fā)布了一個(gè)只有9B大小的NVIDIA Nemotron Nano 2模型。

對(duì)標(biāo)的是業(yè)界標(biāo)桿，千問的Qwen3-8B，但這個(gè)模型是一個(gè)完全不同的混合架構(gòu)。

用英偉達(dá)的說法，這是一款革命性的Mamba-Transformer混合架構(gòu)語言模型。

在復(fù)雜推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率，并且吞吐量最高可達(dá)其6倍。

它的誕生只有一個(gè)目標(biāo)：在復(fù)雜的推理任務(wù)中，實(shí)現(xiàn)無與倫比的吞吐量，同時(shí)保持同級(jí)別模型中頂尖的精度！

在官網(wǎng)簡(jiǎn)單測(cè)試一下，一些經(jīng)典問題，都能答對(duì)。

英偉達(dá)還做了3個(gè)小工具，可以實(shí)時(shí)查天氣、描述哈利波特里的角色和幫你想顏色。

不過9B模型還是小了點(diǎn)，當(dāng)你問「SamAltman、馬斯克和黃仁勛誰更值得信任」時(shí)，模型會(huì)犯蠢把馬斯克翻譯成麻克，哈哈哈。

而且，也不愧是親兒子，模型認(rèn)為黃仁勛最值得信任。

速度的奧秘

Mamba-2架構(gòu)加持！

Nemotron-Nano-9B-v2的強(qiáng)大，源于其創(chuàng)新的Nemotron-H架構(gòu)。

用閃電般快速的Mamba-2層，替換了傳統(tǒng)Transformer架構(gòu)中絕大多數(shù)的自注意力層。

當(dāng)模型需要進(jìn)行長(zhǎng)篇大論的思考、生成復(fù)雜的長(zhǎng)思維鏈時(shí)，它的推理速度得到了史詩級(jí)的提升！

簡(jiǎn)單介紹下Mamba架構(gòu)

我們都知道Transformer架構(gòu)，但是這么年過去，有沒有新架構(gòu)出現(xiàn)？

有的。

比如Meta公開推進(jìn)JEPA（聯(lián)合嵌入預(yù)測(cè)架構(gòu)）和大概念模型（LCMs）、狀態(tài)空間模型（就是Mamba）、記憶模型或擴(kuò)散語言模型等。

谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了約50%研究力量。

OpenAI雖然嘴上說著有信心訓(xùn)練到GPT-8，但很可能也在儲(chǔ)備新架構(gòu)。

而根據(jù)Reddit社區(qū)的討論，Ilya的SSI最可能就是用全新的架構(gòu)，但是什么，還沒人知道。

Mamba是一種完全無注意力機(jī)制的序列建模架構(gòu)，基于結(jié)構(gòu)化狀態(tài)空間模型（SSMs）。

通過「選擇性機(jī)制」根據(jù)當(dāng)前輸入動(dòng)態(tài)調(diào)整參數(shù)，從而專注于保留相關(guān)信息并忽略無關(guān)信息。

在處理超長(zhǎng)序列時(shí)，Mamba的推理速度據(jù)稱可比Transformer快3–5倍，且其復(fù)雜度為線性級(jí)別，支持極長(zhǎng)的上下文（甚至達(dá)到百萬級(jí)token）。

為什么要混合Mamba與Transformer？

Transformer雖然效果出眾，但在處理長(zhǎng)序列時(shí)存在顯著的計(jì)算和內(nèi)存瓶頸（自注意力機(jī)制導(dǎo)致的O(n^2)規(guī)模）。

而Mamba擅長(zhǎng)在長(zhǎng)上下文中高效建模，但在「記憶復(fù)制（copying）」或「上下文學(xué)習(xí)（in?contextlearning）」等任務(wù)上可能稍顯不足。

從120億到90億的極限淬煉

NemotronNanov2的訓(xùn)練按照下面幾個(gè)步驟：

· 「暴力」預(yù)訓(xùn)練

首先在一個(gè)擁有20萬億Token的海量數(shù)據(jù)集上，利用先進(jìn)的FP8訓(xùn)練方案，鍛造出一個(gè)120億參數(shù)基礎(chǔ)模型——Nemotron-Nano-12B-v2-Base。

這聽著就非常像DeepSeek-R1：DeepSeek?R1-Zero是直接基于DeepSeek?V3-Base進(jìn)行純強(qiáng)化學(xué)習(xí)訓(xùn)練的初始模型。

而DeepSeek?R1則在此基礎(chǔ)上加入了監(jiān)督微調(diào)作為冷啟動(dòng)，再用強(qiáng)化學(xué)習(xí)精煉，從而獲得更好的可讀性與性能。

Nemotron-Nano-12B-v2-Base的預(yù)訓(xùn)練，涵蓋高質(zhì)量網(wǎng)頁、多語言、數(shù)學(xué)、代碼、學(xué)術(shù)等數(shù)據(jù)，重點(diǎn)構(gòu)建了高保真的數(shù)學(xué)和代碼數(shù)據(jù)集。

· 極限壓縮與蒸餾

結(jié)合SFT、DPO、GRPO、RLHF等多階段對(duì)齊方法，提升了推理、對(duì)話、工具調(diào)用與安全性。

完成對(duì)齊后，祭出Minitron策略，對(duì)這個(gè)120B參數(shù)的模型進(jìn)行極限壓縮與蒸餾。

Minitron策略是一種由NVIDIA提出的模型壓縮方法，主要通過結(jié)構(gòu)化剪枝（pruning）與知識(shí)蒸餾（distillation）來實(shí)現(xiàn)對(duì)大型語言模型的高效壓縮與性能保持。

· 最終目標(biāo)

通過Minitron剪枝與蒸餾，將12B基礎(chǔ)模型壓縮為9B參數(shù)，確保單張A10GGPU（22GiB）即可支持128k上下文。

性能碾壓，精度與速度全都要！

是騾子是馬，拉出來遛遛！

與Qwen3-8B等同級(jí)別強(qiáng)手相比，Nemotron-Nano-9B-v2在各大推理基準(zhǔn)測(cè)試中，精度平起平坐，甚至更勝一籌！

在數(shù)學(xué)（GSM8K、MATH）、代碼（HumanEval+、MBPP+）、通用推理（MMLU-Pro）、長(zhǎng)上下文（RULER128k）等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于或持平同類開源模型（如Qwen3-8B、Gemma3-12B）.

并在8k輸入/16k輸出場(chǎng)景下實(shí)現(xiàn)6.3×吞吐量提升。

全面開源

英偉達(dá)宣布在HuggingFace平臺(tái)上，全面開放以下資源：

正在HuggingFace上發(fā)布以下三個(gè)模型，它們均支持128K的上下文長(zhǎng)度：

NVIDIA-Nemotron-Nano-9B-v2：對(duì)齊并剪枝的推理模型
NVIDIA-Nemotron-Nano-9B-v2-Base：一個(gè)經(jīng)過剪枝的基礎(chǔ)模型
NVIDIA-Nemotron-Nano-12B-v2-Base：對(duì)齊或剪枝之前的基模型

除了模型，英偉達(dá)表示我們的數(shù)據(jù)集也很強(qiáng)，并開源了用于預(yù)訓(xùn)練的大部分?jǐn)?shù)據(jù)。

Nemotron-Pre-Training-Dataset-v1數(shù)據(jù)集集合包含6.6萬億個(gè)高質(zhì)量網(wǎng)頁爬取、數(shù)學(xué)、代碼、SFT和多語言問答數(shù)據(jù)的token，該數(shù)據(jù)集被組織為四個(gè)類別：

Nemotron-CC-v2：Nemotron-CC（Su等，2025）的后續(xù)版本，新增了八組CommonCrawl快照（2024–2025）。該數(shù)據(jù)經(jīng)過全局去重，并使用Qwen3-30B-A3B進(jìn)行了合成改寫。此外，它還包含以15種語言翻譯的合成多樣化問答對(duì)，支持強(qiáng)大的多語言推理和通用知識(shí)預(yù)訓(xùn)練。
Nemotron-CC-Math-v1：一個(gè)專注于數(shù)學(xué)的1330億Tokens數(shù)據(jù)集，源自NVIDIA的Lynx+LLM流水線對(duì)CommonCrawl的處理結(jié)果，該方法在將數(shù)學(xué)內(nèi)容標(biāo)準(zhǔn)化為L(zhǎng)aTeX的同時(shí)保留了公式和代碼格式。這確保了關(guān)鍵的數(shù)學(xué)內(nèi)容和代碼片段保持完整，從而生成出在基準(zhǔn)測(cè)試中優(yōu)于以往數(shù)學(xué)數(shù)據(jù)集的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。
Nemotron-Pretraining-Code-v1：一個(gè)大規(guī)模的精選代碼數(shù)據(jù)集，來源為GitHub，經(jīng)過多階段去重、許可證執(zhí)行和啟發(fā)式質(zhì)量檢查篩選。該數(shù)據(jù)集還包含11種編程語言的LLM生成代碼問答對(duì)。
Nemotron-Pretraining-SFT-v1：一個(gè)合成生成的數(shù)據(jù)集，涵蓋STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)）、學(xué)術(shù)、推理及多語言領(lǐng)域。其中包括從高質(zhì)量的數(shù)學(xué)和科學(xué)原始數(shù)據(jù)中生成的復(fù)雜選擇題和分析型問題、研究生水平的學(xué)術(shù)文本，以及涵蓋數(shù)學(xué)、編程、通用問答和推理任務(wù)的指令調(diào)優(yōu)SFT數(shù)據(jù)。
Nemotron-Pretraining-Dataset-sample：數(shù)據(jù)集的一個(gè)小規(guī)模采樣版本提供了10個(gè)具有代表性的子集，展示了高質(zhì)量的問答數(shù)據(jù)、面向數(shù)學(xué)的抽取內(nèi)容、代碼元數(shù)據(jù)以及SFT風(fēng)格的指令數(shù)據(jù)。

最后是感慨下，Meta作為一開始的開源旗幟，現(xiàn)在也逐漸開始轉(zhuǎn)向閉源，或者起碼是在Llama上的策略已經(jīng)被調(diào)整。

目前真正在開源領(lǐng)域努力還是以國內(nèi)的模型為主，雖然OpenAI前不久也開源了兩個(gè)，不過雷聲大雨點(diǎn)小。

英偉達(dá)雖然一直賣鏟子，但也靜悄悄的發(fā)布了不少開源。

感興趣可以在如下網(wǎng)址體驗(yàn)，除了英偉達(dá)自家的，很多開源模型都能找到。

模型體驗(yàn)網(wǎng)址：

https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2

參考資料：

https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.