新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】Jet-Nemotron是英偉達(dá)最新推出的小模型系列(2B/4B),由全華人團(tuán)隊(duì)打造。其核心創(chuàng)新在于提出后神經(jīng)架構(gòu)搜索(PostNAS)與新型線性注意力模塊JetBlock,實(shí)現(xiàn)了從預(yù)訓(xùn)練Transformer出發(fā)的高效架構(gòu)優(yōu)化。相比Qwen3、Gemma3、Llama3.2等模型,Jet-Nemotron在數(shù)學(xué)、代碼、常識(shí)、檢索和長上下文等維度上準(zhǔn)確率更高,同時(shí)在H100 GPU上推理吞吐量最高提升至53倍。
英偉達(dá)最近真的癡迷上「小模型」了。
剛剛,英偉達(dá)發(fā)布了一個(gè)全新的混合架構(gòu)語言模型系列,Jet-Nemotron。
論文地址:https://arxiv.org/pdf/2508.15884
項(xiàng)目地址:https://github.com/NVlabs/Jet-Nemotron
Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。
英偉達(dá)表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等當(dāng)前最先進(jìn)的開源全注意力語言模型。
同時(shí)實(shí)現(xiàn)了顯著的效率提升,在H100 GPU上生成吞吐量最高可提升53.6倍。
在右上角的雷達(dá)圖中,可以看到Jet-Nemotron簡直就是六邊形戰(zhàn)士。
Jet-Nemotron-4B模型在六個(gè)維度MMLU-pro、Math、Retrieval、Commonsense、Code、Long幾乎都拉滿。
在預(yù)填充和解碼階段,Jet-Nemotron-2B在上下文越增加的情況下,相對Qwen 3-1.7B優(yōu)勢越夸張。
一句話總結(jié)就是同等硬件與評(píng)測設(shè)置下,Jet-Nemotron在長上下文的場景里,把吞吐做到了數(shù)量級(jí)提升(解碼可達(dá)50倍提升)。
同時(shí)在常識(shí)/數(shù)學(xué)/代碼/檢索/長上下文等維度的準(zhǔn)確率不降反升。
相較傳統(tǒng)全注意力小模型又快又準(zhǔn)。
看來,英偉達(dá)盯上了小模型Small Model這個(gè)領(lǐng)域。
上一周,他們剛剛發(fā)布了只有9B大小的NVIDIA Nemotron Nano 2模型。
在復(fù)雜推理基準(zhǔn)測試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。
今天就推出了更小的Jet系列,體量降到了2B和4B模型。
核心創(chuàng)新
Jet-Nemotron有兩項(xiàng)核心創(chuàng)新。
后神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(Post Neural Architecture Search,PostNAS),這是一個(gè)高效的訓(xùn)練后架構(gòu)探索與適應(yīng)流程,適用于任意預(yù)訓(xùn)練的Transformer模型;
JetBlock,一種新型線性注意力模塊,其性能顯著優(yōu)于先前的設(shè)計(jì),如Mamba2。
PostNAS:訓(xùn)練后架構(gòu)探索與適配
與之前從頭開始訓(xùn)練以探索新模型架構(gòu)的方法不同,PostNAS在預(yù)訓(xùn)練的Transformer模型基礎(chǔ)上進(jìn)行構(gòu)建。
同時(shí)支持對注意力塊設(shè)計(jì)的靈活探索,從而大大降低了開發(fā)新語言模型架構(gòu)的成本和風(fēng)險(xiǎn)。
PostNAS首先確定全注意力層的最佳放置位置,然后再搜索改進(jìn)的注意力塊設(shè)計(jì)。
PostNAS從一個(gè)已預(yù)訓(xùn)練的全注意力模型出發(fā),并將MLP凍結(jié)。
隨后對高效注意力塊的設(shè)計(jì)進(jìn)行由粗到細(xì)的搜索:
先確定全注意力層的最優(yōu)放置位置,再選擇最合適的線性注意力塊或采用新的線性注意力塊,最后搜索最優(yōu)的架構(gòu)超參數(shù)。
通過將PostNAS應(yīng)用于基線模型后,在所有基準(zhǔn)測試上都取得了顯著的準(zhǔn)確率提升。
在預(yù)訓(xùn)練的Transformer模型中,并非所有注意力層的貢獻(xiàn)都是相同的。
PostNAS揭示了預(yù)訓(xùn)練Transformer模型中重要的注意力層。
KV緩存大小是影響長上下文和長生成吞吐量的最關(guān)鍵因素。
PostNAS硬件感知搜索能夠發(fā)現(xiàn)一些架構(gòu),在保持相似生成吞吐量的同時(shí),擁有更多參數(shù)并實(shí)現(xiàn)更高的準(zhǔn)確性。
JetBlock: 一種具有SOTA準(zhǔn)確率的新型線性注意力模塊
通過PostNAS,引入了JetBlock:一種新穎的線性注意力模塊,它將動(dòng)態(tài)卷積與硬件感知架構(gòu)搜索相結(jié)合,以增強(qiáng)線性注意力,在保持與先前設(shè)計(jì)相似的訓(xùn)練和推理吞吐量的同時(shí),實(shí)現(xiàn)了顯著的準(zhǔn)確率提升。
下方使用完全相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練方案,對Mamba2 Block與JetBlock進(jìn)行了公平的對比。
性能
Jet-Nemotron-2B和Jet-Nemotron-4B在全面的基準(zhǔn)測試中達(dá)到或超過了主流高效語言模型(例如Qwen3)的準(zhǔn)確率。
同時(shí)運(yùn)行速度明顯更快——分別比Qwen3-1.7B-Base快21倍和47倍。
參考資料:
https://arxiv.org/pdf/2508.15884v1
https://x.com/hancai_hm/status/1960000017235902722
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.