時(shí)令 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
英偉達(dá)開(kāi)源又放大招了!
韓松團(tuán)隊(duì)推出了一款全新的基于后神經(jīng)架構(gòu)搜索的高效語(yǔ)言模型——Jet-Nemotron。
該模型在一系列基準(zhǔn)測(cè)試中,不僅表現(xiàn)出與Qwen3、Qwen2.5、Gemma 3和Llama 3.2相當(dāng)甚至更優(yōu)的準(zhǔn)確率,還在生成吞吐量上實(shí)現(xiàn)最高53.6倍加速,在預(yù)填充階段達(dá)到6.1倍加速。
值得一提的是,在MMLU、MMLU-Pro和BBH基準(zhǔn)上,Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高了47倍,緩存大小縮小至1/47。
同時(shí),它還實(shí)現(xiàn)了比DeepSeek-V3-Small和Moonlight(共150億參數(shù),22億激活參數(shù))更高的準(zhǔn)確率。
代碼和預(yù)訓(xùn)練模型都將開(kāi)源,我們先來(lái)看看Jet-Nemotron是如何構(gòu)建的。
Jet-Nemotron:基于后神經(jīng)架構(gòu)搜索構(gòu)建
首先,Jet-Nemotron是在后神經(jīng)架構(gòu)搜索(Post Neural Architecture Search,PostNAS)的基礎(chǔ)上構(gòu)建的。
其中,后神經(jīng)架構(gòu)搜索(PostNAS)模型是一種“站在大模型肩膀上做改造”的架構(gòu)搜索方法。
它從一個(gè)預(yù)訓(xùn)練的全注意力模型出發(fā),并直接繼承其多層感知機(jī)權(quán)重,且在整個(gè)過(guò)程中保持這些權(quán)重被凍結(jié)(不再更新)。
Jet-Nemotron就是將PostNAS通過(guò)以下4個(gè)步驟優(yōu)化得到的:
全注意力層的放置和消除
在模型中保留少數(shù)幾個(gè)全注意力層,對(duì)于在檢索等高難度任務(wù)上保持高準(zhǔn)確率至關(guān)重要。
然而,這些層的最佳放置位置一直不明確。
因此,研究團(tuán)隊(duì)引入了一種新方法,通過(guò)訓(xùn)練一個(gè)“一次性”超級(jí)網(wǎng)絡(luò) (once-for-all super network),自動(dòng)學(xué)習(xí)應(yīng)該在哪些位置使用全注意力層。
實(shí)驗(yàn)結(jié)果表明,與常用的均勻放置策略相比,這種學(xué)習(xí)到的放置方式在MMLU基準(zhǔn)上的準(zhǔn)確率有顯著提升。
選擇線性注意力模塊
在確定了全注意力層的放置方案后,研究團(tuán)隊(duì)進(jìn)行注意力模塊搜索,以確定最優(yōu)的線性注意力模塊。
在實(shí)驗(yàn)中,他們?cè)u(píng)估了6個(gè)最先進(jìn)的線性注意力模塊(RWKV7由于訓(xùn)練吞吐量過(guò)低排除在外),結(jié)果如下。
由上表觀察到,Gated DeltaNet實(shí)現(xiàn)了最優(yōu)的整體準(zhǔn)確率。因此,研究團(tuán)隊(duì)在后續(xù)實(shí)驗(yàn)中都采用Gated DeltaNet。
設(shè)計(jì)新型注意力模塊
添加卷積是增強(qiáng)線性注意力能力的一種常用策略。然而,以往的方法僅僅依賴于靜態(tài)卷積核,缺乏動(dòng)態(tài)適應(yīng)卷積核特征提取模式的能力。
于是,研究團(tuán)隊(duì)引入一種名為JetBlock的新型線性注意力模塊。
此模塊使用一個(gè)卷積核生成器 (kernel generator),能夠根據(jù)輸入內(nèi)容動(dòng)態(tài)地生成因果卷積核 (dynamic causal convolution kernels),然后將這些卷積核應(yīng)用于 V (值) 詞元上。此外,它還移除了在 Q (查詢) 和 K (鍵) 上的冗余靜態(tài)卷積,從而簡(jiǎn)化了計(jì)算流程。
執(zhí)行硬件感知架構(gòu)搜索
傳統(tǒng)上,參數(shù)量被用作語(yǔ)言模型效率的代理指標(biāo)。然而,參數(shù)數(shù)量與硬件效率并不直接相關(guān)。
基于“KV 緩存大小是影響長(zhǎng)上下文和長(zhǎng)生成吞吐量的最關(guān)鍵因素”的發(fā)現(xiàn)。
研究團(tuán)隊(duì)將KV緩存大小固定為原始設(shè)計(jì)的規(guī)格,并對(duì)key維度、value維度以及注意力頭數(shù)進(jìn)行了小規(guī)模的網(wǎng)格搜索。
這種硬件感知搜索能夠在保持相似生成吞吐量的同時(shí),利用更多參數(shù)以實(shí)現(xiàn)更高準(zhǔn)確率。
好消息是,研究團(tuán)隊(duì)計(jì)劃在GitHub上公開(kāi)代碼和模型,目前正等待法律合規(guī)審核。
顯著的效率提升
Jet-Nemotron-2B和Jet-Nemotron-4B分別基于Qwen2.5-1.5B和Qwen2.5-3B模型構(gòu)建。
為了全面評(píng)估模型性能,研究團(tuán)隊(duì)在數(shù)學(xué)、常識(shí)、檢索、編碼以及長(zhǎng)上下文中都進(jìn)行了測(cè)試。
數(shù)學(xué)任務(wù)上,Jet-Nemotron-2B取得了49.6的平均準(zhǔn)確率,比Qwen3-1.7B-Base高6.3,同時(shí)速度快47倍。
相比之下,之前的線性注意力和混合模型在數(shù)學(xué)任務(wù)上遠(yuǎn)遠(yuǎn)落后于Qwen3-1.7B-Base。
常識(shí)推理任務(wù)上,Jet-Nemotron-2B平均準(zhǔn)確率達(dá)到62.0,超越所有基線模型。
檢索任務(wù)上,Jet-Nemotron-2B的表現(xiàn)優(yōu)于除 Qwen3-1.7B-Base之外的所有基線模型。
當(dāng)擴(kuò)展到4B時(shí),Jet-Nemotron-4B達(dá)到了76.2的最佳平均準(zhǔn)確率,同時(shí)與Qwen3相比仍保持21倍的速度提升。
編碼任務(wù)上,Jet-Nemotron-2B的平均準(zhǔn)確率高于所有基線模型。
同時(shí),Jet-Nemotron-4B在所有編碼任務(wù)中都實(shí)現(xiàn)了更高的準(zhǔn)確率。
長(zhǎng)下文任務(wù)上,可以看出Jet-Nemotron-2B雖然只有兩個(gè)全注意力層,但性能堪比擁有更多全注意力層的Qwen2.5-1.5B和Gemma3n-E2B等領(lǐng)先模型。
綜合來(lái)看,Jet-Nemotron-2B和Jet-Nemotron-4B在這些領(lǐng)域的表現(xiàn)均與Qwen3-1.7B-Base相當(dāng),甚至更勝一籌。
而由于全注意力層顯著減少且KV緩存規(guī)模更小,Jet-Nemotron與Qwen3相比有明顯優(yōu)勢(shì)。
團(tuán)隊(duì)介紹
值得一提的是,此研究團(tuán)隊(duì)全為華人。
Yuxian Gu,本科與博士均就讀于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,導(dǎo)師為黃民烈教授。
此前,他還在微軟亞洲研究院實(shí)習(xí),導(dǎo)師為研究員董力。
他的研究興趣主要集中在語(yǔ)言模型的全生命周期,包括預(yù)訓(xùn)練、下游任務(wù)適配以及推理階段的高效方法。
最近,他的研究重點(diǎn)是面向預(yù)訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)構(gòu)建理論與算法(如PDS、指令預(yù)訓(xùn)練、Learning Law),以及利用知識(shí)蒸餾進(jìn)行語(yǔ)言模型壓縮(如MiniLLM、MiniPLM)。
胡擎昊,本科畢業(yè)于浙江大學(xué),碩士畢業(yè)于新加坡國(guó)立大學(xué),現(xiàn)為麻省理工學(xué)院韓松教授的博士后研究員。
尚揚(yáng),現(xiàn)為麻省理工學(xué)院電子工程學(xué)院的一年級(jí)博士生,導(dǎo)師為韓松教授。在此之前,他以最高榮譽(yù)獲得了清華大學(xué)電子工程系的理學(xué)學(xué)士學(xué)位。
Haochen Xi,本科畢業(yè)于清華大學(xué)姚班,導(dǎo)師為姚期智院士,目前博士就讀于美國(guó)加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)專業(yè),現(xiàn)為加州大學(xué)伯克利分校MLsys研究員。
Junyu Chen,現(xiàn)為清華大學(xué)姚班的一名本科生。曾在麻省理工學(xué)院HAN實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,導(dǎo)師為韓松教授。此前,還曾在清華大學(xué)與李毅教授合作研究3D視覺(jué)感知和人機(jī)交互。
韓松,本科畢業(yè)于清華大學(xué)電子工程系,在斯坦福大學(xué)獲得博士學(xué)位,目前是麻省理工學(xué)院電子工程學(xué)院副教授。
他提出了被廣泛用于高效人工智能計(jì)算的“深度壓縮”技術(shù),并且首次給現(xiàn)代人工智能芯片帶來(lái)權(quán)重稀疏性的“高效推理機(jī)”,這些技術(shù)影響了NVIDIA的安培GPU架構(gòu)等。
韓松還是TinyML研究的先驅(qū),這項(xiàng)研究將深度學(xué)習(xí)帶到物聯(lián)網(wǎng)設(shè)備上,使邊緣端機(jī)器學(xué)習(xí)成為可能。
2023年,韓松創(chuàng)辦的專注邊緣設(shè)備機(jī)器學(xué)習(xí)優(yōu)化的OmniML被英偉達(dá)收購(gòu),他也因此加入英偉達(dá)成為杰出科學(xué)家,其公司的CEO吳迪和CTO毛慧子同樣也入職英偉達(dá)。
蔡涵,NVIDIA研究院研究科學(xué)家。在上海交通大學(xué)獲得碩士和學(xué)士學(xué)位,在麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)系獲得博士學(xué)位。
參考鏈接:
[1]https://arxiv.org/abs/2508.15884
[2]https://github.com/NVlabs/Jet-Nemotron
[3]https://x.com/iScienceLuvr/status/1959832287073403137
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.