夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)韓松團(tuán)隊(duì)新作:具有后神經(jīng)架構(gòu)搜索的高效語(yǔ)言模型

0
分享至

時(shí)令 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

英偉達(dá)開(kāi)源又放大招了!

韓松團(tuán)隊(duì)推出了一款全新的基于后神經(jīng)架構(gòu)搜索的高效語(yǔ)言模型——Jet-Nemotron。

該模型在一系列基準(zhǔn)測(cè)試中,不僅表現(xiàn)出與Qwen3、Qwen2.5、Gemma 3和Llama 3.2相當(dāng)甚至更優(yōu)的準(zhǔn)確率,還在生成吞吐量上實(shí)現(xiàn)最高53.6倍加速,在預(yù)填充階段達(dá)到6.1倍加速。



值得一提的是,在MMLU、MMLU-Pro和BBH基準(zhǔn)上,Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高了47倍,緩存大小縮小至1/47。

同時(shí),它還實(shí)現(xiàn)了比DeepSeek-V3-Small和Moonlight(共150億參數(shù),22億激活參數(shù))更高的準(zhǔn)確率。



代碼和預(yù)訓(xùn)練模型都將開(kāi)源,我們先來(lái)看看Jet-Nemotron是如何構(gòu)建的。

Jet-Nemotron:基于后神經(jīng)架構(gòu)搜索構(gòu)建

首先,Jet-Nemotron是在后神經(jīng)架構(gòu)搜索(Post Neural Architecture Search,PostNAS)的基礎(chǔ)上構(gòu)建的。

其中,后神經(jīng)架構(gòu)搜索(PostNAS)模型是一種“站在大模型肩膀上做改造”的架構(gòu)搜索方法。



它從一個(gè)預(yù)訓(xùn)練的全注意力模型出發(fā),并直接繼承其多層感知機(jī)權(quán)重,且在整個(gè)過(guò)程中保持這些權(quán)重被凍結(jié)(不再更新)

Jet-Nemotron就是將PostNAS通過(guò)以下4個(gè)步驟優(yōu)化得到的:

全注意力層的放置和消除

在模型中保留少數(shù)幾個(gè)全注意力層,對(duì)于在檢索等高難度任務(wù)上保持高準(zhǔn)確率至關(guān)重要。

然而,這些層的最佳放置位置一直不明確。

因此,研究團(tuán)隊(duì)引入了一種新方法,通過(guò)訓(xùn)練一個(gè)“一次性”超級(jí)網(wǎng)絡(luò) (once-for-all super network),自動(dòng)學(xué)習(xí)應(yīng)該在哪些位置使用全注意力層



實(shí)驗(yàn)結(jié)果表明,與常用的均勻放置策略相比,這種學(xué)習(xí)到的放置方式在MMLU基準(zhǔn)上的準(zhǔn)確率有顯著提升。



選擇線性注意力模塊

在確定了全注意力層的放置方案后,研究團(tuán)隊(duì)進(jìn)行注意力模塊搜索,以確定最優(yōu)的線性注意力模塊。

在實(shí)驗(yàn)中,他們?cè)u(píng)估了6個(gè)最先進(jìn)的線性注意力模塊(RWKV7由于訓(xùn)練吞吐量過(guò)低排除在外),結(jié)果如下。



由上表觀察到,Gated DeltaNet實(shí)現(xiàn)了最優(yōu)的整體準(zhǔn)確率。因此,研究團(tuán)隊(duì)在后續(xù)實(shí)驗(yàn)中都采用Gated DeltaNet。

設(shè)計(jì)新型注意力模塊

添加卷積是增強(qiáng)線性注意力能力的一種常用策略。然而,以往的方法僅僅依賴于靜態(tài)卷積核,缺乏動(dòng)態(tài)適應(yīng)卷積核特征提取模式的能力。

于是,研究團(tuán)隊(duì)引入一種名為JetBlock的新型線性注意力模塊。



此模塊使用一個(gè)卷積核生成器 (kernel generator),能夠根據(jù)輸入內(nèi)容動(dòng)態(tài)地生成因果卷積核 (dynamic causal convolution kernels),然后將這些卷積核應(yīng)用于 V (值) 詞元上。此外,它還移除了在 Q (查詢) 和 K (鍵) 上的冗余靜態(tài)卷積,從而簡(jiǎn)化了計(jì)算流程。

執(zhí)行硬件感知架構(gòu)搜索

傳統(tǒng)上,參數(shù)量被用作語(yǔ)言模型效率的代理指標(biāo)。然而,參數(shù)數(shù)量與硬件效率并不直接相關(guān)。

基于“KV 緩存大小是影響長(zhǎng)上下文和長(zhǎng)生成吞吐量的最關(guān)鍵因素”的發(fā)現(xiàn)。



研究團(tuán)隊(duì)將KV緩存大小固定為原始設(shè)計(jì)的規(guī)格,并對(duì)key維度、value維度以及注意力頭數(shù)進(jìn)行了小規(guī)模的網(wǎng)格搜索。

這種硬件感知搜索能夠在保持相似生成吞吐量的同時(shí),利用更多參數(shù)以實(shí)現(xiàn)更高準(zhǔn)確率。

好消息是,研究團(tuán)隊(duì)計(jì)劃在GitHub上公開(kāi)代碼和模型,目前正等待法律合規(guī)審核。

顯著的效率提升

Jet-Nemotron-2B和Jet-Nemotron-4B分別基于Qwen2.5-1.5B和Qwen2.5-3B模型構(gòu)建。

為了全面評(píng)估模型性能,研究團(tuán)隊(duì)在數(shù)學(xué)、常識(shí)、檢索、編碼以及長(zhǎng)上下文中都進(jìn)行了測(cè)試。

數(shù)學(xué)任務(wù)上,Jet-Nemotron-2B取得了49.6的平均準(zhǔn)確率,比Qwen3-1.7B-Base高6.3,同時(shí)速度快47倍。



相比之下,之前的線性注意力和混合模型在數(shù)學(xué)任務(wù)上遠(yuǎn)遠(yuǎn)落后于Qwen3-1.7B-Base。

常識(shí)推理任務(wù)上,Jet-Nemotron-2B平均準(zhǔn)確率達(dá)到62.0,超越所有基線模型。



檢索任務(wù)上,Jet-Nemotron-2B的表現(xiàn)優(yōu)于除 Qwen3-1.7B-Base之外的所有基線模型。

當(dāng)擴(kuò)展到4B時(shí),Jet-Nemotron-4B達(dá)到了76.2的最佳平均準(zhǔn)確率,同時(shí)與Qwen3相比仍保持21倍的速度提升。



編碼任務(wù)上,Jet-Nemotron-2B的平均準(zhǔn)確率高于所有基線模型。

同時(shí),Jet-Nemotron-4B在所有編碼任務(wù)中都實(shí)現(xiàn)了更高的準(zhǔn)確率。



長(zhǎng)下文任務(wù)上,可以看出Jet-Nemotron-2B雖然只有兩個(gè)全注意力層,但性能堪比擁有更多全注意力層的Qwen2.5-1.5B和Gemma3n-E2B等領(lǐng)先模型。



綜合來(lái)看,Jet-Nemotron-2B和Jet-Nemotron-4B在這些領(lǐng)域的表現(xiàn)均與Qwen3-1.7B-Base相當(dāng),甚至更勝一籌。

而由于全注意力層顯著減少且KV緩存規(guī)模更小,Jet-Nemotron與Qwen3相比有明顯優(yōu)勢(shì)。

團(tuán)隊(duì)介紹

值得一提的是,此研究團(tuán)隊(duì)全為華人。



Yuxian Gu,本科與博士均就讀于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,導(dǎo)師為黃民烈教授。

此前,他還在微軟亞洲研究院實(shí)習(xí),導(dǎo)師為研究員董力。

他的研究興趣主要集中在語(yǔ)言模型的全生命周期,包括預(yù)訓(xùn)練、下游任務(wù)適配以及推理階段的高效方法。

最近,他的研究重點(diǎn)是面向預(yù)訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)構(gòu)建理論與算法(如PDS、指令預(yù)訓(xùn)練、Learning Law),以及利用知識(shí)蒸餾進(jìn)行語(yǔ)言模型壓縮(如MiniLLM、MiniPLM)。



胡擎昊,本科畢業(yè)于浙江大學(xué),碩士畢業(yè)于新加坡國(guó)立大學(xué),現(xiàn)為麻省理工學(xué)院韓松教授的博士后研究員。



尚揚(yáng),現(xiàn)為麻省理工學(xué)院電子工程學(xué)院的一年級(jí)博士生,導(dǎo)師為韓松教授。在此之前,他以最高榮譽(yù)獲得了清華大學(xué)電子工程系的理學(xué)學(xué)士學(xué)位。



Haochen Xi,本科畢業(yè)于清華大學(xué)姚班,導(dǎo)師為姚期智院士,目前博士就讀于美國(guó)加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)專業(yè),現(xiàn)為加州大學(xué)伯克利分校MLsys研究員。



Junyu Chen,現(xiàn)為清華大學(xué)姚班的一名本科生。曾在麻省理工學(xué)院HAN實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,導(dǎo)師為韓松教授。此前,還曾在清華大學(xué)與李毅教授合作研究3D視覺(jué)感知和人機(jī)交互。



韓松,本科畢業(yè)于清華大學(xué)電子工程系,在斯坦福大學(xué)獲得博士學(xué)位,目前是麻省理工學(xué)院電子工程學(xué)院副教授。

他提出了被廣泛用于高效人工智能計(jì)算的“深度壓縮”技術(shù),并且首次給現(xiàn)代人工智能芯片帶來(lái)權(quán)重稀疏性的“高效推理機(jī)”,這些技術(shù)影響了NVIDIA的安培GPU架構(gòu)等。

韓松還是TinyML研究的先驅(qū),這項(xiàng)研究將深度學(xué)習(xí)帶到物聯(lián)網(wǎng)設(shè)備上,使邊緣端機(jī)器學(xué)習(xí)成為可能。

2023年,韓松創(chuàng)辦的專注邊緣設(shè)備機(jī)器學(xué)習(xí)優(yōu)化的OmniML被英偉達(dá)收購(gòu),他也因此加入英偉達(dá)成為杰出科學(xué)家,其公司的CEO吳迪和CTO毛慧子同樣也入職英偉達(dá)。



蔡涵,NVIDIA研究院研究科學(xué)家。在上海交通大學(xué)獲得碩士和學(xué)士學(xué)位,在麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)系獲得博士學(xué)位。

參考鏈接:

[1]https://arxiv.org/abs/2508.15884

[2]https://github.com/NVlabs/Jet-Nemotron

[3]https://x.com/iScienceLuvr/status/1959832287073403137

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬上停止喝這4種飲料,喝得越多,血管或越堵?醫(yī)生給出明確答案

馬上停止喝這4種飲料,喝得越多,血管或越堵?醫(yī)生給出明確答案

醫(yī)學(xué)原創(chuàng)故事會(huì)
2025-07-17 00:45:47
羽球世錦賽戰(zhàn)報(bào)!2種子翻車,李宗偉接班人1輪游,國(guó)羽4人晉級(jí)!

羽球世錦賽戰(zhàn)報(bào)!2種子翻車,李宗偉接班人1輪游,國(guó)羽4人晉級(jí)!

劉姚堯的文字城堡
2025-08-26 08:01:40
阿里又變陣,馬云頻頻“上線”

阿里又變陣,馬云頻頻“上線”

無(wú)冕財(cái)經(jīng)
2025-08-26 18:49:28
援軍2周打不進(jìn)去,紅軍城里應(yīng)外合失?。憾碥娡粨絷?duì)最后悲壯一戰(zhàn)

援軍2周打不進(jìn)去,紅軍城里應(yīng)外合失敗:俄軍突擊隊(duì)最后悲壯一戰(zhàn)

今日養(yǎng)生之道
2025-08-25 12:54:31
香港金融保衛(wèi)戰(zhàn):中國(guó)動(dòng)用1400億對(duì)轟,猶太資本從沒(méi)有輸這么慘

香港金融保衛(wèi)戰(zhàn):中國(guó)動(dòng)用1400億對(duì)轟,猶太資本從沒(méi)有輸這么慘

東哥講歷史1
2025-08-26 16:49:55
尤文23歲棄將爆發(fā):20場(chǎng)獨(dú)造20球!領(lǐng)跑射手榜,入選巴西國(guó)家隊(duì)

尤文23歲棄將爆發(fā):20場(chǎng)獨(dú)造20球!領(lǐng)跑射手榜,入選巴西國(guó)家隊(duì)

小火箭愛(ài)體育
2025-08-26 14:51:08
雪糕刺客都是弟弟!能把包裝設(shè)計(jì)成這樣的,才是“人中龍鳳”

雪糕刺客都是弟弟!能把包裝設(shè)計(jì)成這樣的,才是“人中龍鳳”

新住家居
2025-08-25 18:51:42
中國(guó)擬推人民幣穩(wěn)定幣?挑戰(zhàn)美元霸權(quán)時(shí)代,一些冒險(xiǎn)值得我們嘗試

中國(guó)擬推人民幣穩(wěn)定幣?挑戰(zhàn)美元霸權(quán)時(shí)代,一些冒險(xiǎn)值得我們嘗試

花小貓的美食日常
2025-08-26 11:59:51
記者:安東尼轉(zhuǎn)會(huì)皇家貝蒂斯已達(dá)原則性協(xié)議,租借+可選買斷

記者:安東尼轉(zhuǎn)會(huì)皇家貝蒂斯已達(dá)原則性協(xié)議,租借+可選買斷

懂球帝
2025-08-26 20:49:45
688189,預(yù)計(jì)構(gòu)成重大資產(chǎn)重組

688189,預(yù)計(jì)構(gòu)成重大資產(chǎn)重組

數(shù)據(jù)寶
2025-08-26 23:06:22
錢沒(méi)了,人瘋了:中產(chǎn)家長(zhǎng),批量崩潰

錢沒(méi)了,人瘋了:中產(chǎn)家長(zhǎng),批量崩潰

視覺(jué)志
2025-08-26 10:10:40
我方重機(jī)槍快艇抵達(dá)仁愛(ài)礁,菲軍急忙呼叫支援,美軍多架F35趕到

我方重機(jī)槍快艇抵達(dá)仁愛(ài)礁,菲軍急忙呼叫支援,美軍多架F35趕到

大道無(wú)形我有型
2025-08-23 21:15:50
花錢就能買!記者暗訪深圳虛假檢測(cè)灰產(chǎn),市監(jiān)回應(yīng):立案調(diào)查,涉嫌犯罪線索已移交警方

花錢就能買!記者暗訪深圳虛假檢測(cè)灰產(chǎn),市監(jiān)回應(yīng):立案調(diào)查,涉嫌犯罪線索已移交警方

瀟湘晨報(bào)
2025-08-26 19:45:31
遭丈夫毆打去世女子弟弟發(fā)聲:不會(huì)收任何賠償金,也不會(huì)出具任何諒解書

遭丈夫毆打去世女子弟弟發(fā)聲:不會(huì)收任何賠償金,也不會(huì)出具任何諒解書

都市快報(bào)橙柿互動(dòng)
2025-08-26 21:21:24
結(jié)婚5年出軌6年 大過(guò)年妻子外出約會(huì)情人 日記本暴露情敵高官身份

結(jié)婚5年出軌6年 大過(guò)年妻子外出約會(huì)情人 日記本暴露情敵高官身份

索奇探秘
2024-04-27 19:07:40
臥底都很慘,為啥還有人愿意當(dāng)臥底?網(wǎng)友:好多直接轉(zhuǎn)行黑道了

臥底都很慘,為啥還有人愿意當(dāng)臥底?網(wǎng)友:好多直接轉(zhuǎn)行黑道了

帶你感受人間冷暖
2025-08-22 00:10:08
這是希島あいり(希島愛(ài)里)最初也是最后的傳奇共演!

這是希島あいり(希島愛(ài)里)最初也是最后的傳奇共演!

孤獨(dú)的獨(dú)角獸影視
2025-06-09 09:55:15
美洲杯斗毆主角:阿根廷男籃種族歧視 但暴力不是解決問(wèn)題的方法

美洲杯斗毆主角:阿根廷男籃種族歧視 但暴力不是解決問(wèn)題的方法

直播吧
2025-08-26 09:49:55
2025年下半年,財(cái)神點(diǎn)名,事業(yè)財(cái)運(yùn)齊飛的三個(gè)星座

2025年下半年,財(cái)神點(diǎn)名,事業(yè)財(cái)運(yùn)齊飛的三個(gè)星座

小晴星座說(shuō)
2025-08-26 12:32:48
毛主席紀(jì)念堂發(fā)布公告

毛主席紀(jì)念堂發(fā)布公告

觀察者網(wǎng)
2025-08-26 13:57:43
2025-08-27 00:04:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11186文章數(shù) 176251關(guān)注度
往期回顧 全部

科技要聞

寒武紀(jì)半年?duì)I收增43倍!創(chuàng)始人身家超1500億

頭條要聞

德總理訪華前夕 一筆涉中企的德國(guó)關(guān)鍵訂單突然"易主"

頭條要聞

德總理訪華前夕 一筆涉中企的德國(guó)關(guān)鍵訂單突然"易主"

體育要聞

45歲,她“贏得”一場(chǎng)令人激動(dòng)的失敗

娛樂(lè)要聞

吳京因?yàn)檎f(shuō)坦克是沒(méi)有后視鏡遭人惡評(píng)

財(cái)經(jīng)要聞

人工智能,重磅利好!國(guó)務(wù)院印發(fā)!

汽車要聞

蓮花跑車獲5億美元融資:不易的成績(jī),長(zhǎng)遠(yuǎn)的下注

態(tài)度原創(chuàng)

教育
手機(jī)
本地
時(shí)尚
公開(kāi)課

教育要聞

現(xiàn)在的孩子,為何無(wú)“?!辈粴g?

手機(jī)要聞

真我GT8系列手機(jī)通過(guò)認(rèn)證,主動(dòng)散熱風(fēng)扇樣機(jī)曝光

本地新聞

22℃吉林夏天|松濤和鳴處 一弓風(fēng)弦染青綠

今年秋天最流行的5款短發(fā),穿什么都時(shí)髦!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 8090午夜福利视频| 国产伦精品一区二区妓女| 亚洲综合网中文字幕在线| 99成人在线视频| 四虎成人精品永久免费av | 欧美午夜视频在线| 有大有粗日女人的视频| 无码人妻免费—区二区三区翻译| 老熟妇高潮一区二区三区另类| 欧美少妇www| 777亚洲精品无码| 国产av仑乱内谢| 色噜噜噜噜噜噜| 在线观看无码无毛| 久久亚洲精品情侣| 丰满人妻无码| 国产精品欧美久久久久久日本一道| 日本一区二区三区黄色网| 激情影院中国区| 国产精品色婷婷久久58| 加勒比HEZYO东京热| 色欲av一区二区| 亚洲精品久久久中文字幕痴女 | 99热在线只有精品| 欧美人与动欧交视频| 久久精品国产99久久久古代| 免费AV大全| 成年人基毛片视频| 图片区小说区号动漫区综合区| 亚洲无码综合在线视频| 欧美巨大喷流久久久亚洲乱码| 色婷婷91av| 熟女视频一区二区三区嫩草| 麻豆AV一区二区天美传媒小说| 亚洲欧洲av一区二区久久| 婷婷五月综合网| 性av无码天堂| 国产三级精品三级在线区| 亚洲无码性爱区| 午夜人妻高清蜜臀| 欧洲激情在线|