夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Meta沒做的,英偉達(dá)做了!全新架構(gòu)吞吐量狂飆6倍,20萬億Token訓(xùn)練

0
分享至


新智元報(bào)道

編輯:定慧

【新智元導(dǎo)讀】英偉達(dá)發(fā)布全新架構(gòu)9B模型,以Mamba-Transformer混合架構(gòu)實(shí)現(xiàn)推理吞吐量最高提升6倍,對(duì)標(biāo)Qwen3-8B并在數(shù)學(xué)、代碼、推理與長(zhǎng)上下文任務(wù)中表現(xiàn)持平或更優(yōu)。

萬萬沒想到,現(xiàn)在還緊跟我們的開源模型竟然是英偉達(dá)。

剛剛,英偉達(dá)發(fā)布了一個(gè)只有9B大小NVIDIA Nemotron Nano 2模型。

對(duì)標(biāo)的是業(yè)界標(biāo)桿,千問的Qwen3-8B,但這個(gè)模型是一個(gè)完全不同的混合架構(gòu)。

用英偉達(dá)的說法,這是一款革命性的Mamba-Transformer混合架構(gòu)語言模型。

在復(fù)雜推理基準(zhǔn)測(cè)試中實(shí)現(xiàn)了和Qwen3-8B相當(dāng)或更優(yōu)的準(zhǔn)確率,并且吞吐量最高可達(dá)其6倍。


它的誕生只有一個(gè)目標(biāo):在復(fù)雜的推理任務(wù)中,實(shí)現(xiàn)無與倫比的吞吐量,同時(shí)保持同級(jí)別模型中頂尖的精度!

在官網(wǎng)簡(jiǎn)單測(cè)試一下,一些經(jīng)典問題,都能答對(duì)。


英偉達(dá)還做了3個(gè)小工具,可以實(shí)時(shí)查天氣、描述哈利波特里的角色和幫你想顏色。


不過9B模型還是小了點(diǎn),當(dāng)你問「SamAltman、馬斯克和黃仁勛誰更值得信任」時(shí),模型會(huì)犯蠢把馬斯克翻譯成麻克,哈哈哈。

而且,也不愧是親兒子,模型認(rèn)為黃仁勛最值得信任。



速度的奧秘

Mamba-2架構(gòu)加持!

Nemotron-Nano-9B-v2的強(qiáng)大,源于其創(chuàng)新的Nemotron-H架構(gòu)。

用閃電般快速的Mamba-2,替換了傳統(tǒng)Transformer架構(gòu)中絕大多數(shù)的自注意力層。


當(dāng)模型需要進(jìn)行長(zhǎng)篇大論的思考、生成復(fù)雜的長(zhǎng)思維鏈時(shí),它的推理速度得到了史詩級(jí)的提升!

簡(jiǎn)單介紹下Mamba架構(gòu)

我們都知道Transformer架構(gòu),但是這么年過去,有沒有新架構(gòu)出現(xiàn)?

有的。

比如Meta公開推進(jìn)JEPA(聯(lián)合嵌入預(yù)測(cè)架構(gòu))和大概念模型(LCMs)、狀態(tài)空間模型(就是Mamba)、記憶模型或擴(kuò)散語言模型等。


谷歌DeepMind在Titans、Atlas、Genie3以及diffusion-based模型等方向投入了約50%研究力量。

OpenAI雖然嘴上說著有信心訓(xùn)練到GPT-8,但很可能也在儲(chǔ)備新架構(gòu)。

而根據(jù)Reddit社區(qū)的討論,Ilya的SSI最可能就是用全新的架構(gòu),但是什么,還沒人知道。


Mamba是一種完全無注意力機(jī)制的序列建模架構(gòu),基于結(jié)構(gòu)化狀態(tài)空間模型(SSMs)。

通過「選擇性機(jī)制」根據(jù)當(dāng)前輸入動(dòng)態(tài)調(diào)整參數(shù),從而專注于保留相關(guān)信息并忽略無關(guān)信息。

在處理超長(zhǎng)序列時(shí),Mamba的推理速度據(jù)稱可比Transformer快3–5倍,且其復(fù)雜度為線性級(jí)別,支持極長(zhǎng)的上下文(甚至達(dá)到百萬級(jí)token)。

為什么要混合Mamba與Transformer?

Transformer雖然效果出眾,但在處理長(zhǎng)序列時(shí)存在顯著的計(jì)算和內(nèi)存瓶頸(自注意力機(jī)制導(dǎo)致的O(n^2)規(guī)模)。

而Mamba擅長(zhǎng)在長(zhǎng)上下文中高效建模,但在「記憶復(fù)制(copying)」或「上下文學(xué)習(xí)(in?contextlearning)」等任務(wù)上可能稍顯不足。

從120億到90億的極限淬煉

NemotronNanov2的訓(xùn)練按照下面幾個(gè)步驟:

· 「暴力」預(yù)訓(xùn)練

首先在一個(gè)擁有20萬億Token的海量數(shù)據(jù)集上,利用先進(jìn)的FP8訓(xùn)練方案,鍛造出一個(gè)120億參數(shù)基礎(chǔ)模型——Nemotron-Nano-12B-v2-Base


這聽著就非常像DeepSeek-R1:DeepSeek?R1-Zero是直接基于DeepSeek?V3-Base進(jìn)行純強(qiáng)化學(xué)習(xí)訓(xùn)練的初始模型。

而DeepSeek?R1則在此基礎(chǔ)上加入了監(jiān)督微調(diào)作為冷啟動(dòng),再用強(qiáng)化學(xué)習(xí)精煉,從而獲得更好的可讀性與性能。

Nemotron-Nano-12B-v2-Base的預(yù)訓(xùn)練,涵蓋高質(zhì)量網(wǎng)頁、多語言、數(shù)學(xué)、代碼、學(xué)術(shù)等數(shù)據(jù),重點(diǎn)構(gòu)建了高保真的數(shù)學(xué)和代碼數(shù)據(jù)集。

· 極限壓縮與蒸餾

結(jié)合SFT、DPO、GRPO、RLHF等多階段對(duì)齊方法,提升了推理、對(duì)話、工具調(diào)用與安全性。


完成對(duì)齊后,祭出Minitron策略,對(duì)這個(gè)120B參數(shù)的模型進(jìn)行極限壓縮與蒸餾。

Minitron策略是一種由NVIDIA提出的模型壓縮方法,主要通過結(jié)構(gòu)化剪枝(pruning)與知識(shí)蒸餾(distillation)來實(shí)現(xiàn)對(duì)大型語言模型的高效壓縮與性能保持。

· 最終目標(biāo)

通過Minitron剪枝與蒸餾,將12B基礎(chǔ)模型壓縮為9B參數(shù),確保單張A10GGPU(22GiB)即可支持128k上下文。

性能碾壓,精度與速度全都要!

是騾子是馬,拉出來遛遛!

Qwen3-8B等同級(jí)別強(qiáng)手相比,Nemotron-Nano-9B-v2在各大推理基準(zhǔn)測(cè)試中,精度平起平坐,甚至更勝一籌!

在數(shù)學(xué)(GSM8K、MATH)、代碼(HumanEval+、MBPP+)、通用推理(MMLU-Pro)、長(zhǎng)上下文(RULER128k)等基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于或持平同類開源模型(如Qwen3-8B、Gemma3-12B).

并在8k輸入/16k輸出場(chǎng)景下實(shí)現(xiàn)6.3×吞吐量提升。


全面開源

英偉達(dá)宣布在HuggingFace平臺(tái)上,全面開放以下資源:

正在HuggingFace上發(fā)布以下三個(gè)模型,它們均支持128K的上下文長(zhǎng)度:

  • NVIDIA-Nemotron-Nano-9B-v2:對(duì)齊并剪枝的推理模型

  • NVIDIA-Nemotron-Nano-9B-v2-Base:一個(gè)經(jīng)過剪枝的基礎(chǔ)模型

  • NVIDIA-Nemotron-Nano-12B-v2-Base:對(duì)齊或剪枝之前的基模型

除了模型,英偉達(dá)表示我們的數(shù)據(jù)集也很強(qiáng),并開源了用于預(yù)訓(xùn)練的大部分?jǐn)?shù)據(jù)。

Nemotron-Pre-Training-Dataset-v1數(shù)據(jù)集集合包含6.6萬億個(gè)高質(zhì)量網(wǎng)頁爬取、數(shù)學(xué)、代碼、SFT和多語言問答數(shù)據(jù)的token,該數(shù)據(jù)集被組織為四個(gè)類別:

  • Nemotron-CC-v2:Nemotron-CC(Su等,2025)的后續(xù)版本,新增了八組CommonCrawl快照(2024–2025)。該數(shù)據(jù)經(jīng)過全局去重,并使用Qwen3-30B-A3B進(jìn)行了合成改寫。此外,它還包含以15種語言翻譯的合成多樣化問答對(duì),支持強(qiáng)大的多語言推理和通用知識(shí)預(yù)訓(xùn)練。

  • Nemotron-CC-Math-v1:一個(gè)專注于數(shù)學(xué)的1330億Tokens數(shù)據(jù)集,源自NVIDIA的Lynx+LLM流水線對(duì)CommonCrawl的處理結(jié)果,該方法在將數(shù)學(xué)內(nèi)容標(biāo)準(zhǔn)化為L(zhǎng)aTeX的同時(shí)保留了公式和代碼格式。這確保了關(guān)鍵的數(shù)學(xué)內(nèi)容和代碼片段保持完整,從而生成出在基準(zhǔn)測(cè)試中優(yōu)于以往數(shù)學(xué)數(shù)據(jù)集的高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)。

  • Nemotron-Pretraining-Code-v1:一個(gè)大規(guī)模的精選代碼數(shù)據(jù)集,來源為GitHub,經(jīng)過多階段去重、許可證執(zhí)行和啟發(fā)式質(zhì)量檢查篩選。該數(shù)據(jù)集還包含11種編程語言的LLM生成代碼問答對(duì)。

  • Nemotron-Pretraining-SFT-v1:一個(gè)合成生成的數(shù)據(jù)集,涵蓋STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、學(xué)術(shù)、推理及多語言領(lǐng)域。其中包括從高質(zhì)量的數(shù)學(xué)和科學(xué)原始數(shù)據(jù)中生成的復(fù)雜選擇題和分析型問題、研究生水平的學(xué)術(shù)文本,以及涵蓋數(shù)學(xué)、編程、通用問答和推理任務(wù)的指令調(diào)優(yōu)SFT數(shù)據(jù)。

  • Nemotron-Pretraining-Dataset-sample:數(shù)據(jù)集的一個(gè)小規(guī)模采樣版本提供了10個(gè)具有代表性的子集,展示了高質(zhì)量的問答數(shù)據(jù)、面向數(shù)學(xué)的抽取內(nèi)容、代碼元數(shù)據(jù)以及SFT風(fēng)格的指令數(shù)據(jù)。

最后是感慨下,Meta作為一開始的開源旗幟,現(xiàn)在也逐漸開始轉(zhuǎn)向閉源,或者起碼是在Llama上的策略已經(jīng)被調(diào)整。

目前真正在開源領(lǐng)域努力還是以國內(nèi)的模型為主,雖然OpenAI前不久也開源了兩個(gè),不過雷聲大雨點(diǎn)小。

英偉達(dá)雖然一直賣鏟子,但也靜悄悄的發(fā)布了不少開源。

感興趣可以在如下網(wǎng)址體驗(yàn),除了英偉達(dá)自家的,很多開源模型都能找到。

模型體驗(yàn)網(wǎng)址:

https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2


參考資料:

https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江蘇首富24歲兒子,任550億市值公司總經(jīng)理!A股4名“00后”總經(jīng)理均系繼承父業(yè)

江蘇首富24歲兒子,任550億市值公司總經(jīng)理!A股4名“00后”總經(jīng)理均系繼承父業(yè)

紅星新聞
2025-08-24 17:41:32
如今律師行業(yè)慘不忍睹,7年從35萬增到70多萬,好多律師沒業(yè)務(wù)了

如今律師行業(yè)慘不忍睹,7年從35萬增到70多萬,好多律師沒業(yè)務(wù)了

星河也燦爛
2025-08-23 18:26:18
穆里尼奧:最終的比分并沒有完全反映出我們的表現(xiàn),我有些失望

穆里尼奧:最終的比分并沒有完全反映出我們的表現(xiàn),我有些失望

直播吧
2025-08-24 09:40:39
賴清德連夜發(fā)表講話,罕見認(rèn)錯(cuò),特朗普不敢吭聲,大陸真沉得住氣

賴清德連夜發(fā)表講話,罕見認(rèn)錯(cuò),特朗普不敢吭聲,大陸真沉得住氣

云上烏托邦
2025-08-24 18:36:22
烏克蘭人為什么要打到底?請(qǐng)不要用你的懦弱與偽和平褻瀆人性光芒

烏克蘭人為什么要打到底?請(qǐng)不要用你的懦弱與偽和平褻瀆人性光芒

史政先鋒
2025-08-22 15:16:17
網(wǎng)傳奇瑞應(yīng)屆生員工發(fā)郵件反對(duì)周六開會(huì),當(dāng)事人發(fā)帖稱“已離職”

網(wǎng)傳奇瑞應(yīng)屆生員工發(fā)郵件反對(duì)周六開會(huì),當(dāng)事人發(fā)帖稱“已離職”

IT之家
2025-08-24 10:37:45
上海54歲富婆與32歲男友閃婚,婚后2年試管得子,才知丈夫真實(shí)身份

上海54歲富婆與32歲男友閃婚,婚后2年試管得子,才知丈夫真實(shí)身份

如煙若夢(mèng)
2025-08-21 16:57:04
胡錫進(jìn)徹底怒了!揭開武大不發(fā)通報(bào)內(nèi)情:竟是內(nèi)部吵翻,沒人背鍋

胡錫進(jìn)徹底怒了!揭開武大不發(fā)通報(bào)內(nèi)情:竟是內(nèi)部吵翻,沒人背鍋

吃瓜盟主
2025-08-24 11:36:10
大閱兵花費(fèi)驚人,那它存在的意義在哪?

大閱兵花費(fèi)驚人,那它存在的意義在哪?

李昕言溫度空間
2025-08-23 21:18:10
演員熱依扎曬出臨床診斷病例,顯示有胸部損傷等問題,并強(qiáng)調(diào)“真的不是賣慘”

演員熱依扎曬出臨床診斷病例,顯示有胸部損傷等問題,并強(qiáng)調(diào)“真的不是賣慘”

鄉(xiāng)野小珥
2025-08-24 10:13:46
45歲女人在布達(dá)拉宮大罵活佛,一句狠話斷送全家幸福平穩(wěn)的日子

45歲女人在布達(dá)拉宮大罵活佛,一句狠話斷送全家幸福平穩(wěn)的日子

城事錄主
2025-08-13 08:10:08
瘋了!曝楊景媛死不悔改,想借上訴搞最后一搏,二審就要開場(chǎng)了

瘋了!曝楊景媛死不悔改,想借上訴搞最后一搏,二審就要開場(chǎng)了

麥大人
2025-08-24 14:42:35
離譜!女子淘寶買20包棉花棒被警察抓走,罰款10萬

離譜!女子淘寶買20包棉花棒被警察抓走,罰款10萬

法律讀品
2025-08-22 15:37:14
它是“腹部脂肪克星”,每天一次,腰圍減8.4cm,腹部厚度-12%

它是“腹部脂肪克星”,每天一次,腰圍減8.4cm,腹部厚度-12%

增肌減脂
2025-08-24 18:38:47
“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲?。?>
    </a>
        <h3>
      <a href=“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲劇! 馬拉松跑步健身
2025-08-13 19:41:11
辛柏青才送走陪伴二十多年的朱媛媛,連墓碑字跡未干,就被傳緋聞裹挾馬伊琍

辛柏青才送走陪伴二十多年的朱媛媛,連墓碑字跡未干,就被傳緋聞裹挾馬伊琍

草莓解說體育
2025-08-23 02:22:50
全國使用避孕套前十的省份!

全國使用避孕套前十的省份!

荊楚寰宇文樞
2025-08-24 20:45:05
某局長(zhǎng)不滿足潛規(guī)則女下屬,和漂亮的假尼姑有染,結(jié)果被撤職

某局長(zhǎng)不滿足潛規(guī)則女下屬,和漂亮的假尼姑有染,結(jié)果被撤職

喬生桂
2025-08-12 19:43:00
李國旭:給球迷道歉,我的團(tuán)隊(duì)包括球員沒有全力以赴對(duì)待比賽

李國旭:給球迷道歉,我的團(tuán)隊(duì)包括球員沒有全力以赴對(duì)待比賽

懂球帝
2025-08-24 23:27:33
河北女子疑遭家暴致死!臉部青紫、腰骨斷裂,4大疑問有待揭開

河北女子疑遭家暴致死!臉部青紫、腰骨斷裂,4大疑問有待揭開

恪守原則和底線
2025-08-24 19:46:22
2025-08-25 06:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13316文章數(shù) 66136關(guān)注度
往期回顧 全部

科技要聞

DeepSeek暗示國產(chǎn)芯片有望大規(guī)模使用

頭條要聞

"中國釣王"釣獲73斤野生花鰱:覺得好重 現(xiàn)場(chǎng)看魚真大

頭條要聞

"中國釣王"釣獲73斤野生花鰱:覺得好重 現(xiàn)場(chǎng)看魚真大

體育要聞

主動(dòng)降薪99%,NBA第一記者換工作

娛樂要聞

19歲黃多多美上熱搜!謝幕那一刻絕了

財(cái)經(jīng)要聞

跌麻了,央媽又拋售國債?

汽車要聞

"三進(jìn)大宅" 吉利銀河M9預(yù)售價(jià)19.38萬元起

態(tài)度原創(chuàng)

游戲
健康
旅游
教育
公開課

《戰(zhàn)地2042》新史低12元大甩賣!在線峰值已突破7萬

精神科專家解答學(xué)習(xí)困難七大問題

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

網(wǎng)傳:南京高考最新成績(jī)戰(zhàn)報(bào)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 九九国产精品无码免费视频| 成年女人永久免费观看视频| 97av视频在线观看| 91精品国产乱码久久久久久久| 开心五月激情综合久久爱| Av精选在线精品| 国产在线乱子伦一区二区| 少妇AV一区二区三区无码按摩| 强奷乱码中文字幕| 国产1卡二卡3卡四卡乱码视频| 日韩福利片午夜免费观着| cytherea大战黑人| 综合狠狠激情| 亚洲精品第1页| 看成年女人午夜毛片免费| 日本国产制服丝袜一区| 亚洲自偷自拍熟女另类| 精品国产品香蕉在线| 国产精品乱伦强奸一区=区三区| av天堂资源在线中文网| 国产精品成人无码a 无码| 亚洲午夜国产精品无码老牛影视| 懂色av蜜臀av粉嫩av分享| 亚洲又粗又硬aV| 国产sm调教视频在线观看| 成人无码毛片免费看| 無碼 - 尤物视频 - YW193.COM| 国产中文字幕精品免费| 欧美丰满少妇xxxx性| 国产精品无码DVD在线观看| 成人尤物精品视频在线播放| 黑人AV无码| 成人AV玫瑰片| 狠狠爱俺也去去就色| 免费无码黄网站在线播放| 日日爱666| 久久99日本免费国产精品| 久久久久亚洲AV成人片裸体瑜伽| 曰韩人妻一区二区三区| ywllow91人妻呻吟| 丁香五月婷婷第四色|