Jay 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
Grok-4-fast最近在降本增效上的表現(xiàn)堪稱一騎絕塵,連有「路由器」傍身的GPT5都給干趴下了。
面對如此驚艷的推理效率,很多人第一反應(yīng)就是:堆卡式的算力scaling又一次大顯神威了。
實(shí)際上,Grok的背后確實(shí)有英偉達(dá)的影子。
但這次立功的,或許不是老黃的顯卡,而是算法。
沒錯(cuò),Grok-4-fast的秘密武器,被和一篇英偉達(dá)的算法論文關(guān)聯(lián)在了一起。
讓LLM快53倍的火箭發(fā)動(dòng)機(jī)
正如Grok-4-fast所表現(xiàn)出來的一樣,這篇論文解決了困擾行業(yè)已久的推理成本問題。
一味的硬件Scaling只會(huì)讓模型廠商賬單上的數(shù)字越來越長,用戶耐心也在漫長的推理時(shí)間中逐漸被消耗殆盡。
為此,英偉達(dá)研究團(tuán)隊(duì)推出了一種全新「混合結(jié)構(gòu)」模型——Jet-Nemotron。
經(jīng)過一系列全面的基準(zhǔn)測試,發(fā)現(xiàn)Jet-Nemotron-2B的表現(xiàn)與Qwen3、Qwen2.5、Gemma3和Llama3.2等頂尖開源模型不相上下,還能實(shí)現(xiàn)約53倍的速度提升。
例如在MMLU-Pro上,Jet-Nemotron-2B不僅準(zhǔn)確率比Qwen3-1.7B-Base更高,就連生成速度也要快上47倍。
此外,Jet-Nemotron-2B即便遇上參數(shù)更大的模型也絲毫不虛,它在MMLU和MMLU-Pro上的準(zhǔn)確率甚至可以超過DeepSeek-V3-Small和Moonlight(總參數(shù)量15B,激活參數(shù)量2.2B)。
改變這一切的關(guān)鍵,在于一個(gè)叫PortNAS的新框架。
不同于以往的方法,PostNAS不是從零開始訓(xùn)練,而是以一個(gè)預(yù)訓(xùn)練的全注意力模型為起點(diǎn),并凍結(jié)其MLP權(quán)重,只探索注意力機(jī)制的改進(jìn)。
這樣一來,不僅能讓訓(xùn)練成本直接降低幾個(gè)數(shù)量級,還能有更多精力用于全面探索模型結(jié)構(gòu)。
其流程包括四個(gè)核心部分:全注意力層放置、選擇最優(yōu)的線性注意力模塊、設(shè)計(jì)更優(yōu)的線性注意力模塊、硬件感知架構(gòu)搜索。
全注意力層放置
大多數(shù)團(tuán)隊(duì)會(huì)在模型的所有層里統(tǒng)一使用全注意力,但這會(huì)浪費(fèi)算力資源。
因此,英偉達(dá)團(tuán)隊(duì)希望保留少量關(guān)鍵的全注意力層,以維持復(fù)雜任務(wù)的準(zhǔn)確性,同時(shí)剔除冗余層以提升效率。
PostNAS的做法是:先構(gòu)建一個(gè)同時(shí)包含兩種注意力機(jī)制的超級網(wǎng)絡(luò),再通過特征蒸餾來訓(xùn)練子網(wǎng)絡(luò),最后用beam search找到最優(yōu)的注意力層放置方案。
事實(shí)證明,的確并非所有注意力層都重要,不同任務(wù)依賴不同層,少量關(guān)鍵層即可覆蓋大部分任務(wù)需求。
實(shí)驗(yàn)結(jié)果顯示,PostNAS優(yōu)于均勻放置策略——在只使用2層全注意力的情況下,PostNAS的準(zhǔn)確率約49%,而均勻放置的準(zhǔn)確率約40%。
選擇最優(yōu)的線性注意力模塊
在確定了全注意力層后,英偉達(dá)團(tuán)隊(duì)開始進(jìn)行注意力模塊搜索,旨在找到目前最優(yōu)的線性注意力模塊。
論文評估了六種當(dāng)前最先進(jìn)的線性注意力模塊,包括RWKV7、RetNet、Mamba2、GLA、DeltaNet和Gated DeltaNet。
這六個(gè)之中,Gated DeltaNet的準(zhǔn)確率最高,這主要?dú)w功于兩個(gè)因素:
1、數(shù)據(jù)依賴門控機(jī)制(Data-Dependent Gating Mechanism):可以理解成一個(gè)路由器。模型會(huì)根據(jù)輸入的內(nèi)容,決定是更重視新信息,還是之前的歷史狀態(tài),從而在不同任務(wù)里找到平衡。
2、Delta規(guī)則(Delta Rule):不是每次都把記憶里的東西全部覆蓋,而是只更新新變化的部分。這樣能減少不必要的重復(fù)存儲(chǔ),節(jié)省內(nèi)存,同時(shí)保持信息的連續(xù)性。
更優(yōu)解:JetBlock
不過,英偉達(dá)并不打算止步于Gated DeltaNet,而是設(shè)計(jì)了一款比它更強(qiáng)的線性注意力模塊——JetBlock。
卷積對線性注意力模塊的準(zhǔn)確率至關(guān)重要,然而,以往方法大多使用的是靜態(tài)卷積核,它們無法根據(jù)輸入自動(dòng)調(diào)整特征提取方式。
相比之下,JetBlock使用動(dòng)態(tài)卷積,通過在線性注意力中引入一個(gè)卷積核生成器模塊,JetBlock能根據(jù)輸入特征動(dòng)態(tài)地產(chǎn)生卷積核。
結(jié)果顯示,JetBlock在數(shù)學(xué)推理和檢索任務(wù)上的準(zhǔn)確率優(yōu)于Gated DeltaNet,而且仍然保持了不錯(cuò)的生成效率。
要是跟表現(xiàn)最差的Mamba2比起來,JetBlock的優(yōu)勢就更明顯了。
硬件感知架構(gòu)搜索
在確定了宏觀架構(gòu)以及選擇了線性注意力模塊之后,英偉達(dá)團(tuán)隊(duì)進(jìn)一步進(jìn)行了硬件感知架構(gòu)搜索,用于優(yōu)化核心超參數(shù)(key/value的維度、注意力頭的數(shù)量…)。
過去,參數(shù)規(guī)模通常被作為衡量模型效率的主要指標(biāo),用來指導(dǎo)架構(gòu)設(shè)計(jì)。
但英偉達(dá)團(tuán)隊(duì)認(rèn)為這種方法并不理想,因?yàn)閰?shù)量并不能直接反映真實(shí)硬件上的效率。
對此,他們改進(jìn)的方法是:以生成吞吐量作為直接目標(biāo)來選擇超參數(shù)。
英偉達(dá)團(tuán)隊(duì)發(fā)現(xiàn),相比起參數(shù)量,KV緩存大小才是影響長上下文和長文本生成吞吐量的最關(guān)鍵因素。而當(dāng)KV緩存大小固定時(shí),不同參數(shù)規(guī)模的模型,其生成吞吐量表現(xiàn)相似。
基于此,英偉達(dá)團(tuán)隊(duì)選擇保持KV緩存大小與原始設(shè)計(jì)一致,然后在key維度、value維度和注意力頭數(shù)上進(jìn)行小規(guī)模網(wǎng)格搜索。
實(shí)驗(yàn)證明,優(yōu)化后的版本在保持吞吐量不變的情況下,參數(shù)量增加(1.84億 vs 1.7億),同時(shí)數(shù)學(xué)準(zhǔn)確率得到提升(34.8% vs 32.8%)(藍(lán)色行代表實(shí)驗(yàn)組,灰色行代表對照組。)
綜上,PortNAS有望為目前的AI行業(yè)帶來三點(diǎn)影響。
1、推理階段GPU使用時(shí)長減少47倍,這讓LLM能夠以更快的速度完成高質(zhì)量任務(wù)。
2、更小的內(nèi)存需求,這使得更廉價(jià)的硬件部署成為可能。
3、更高吞吐量,意味著模型廠商可在現(xiàn)有基礎(chǔ)設(shè)施規(guī)模下服務(wù)更多用戶。
而且,PostNAS提供低成本、高效率的架構(gòu)探索方式,適用于任何預(yù)訓(xùn)練Transformer。
所以基本上,任何廠商都可以在不重新訓(xùn)練模型的情況下嵌入PortNAS,模型的成本可以大幅降低,同時(shí)準(zhǔn)確率幾乎不會(huì)受到影響。
此外,Jet-Nemotron居然還是開源的。
通訊作者Han Cai在Github上表示Jet-Nemotron的代碼和預(yù)訓(xùn)練模型將在法律審查完成后發(fā)布。
感興趣的朋友可以查看文末的鏈接~
Grok-4-fast的背后是英偉達(dá)?
同時(shí)看到Grok-4-fast和Jet-Nemotron二者同樣驚艷且高度相似的表現(xiàn),很難不讓人懷疑老馬和老黃這一次是不是聯(lián)手了。
在Reddit上,有網(wǎng)友推測Grok-4-Fast應(yīng)該就是基于Jet-Nemotron創(chuàng)造的。
- Jet-Nemotron可以在不犧牲模型性能的情況下,大幅減少推理所需的計(jì)算量,這與Grok-4-fast所展現(xiàn)出來的能力高度相似。
這一觀點(diǎn)能從數(shù)據(jù)上得到支撐——從Grok-4-fast的定價(jià)來看,其價(jià)格下降水平與NVIDIA對這種架構(gòu)模型的預(yù)測相符(論文預(yù)計(jì)會(huì)便宜20倍到50倍)。
更重要的是,如果Jet-Nemotron能夠應(yīng)用于Grok,那它同樣能被OpenAI、Anthropic、Google等公司部署。
也有網(wǎng)友不同意這種說法,認(rèn)為Grok此次的降價(jià)也許只是一種營銷手段,并不能從中推斷出xAI是否采用了什么新技術(shù)。
- 他們可能只是在燒錢獲取市場份額,我不認(rèn)為你可以從中推斷出是采用了某種特定架構(gòu)。
但是,即便Grok-4-fast沒有采用英偉達(dá)的技術(shù),這篇論文也是極有價(jià)值的,因?yàn)镴et-Nemotron同樣可以被用來進(jìn)一步降低成本。而且,xAI也不太可能在這么短時(shí)間研究出來了另一種和Jet-Nemotron一樣效果顯著的技術(shù)。
- 當(dāng)然,也可能是其他算法上的突破。如果真是這樣,那仍然是極具突破性的,因?yàn)镴et-Nemotron也可以被用來進(jìn)一步降低成本。但說實(shí)話,XAI真的又發(fā)現(xiàn)了一個(gè)能讓價(jià)格再下降20倍以上的算法改進(jìn)的可能性有多大呢?
不過,上述觀點(diǎn)都只是猜測,目前這些說法都未得到xAI驗(yàn)證…
華人學(xué)者的又一力作
Grok-4-fast是否真的采用了這項(xiàng)技術(shù)我們不得而知,可以明確的是,在這項(xiàng)突破性研究成果背后,是華人學(xué)者的又一次集中發(fā)力——論文作者全部為華人。
論文的一作是顧煜賢,他是清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系交互式人工智能(CoAI)課題組的四年級博士生,師從黃民烈教授。
顧煜賢致力于提升LLM在整個(gè)生命周期中各個(gè)環(huán)節(jié)的效率,包括預(yù)訓(xùn)練、下游適配以及推理階段。
近期,他的工作重點(diǎn)放在LLM的數(shù)據(jù)策劃策略研究、高效模型架構(gòu)設(shè)計(jì),以及運(yùn)用知識蒸餾技術(shù)(knowledge distillation)進(jìn)行語言模型壓縮。
此前,他曾在微軟亞洲研究院實(shí)習(xí),由董力博士指導(dǎo)。他還曾作為訪問學(xué)生赴麻省理工學(xué)院HAN實(shí)驗(yàn)室,導(dǎo)師為韓松教授。
論文的通訊作者是Han Cai,他目前是NVIDIA Research的一名研究科學(xué)家
在加入NVIDIA之前,Han Cai麻省理工學(xué)院EECS獲得了博士學(xué)位,他的本科和碩士均就讀于上海交通大學(xué)。
Han Cai的研究重心在于高效的基礎(chǔ)模型(擴(kuò)散模型、LLM等)、EdgeAI和AutoML,除了Jet-Nemotron,他還參與了不少英偉達(dá)的重要項(xiàng)目,包括ProxylessNAS、Once-for-all…
目前,他的論文在Google Scholar上累計(jì)被引用超1萬次。
論文:https://arxiv.org/pdf/2508.15884v1
Github:https://github.com/NVlabs/Jet-Nemotron
參考鏈接:
[1]https://pub.towardsai.net/jet-nemotron-nvidias-new-ai-architecture-achieves-53x-speed-improvement-71a5cf2baeeb
[2]https://www.reddit.com/r/singularity/comments/1nmzqj5/there_is_a_very_real_possibility_that_google/
[3]https://t1101675.github.io/
[4]https://han-cai.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.