夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬億參數(shù)狂歡!一文刷爆2025年七大頂流大模型架構(gòu)

0
分享至

新智元報(bào)道

編輯:英智

【新智元導(dǎo)讀】從GPT-2到DeepSeek-V3和Kimi K2,架構(gòu)看似未變,卻藏著哪些微妙升級(jí)?本文深入剖析2025年頂級(jí)開源模型的創(chuàng)新技術(shù),揭示滑動(dòng)窗口注意力、MoE和NoPE如何重塑效率與性能。

從最初的GPT架構(gòu)問世以來,已經(jīng)過去七年了。

回顧2019年GPT-2,再看2024-2025年的DeepSeek-V3和Llama 4,你會(huì)發(fā)現(xiàn),這些模型的結(jié)構(gòu)依然驚人地相似。

當(dāng)然,位置嵌入已從絕對(duì)位置編碼演變?yōu)樾D(zhuǎn)位置編碼(RoPE),多頭注意力(Multi-Head Attention)大多被分組查詢注意力(Grouped-Query Attention)取代,更高效的SwiGLU激活函數(shù)也逐漸取代了GELU。

但在這些細(xì)微改進(jìn)之下,我們真的見證了突破性的變化嗎?還是只是在打磨相同的架構(gòu)?

圖1 本文提到的模型架構(gòu)

本文沒有聚焦于基準(zhǔn)測(cè)試性能或訓(xùn)練算法,而是關(guān)注當(dāng)今旗艦開源模型的架構(gòu)發(fā)展。

研究這些架構(gòu)本身的結(jié)構(gòu)變化仍然具有很大價(jià)值,可以追蹤2025年LLM研究者的最新動(dòng)態(tài)。

DeepSeek V3/R1

DeepSeek R1在2025年1月發(fā)布時(shí)引起了巨大反響。

R1是一個(gè)基于DeepSeek V3構(gòu)建的推理模型,DeepSeek V3于2024年12月首次亮相。

本節(jié)重點(diǎn)介紹DeepSeek V3中引入的兩種關(guān)鍵架構(gòu)技術(shù),這顯著提升了計(jì)算效率:

  1. 多頭潛在注意力(Multi-Head Latent Attention, MLA)

  2. 混合專家模型(Mixture-of-Experts, MoE)

多頭潛在注意力

先從分組查詢注意力(Grouped-Query Attention, GQA)說起。

近年來,GQA已成為替代多頭注意力(Multi-Head Attention, MHA)的新標(biāo)準(zhǔn),因?yàn)樵谟?jì)算和參數(shù)效率上表現(xiàn)更優(yōu)。

傳統(tǒng)的MHA中,每個(gè)注意力頭都有自己獨(dú)立的鍵和值。

而GQA為了降低內(nèi)存占用,會(huì)將多個(gè)注意力頭分組,讓它們共享相同的鍵和值投影。

舉個(gè)例子(如下圖2所示),假如有2個(gè)鍵-值組和4個(gè)注意力頭,那么頭1和頭2會(huì)共享一組鍵和值,頭3和頭4共享另一組。

這樣就減少了鍵和值的計(jì)算總量,從而降低了內(nèi)存使用量,提高了效率。

根據(jù)消融研究,這種方式在不明顯影響模型性能的情況下實(shí)現(xiàn)了更高的效率。

圖2 MHA與GQA的比較,組大小為2,其中兩個(gè)查詢共享一個(gè)鍵值對(duì)

GQA 的核心思想是通過讓多個(gè)查詢頭共享鍵和值來減少鍵和值頭的數(shù)量。這帶來了兩個(gè)好處:

  1. 降低了模型的參數(shù)量;

  2. 推理過程中減少了鍵和值張量的內(nèi)存帶寬使用,因?yàn)樾枰鎯?chǔ)和從鍵值緩存中檢索的鍵和值更少。

雖然GQA主要是為了提升MHA的計(jì)算效率,但消融研究表明,GQA在語言模型性能上與標(biāo)準(zhǔn)的MHA表現(xiàn)相當(dāng)。

多頭潛在注意力提供了一種不同的內(nèi)存節(jié)省策略,尤其適合與鍵-值緩存搭配使用。

與GQA通過共享鍵和值頭不同,MLA的方法是將鍵和值張量壓縮到一個(gè)低維空間,然后再存儲(chǔ)到鍵值緩存中。

在推理時(shí),這些壓縮的張量會(huì)在使用前被投影回原始尺寸,如圖3所示。

雖然會(huì)增加一次額外的矩陣乘法,但顯著降低了內(nèi)存使用量。

圖3 MLA工作流程(用于DeepSeekV3和R1)與常規(guī)MHA的比較

順便提一句,查詢?cè)谟?xùn)練時(shí)也會(huì)被壓縮,但在推理時(shí)不會(huì)。

MLA并不是DeepSeek V3首創(chuàng)的技術(shù),它的前身DeepSeek-V2就已經(jīng)引入了這種技術(shù)。

此外,DeepSeek-V2論文中包含了一些有趣的消融研究,解釋了為什么DeepSeek團(tuán)隊(duì)選擇MLA而不是GQA。

圖4 DeepSeek-V2論文中的表格,來自https://arxiv.org/abs/2405.04434

如圖所示,GQA的表現(xiàn)似乎不如MHA,而MLA在建模性能上優(yōu)于MHA。

MLA是一種能減少鍵值緩存的內(nèi)存使用量的技巧,同時(shí)在建模性能上略勝M(fèi)HA一籌。

專家混合模型(MoE)

DeepSeek的另一個(gè)值得關(guān)注的架構(gòu)組件是其使用的專家混合(Mixture-of-Experts, MoE)層。

MoE的核心思想是將Transformer中的每個(gè)前饋網(wǎng)絡(luò)(FeedForward)模塊替換為多個(gè)專家層,而每個(gè)專家層本身也是一個(gè)前饋網(wǎng)絡(luò)模塊。

簡(jiǎn)單來說,就是用多個(gè)前饋網(wǎng)絡(luò)塊替換單個(gè)前饋網(wǎng)絡(luò)塊,如下圖所示。

圖5 DeepSeek V3/R1中的MoE模塊(右)與標(biāo)準(zhǔn)前饋網(wǎng)絡(luò)模塊(左)

因此,用多個(gè)前饋網(wǎng)絡(luò)模塊替換單一前饋網(wǎng)絡(luò)模塊,會(huì)顯著增加模型的總參數(shù)量。

關(guān)鍵的技巧在于,不會(huì)為每個(gè)token激活所有專家。相反,一個(gè)router會(huì)為每個(gè)token選擇一小部分專家。

由于每次只激活少數(shù)專家,MoE模塊通常被稱為「稀疏」模塊。

通過MoE增加的大量總參數(shù)提升了模型的容量,這意味著模型在訓(xùn)練時(shí)可以吸收更多知識(shí)。

而稀疏性則保證了推理的高效,因?yàn)椴粫?huì)同時(shí)使用所有參數(shù)。

例如,DeepSeek-V3每個(gè)MoE模塊有256個(gè)專家,總計(jì)671B參數(shù)。但在推理過程中,每次只激活9個(gè)專家。

這意味著每次推理步驟只使用37B參數(shù),而不是全部參數(shù)。

DeepSeek-V3的MoE設(shè)計(jì)中一個(gè)特點(diǎn)是使用了一個(gè)共享專家。這個(gè)共享專家對(duì)每個(gè)token始終保持激活。

圖6 來自DeepSeekMoE論文,https://arxiv.org/abs/2401.06066

研究發(fā)現(xiàn),與沒有共享專家的情況相比,共享專家能提升整體建模性能。

DeepSeek-V3是一個(gè)擁有671B參數(shù)的超大規(guī)模模型,在發(fā)布時(shí)超越了其他開源模型,包括405B參數(shù)的Llama 3。

盡管參數(shù)量巨大,但得益于MoE架構(gòu),DeepSeek-V3在推理時(shí)的效率非常高,每個(gè)token僅激活一小部分參數(shù)。

另一個(gè)關(guān)鍵的區(qū)別是DeepSeek-V3使用了多頭潛在注意力(MLA)而非分組查詢注意力(GQA)。

MLA和GQA都是比標(biāo)準(zhǔn)多頭注意力(MHA)更高效的替代方案,尤其是在使用鍵值緩存時(shí)。

盡管MLA的實(shí)現(xiàn)更復(fù)雜,但DeepSeek-V2論文中的研究表明,MLA的建模性能優(yōu)于GQA。

Kimi 2

Kimi 2最近在AI社區(qū)引發(fā)了巨大反響,因?yàn)樗且粋€(gè)性能卓越的開源權(quán)重模型。

根據(jù)基準(zhǔn)測(cè)試,Kimi 2的表現(xiàn)可與頂尖模型(如Gemini、Claude和ChatGPT)相媲美。

優(yōu)化器創(chuàng)新:Muon而非AdamW

一個(gè)值得注意的亮點(diǎn)是Kimi K2使用了一種相對(duì)較新的優(yōu)化器Muon的變體,而非業(yè)界標(biāo)準(zhǔn)的AdamW。

這是Muon首次在如此大規(guī)模的生產(chǎn)模型中取代AdamW。

這帶來了非常平滑的訓(xùn)練損失曲線,這很可能幫助Kimi K2在上述基準(zhǔn)測(cè)試中名列前茅。

Kimi K2模型擁有1萬億個(gè)參數(shù),規(guī)模令人震撼。

Kimi K2的出現(xiàn)并非偶然,它基于本文開頭討論的DeepSeek-V3架構(gòu),只是規(guī)模更大,如下圖所示。

圖7 DeepSeek V3與Kimi K2的架構(gòu)對(duì)比

Kimi K2的架構(gòu)與DeepSeek V3基本相同,區(qū)別在于它在專家混合(MoE)模塊中使用了更多的專家,并在多頭潛在注意力(MLA)模塊中減少了注意力頭的數(shù)量。

Kimi K2并非橫空出世。此前的 Kimi 1.5模型也表現(xiàn)不俗。

然而,Kimi 1.5不幸與DeepSeek R1的論文在同一天發(fā)布。

因此,Kimi K2團(tuán)隊(duì)很可能吸取了這些教訓(xùn),在DeepSeek R2發(fā)布之前,將Kimi K2作為開源權(quán)重模型發(fā)布。

截至本文撰寫時(shí),Kimi K2是最令人印象深刻的開源權(quán)重模型。

Qwen3

Qwen團(tuán)隊(duì)始終在提供高質(zhì)量的開源LLM,位列排行榜前列。

Qwen3包括7個(gè)密集模型:0.6B、1.7B、4B、8B、14B和32B,以及2個(gè)專家混合模型:30B-A3B和235B-A22B。

Qwen3(Dense)

Qwen3 0.6B模型可能是當(dāng)前一代開源模型中參數(shù)量最小的。

盡管規(guī)模小,但模型性能非常出色。如果在本地運(yùn)行,它具有很高的token/秒吞吐量和低內(nèi)存占用。

此外,由于其小規(guī)模,它也非常適合本地訓(xùn)練(例如用于教育目的)。

因此,Qwen3 0.6B已經(jīng)取代了Llama 3 1B,成為大多數(shù)用途的首選模型。

以下是這兩種架構(gòu)的對(duì)比圖。

圖8 Qwen3 0.6B與Llama 3 1B的架構(gòu)對(duì)比

Qwen3整體架構(gòu)較小,隱藏層更小,注意力頭更少,因此內(nèi)存占用較小。

然而,它使用了比Llama 3更多的Transformer模塊,這導(dǎo)致運(yùn)行速度較慢(生成token/秒的速度較低)。

Qwen3(MoE)

Qwen3還推出了兩種專家混合模型變體:30B-A3B和235B-A22B。

MoE變體有助于降低大模型的推理成本,針對(duì)推理的擴(kuò)展性進(jìn)行了優(yōu)化。

在固定的推理預(yù)算下,MoE模型可以實(shí)現(xiàn)更高的模型容量,而不會(huì)成比例增加推理成本。

通過同時(shí)發(fā)布這兩種類型的模型,Qwen3系列能夠支持更廣泛的用例:密集模型適用于穩(wěn)健性、簡(jiǎn)單性和微調(diào),而MoE模型則適合大規(guī)模高效推理。

圖9 DeepSeek-V3與Qwen3 235B-A22B的架構(gòu)對(duì)比

Qwen3模型放棄了使用共享專家。團(tuán)隊(duì)沒有透露放棄共享專家的具體原因。

OLMo 2

由非營(yíng)利組織Allen人工智能研究所開發(fā)的OLMo系列模型,因其在訓(xùn)練數(shù)據(jù)和代碼的透明度而備受關(guān)注。

OLMo模型因透明度而廣受歡迎,它們的性能也并不差。

1月份發(fā)布時(shí),OLMo 2在計(jì)算成本與性能的Pareto frontier上表現(xiàn)突出,如圖所示。

圖10 不同大模型的建?;鶞?zhǔn)性能與預(yù)訓(xùn)練成本的對(duì)比,來自O(shè)LMo 2論文 https://arxiv.org/abs/2501.00656

OLMo 2有哪些有趣的架構(gòu)設(shè)計(jì)呢?

主要集中在normalization:RMSNorm層的位置以及新增的QK-Norm。

規(guī)范化層的位置

OLMo 2的架構(gòu)在很大程度上沿襲了GPT,與其他當(dāng)代LLM相似。

與Llama、Gemma一樣,OLMo 2從LayerNorm切換到了RMSNorm。

不過,RMSNorm層的位置值得一提。

在原始Transformer中,兩個(gè)規(guī)范化層分別被放置在注意力模塊和前饋網(wǎng)絡(luò)模塊之后。這種方式被稱為后規(guī)范化。

GPT以及之后的大多數(shù)LLM將規(guī)范化層放在注意力模塊和前饋網(wǎng)絡(luò)模塊之前,這種方式被稱為前規(guī)范化。

圖11 后規(guī)范化、前規(guī)范化以及OLMo 2版本的后規(guī)范化的對(duì)比

前規(guī)范化在初始化時(shí)能產(chǎn)生更穩(wěn)定的梯度。

此外,前規(guī)范化甚至在沒有精心設(shè)計(jì)的學(xué)習(xí)率預(yù)熱(learning rate warm-up)的情況下也能表現(xiàn)良好,學(xué)習(xí)率預(yù)熱對(duì)后規(guī)范化來說是至關(guān)重要的工具。

OLMo 2采用了一種后規(guī)范化的形式(但使用的是RMSNorm而不是LayerNorm,因此稱之為Post-Norm)。

在OLMo 2中,規(guī)范化層不再放在注意力模塊和前饋網(wǎng)絡(luò)模塊之前,而是放在之后。

與原始Transformer不同的是,OLMo 2的規(guī)范化層仍然位于殘差層內(nèi)部。

那么,為什么要改變規(guī)范化層的位置呢?原因在于這有助于提高訓(xùn)練穩(wěn)定性。

圖12 前規(guī)范化(如GPT-2、Llama 3)與OLMo 2的后規(guī)范化的訓(xùn)練穩(wěn)定性對(duì)比圖

遺憾的是,這同時(shí)展示了規(guī)范化層重新排列和QK-Norm的效果,因此很難單獨(dú)判斷規(guī)范化層位置調(diào)整的具體貢獻(xiàn)。

QK-Norm

QK-Norm實(shí)際上是另一個(gè)RMSNorm層。

它被放置在多頭注意力(MHA)模塊內(nèi)部,在應(yīng)用旋轉(zhuǎn)位置編碼(RoPE)之前,對(duì)查詢和鍵進(jìn)行規(guī)范化。

以下是為Qwen3從頭實(shí)現(xiàn)的分組查詢注意力(GQA)層的代碼片段:

     

class GroupedQueryAttention(nn.Module):
    def __init__(
        self, d_in, num_heads, num_kv_groups,
        head_dim=None, qk_norm=False, dtype=None
    ):
        # ...
        if qk_norm:
            self.q_norm = RMSNorm(head_dim, eps=1e-6)
            self.k_norm = RMSNorm(head_dim, eps=1e-6)
        else:
            self.q_norm = self.k_norm = None
    def forward(self, x, mask, cos, sin):
        b, num_tokens, _ = x.shape
        # Apply projections
        queries = self.W_query(x) 
        keys = self.W_key(x)
        values = self.W_value(x) 
        # ...
        # Optional normalization
        if self.q_norm:
            queries = self.q_norm(queries)
        if self.k_norm:
            keys = self.k_norm(keys)
        # Apply RoPE
        queries = apply_rope(queries, cos, sin)
        keys = apply_rope(keys, cos, sin)
        # Expand K and V to match number of heads
        keys = keys.repeat_interleave(self.group_size, dim=1)
        values = values.repeat_interleave(self.group_size, dim=1)
        # Attention
        attn_scores = queries @ keys.transpose(2, 3)
        # ...

     

QK-Norm結(jié)合后規(guī)范化能穩(wěn)定訓(xùn)練過程。

OLMo 2的亮點(diǎn)主要集中在RMSNorm的位置調(diào)整:將RMSNorm放置在注意力模塊和前饋網(wǎng)絡(luò)模塊之后,以及在注意力機(jī)制中對(duì)查詢和鍵添加RMSNorm(即QK-Norm)。

這兩者結(jié)合有助于穩(wěn)定訓(xùn)練過程中的損失,下圖進(jìn)一步對(duì)比了OLMo 2和Llama 3的架構(gòu)。

除了OLMo 2仍然使用傳統(tǒng)的多頭注意力(MHA)而非分組查詢注意力(GQA)外,兩者的架構(gòu)相似。

圖13 Llama 3與OLMo 2的架構(gòu)對(duì)比

Gemma 3

與Llama等熱門模型相比,谷歌Gemma似乎被低估了。

Gemma的顯著特點(diǎn)是其超大的詞匯量,以及對(duì)27B模型的特別重視。

Gemma 3也提供了更小規(guī)模的版本:1B、4B和12B。

27B模型恰好達(dá)到了一個(gè)非常理想的平衡點(diǎn):它的能力遠(yuǎn)超8B模型,但又不像70B模型那樣需要大量計(jì)算資源。在Mac Mini上運(yùn)行27B模型完全沒有問題。

Gemma 3還有什么有趣的地方呢?

正如之前討論的,DeepSeek-V3/R1采用了專家混合架構(gòu),通過推理時(shí)只激活部分參數(shù)來降低內(nèi)存需求。

Gemma 3則使用了另一種方法來降低計(jì)算成本,即滑動(dòng)窗口注意力(sliding window attention)。

滑動(dòng)窗口注意力

滑動(dòng)窗口注意力讓Gemma 3團(tuán)隊(duì)大幅降低了鍵值緩存的內(nèi)存需求,如下圖所示。

圖14 Gemma 3論文(https://arxiv.org/abs/2503.19786)通過滑動(dòng)窗口注意力實(shí)現(xiàn)的鍵值緩存內(nèi)存節(jié)省

如果把常規(guī)的自注意力(self-attention)看作一種全局注意力機(jī)制(因?yàn)槊總€(gè)序列元素可以訪問所有其他序列元素)。

那么滑動(dòng)窗口注意力可以看作一種局部注意力機(jī)制,它限制了當(dāng)前查詢位置周圍的上下文范圍。

圖15 常規(guī)注意力(左)與滑動(dòng)窗口注意力(右)的對(duì)比

滑動(dòng)窗口注意力可以與多頭注意力(MHA)和分組查詢注意力(GQA)一起使用;Gemma 3使用的是分組查詢注意力。

如上所述,滑動(dòng)窗口注意力也被稱為局部注意力,因?yàn)榫植看翱跁?huì)圍繞當(dāng)前查詢位置并隨其移動(dòng)。

相比之下,常規(guī)注意力是全局的,因?yàn)槊總€(gè)token都可以訪問所有其他token。

Gemma 2也已經(jīng)使用了滑動(dòng)窗口注意力。

Gemma 3的不同之處在于調(diào)整了全局注意力(常規(guī)注意力)和局部注意力(滑動(dòng)窗口)的比例。

Gemma 2使用了一種混合注意力機(jī)制,將滑動(dòng)窗口(局部)注意力和全局注意力以1:1的比例結(jié)合,每個(gè)token可以關(guān)注附近4096個(gè)token的上下文窗口。

在Gemma 3中,這一比例調(diào)整為5:1,即每5個(gè)滑動(dòng)窗口(局部)注意力層才有一個(gè)全局注意力層;此外,滑動(dòng)窗口的大小從Gemma 2的4096縮小到Gemma 3的1024。

這使得模型更專注于高效的局部計(jì)算。

根據(jù)消融研究,使用滑動(dòng)窗口注意力對(duì)模型性能的影響微乎其微,如圖所示。

圖16 Gemma 3論文(https://arxiv.org/abs/2503.19786)顯示滑動(dòng)窗口注意力對(duì)模型輸出的困惑度(perplexity)幾乎沒有影響

Gemma3規(guī)范化層位置

Gemma 3在其分組查詢注意力(GQA)模塊周圍同時(shí)使用了前規(guī)范化和后規(guī)范化的RMSNorm設(shè)置。

這與Gemma 2的做法類似,但仍值得強(qiáng)調(diào),因?yàn)樗c以下情況不同:

  1. 原始Transformer使用的后規(guī)范化(Post-Norm);

  2. GPT-2推廣并被許多后續(xù)架構(gòu)采用的前規(guī)范化(Pre-Norm);

  3. 之前提到的OLMo 2中使用的后規(guī)范化變體。

圖17 OLMo 2與Gemma 3的架構(gòu)對(duì)比;注意Gemma 3中額外的規(guī)范化層

Gemma 3是一款性能優(yōu)異的開源LLM,它在開源社區(qū)中有些被低估。

最引人注目的是使用滑動(dòng)窗口注意力來提高效率(未來與專家混合模型MoE結(jié)合可能會(huì)很有趣)。

此外,Gemma 3在規(guī)范化層的位置上也有獨(dú)特的設(shè)計(jì),在注意力模塊和前饋網(wǎng)絡(luò)模塊前后都放置了RMSNorm層。

Gemma 3n

Gemma 3發(fā)布幾個(gè)月后,谷歌推出了Gemma 3n,這是針對(duì)小型設(shè)備(如手機(jī))優(yōu)化的模型。

為了提升效率,Gemma 3n引入的一項(xiàng)變化是所謂的逐層嵌入(Per-Layer Embedding, PLE)參數(shù)層。

其核心思想是將模型的一部分參數(shù)保留在GPU內(nèi)存中,而特定于token層的嵌入(例如文本、音頻和視覺模態(tài)的嵌入)則根據(jù)需要從CPU或SSD流式傳輸。

下圖展示了PLE的內(nèi)存節(jié)省效果。

圖18 谷歌Gemma 3n博客(https://developers.googleblog.com/en/introducing-gemma-3n/)

另一個(gè)有趣的技巧是MatFormer。

例如,Gemma 3n使用單一的共享大型語言模型(Transformer)架構(gòu),可以將其切片為更小的、獨(dú)立可用的模型。

每個(gè)切片都經(jīng)過訓(xùn)練可以獨(dú)立運(yùn)行,因此在推理時(shí),可以只運(yùn)行所需的切片(而不是整個(gè)大模型)。

Mistral Small 3.1

Mistral Small 3.1是繼Gemma 3之后于3月發(fā)布的一款模型,擁有24B參數(shù)。

它在多項(xiàng)基準(zhǔn)測(cè)試中超越了Gemma 3 27B,除了數(shù)學(xué)任務(wù)外表現(xiàn)更優(yōu),同時(shí)推理速度更快。

Mistral Small 3.1推理延遲較低的原因可能包括:

  1. 定制分詞器(Tokenizer):優(yōu)化的分詞器可能提高了處理效率。

  2. 減少KV緩存和層數(shù):通過縮小鍵值緩存(KV cache)和模型層數(shù),降低了計(jì)算和內(nèi)存需求。

  3. 標(biāo)準(zhǔn)架構(gòu):如下圖所示,Mistral Small 3.1采用了較為常規(guī)的架構(gòu)設(shè)計(jì)。

圖19 Gemma 3 27B與Mistral Small 3.1 24B的架構(gòu)對(duì)比

早期Mistral模型曾使用滑動(dòng)窗口注意力,但Mistral Small 3.1中似乎放棄了這一機(jī)制。

Mistral Small 3.1使用的是常規(guī)的分組查詢注意力,而不是像Gemma 3那樣的帶滑動(dòng)窗口的GQA。

這可能帶來額外的推理計(jì)算節(jié)省,因?yàn)榭梢岳酶鼉?yōu)化的代碼。

雖然滑動(dòng)窗口注意力可以減少內(nèi)存使用量,但并不一定能降低推理延遲,而Mistral Small 3.1的重點(diǎn)正是優(yōu)化推理延遲。

Llama 4

Llama 4同樣采用了MoE架構(gòu),其整體架構(gòu)與DeepSeek-V3非常相似,如下圖所示。

圖20 DeepSeek V3(671B參數(shù))與Llama 4 Maverick(400B參數(shù))的架構(gòu)對(duì)比

雖然Llama 4 Maverick的整體架構(gòu)看起來與DeepSeek-V3非常相似,但仍有一些值得注意的差異。

Llama 4沿用了其前身的分組查詢注意力(GQA),而DeepSeek-V3使用了多頭潛在注意力(MLA)。

DeepSeek-V3和Llama 4 Maverick都是超大規(guī)模架構(gòu),但DeepSeek-V3的總參數(shù)量比Llama 4大約多68%。

然而,在活躍參數(shù)方面,DeepSeek-V3每次推理使用37B個(gè)參數(shù),是Llama 4 Maverick(17B活躍參數(shù))的兩倍多。

Llama 4 Maverick使用了更經(jīng)典的MoE設(shè)置,專家數(shù)量較少但規(guī)模較大(每次激活2個(gè)專家,每個(gè)專家的隱藏層大小為8192)。

而DeepSeek-V3的MoE設(shè)置則有更多但較小的專家(每次激活9個(gè)專家,每個(gè)專家的隱藏層大小為2048)。

此外,DeepSeek-V3在每個(gè)Transformer中都使用了MoE層,而Llama 4則在每隔一個(gè)Transformer中交替使用MoE和密集模塊。

參考資料:

https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
印尼突放冷箭,暫停所有中資項(xiàng)目!中方的反制措施,太狠了

印尼突放冷箭,暫停所有中資項(xiàng)目!中方的反制措施,太狠了

科技虎虎
2025-08-05 22:15:00
42歲謝婷婷產(chǎn)后狀態(tài)驚艷,哺乳照刷屏,松弛感碾壓焦慮媽媽圈?

42歲謝婷婷產(chǎn)后狀態(tài)驚艷,哺乳照刷屏,松弛感碾壓焦慮媽媽圈?

娛樂領(lǐng)航家
2025-07-27 23:05:03
臺(tái)球廳淪為風(fēng)月場(chǎng)?988 元 “一桿進(jìn)洞” 曝光!不齒勾當(dāng)令人發(fā)指

臺(tái)球廳淪為風(fēng)月場(chǎng)?988 元 “一桿進(jìn)洞” 曝光!不齒勾當(dāng)令人發(fā)指

詩(shī)意世界
2025-08-02 11:21:29
真相了!亮證姐朋友圈被扒!官網(wǎng)公布后續(xù),她老公被立案調(diào)查了

真相了!亮證姐朋友圈被扒!官網(wǎng)公布后續(xù),她老公被立案調(diào)查了

烏娛子醬
2025-08-04 16:51:53
張近東帶著蘇寧“回血”了?從差點(diǎn)倒下到簽下百億大單他做對(duì)了啥

張近東帶著蘇寧“回血”了?從差點(diǎn)倒下到簽下百億大單他做對(duì)了啥

牛鍋巴小釩
2025-08-04 11:57:24
三戰(zhàn)如果開打,主戰(zhàn)場(chǎng)會(huì)是哪里?美俄答案擰到了一塊兒

三戰(zhàn)如果開打,主戰(zhàn)場(chǎng)會(huì)是哪里?美俄答案擰到了一塊兒

阿芒娛樂說
2025-08-06 10:07:03
周口婦產(chǎn)科主任疑因患者網(wǎng)暴自殺身亡,丈夫:切除子宮產(chǎn)婦很感激,但家屬說“絕后了”

周口婦產(chǎn)科主任疑因患者網(wǎng)暴自殺身亡,丈夫:切除子宮產(chǎn)婦很感激,但家屬說“絕后了”

瀟湘晨報(bào)
2025-08-05 15:46:08
理想i8配置統(tǒng)一版本售價(jià)統(tǒng)一為33.98萬!李想:期待它在30-40萬價(jià)位段的銷量表現(xiàn),大家去看看現(xiàn)在第一名是誰

理想i8配置統(tǒng)一版本售價(jià)統(tǒng)一為33.98萬!李想:期待它在30-40萬價(jià)位段的銷量表現(xiàn),大家去看看現(xiàn)在第一名是誰

和訊網(wǎng)
2025-08-05 14:07:33
韓國(guó)記者:巴薩原本計(jì)劃免簽孫興慜,但球員對(duì)加盟巴薩沒興趣

韓國(guó)記者:巴薩原本計(jì)劃免簽孫興慜,但球員對(duì)加盟巴薩沒興趣

懂球帝
2025-08-05 17:10:09
底薪簽約!又是關(guān)系戶!湖人也太寵愛東契奇了,這中鋒不夠打啊

底薪簽約!又是關(guān)系戶!湖人也太寵愛東契奇了,這中鋒不夠打啊

張家大院趣說天下事
2025-08-06 09:50:03
浙江很可能會(huì)成為第一個(gè)耗盡養(yǎng)老金結(jié)余的經(jīng)濟(jì)大省。

浙江很可能會(huì)成為第一個(gè)耗盡養(yǎng)老金結(jié)余的經(jīng)濟(jì)大省。

流蘇晚晴
2025-06-26 18:05:37
在健身房,被惡心到了。

在健身房,被惡心到了。

健身迷
2025-07-02 00:21:44
飛翼76-85自由人!比輸球更可怕的是李月汝賽后一席話,心態(tài)崩了

飛翼76-85自由人!比輸球更可怕的是李月汝賽后一席話,心態(tài)崩了

野渡舟山人
2025-08-06 09:32:45
佛山基肯孔雅熱蔓延,部分醫(yī)院可核酸檢測(cè) ,武漢出動(dòng)1.7萬人滅蚊

佛山基肯孔雅熱蔓延,部分醫(yī)院可核酸檢測(cè) ,武漢出動(dòng)1.7萬人滅蚊

湖心點(diǎn)評(píng)
2025-08-06 08:55:03
英國(guó)一男子12歲開始留胡須,幾乎每天都為胡須洗護(hù)、吹干、打油,參加比賽打敗400名對(duì)手奪冠

英國(guó)一男子12歲開始留胡須,幾乎每天都為胡須洗護(hù)、吹干、打油,參加比賽打敗400名對(duì)手奪冠

極目新聞
2025-07-26 18:54:38
證監(jiān)會(huì)降溫股市!8月6日,牛市之路終于重啟了?

證監(jiān)會(huì)降溫股市!8月6日,牛市之路終于重啟了?

風(fēng)口招財(cái)豬
2025-08-06 00:52:52
閑魚用戶賣黃金卷入電詐8萬元被劃扣,警方稱符合辦案流程

閑魚用戶賣黃金卷入電詐8萬元被劃扣,警方稱符合辦案流程

澎湃新聞
2025-08-05 21:22:32
別再說孩子還小就沒事,四川江油未成年圍毆事件給出答案

別再說孩子還小就沒事,四川江油未成年圍毆事件給出答案

慕容律師
2025-08-05 15:09:45
13歲中國(guó)女孩被控捅死14歲同胞室友,外國(guó)寄宿家庭深夜驚變命案現(xiàn)場(chǎng)!

13歲中國(guó)女孩被控捅死14歲同胞室友,外國(guó)寄宿家庭深夜驚變命案現(xiàn)場(chǎng)!

北美省錢快報(bào)
2025-08-06 06:10:19
中國(guó)對(duì)菲律賓有了新定義,解放軍集結(jié)黃巖島,已經(jīng)做好兩手準(zhǔn)備

中國(guó)對(duì)菲律賓有了新定義,解放軍集結(jié)黃巖島,已經(jīng)做好兩手準(zhǔn)備

劉勇教授
2025-08-06 10:36:46
2025-08-06 11:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13203文章數(shù) 66113關(guān)注度
往期回顧 全部

科技要聞

OpenAI開源!性能超DeepSeek 但"幻覺"頻發(fā)

頭條要聞

特朗普重磅發(fā)聲:未來24小時(shí)內(nèi)將"大幅"提高印度關(guān)稅

頭條要聞

特朗普重磅發(fā)聲:未來24小時(shí)內(nèi)將"大幅"提高印度關(guān)稅

體育要聞

“孫興慜就是熱刺,熱刺就是孫興慜”

娛樂要聞

陳奕迅自曝壓力太大患焦慮癥

財(cái)經(jīng)要聞

王貽芳院士:AI離人腦還有巨大差距

汽車要聞

冰玉白新色/可免費(fèi)選裝 極氪009光輝售78.90萬元起

態(tài)度原創(chuàng)

旅游
健康
教育
時(shí)尚
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

教育要聞

【牧奈菜代】英語呱呱叫!上海人的第二母語?

趙露思,“掀桌”之后,徹底不裝了!

軍事要聞

福建艦電磁彈射最新畫面公布 "飛鯊"劃破長(zhǎng)空

無障礙瀏覽 進(jìn)入關(guān)懷版 国产 精品 99| 欧美三级欧美成人高清www| 精品人妻人人操| 乱中年女人伦AV二区| 欧美成人国产精品高潮| 欧美人与性动交α欧美精品张| 日韩精品一区二区亚洲观看AV | 国产成人无码精品久久二区三区| 久久久精品电影| 爆乳亚洲一区二区中文字幕久久 | 99热成人精品热久久6网站| 国产性爱一区二区| aV乱亚洲一区二区三区| 日韩欧美在线综合网| 在线观看毛片无码| 6080亚洲论理88av| 99精品国产在热久久无毒| 丰满少妇被猛烈进入免费播放| 亚洲av永久无码精品国产精品 | 宾馆大战丰满少妇| 婷婷四房播播| 性一交一乱一伦| 国产乱码日韩一区二区三区| 亚洲国产日韩欧美一区二区三区 | 粉嫩少妇内射浓精videos| 男女裸体影院高潮| 亚洲熟女播放| 国产成人a级毛片| 国产精品xxxxx| 真人黄色视频| 国产在线高清精品二区| 成人免费高清视频毛片| 亚洲中文字幕成人无码| 一卡2卡3卡4卡精品乱码视频 | 国产 老头 视频| 伊人久久大香线蕉AV| 午夜寂寞视频无码专区| 久久精品无码一区二区三区蜜臀| 2021久久超碰国产精品最新| 18禁看片网站| 一夲道久久成人亚洲|