Mamba-3驚現(xiàn)AI頂會ICLR 2026！CMU知名華人教授一作首代工作AI圈爆紅

2025-10-13 14:21:42　來源: 新智元

北京舉報

分享至

新智元報道

編輯：艾倫 KingHZ

【新智元導讀】曼巴回來了！Transformer框架最有力挑戰(zhàn)者之一Mamba的最新進化版本Mamba-3來了，已進入ICLR 2026盲審環(huán)節(jié)，超長文本處理和低延時是其相對Transformer的顯著優(yōu)勢。另一個挑戰(zhàn)者是FBAM，從不同的角度探索Transformer的下一代框架。

算法巨蟒「Mamba」悄然蛻變至第三代！

備受矚目的Transformer最有力繼任者之一：Mamba，它的最新進化版本Mamba-3已進入ICLR 2026盲審階段。

Mamba-3論文鏈接：https://openreview.net/pdf?id=HwCvaJOiCj

幾年前，Transformer雄踞序列建模領域之巔，但一群研究者另辟蹊徑，開始嘗試從經(jīng)典的狀態(tài)空間模型（SSM）中汲取靈感，打造更高效的序列網(wǎng)絡架構。

SSM示意圖

這就是Mamba系列的由來。

從初代Mamba-1到如今亮相的Mamba-3，這條AI巨蟒一路蜿蜒前行，不斷進化出新「技能」，試圖在長序列記憶和推理效率上，向Transformer發(fā)起挑戰(zhàn)。

蛻變之始

Mamba-1的誕生與局限

故事要從Transformer的痛點說起。

Transformer擅長「一覽眾山小」——它能對輸入序列中的任意兩點建立直接聯(lián)系，捕捉復雜的全局模式。

然而這種注意力機制的代價不菲：推理時每產(chǎn)生一個新詞，都要重新計算與過去所有詞的關系，計算量隨序列長度呈平方級增長。

假設你在寫文章，每寫一個字就翻閱整個前文來決定下一個字，寫得越長，速度越慢。

這樣的機制在長文本生成或?qū)崟r應用中變得舉步維艱。

研究者們不禁回想起更老的辦法：循環(huán)神經(jīng)網(wǎng)絡（RNN）。

RNN每次生成下一個輸出，只需參考上一步的隱藏狀態(tài)和當前輸入。

就像寫文章時，你不必每天都重讀整篇文章，而只需看上一段寫了什么，就能接著寫今天的內(nèi)容。

因此，RNN具有線性時間的推理速度和潛在的無限記憶長度。

但現(xiàn)實中RNN也有硬傷：它的「日記」往往越寫越模糊，隔了許多天就記不清舊事了。

換言之，傳統(tǒng)RNN隨著時間推移容易遺忘早先的信息。

這種遺忘使得RNN在長距離依賴和復雜推理上表現(xiàn)不佳。

Mamba-1的問世，正是為了解決這一系列矛盾。

Mamba-1論文鏈接：https://arxiv.org/abs/2312.00752

Mamba-1借鑒連續(xù)狀態(tài)空間模型的理論，結(jié)合RNN的循環(huán)結(jié)構與一種特殊的線性動態(tài)系統(tǒng)，力圖兼顧長程記憶與高效推理。

在每個時間步，它通過狀態(tài)向量來累積信息，并引入了「選擇性」機制：根據(jù)當前輸入來調(diào)節(jié)遺忘和保留，就像寫文章時遇到重要細節(jié)會特別標注，避免后續(xù)遺失。

在處理離散文本時，這種輸入依賴的門控讓模型更加游刃有余，不再像傳統(tǒng)SSM那樣「一股腦兒記流水賬」，而是能夠有選擇地遺忘或強化某些信息。

得益于這一點，Mamba-1在語言等離散模態(tài)上表現(xiàn)大有改觀。

然而，Mamba-1也留下了一些遺憾。

為了實現(xiàn)輸入依賴的狀態(tài)更新，它放棄了原本SSM可用的高效卷積計算，轉(zhuǎn)而逐步按序列長度展開計算。

這意味著雖然理論上推理復雜度是線性的，但如何充分利用硬件并行成了新的挑戰(zhàn)。

初代Mamba在小規(guī)模模型上已經(jīng)展現(xiàn)出與Transformer比肩的潛力，甚至在某些長序列任務上實現(xiàn)了超越，但面對更大規(guī)模模型和更苛刻的實時推理需求時，仍有提升空間。

加速進化

Mamba-2的「對偶加速」

時間來到2024年5月，第二代Mamba-2登場。

Mamba-2論文鏈接：https://arxiv.org/abs/2405.21060

研究團隊深入剖析了Mamba與Transformer的內(nèi)在聯(lián)系，提出了一個有趣的觀點：Transformer和SSM其實是一對近親。

他們發(fā)現(xiàn)，通過一種稱為「結(jié)構化狀態(tài)空間對偶」（SSD）的理論框架，可以將Mamba的循環(huán)更新用矩陣運算表示為帶特殊掩碼的乘法，與一種簡化的注意力機制形式等價。

結(jié)構化狀態(tài)空間對偶：通過結(jié)構化矩陣的橋梁，狀態(tài)空間模型（SSMs）和注意力機制可以被證明在數(shù)學上是等價的。它們本質(zhì)上是同一類計算的不同表現(xiàn)形式

這個理論對偶賦予了Mamba-2全新的優(yōu)化策略。

憑借SSD框架，Mamba-2對核心循環(huán)層進行了重新設計和實現(xiàn)，使其在GPU上的運行效率大大提高。

Mamba-2相比前代模型推理速度提升了2～8倍。

Mamba-2不再讓GPU閑著等待逐步計算，而是更好地發(fā)揮并行能力。

他們巧妙地利用張量核心進行并行計算，相當于把原本單線程執(zhí)行的文章寫作拆分成多人同時書寫但結(jié)果不亂的過程。

結(jié)果是，Mamba-2在保持與Transformer相當建模效果的同時，實現(xiàn)了前所未有的高推理吞吐，真正把線性時間的優(yōu)勢發(fā)揮了出來。

當然，Mamba-2并非盡善盡美。

一方面，它的架構本質(zhì)上仍然遵循Mamba-1的思路，隱藏狀態(tài)只有一種更新模式，建模能力上可能還欠缺「變化的花樣」。

另一方面，即使有了對偶加速，模型在某些需要復雜記憶變換的任務上仍有局限。

例如，當遇到需要周期性狀態(tài)跟蹤或精確計數(shù)的場景，Mamba-2可能依舊力不從心，因為它的內(nèi)部狀態(tài)演化仍是相對單一的衰減形式，缺乏「鐘擺」般來回振蕩的機制來捕捉循環(huán)規(guī)律。

研究者們意識到，要讓Mamba系列真正百尺竿頭更進一步，既要更聰明地記憶，也要更充分地利用硬件。帶著這些經(jīng)驗和反思，Mamba-3孕育而生。

三大新技能

Mamba-3的破局之道

到了第三代，Mamba帶來了三項關鍵改進，分別對應更高的模型精度、更強的記憶能力和更優(yōu)的效率。

左圖為Mamba-2架構圖，右圖為Mamba-3架構圖

這些改進源自經(jīng)典狀態(tài)空間理論的智慧，卻又服務于現(xiàn)代AI的實際需求。

我們依次揭開這「三板斧」的神秘面紗。

更精巧的狀態(tài)更新：梯形規(guī)則離散化

Mamba-3采用了一種更高階的積分近似方法：廣義梯形法則，來計算連續(xù)狀態(tài)演化到離散時間的更新。

簡單來說，之前Mamba的狀態(tài)更新相當于用歐拉法粗略近似：在每個時間步，僅根據(jù)區(qū)間末端的信息更新狀態(tài)（就像你只根據(jù)一天結(jié)束時的感受來寫日記）。

這種做法速度快，但難免有偏差，會逐步累積誤差。

而梯形法則則更進一步，它綜合考慮了時間區(qū)間的起點和終點，相當于在早晚各記一筆，再取平均。

左圖為歐拉法（保持端點），右圖為梯形法則（端點取平均）

這使得每一步的狀態(tài)更新更加準確，不會因為一次粗略的近似導致長期記憶走樣。

實驗表明，這種二階精度的更新法減少了狀態(tài)演化的截斷誤差，提高了模型對長序列的處理質(zhì)量。

引入復數(shù)狀態(tài)空間：「鐘擺」記憶

如果說梯形離散化讓Mamba-3記憶細節(jié)時少丟分，那么復數(shù)隱狀態(tài)則賦予了它全新的記憶方式。

傳統(tǒng)的SSM為了保證穩(wěn)定性，一般只用真實數(shù)的負值作為狀態(tài)演化的特征——

這意味著隱藏狀態(tài)要么逐漸衰減，要么單調(diào)增長，但缺乏來回震蕩的可能。

這就像一個只會漸漸停下來的秋千，無法自我維持擺動。

而在Mamba-3中，研究者大膽地打開了復數(shù)的大門，讓狀態(tài)向量可以在復平面上演化。

這帶來了什么好處呢？

復數(shù)狀態(tài)實際上等效于引入二維旋轉(zhuǎn)動態(tài)——就像在隱藏狀態(tài)里加裝了一對小鐘擺。

鐘擺可以一邊緩慢衰減，一邊周期性振蕩，這正是許多復雜序列模式所需要的記憶行為。

例如，追蹤句子中的奇偶校驗、循環(huán)節(jié)奏，或者「每隔幾個詞重復一次」這種規(guī)律，純實數(shù)模型常常難以優(yōu)雅地學習；但有了復數(shù)狀態(tài)，這些問題就迎刃而解。

換個角度類比，Transformer擅長直接「翻書找線索」，Mamba-3則更像腦中有一只耐心搖擺的節(jié)拍器或時鐘，可以暗自計時、循環(huán)，幫助它記住信息的順序和周期。

事實證明，經(jīng)過「復數(shù)化」，在一些狀態(tài)追蹤類任務（比如模仿算法的計算、處理周期模式）上，Mamba-3獲得了以前的模型不曾具備的能力。

多輸入多輸出設計：并行高效「多車道」

Mamba-3的第三項改進，面向的是推理階段的硬件效率。

在生成長序列時，Mamba系列理論計算量低于Transformer，但此前模型每步只處理單一輸入和單一輸出（稱為SISO，Single-Input Single-Output），導致計算單元常有閑置。

為此，Mamba-3引入了MIMO（Multi-Input Multi-Output）的廣義結(jié)構，可在每個時間步并行處理多路輸入信號并產(chǎn)生多路輸出。

舉個通俗的例子：想象高速公路上原本只有一條車道，每次只能過一輛車，現(xiàn)在拓寬為多條車道，多個車輛并行通過。

對于Mamba的隱藏狀態(tài)更新，也是類似的思路：以前每步只能「一個管道傳輸一份信息」，現(xiàn)在通過矩陣運算實現(xiàn)「一次傳輸多份信息」。

SISO與MIMO對比示意圖

這樣一來，計算資源利用率大大提高。

在實際硬件上，這種改變顯著提高了算術強度（即每次數(shù)據(jù)訪問所進行的計算量），使得GPU等加速器能夠滿負荷運行，不再受限于內(nèi)存帶寬瓶頸。

MIMO設計讓Mamba-3能更好地跑滿硬件。

引入多輸入多輸出后，Mamba-3的循環(huán)公式本質(zhì)上從向量外積變?yōu)榫仃嚦朔e，這一改變不僅帶來效率提升，也是對經(jīng)典控制論中多通道狀態(tài)空間模型的延續(xù)。

研究者表示，在不增加明顯開銷的情況下，這一改變?yōu)槟Ｐ吞峁┝遂`活開關，今后甚至可以按需選擇打開MIMO模式來平衡速度與性能。

經(jīng)過這三大升級，Mamba-3的整體架構依然保持了前代的簡潔模塊化設計，但在細節(jié)上更加洗練。

原本為提升穩(wěn)定性而在Mamba-2中加入的額外歸一化層也被重新安置，以更契合現(xiàn)代Transformer的范式；

過去線性模型里常用的短卷積輔助在Mamba-3中也因梯形更新和復數(shù)增強的加入而不再需要。

種種改動，使Mamba-3真正蛻變成一條靈活敏捷又力量倍增的「巨蟒」。

應用前景

長文本、推理加速與設備端AI

Mamba-3的出現(xiàn)，無疑為序列建模開拓了新的可能性。

它更可能將在長文本處理與內(nèi)容生成、實時推理與交互式AI、推理階段成本優(yōu)化這三大方向中大放光彩。

長文本處理與內(nèi)容生成

對于需要處理超長序列的任務，Mamba-3如魚得水。

無論是長篇文章生成、長對話上下文理解，還是分析日志、DNA序列這類海量數(shù)據(jù)，Mamba-3都不受窗口長度桎梏，能夠持續(xù)地記憶和生成。

注：NIAH（needle-in-a-haystack，大海撈針）是一個超長上下文信息檢索測試

而且在保持生成質(zhì)量的同時，它對長序列的計算開銷增長緩慢，更適合此類應用。

正如實驗所示，在相同模型規(guī)模下Mamba-3在語言建模上的表現(xiàn)全面優(yōu)于前代模型，這意味著它有潛力在長文本任務中提供比肩甚至超越Transformer的效果，卻不需要為了擴大量程而付出指數(shù)級計算代價。

實時推理與交互式AI

在需要快速響應的AI應用中（例如實時對話助手、線上翻譯、語音交互等），推理速度和延遲至關重要。

Mamba-3天生適合這類場景，因為它每步計算固定且高效。

不同模型、精度和dstate參數(shù)下的延遲（單位：ms）比較

比如一款部署在手機上的實時翻譯器，需要在用戶說話時連續(xù)輸出翻譯文本。

使用Mamba-3引擎，設備無需擔心隨著對話變長計算量爆炸，可以始終以恒定速度輸出，不拖慢用戶體驗。

同時，由于Mamba-3對硬件要求相對低，移動設備或物聯(lián)網(wǎng)終端也有望承載一定規(guī)模的模型，在本地以低延遲運行AI推理。

這為邊緣計算和隱私保護帶來好處：數(shù)據(jù)不必上傳云端也能實時處理。

推理階段成本優(yōu)化

對于云端的大模型服務提供商來說，推理階段的算力和內(nèi)存成本是沉重開銷。

Mamba-3提供了一種降低成本的新路徑。在相同推理預算下，使用Mamba-3架構可以支撐更大的模型或更長的序列生成。

其在固定計算預算下的性能-效率折中曲線優(yōu)于現(xiàn)有模型，意味著在保證輸出質(zhì)量的前提下，每秒能生成的Token數(shù)更多。

狀態(tài)規(guī)模與預訓練困惑度

這對于需要大規(guī)模生成內(nèi)容的應用（如對話機器人批量回復、內(nèi)容創(chuàng)作工具等）將直接轉(zhuǎn)化為吞吐提升和成本節(jié)省。

當然，Mamba-3也并非萬能。

訓練方面，Transformer成熟的訓練技巧和廣泛的社區(qū)支持仍是優(yōu)勢，而Mamba-3這種新架構可能需要更多探索來充分發(fā)揮其威力。

在某些精細推理任務上，Transformer的直接注意力可能依舊更勝一籌。

另外值得一提的是，此前兩代Mamba的一作都是華人。

Albert Gu是CMU助理教授，兼任Cartesia AI的首席科學家，目前論文被引超17000次。

Tri Dao則是越南裔，本科和博士均畢業(yè)于斯坦福大學，是普林斯頓大學助理教授，兼任Together.AI的首席科學家，目前論文被引破2萬次。

但對Transformer發(fā)起有力挑戰(zhàn)的，絕非僅有Mamba。接下來我們將簡單介紹另一位挑戰(zhàn)者：FBAM。

無需注意力？不止Mamba

對長上下文任務來說，當序列長度遠大于模型層數(shù)時，模型在極少步驟里需要聚合越來越多的信息。

如果把AI智能體看作是在理解「環(huán)境觀察」的問題，那隨著「不可見狀態(tài)」的增長（也就是觀察不到，需要推理出來的信息），模型要解決的就變成了「狀態(tài)追蹤問題」。

這類問題Transformer難以勝任，所以Mamba等狀態(tài)空間模型（State-space models）應運而生。

但類似問題依舊存在：當序列超過某個臨界長度N之后，如果不增加層數(shù)，它們也會失敗。

本質(zhì)原因在于「可判定性」：當任務需要串行完成N個子決策時，如果層數(shù)不夠，模型就處理不了。

這就是引入FBAM（Frame-based Action Models，基于幀的行動模型）的動機。

過去數(shù)月，AI初創(chuàng)公司Prime Intellect的研究工程師Michael Keiblinger苦心鉆研，成果最終問世。

論文鏈接：https://arxiv.org/abs/2510.06828

他認為，長程感知需要重新審視循環(huán)結(jié)構。

FBAM不同于傳統(tǒng)語言模型，它不是簡單地串聯(lián)式自回歸。

雖然依舊是自回歸模型，但它的輸入輸出關系更復雜，不是「生成一個Token就拼到輸入序列里」。

FBAM是預測一個操作（action），由這個操作驅(qū)動「環(huán)境」生成下一個「幀」（frame）。

FBAM分解為兩個主件：

「幀頭」（Frame Head）：負責滿足整合器從當前幀內(nèi)容中獲取信息的需求，有效地「嵌入」該幀；

「主序列模型」/「整合器」（Main sequence model/Integrator）：負責聚合幀嵌入，并在相應時間步輸出下一個動作。

幀頭部分仍采用Transformer骨干網(wǎng)絡。

從技術上講，F(xiàn)BAM完全可以僅依靠幀局部上下文（frame-local context）運行，只要周邊文本可見且無需歷史記錄。

隨著序列長度不斷增長，研究者觀察到即使參數(shù)數(shù)量保持不變，模型的損失水平也持續(xù)降低，損失隨序列長度呈經(jīng)典冪律分布。

不同序列長度下，模型的損失隨訓練步數(shù)的變化

從實際耗時來看，最終長時間運行的模型會趕上較短序列長度的模型。在這種情況下，除了實用性考慮之外，刻意訓練一個較短序列長度的模型沒有任何意義。

打倒Transformer霸權

Mamba-3已經(jīng)展示了狀態(tài)空間模型在新時代的生命力：原來序列建模并非只能一條路走到黑。

在追求更長上下文、更快推理的道路上，這條機敏的「Mamba」巨蟒正昂首前行。

當我們回顧Mamba的進化歷程，不難發(fā)現(xiàn)每一代的革新都凝結(jié)著研究者對記憶與計算的深刻思考。

從Mamba-1的雛形初現(xiàn)，到Mamba-2的加速攀升，再到Mamba-3的全面躍遷，這項技術就像一段連續(xù)的樂章，一步步逼近效率與能力的完美和聲。

參考資料：

https://openreview.net/forum?id=HwCvaJOiCj

https://arxiv.org/abs/2510.06828

https://arxiv.org/abs/2312.00752

https://arxiv.org/abs/2405.21060

https://ml.cmu.edu/people/core-faculty-people/agu

https://tridao.me/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.