新智元報道
編輯:艾倫 KingHZ
【新智元導讀】曼巴回來了!Transformer框架最有力挑戰(zhàn)者之一Mamba的最新進化版本Mamba-3來了,已進入ICLR 2026盲審環(huán)節(jié),超長文本處理和低延時是其相對Transformer的顯著優(yōu)勢。另一個挑戰(zhàn)者是FBAM,從不同的角度探索Transformer的下一代框架。
算法巨蟒「Mamba」悄然蛻變至第三代!
備受矚目的Transformer最有力繼任者之一:Mamba,它的最新進化版本Mamba-3已進入ICLR 2026盲審階段。
Mamba-3論文鏈接:https://openreview.net/pdf?id=HwCvaJOiCj
幾年前,Transformer雄踞序列建模領域之巔,但一群研究者另辟蹊徑,開始嘗試從經(jīng)典的狀態(tài)空間模型(SSM)中汲取靈感,打造更高效的序列網(wǎng)絡架構。
SSM示意圖
這就是Mamba系列的由來。
從初代Mamba-1到如今亮相的Mamba-3,這條AI巨蟒一路蜿蜒前行,不斷進化出新「技能」,試圖在長序列記憶和推理效率上,向Transformer發(fā)起挑戰(zhàn)。
蛻變之始
Mamba-1的誕生與局限
故事要從Transformer的痛點說起。
Transformer擅長「一覽眾山小」——它能對輸入序列中的任意兩點建立直接聯(lián)系,捕捉復雜的全局模式。
然而這種注意力機制的代價不菲:推理時每產(chǎn)生一個新詞,都要重新計算與過去所有詞的關系,計算量隨序列長度呈平方級增長。
假設你在寫文章,每寫一個字就翻閱整個前文來決定下一個字,寫得越長,速度越慢。
這樣的機制在長文本生成或?qū)崟r應用中變得舉步維艱。
研究者們不禁回想起更老的辦法:循環(huán)神經(jīng)網(wǎng)絡(RNN)。
RNN每次生成下一個輸出,只需參考上一步的隱藏狀態(tài)和當前輸入。
就像寫文章時,你不必每天都重讀整篇文章,而只需看上一段寫了什么,就能接著寫今天的內(nèi)容。
因此,RNN具有線性時間的推理速度和潛在的無限記憶長度。
但現(xiàn)實中RNN也有硬傷:它的「日記」往往越寫越模糊,隔了許多天就記不清舊事了。
換言之,傳統(tǒng)RNN隨著時間推移容易遺忘早先的信息。
這種遺忘使得RNN在長距離依賴和復雜推理上表現(xiàn)不佳。
Mamba-1的問世,正是為了解決這一系列矛盾。
Mamba-1論文鏈接:https://arxiv.org/abs/2312.00752
Mamba-1借鑒連續(xù)狀態(tài)空間模型的理論,結(jié)合RNN的循環(huán)結(jié)構與一種特殊的線性動態(tài)系統(tǒng),力圖兼顧長程記憶與高效推理。
在每個時間步,它通過狀態(tài)向量來累積信息,并引入了「選擇性」機制:根據(jù)當前輸入來調(diào)節(jié)遺忘和保留,就像寫文章時遇到重要細節(jié)會特別標注,避免后續(xù)遺失。
在處理離散文本時,這種輸入依賴的門控讓模型更加游刃有余,不再像傳統(tǒng)SSM那樣「一股腦兒記流水賬」,而是能夠有選擇地遺忘或強化某些信息。
得益于這一點,Mamba-1在語言等離散模態(tài)上表現(xiàn)大有改觀。
然而,Mamba-1也留下了一些遺憾。
為了實現(xiàn)輸入依賴的狀態(tài)更新,它放棄了原本SSM可用的高效卷積計算,轉(zhuǎn)而逐步按序列長度展開計算。
這意味著雖然理論上推理復雜度是線性的,但如何充分利用硬件并行成了新的挑戰(zhàn)。
初代Mamba在小規(guī)模模型上已經(jīng)展現(xiàn)出與Transformer比肩的潛力,甚至在某些長序列任務上實現(xiàn)了超越,但面對更大規(guī)模模型和更苛刻的實時推理需求時,仍有提升空間。
加速進化
Mamba-2的「對偶加速」
時間來到2024年5月,第二代Mamba-2登場。
Mamba-2論文鏈接:https://arxiv.org/abs/2405.21060
研究團隊深入剖析了Mamba與Transformer的內(nèi)在聯(lián)系,提出了一個有趣的觀點:Transformer和SSM其實是一對近親。
他們發(fā)現(xiàn),通過一種稱為「結(jié)構化狀態(tài)空間對偶」(SSD)的理論框架,可以將Mamba的循環(huán)更新用矩陣運算表示為帶特殊掩碼的乘法,與一種簡化的注意力機制形式等價。
結(jié)構化狀態(tài)空間對偶:通過結(jié)構化矩陣的橋梁,狀態(tài)空間模型(SSMs)和注意力機制可以被證明在數(shù)學上是等價的。它們本質(zhì)上是同一類計算的不同表現(xiàn)形式
這個理論對偶賦予了Mamba-2全新的優(yōu)化策略。
憑借SSD框架,Mamba-2對核心循環(huán)層進行了重新設計和實現(xiàn),使其在GPU上的運行效率大大提高。
Mamba-2相比前代模型推理速度提升了2~8倍。
Mamba-2不再讓GPU閑著等待逐步計算,而是更好地發(fā)揮并行能力。
他們巧妙地利用張量核心進行并行計算,相當于把原本單線程執(zhí)行的文章寫作拆分成多人同時書寫但結(jié)果不亂的過程。
結(jié)果是,Mamba-2在保持與Transformer相當建模效果的同時,實現(xiàn)了前所未有的高推理吞吐,真正把線性時間的優(yōu)勢發(fā)揮了出來。
當然,Mamba-2并非盡善盡美。
一方面,它的架構本質(zhì)上仍然遵循Mamba-1的思路,隱藏狀態(tài)只有一種更新模式,建模能力上可能還欠缺「變化的花樣」。
另一方面,即使有了對偶加速,模型在某些需要復雜記憶變換的任務上仍有局限。
例如,當遇到需要周期性狀態(tài)跟蹤或精確計數(shù)的場景,Mamba-2可能依舊力不從心,因為它的內(nèi)部狀態(tài)演化仍是相對單一的衰減形式,缺乏「鐘擺」般來回振蕩的機制來捕捉循環(huán)規(guī)律。
研究者們意識到,要讓Mamba系列真正百尺竿頭更進一步,既要更聰明地記憶,也要更充分地利用硬件。帶著這些經(jīng)驗和反思,Mamba-3孕育而生。
三大新技能
Mamba-3的破局之道
到了第三代,Mamba帶來了三項關鍵改進,分別對應更高的模型精度、更強的記憶能力和更優(yōu)的效率。
左圖為Mamba-2架構圖,右圖為Mamba-3架構圖
這些改進源自經(jīng)典狀態(tài)空間理論的智慧,卻又服務于現(xiàn)代AI的實際需求。
我們依次揭開這「三板斧」的神秘面紗。
更精巧的狀態(tài)更新:梯形規(guī)則離散化
Mamba-3采用了一種更高階的積分近似方法:廣義梯形法則,來計算連續(xù)狀態(tài)演化到離散時間的更新。
簡單來說,之前Mamba的狀態(tài)更新相當于用歐拉法粗略近似:在每個時間步,僅根據(jù)區(qū)間末端的信息更新狀態(tài)(就像你只根據(jù)一天結(jié)束時的感受來寫日記)。
這種做法速度快,但難免有偏差,會逐步累積誤差。
而梯形法則則更進一步,它綜合考慮了時間區(qū)間的起點和終點,相當于在早晚各記一筆,再取平均。
左圖為歐拉法(保持端點),右圖為梯形法則(端點取平均)
這使得每一步的狀態(tài)更新更加準確,不會因為一次粗略的近似導致長期記憶走樣。
實驗表明,這種二階精度的更新法減少了狀態(tài)演化的截斷誤差,提高了模型對長序列的處理質(zhì)量。
引入復數(shù)狀態(tài)空間:「鐘擺」記憶
如果說梯形離散化讓Mamba-3記憶細節(jié)時少丟分,那么復數(shù)隱狀態(tài)則賦予了它全新的記憶方式。
傳統(tǒng)的SSM為了保證穩(wěn)定性,一般只用真實數(shù)的負值作為狀態(tài)演化的特征——
這意味著隱藏狀態(tài)要么逐漸衰減,要么單調(diào)增長,但缺乏來回震蕩的可能。
這就像一個只會漸漸停下來的秋千,無法自我維持擺動。
而在Mamba-3中,研究者大膽地打開了復數(shù)的大門,讓狀態(tài)向量可以在復平面上演化。
這帶來了什么好處呢?
復數(shù)狀態(tài)實際上等效于引入二維旋轉(zhuǎn)動態(tài)——就像在隱藏狀態(tài)里加裝了一對小鐘擺。
鐘擺可以一邊緩慢衰減,一邊周期性振蕩,這正是許多復雜序列模式所需要的記憶行為。
例如,追蹤句子中的奇偶校驗、循環(huán)節(jié)奏,或者「每隔幾個詞重復一次」這種規(guī)律,純實數(shù)模型常常難以優(yōu)雅地學習;但有了復數(shù)狀態(tài),這些問題就迎刃而解。
換個角度類比,Transformer擅長直接「翻書找線索」,Mamba-3則更像腦中有一只耐心搖擺的節(jié)拍器或時鐘,可以暗自計時、循環(huán),幫助它記住信息的順序和周期。
事實證明,經(jīng)過「復數(shù)化」,在一些狀態(tài)追蹤類任務(比如模仿算法的計算、處理周期模式)上,Mamba-3獲得了以前的模型不曾具備的能力。
多輸入多輸出設計:并行高效「多車道」
Mamba-3的第三項改進,面向的是推理階段的硬件效率。
在生成長序列時,Mamba系列理論計算量低于Transformer,但此前模型每步只處理單一輸入和單一輸出(稱為SISO,Single-Input Single-Output),導致計算單元常有閑置。
為此,Mamba-3引入了MIMO(Multi-Input Multi-Output)的廣義結(jié)構,可在每個時間步并行處理多路輸入信號并產(chǎn)生多路輸出。
舉個通俗的例子:想象高速公路上原本只有一條車道,每次只能過一輛車,現(xiàn)在拓寬為多條車道,多個車輛并行通過。
對于Mamba的隱藏狀態(tài)更新,也是類似的思路:以前每步只能「一個管道傳輸一份信息」,現(xiàn)在通過矩陣運算實現(xiàn)「一次傳輸多份信息」。
SISO與MIMO對比示意圖
這樣一來,計算資源利用率大大提高。
在實際硬件上,這種改變顯著提高了算術強度(即每次數(shù)據(jù)訪問所進行的計算量),使得GPU等加速器能夠滿負荷運行,不再受限于內(nèi)存帶寬瓶頸。
MIMO設計讓Mamba-3能更好地跑滿硬件。
引入多輸入多輸出后,Mamba-3的循環(huán)公式本質(zhì)上從向量外積變?yōu)榫仃嚦朔e,這一改變不僅帶來效率提升,也是對經(jīng)典控制論中多通道狀態(tài)空間模型的延續(xù)。
研究者表示,在不增加明顯開銷的情況下,這一改變?yōu)槟P吞峁┝遂`活開關,今后甚至可以按需選擇打開MIMO模式來平衡速度與性能。
經(jīng)過這三大升級,Mamba-3的整體架構依然保持了前代的簡潔模塊化設計,但在細節(jié)上更加洗練。
原本為提升穩(wěn)定性而在Mamba-2中加入的額外歸一化層也被重新安置,以更契合現(xiàn)代Transformer的范式;
過去線性模型里常用的短卷積輔助在Mamba-3中也因梯形更新和復數(shù)增強的加入而不再需要。
種種改動,使Mamba-3真正蛻變成一條靈活敏捷又力量倍增的「巨蟒」。
應用前景
長文本、推理加速與設備端AI
Mamba-3的出現(xiàn),無疑為序列建模開拓了新的可能性。
它更可能將在長文本處理與內(nèi)容生成、實時推理與交互式AI、推理階段成本優(yōu)化這三大方向中大放光彩。
長文本處理與內(nèi)容生成
對于需要處理超長序列的任務,Mamba-3如魚得水。
無論是長篇文章生成、長對話上下文理解,還是分析日志、DNA序列這類海量數(shù)據(jù),Mamba-3都不受窗口長度桎梏,能夠持續(xù)地記憶和生成。
注:NIAH(needle-in-a-haystack,大海撈針)是一個超長上下文信息檢索測試
而且在保持生成質(zhì)量的同時,它對長序列的計算開銷增長緩慢,更適合此類應用。
正如實驗所示,在相同模型規(guī)模下Mamba-3在語言建模上的表現(xiàn)全面優(yōu)于前代模型,這意味著它有潛力在長文本任務中提供比肩甚至超越Transformer的效果,卻不需要為了擴大量程而付出指數(shù)級計算代價。
實時推理與交互式AI
在需要快速響應的AI應用中(例如實時對話助手、線上翻譯、語音交互等),推理速度和延遲至關重要。
Mamba-3天生適合這類場景,因為它每步計算固定且高效。
不同模型、精度和dstate參數(shù)下的延遲(單位:ms)比較
比如一款部署在手機上的實時翻譯器,需要在用戶說話時連續(xù)輸出翻譯文本。
使用Mamba-3引擎,設備無需擔心隨著對話變長計算量爆炸,可以始終以恒定速度輸出,不拖慢用戶體驗。
同時,由于Mamba-3對硬件要求相對低,移動設備或物聯(lián)網(wǎng)終端也有望承載一定規(guī)模的模型,在本地以低延遲運行AI推理。
這為邊緣計算和隱私保護帶來好處:數(shù)據(jù)不必上傳云端也能實時處理。
推理階段成本優(yōu)化
對于云端的大模型服務提供商來說,推理階段的算力和內(nèi)存成本是沉重開銷。
Mamba-3提供了一種降低成本的新路徑。在相同推理預算下,使用Mamba-3架構可以支撐更大的模型或更長的序列生成。
其在固定計算預算下的性能-效率折中曲線優(yōu)于現(xiàn)有模型,意味著在保證輸出質(zhì)量的前提下,每秒能生成的Token數(shù)更多。
狀態(tài)規(guī)模與預訓練困惑度
這對于需要大規(guī)模生成內(nèi)容的應用(如對話機器人批量回復、內(nèi)容創(chuàng)作工具等)將直接轉(zhuǎn)化為吞吐提升和成本節(jié)省。
當然,Mamba-3也并非萬能。
訓練方面,Transformer成熟的訓練技巧和廣泛的社區(qū)支持仍是優(yōu)勢,而Mamba-3這種新架構可能需要更多探索來充分發(fā)揮其威力。
在某些精細推理任務上,Transformer的直接注意力可能依舊更勝一籌。
另外值得一提的是,此前兩代Mamba的一作都是華人。
Albert Gu是CMU助理教授,兼任Cartesia AI的首席科學家,目前論文被引超17000次。
Tri Dao則是越南裔,本科和博士均畢業(yè)于斯坦福大學,是普林斯頓大學助理教授,兼任Together.AI的首席科學家,目前論文被引破2萬次。
但對Transformer發(fā)起有力挑戰(zhàn)的,絕非僅有Mamba。接下來我們將簡單介紹另一位挑戰(zhàn)者:FBAM。
無需注意力?不止Mamba
對長上下文任務來說,當序列長度遠大于模型層數(shù)時,模型在極少步驟里需要聚合越來越多的信息。
如果把AI智能體看作是在理解「環(huán)境觀察」的問題,那隨著「不可見狀態(tài)」的增長(也就是觀察不到,需要推理出來的信息),模型要解決的就變成了「狀態(tài)追蹤問題」。
這類問題Transformer難以勝任,所以Mamba等狀態(tài)空間模型(State-space models)應運而生。
但類似問題依舊存在:當序列超過某個臨界長度N之后,如果不增加層數(shù),它們也會失敗。
本質(zhì)原因在于「可判定性」:當任務需要串行完成N個子決策時,如果層數(shù)不夠,模型就處理不了。
這就是引入FBAM(Frame-based Action Models,基于幀的行動模型)的動機。
過去數(shù)月,AI初創(chuàng)公司Prime Intellect的研究工程師Michael Keiblinger苦心鉆研,成果最終問世。
論文鏈接:https://arxiv.org/abs/2510.06828
他認為,長程感知需要重新審視循環(huán)結(jié)構。
FBAM不同于傳統(tǒng)語言模型,它不是簡單地串聯(lián)式自回歸。
雖然依舊是自回歸模型,但它的輸入輸出關系更復雜,不是「生成一個Token就拼到輸入序列里」。
FBAM是預測一個操作(action),由這個操作驅(qū)動「環(huán)境」生成下一個「幀」(frame)。
FBAM分解為兩個主件:
「幀頭」(Frame Head):負責滿足整合器從當前幀內(nèi)容中獲取信息的需求,有效地「嵌入」該幀;
「主序列模型」/「整合器」(Main sequence model/Integrator):負責聚合幀嵌入,并在相應時間步輸出下一個動作。
幀頭部分仍采用Transformer骨干網(wǎng)絡。
從技術上講,F(xiàn)BAM完全可以僅依靠幀局部上下文(frame-local context)運行,只要周邊文本可見且無需歷史記錄。
隨著序列長度不斷增長,研究者觀察到即使參數(shù)數(shù)量保持不變,模型的損失水平也持續(xù)降低,損失隨序列長度呈經(jīng)典冪律分布。
不同序列長度下,模型的損失隨訓練步數(shù)的變化
從實際耗時來看,最終長時間運行的模型會趕上較短序列長度的模型。在這種情況下,除了實用性考慮之外,刻意訓練一個較短序列長度的模型沒有任何意義。
打倒Transformer霸權
Mamba-3已經(jīng)展示了狀態(tài)空間模型在新時代的生命力:原來序列建模并非只能一條路走到黑。
在追求更長上下文、更快推理的道路上,這條機敏的「Mamba」巨蟒正昂首前行。
當我們回顧Mamba的進化歷程,不難發(fā)現(xiàn)每一代的革新都凝結(jié)著研究者對記憶與計算的深刻思考。
從Mamba-1的雛形初現(xiàn),到Mamba-2的加速攀升,再到Mamba-3的全面躍遷,這項技術就像一段連續(xù)的樂章,一步步逼近效率與能力的完美和聲。
參考資料:
https://openreview.net/forum?id=HwCvaJOiCj
https://arxiv.org/abs/2510.06828
https://arxiv.org/abs/2312.00752
https://arxiv.org/abs/2405.21060
https://ml.cmu.edu/people/core-faculty-people/agu
https://tridao.me/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.