作為美國卡內(nèi)基梅隆大學(xué)的助理教授和美國 AI 初創(chuàng)公司 Cartesia 的聯(lián)合創(chuàng)始人,Albert Gu 曾憑借聯(lián)合提出 Mamba 這一新型序列建模架構(gòu)而入選 TIME 100 AI,還曾入選 2025 谷歌研究學(xué)者計(jì)劃名單。
圖丨Albert Gu(來源:https://memento.epfl.ch/event/ai-cente)
最近,他和自己的韓裔學(xué)生黃錫俊(Sukjun Hwang)以及 Cartesia 技術(shù)團(tuán)隊(duì)的華裔成員 Brandon Wang 提出了一種端到端的分層網(wǎng)絡(luò)(H-Net,hierarchical network)。
圖丨黃錫?。⊿ukjun Hwang)(來源:https://sukjunhwang.githu)
值得注意的是,作為一名華裔,本次相關(guān)論文的共同作者 Brandon Wang 高中畢業(yè)于美國加利福尼亞州的薩拉托加(Saratoga)高中,后于 2019 年獲得國際數(shù)學(xué)奧林匹克競賽(IMO,International Mathematics Olympiad)金牌,2024 年其本科畢業(yè)于美國麻省理工學(xué)院,之后便加入了 Albert Gu 的上述創(chuàng)業(yè)公司。
(來源:資料圖)
首個(gè)真正端到端無分詞器的語言模型
研究團(tuán)隊(duì)表示,H-Net 通過遞歸的、數(shù)據(jù)依賴的動態(tài)分塊(DC,dynamic chunking)過程對原始數(shù)據(jù)進(jìn)行壓縮,代表了首個(gè)真正端到端無分詞器的語言模型。該模型通過單階段動態(tài)分塊,當(dāng)字節(jié)級的 H-Net 在參數(shù)規(guī)模超過 10 億時(shí),其困惑度和下游任務(wù)性能可與基于字節(jié)對編碼(BPE,Byte Pair Encoding)分詞的 Transformer 模型相媲美。
圖丨相關(guān)論文(來源:arXiv)
據(jù)了解,H-Net 在保持分詞化流程效率的同時(shí),通過使用數(shù)據(jù)驅(qū)動、內(nèi)容感知且上下文相關(guān)的分割機(jī)制,來取代人工設(shè)計(jì)的啟發(fā)式規(guī)則,從而能夠顯著提升建模能力。
H-Net 采用了先前研究中的分層架構(gòu),這有些類似于自回歸 U-Net:首先,原始數(shù)據(jù)由一個(gè)小型編碼器網(wǎng)絡(luò)進(jìn)行處理;然后,進(jìn)行下采樣并傳入在壓縮塊上運(yùn)行的主網(wǎng)絡(luò);最后,進(jìn)行上采樣并傳入在原始分辨率上運(yùn)行的解碼器網(wǎng)絡(luò)。這種模塊化設(shè)計(jì)構(gòu)建了一個(gè)自然的處理層級結(jié)構(gòu),即外層階段捕捉細(xì)粒度模式,而內(nèi)層階段則基于類似于傳統(tǒng)分詞的粗粒度表示進(jìn)行運(yùn)算。盡管主網(wǎng)絡(luò)包含大部分參數(shù),但是研究團(tuán)隊(duì)發(fā)現(xiàn)編碼器和解碼器網(wǎng)絡(luò)通過使用狀態(tài)空間模型(SSM,state space model)能得到顯著改進(jìn),因?yàn)?SSM 具有用于壓縮的歸納偏置。
據(jù)介紹,H-Net 的核心在于采用了一種新穎的動態(tài)分塊(DC,dynamic chunking)機(jī)制,該機(jī)制能夠連接主網(wǎng)絡(luò)與編碼器/解碼器網(wǎng)絡(luò),在使用標(biāo)準(zhǔn)可微優(yōu)化算法的同時(shí),可以學(xué)習(xí)如何對數(shù)據(jù)進(jìn)行分割。
動態(tài)分塊技術(shù)由兩種互補(bǔ)的新技術(shù)組成:首先是一個(gè)路由模塊,該模塊通過相似度分?jǐn)?shù)預(yù)測相鄰元素之間的邊界;其次是一個(gè)平滑模塊,該模塊利用路由模塊的輸出對表示進(jìn)行插值,以此減弱不確定邊界帶來的影響,并能顯著提升可學(xué)習(xí)性。
研究團(tuán)隊(duì)還結(jié)合了以下創(chuàng)新技術(shù):第一,結(jié)合針對目標(biāo)降采樣率設(shè)計(jì)的新型輔助損失函數(shù);第二,結(jié)合基于梯度的離散決策現(xiàn)代學(xué)習(xí)技術(shù)。基于此,動態(tài)分塊讓 H-Net 能以完全端到端的方式學(xué)習(xí)數(shù)據(jù)壓縮方法。
研究團(tuán)隊(duì)還引入了幾種架構(gòu)和訓(xùn)練技術(shù),以便提高端到端優(yōu)化過程中的穩(wěn)定性和可擴(kuò)展性。這些措施包括:一方面,精心設(shè)置投影層和歸一化層,以便平衡交互子網(wǎng)絡(luò)之間的信號傳播;另一方面,根據(jù)每個(gè)層的維度和有效批大小調(diào)整優(yōu)化參數(shù),而這些參數(shù)在層級結(jié)構(gòu)的不同階段會發(fā)生變化。據(jù)介紹,H-Net 通過學(xué)習(xí)與主干網(wǎng)絡(luò)共同優(yōu)化的分割策略,根據(jù)上下文信息動態(tài)地將輸入向量壓縮成有意義的塊。研究團(tuán)隊(duì)在論文中寫道,從經(jīng)驗(yàn)上看,動態(tài)分塊模塊會自然地將數(shù)據(jù)壓縮到與 BPE 分詞器相近的分辨率(4.5-5 字節(jié)/塊),并且能定性地學(xué)習(xí)到有意義的邊界,整個(gè)過程無需任何外部監(jiān)督或啟發(fā)式方法。
(來源:arXiv)
此前的端到端方法存在訓(xùn)練不穩(wěn)定性
據(jù)了解,深度學(xué)習(xí)的一個(gè)整體目標(biāo)是從原始數(shù)據(jù)中學(xué)習(xí)有意義的模式,以端到端的方式自動提取特征并構(gòu)建抽象概念。然而,固定詞匯分詞——即通過 BPE 等算法將原始文本壓縮成預(yù)定義塊的過程,仍然是現(xiàn)代語言模型中普遍存在的手工預(yù)處理步驟。
分詞存在諸多已被充分證實(shí)的缺陷:字符級理解能力薄弱、缺乏意義和可解釋性,以及在復(fù)雜語言和模態(tài)上性能會出現(xiàn)下降等。而使用單一的端到端模型取代分詞-語言模型-去詞化流程,也更加符合深度學(xué)習(xí)的本質(zhì)。理想情況下,隨著數(shù)據(jù)和參數(shù)的增加,其擴(kuò)展能力也會更強(qiáng)。
然而,分詞仍是語言模型和其他序列數(shù)據(jù)中不可或缺的組成部分,因?yàn)樗軌驅(qū)π蛄羞M(jìn)行壓縮和縮短。截至目前,在計(jì)算資源相當(dāng)?shù)那闆r下,還沒有任何端到端的無分詞器模型能達(dá)到基于分詞器的語言模型的性能水平。
近期的一系列研究開始致力于克服自回歸序列模型中的分詞問題,但這需要解決一系列復(fù)雜的技術(shù)挑戰(zhàn)。盡管可聯(lián)合訓(xùn)練的邊界預(yù)測器是理想的解決方案,不過它們需要在無監(jiān)督的情況下優(yōu)化離散選擇操作,這從根本上而言是一個(gè)極具挑戰(zhàn)性的問題。因此,現(xiàn)有的端到端方法存在訓(xùn)練不穩(wěn)定性,這使得模型無法擴(kuò)展到更大規(guī)模,也無法嵌套多級層級結(jié)構(gòu)。
從根本上講,創(chuàng)建無分詞器架構(gòu)需要將數(shù)據(jù)分塊過程直接整合到模型中,同時(shí)克服大規(guī)模場景下在效率、可學(xué)習(xí)性和穩(wěn)定性方面的挑戰(zhàn)?;诖耍芯繄F(tuán)隊(duì)開展了本次研究。
有望成為通用基礎(chǔ)模型的核心架構(gòu)
研究團(tuán)隊(duì)在論文中表示,除了解決分詞問題外,H-Net 在多種場景下改進(jìn)了通用序列建模。分塊是從低級數(shù)據(jù)構(gòu)建高級抽象概念的過程,而語言模型中的子詞分詞是分塊的一種特殊情況,同時(shí)也是智能的核心組成部分。
更重要的是,由于 H-Net 是完全端到端的,因此它可以遞歸迭代,同時(shí)主網(wǎng)絡(luò)本身也可以是一個(gè) H-Net。從直觀上看,更多的分塊階段代表著更高階的含義。就像字符可以組合成單詞一樣,單詞也可以組合成從句、句子,乃至更復(fù)雜的單位。所以,對層次結(jié)構(gòu)進(jìn)行迭代應(yīng)該能夠?qū)崿F(xiàn)計(jì)算資源和參數(shù)的更高效利用,并能更有效地對壓縮后的表示進(jìn)行推理。研究團(tuán)隊(duì)表示,H-Net 代表了一種新型的基礎(chǔ)模型架構(gòu),它不僅克服了分詞問題,還能發(fā)現(xiàn)并處理從原始數(shù)據(jù)中學(xué)習(xí)到的抽象特征,從而在更少的預(yù)處理情況下構(gòu)建出更高質(zhì)量的模型。
當(dāng)將 1 階段 H-Net 迭代為 2 層級階段,其性能得到進(jìn)一步提升,且顯著優(yōu)于所有基線模型,不僅訓(xùn)練曲線更陡峭,在數(shù)據(jù)擴(kuò)展方面也表現(xiàn)更佳。字節(jié)級的 2 階段 H-Net 僅用 300 億訓(xùn)練字節(jié)就超越了性能強(qiáng)勁的分詞 Transformer 的困惑度,且這一差距在整個(gè)訓(xùn)練過程中不斷擴(kuò)大,同時(shí)其下游任務(wù)評估結(jié)果與規(guī)模為其兩倍的分詞 Transformer 相當(dāng)。
而由于 H-Net 中的編碼器和解碼器網(wǎng)絡(luò)具有雙重目標(biāo)和計(jì)算需求,因此它們面臨著獨(dú)特的設(shè)計(jì)約束。每個(gè)編碼器必須同時(shí)做到以下兩點(diǎn):其一,通過殘差連接保留細(xì)粒度信息,以傳輸至其對應(yīng)的解碼器;其二,將輸入壓縮成具有更豐富表示的塊,以供主網(wǎng)絡(luò)使用。同時(shí),解碼器必須有效地將主網(wǎng)絡(luò)的粗粒度表示與編碼器殘差的細(xì)粒度細(xì)節(jié)結(jié)合起來。同樣重要的是,編碼器和解碼器均作用于未壓縮的序列,這使得計(jì)算效率成為一項(xiàng)顯著的設(shè)計(jì)約束,進(jìn)而影響著研究團(tuán)隊(duì)的架構(gòu)選擇。
近期有研究表明,SSM 在處理包括音頻、DNA 序列和機(jī)器人控制信號在內(nèi)的細(xì)粒度數(shù)據(jù)方面表現(xiàn)出色。基于這些見解,研究團(tuán)隊(duì)采用 Mamba-2 層作為編碼器和解碼器網(wǎng)絡(luò)的主要構(gòu)建模塊。這一選擇帶來了兩個(gè)顯著的好處:一是能夠有效處理細(xì)粒度的輸入,二是在處理較長且未壓縮的序列時(shí)效率得到了大幅提升。消融實(shí)驗(yàn)表明,基于 SSM 的編碼器/解碼器不僅在字節(jié)級別上顯著優(yōu)于 Transformer 層,甚至在更粗糙的輸入上也是如此,研究團(tuán)隊(duì)認(rèn)為這歸因于它們對壓縮具有更強(qiáng)的歸納偏置,因此有助于構(gòu)建抽象表示。
這一設(shè)計(jì)體現(xiàn)了兩個(gè)關(guān)鍵原則:首先,壓縮序列使得每個(gè)塊能夠分配到更多的參數(shù)和計(jì)算資源;其次,更高層次的抽象化受益于增強(qiáng)的處理能力。
主網(wǎng)絡(luò)起到標(biāo)準(zhǔn)語言模型的作用,并且可以采用任何序列混合架構(gòu)。研究團(tuán)隊(duì)默認(rèn)使用 Transformer 層有兩個(gè)原因:第一,壓縮表示與 Transformer 在處理離散、語義豐富的 tokens 方面的優(yōu)勢高度契合;第二,實(shí)驗(yàn)中能夠與傳統(tǒng)基于 BPE 的 Transformer 基線進(jìn)行更可控的比較。不過,這種模塊化設(shè)計(jì)也允許直接替換為其他架構(gòu)。
(來源:arXiv)
與標(biāo)準(zhǔn)各向同性模型相比,H-Net 的結(jié)構(gòu)引入了多個(gè)新的架構(gòu)參數(shù)維度,以便平衡每個(gè)網(wǎng)絡(luò)的參數(shù)/計(jì)算分配。最終,H-Nets 實(shí)現(xiàn)了以下優(yōu)勢:
其一,它具備較好的魯棒性:在無需特殊數(shù)據(jù)混合的情況下,經(jīng)過預(yù)訓(xùn)練的 H-Net 對文本擾動的魯棒性顯著優(yōu)于基于分詞的 Transformer,這一點(diǎn)在含噪聲的 HellaSwag 基準(zhǔn)測試套件上得到了驗(yàn)證。
其二,它具備較好的可解釋性:通過對學(xué)習(xí)到的邊界進(jìn)行定性可視化分析,研究團(tuán)隊(duì)發(fā)現(xiàn) H-Net 能夠自動識別語義連貫的單元,同時(shí)無需顯式監(jiān)督。這驗(yàn)證了端到端學(xué)習(xí)可以成功檢測出傳統(tǒng)上通過人工分詞強(qiáng)加的結(jié)構(gòu)模式。
其三,它在其他語言上具有優(yōu)勢:H-Net 帶來的改進(jìn)在那些缺乏明顯分割線索的語言上更為顯著(包括中文和代碼)。在 XWinograd-zh 數(shù)據(jù)集上,相比基于分詞的 Transformer,H-Net 的分?jǐn)?shù)從 59.9 提升至 66.3。在 DNA 語言建模中也是如此,與各向同性模型相比,H-Net 的數(shù)據(jù)效率提升了 3.6 倍。
(來源:arXiv)
總的來說,H-Net 大幅改善了分詞器存在的問題,在多種語言及類語言模態(tài)上展現(xiàn)出極強(qiáng)的性能,研究團(tuán)隊(duì)認(rèn)為它有望成為通用基礎(chǔ)模型的核心架構(gòu),讓這些模型以更少的處理量實(shí)現(xiàn)更高效的學(xué)習(xí)。目前,研究團(tuán)隊(duì)已經(jīng)開源了模型代碼和預(yù)訓(xùn)練檢查點(diǎn)。
參考資料:
https://time.com/7012853/albert-gu/
https://cartesia.ai/
https://sukjunhwang.github.io/
https://www.linkedin.com/in/brwa/
https://br-wa.github.io/#top
https://www.linkedin.com/in/albert-gu-8ab677139/
https://goombalab.github.io/
https://arxiv.org/pdf/2507.07955v1
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.