夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Mamba提出者再次挑戰(zhàn)Transformer,或成為通用基礎(chǔ)模型核心架構(gòu)

0
分享至

作為美國卡內(nèi)基梅隆大學(xué)的助理教授和美國 AI 初創(chuàng)公司 Cartesia 的聯(lián)合創(chuàng)始人,Albert Gu 曾憑借聯(lián)合提出 Mamba 這一新型序列建模架構(gòu)而入選 TIME 100 AI,還曾入選 2025 谷歌研究學(xué)者計(jì)劃名單。


圖丨Albert Gu(來源:https://memento.epfl.ch/event/ai-cente)

最近,他和自己的韓裔學(xué)生黃錫俊(Sukjun Hwang)以及 Cartesia 技術(shù)團(tuán)隊(duì)的華裔成員 Brandon Wang 提出了一種端到端的分層網(wǎng)絡(luò)(H-Net,hierarchical network)。


圖丨黃錫?。⊿ukjun Hwang)(來源:https://sukjunhwang.githu)

值得注意的是,作為一名華裔,本次相關(guān)論文的共同作者 Brandon Wang 高中畢業(yè)于美國加利福尼亞州的薩拉托加(Saratoga)高中,后于 2019 年獲得國際數(shù)學(xué)奧林匹克競賽(IMO,International Mathematics Olympiad)金牌,2024 年其本科畢業(yè)于美國麻省理工學(xué)院,之后便加入了 Albert Gu 的上述創(chuàng)業(yè)公司。


(來源:資料圖)



首個(gè)真正端到端無分詞器的語言模型

研究團(tuán)隊(duì)表示,H-Net 通過遞歸的、數(shù)據(jù)依賴的動態(tài)分塊(DC,dynamic chunking)過程對原始數(shù)據(jù)進(jìn)行壓縮,代表了首個(gè)真正端到端無分詞器的語言模型。該模型通過單階段動態(tài)分塊,當(dāng)字節(jié)級的 H-Net 在參數(shù)規(guī)模超過 10 億時(shí),其困惑度和下游任務(wù)性能可與基于字節(jié)對編碼(BPE,Byte Pair Encoding)分詞的 Transformer 模型相媲美。


圖丨相關(guān)論文(來源:arXiv)

據(jù)了解,H-Net 在保持分詞化流程效率的同時(shí),通過使用數(shù)據(jù)驅(qū)動、內(nèi)容感知且上下文相關(guān)的分割機(jī)制,來取代人工設(shè)計(jì)的啟發(fā)式規(guī)則,從而能夠顯著提升建模能力。

H-Net 采用了先前研究中的分層架構(gòu),這有些類似于自回歸 U-Net:首先,原始數(shù)據(jù)由一個(gè)小型編碼器網(wǎng)絡(luò)進(jìn)行處理;然后,進(jìn)行下采樣并傳入在壓縮塊上運(yùn)行的主網(wǎng)絡(luò);最后,進(jìn)行上采樣并傳入在原始分辨率上運(yùn)行的解碼器網(wǎng)絡(luò)。這種模塊化設(shè)計(jì)構(gòu)建了一個(gè)自然的處理層級結(jié)構(gòu),即外層階段捕捉細(xì)粒度模式,而內(nèi)層階段則基于類似于傳統(tǒng)分詞的粗粒度表示進(jìn)行運(yùn)算。盡管主網(wǎng)絡(luò)包含大部分參數(shù),但是研究團(tuán)隊(duì)發(fā)現(xiàn)編碼器和解碼器網(wǎng)絡(luò)通過使用狀態(tài)空間模型(SSM,state space model)能得到顯著改進(jìn),因?yàn)?SSM 具有用于壓縮的歸納偏置。

據(jù)介紹,H-Net 的核心在于采用了一種新穎的動態(tài)分塊(DC,dynamic chunking)機(jī)制,該機(jī)制能夠連接主網(wǎng)絡(luò)與編碼器/解碼器網(wǎng)絡(luò),在使用標(biāo)準(zhǔn)可微優(yōu)化算法的同時(shí),可以學(xué)習(xí)如何對數(shù)據(jù)進(jìn)行分割。

動態(tài)分塊技術(shù)由兩種互補(bǔ)的新技術(shù)組成:首先是一個(gè)路由模塊,該模塊通過相似度分?jǐn)?shù)預(yù)測相鄰元素之間的邊界;其次是一個(gè)平滑模塊,該模塊利用路由模塊的輸出對表示進(jìn)行插值,以此減弱不確定邊界帶來的影響,并能顯著提升可學(xué)習(xí)性。

研究團(tuán)隊(duì)還結(jié)合了以下創(chuàng)新技術(shù):第一,結(jié)合針對目標(biāo)降采樣率設(shè)計(jì)的新型輔助損失函數(shù);第二,結(jié)合基于梯度的離散決策現(xiàn)代學(xué)習(xí)技術(shù)。基于此,動態(tài)分塊讓 H-Net 能以完全端到端的方式學(xué)習(xí)數(shù)據(jù)壓縮方法。

研究團(tuán)隊(duì)還引入了幾種架構(gòu)和訓(xùn)練技術(shù),以便提高端到端優(yōu)化過程中的穩(wěn)定性和可擴(kuò)展性。這些措施包括:一方面,精心設(shè)置投影層和歸一化層,以便平衡交互子網(wǎng)絡(luò)之間的信號傳播;另一方面,根據(jù)每個(gè)層的維度和有效批大小調(diào)整優(yōu)化參數(shù),而這些參數(shù)在層級結(jié)構(gòu)的不同階段會發(fā)生變化。據(jù)介紹,H-Net 通過學(xué)習(xí)與主干網(wǎng)絡(luò)共同優(yōu)化的分割策略,根據(jù)上下文信息動態(tài)地將輸入向量壓縮成有意義的塊。研究團(tuán)隊(duì)在論文中寫道,從經(jīng)驗(yàn)上看,動態(tài)分塊模塊會自然地將數(shù)據(jù)壓縮到與 BPE 分詞器相近的分辨率(4.5-5 字節(jié)/塊),并且能定性地學(xué)習(xí)到有意義的邊界,整個(gè)過程無需任何外部監(jiān)督或啟發(fā)式方法。


(來源:arXiv)



此前的端到端方法存在訓(xùn)練不穩(wěn)定性

據(jù)了解,深度學(xué)習(xí)的一個(gè)整體目標(biāo)是從原始數(shù)據(jù)中學(xué)習(xí)有意義的模式,以端到端的方式自動提取特征并構(gòu)建抽象概念。然而,固定詞匯分詞——即通過 BPE 等算法將原始文本壓縮成預(yù)定義塊的過程,仍然是現(xiàn)代語言模型中普遍存在的手工預(yù)處理步驟。

分詞存在諸多已被充分證實(shí)的缺陷:字符級理解能力薄弱、缺乏意義和可解釋性,以及在復(fù)雜語言和模態(tài)上性能會出現(xiàn)下降等。而使用單一的端到端模型取代分詞-語言模型-去詞化流程,也更加符合深度學(xué)習(xí)的本質(zhì)。理想情況下,隨著數(shù)據(jù)和參數(shù)的增加,其擴(kuò)展能力也會更強(qiáng)。

然而,分詞仍是語言模型和其他序列數(shù)據(jù)中不可或缺的組成部分,因?yàn)樗軌驅(qū)π蛄羞M(jìn)行壓縮和縮短。截至目前,在計(jì)算資源相當(dāng)?shù)那闆r下,還沒有任何端到端的無分詞器模型能達(dá)到基于分詞器的語言模型的性能水平。

近期的一系列研究開始致力于克服自回歸序列模型中的分詞問題,但這需要解決一系列復(fù)雜的技術(shù)挑戰(zhàn)。盡管可聯(lián)合訓(xùn)練的邊界預(yù)測器是理想的解決方案,不過它們需要在無監(jiān)督的情況下優(yōu)化離散選擇操作,這從根本上而言是一個(gè)極具挑戰(zhàn)性的問題。因此,現(xiàn)有的端到端方法存在訓(xùn)練不穩(wěn)定性,這使得模型無法擴(kuò)展到更大規(guī)模,也無法嵌套多級層級結(jié)構(gòu)。

從根本上講,創(chuàng)建無分詞器架構(gòu)需要將數(shù)據(jù)分塊過程直接整合到模型中,同時(shí)克服大規(guī)模場景下在效率、可學(xué)習(xí)性和穩(wěn)定性方面的挑戰(zhàn)?;诖耍芯繄F(tuán)隊(duì)開展了本次研究。



有望成為通用基礎(chǔ)模型的核心架構(gòu)

研究團(tuán)隊(duì)在論文中表示,除了解決分詞問題外,H-Net 在多種場景下改進(jìn)了通用序列建模。分塊是從低級數(shù)據(jù)構(gòu)建高級抽象概念的過程,而語言模型中的子詞分詞是分塊的一種特殊情況,同時(shí)也是智能的核心組成部分。

更重要的是,由于 H-Net 是完全端到端的,因此它可以遞歸迭代,同時(shí)主網(wǎng)絡(luò)本身也可以是一個(gè) H-Net。從直觀上看,更多的分塊階段代表著更高階的含義。就像字符可以組合成單詞一樣,單詞也可以組合成從句、句子,乃至更復(fù)雜的單位。所以,對層次結(jié)構(gòu)進(jìn)行迭代應(yīng)該能夠?qū)崿F(xiàn)計(jì)算資源和參數(shù)的更高效利用,并能更有效地對壓縮后的表示進(jìn)行推理。研究團(tuán)隊(duì)表示,H-Net 代表了一種新型的基礎(chǔ)模型架構(gòu),它不僅克服了分詞問題,還能發(fā)現(xiàn)并處理從原始數(shù)據(jù)中學(xué)習(xí)到的抽象特征,從而在更少的預(yù)處理情況下構(gòu)建出更高質(zhì)量的模型。

當(dāng)將 1 階段 H-Net 迭代為 2 層級階段,其性能得到進(jìn)一步提升,且顯著優(yōu)于所有基線模型,不僅訓(xùn)練曲線更陡峭,在數(shù)據(jù)擴(kuò)展方面也表現(xiàn)更佳。字節(jié)級的 2 階段 H-Net 僅用 300 億訓(xùn)練字節(jié)就超越了性能強(qiáng)勁的分詞 Transformer 的困惑度,且這一差距在整個(gè)訓(xùn)練過程中不斷擴(kuò)大,同時(shí)其下游任務(wù)評估結(jié)果與規(guī)模為其兩倍的分詞 Transformer 相當(dāng)。

而由于 H-Net 中的編碼器和解碼器網(wǎng)絡(luò)具有雙重目標(biāo)和計(jì)算需求,因此它們面臨著獨(dú)特的設(shè)計(jì)約束。每個(gè)編碼器必須同時(shí)做到以下兩點(diǎn):其一,通過殘差連接保留細(xì)粒度信息,以傳輸至其對應(yīng)的解碼器;其二,將輸入壓縮成具有更豐富表示的塊,以供主網(wǎng)絡(luò)使用。同時(shí),解碼器必須有效地將主網(wǎng)絡(luò)的粗粒度表示與編碼器殘差的細(xì)粒度細(xì)節(jié)結(jié)合起來。同樣重要的是,編碼器和解碼器均作用于未壓縮的序列,這使得計(jì)算效率成為一項(xiàng)顯著的設(shè)計(jì)約束,進(jìn)而影響著研究團(tuán)隊(duì)的架構(gòu)選擇。

近期有研究表明,SSM 在處理包括音頻、DNA 序列和機(jī)器人控制信號在內(nèi)的細(xì)粒度數(shù)據(jù)方面表現(xiàn)出色。基于這些見解,研究團(tuán)隊(duì)采用 Mamba-2 層作為編碼器和解碼器網(wǎng)絡(luò)的主要構(gòu)建模塊。這一選擇帶來了兩個(gè)顯著的好處:一是能夠有效處理細(xì)粒度的輸入,二是在處理較長且未壓縮的序列時(shí)效率得到了大幅提升。消融實(shí)驗(yàn)表明,基于 SSM 的編碼器/解碼器不僅在字節(jié)級別上顯著優(yōu)于 Transformer 層,甚至在更粗糙的輸入上也是如此,研究團(tuán)隊(duì)認(rèn)為這歸因于它們對壓縮具有更強(qiáng)的歸納偏置,因此有助于構(gòu)建抽象表示。

這一設(shè)計(jì)體現(xiàn)了兩個(gè)關(guān)鍵原則:首先,壓縮序列使得每個(gè)塊能夠分配到更多的參數(shù)和計(jì)算資源;其次,更高層次的抽象化受益于增強(qiáng)的處理能力。

主網(wǎng)絡(luò)起到標(biāo)準(zhǔn)語言模型的作用,并且可以采用任何序列混合架構(gòu)。研究團(tuán)隊(duì)默認(rèn)使用 Transformer 層有兩個(gè)原因:第一,壓縮表示與 Transformer 在處理離散、語義豐富的 tokens 方面的優(yōu)勢高度契合;第二,實(shí)驗(yàn)中能夠與傳統(tǒng)基于 BPE 的 Transformer 基線進(jìn)行更可控的比較。不過,這種模塊化設(shè)計(jì)也允許直接替換為其他架構(gòu)。


(來源:arXiv)

與標(biāo)準(zhǔn)各向同性模型相比,H-Net 的結(jié)構(gòu)引入了多個(gè)新的架構(gòu)參數(shù)維度,以便平衡每個(gè)網(wǎng)絡(luò)的參數(shù)/計(jì)算分配。最終,H-Nets 實(shí)現(xiàn)了以下優(yōu)勢:

其一,它具備較好的魯棒性:在無需特殊數(shù)據(jù)混合的情況下,經(jīng)過預(yù)訓(xùn)練的 H-Net 對文本擾動的魯棒性顯著優(yōu)于基于分詞的 Transformer,這一點(diǎn)在含噪聲的 HellaSwag 基準(zhǔn)測試套件上得到了驗(yàn)證。

其二,它具備較好的可解釋性:通過對學(xué)習(xí)到的邊界進(jìn)行定性可視化分析,研究團(tuán)隊(duì)發(fā)現(xiàn) H-Net 能夠自動識別語義連貫的單元,同時(shí)無需顯式監(jiān)督。這驗(yàn)證了端到端學(xué)習(xí)可以成功檢測出傳統(tǒng)上通過人工分詞強(qiáng)加的結(jié)構(gòu)模式。

其三,它在其他語言上具有優(yōu)勢:H-Net 帶來的改進(jìn)在那些缺乏明顯分割線索的語言上更為顯著(包括中文和代碼)。在 XWinograd-zh 數(shù)據(jù)集上,相比基于分詞的 Transformer,H-Net 的分?jǐn)?shù)從 59.9 提升至 66.3。在 DNA 語言建模中也是如此,與各向同性模型相比,H-Net 的數(shù)據(jù)效率提升了 3.6 倍。


(來源:arXiv)

總的來說,H-Net 大幅改善了分詞器存在的問題,在多種語言及類語言模態(tài)上展現(xiàn)出極強(qiáng)的性能,研究團(tuán)隊(duì)認(rèn)為它有望成為通用基礎(chǔ)模型的核心架構(gòu),讓這些模型以更少的處理量實(shí)現(xiàn)更高效的學(xué)習(xí)。目前,研究團(tuán)隊(duì)已經(jīng)開源了模型代碼和預(yù)訓(xùn)練檢查點(diǎn)。

參考資料:

https://time.com/7012853/albert-gu/

https://cartesia.ai/

https://sukjunhwang.github.io/

https://www.linkedin.com/in/brwa/

https://br-wa.github.io/#top

https://www.linkedin.com/in/albert-gu-8ab677139/

https://goombalab.github.io/

https://arxiv.org/pdf/2507.07955v1

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被撞傷奔馳司機(jī)面臨截肢,全球追稅已開始,楊蘭蘭們這下子慌了

被撞傷奔馳司機(jī)面臨截肢,全球追稅已開始,楊蘭蘭們這下子慌了

公子麥少
2025-08-15 12:04:21
入伏吃餃子,明日出伏吃啥更講究,提醒:5樣不上桌,福氣不進(jìn)門

入伏吃餃子,明日出伏吃啥更講究,提醒:5樣不上桌,福氣不進(jìn)門

小茉莉美食記
2025-08-18 00:10:03
中超外援透露:中國男足有3大新星,潛力很高,靠他們能進(jìn)世界杯

中超外援透露:中國男足有3大新星,潛力很高,靠他們能進(jìn)世界杯

國足風(fēng)云
2025-08-18 14:40:12
中國駐英大使館遷址,被卡了5年,輪到英重建駐華使館,北京拒批

中國駐英大使館遷址,被卡了5年,輪到英重建駐華使館,北京拒批

聞識
2025-08-18 16:53:32
日本投降明明是8月15日,為何紀(jì)念日卻定在9月3日?背后大有深意

日本投降明明是8月15日,為何紀(jì)念日卻定在9月3日?背后大有深意

小莜讀史
2025-08-17 17:25:32
北京發(fā)布暴雨藍(lán)色預(yù)警!今晚到明天白天,部分地區(qū)將出現(xiàn)強(qiáng)降水,個(gè)別點(diǎn)可超100毫米

北京發(fā)布暴雨藍(lán)色預(yù)警!今晚到明天白天,部分地區(qū)將出現(xiàn)強(qiáng)降水,個(gè)別點(diǎn)可超100毫米

魯中晨報(bào)
2025-08-18 10:12:02
明日出伏,提醒:無論多忙,最不能做的“4件事”,別忘告訴家人

明日出伏,提醒:無論多忙,最不能做的“4件事”,別忘告訴家人

今日美食分享
2025-08-18 03:56:41
莫迪專機(jī)將飛往中國,卻先收到1個(gè)壞消息,美代表團(tuán)取消訪問印度

莫迪專機(jī)將飛往中國,卻先收到1個(gè)壞消息,美代表團(tuán)取消訪問印度

吃貨的分享
2025-08-18 15:28:33
醫(yī)院窗口立牌“問一句話也要排隊(duì)”!網(wǎng)友:是守規(guī)矩還是沒人情?

醫(yī)院窗口立牌“問一句話也要排隊(duì)”!網(wǎng)友:是守規(guī)矩還是沒人情?

一絲不茍的法律人
2025-08-18 07:25:05
2005年,韓國把“漢城”改為首爾,全世界為何只要求中國改稱呼?

2005年,韓國把“漢城”改為首爾,全世界為何只要求中國改稱呼?

壹知眠羊
2025-08-13 07:58:20
62歲李連杰回應(yīng)噩耗,手術(shù)過程佛珠不離手,聊天記錄透露更多細(xì)節(jié)

62歲李連杰回應(yīng)噩耗,手術(shù)過程佛珠不離手,聊天記錄透露更多細(xì)節(jié)

白面書誏
2025-08-18 16:33:47
在軍訓(xùn)中猝死的學(xué)生輕如鴻毛

在軍訓(xùn)中猝死的學(xué)生輕如鴻毛

陶舜財(cái)經(jīng)
2025-08-17 15:42:44
梭子蟹騙局!老漁民怒揭海鮮市場黑幕,看完再也不敢亂買

梭子蟹騙局!老漁民怒揭海鮮市場黑幕,看完再也不敢亂買

娛樂圈見解說
2025-08-17 15:15:20
北大腫瘤博士癌癥去世,最后囑托讓人淚目,要求兒子做好三件事

北大腫瘤博士癌癥去世,最后囑托讓人淚目,要求兒子做好三件事

興史興談
2025-08-18 11:03:46
AC米蘭虧大發(fā)了,賴因斯德5500萬歐的轉(zhuǎn)會費(fèi)踢出了2億身價(jià)的表現(xiàn)!

AC米蘭虧大發(fā)了,賴因斯德5500萬歐的轉(zhuǎn)會費(fèi)踢出了2億身價(jià)的表現(xiàn)!

田先生籃球
2025-08-17 14:07:37
哲凱賴什接班人?葡體新援蘇亞雷斯梅開二度:我想書寫自己的歷史

哲凱賴什接班人?葡體新援蘇亞雷斯梅開二度:我想書寫自己的歷史

雷速體育
2025-08-18 11:25:10
太慘了!13人野外露營遇山洪,10人遇難2人失聯(lián)1人獲救

太慘了!13人野外露營遇山洪,10人遇難2人失聯(lián)1人獲救

恪守原則和底線
2025-08-18 05:40:03
與普京會晤后,特朗普打消對中國不切實(shí)際想法,王毅訪印正是時(shí)候

與普京會晤后,特朗普打消對中國不切實(shí)際想法,王毅訪印正是時(shí)候

小莜讀史
2025-08-18 16:16:36
對停戰(zhàn)有想法?普京被曝開條件:領(lǐng)土可以小換大、承認(rèn)俄對克里米亞主權(quán)……

對停戰(zhàn)有想法?普京被曝開條件:領(lǐng)土可以小換大、承認(rèn)俄對克里米亞主權(quán)……

上觀新聞
2025-08-18 14:33:10
高調(diào)離婚后又求復(fù)合,內(nèi)娛第一笑話……

高調(diào)離婚后又求復(fù)合,內(nèi)娛第一笑話……

鄉(xiāng)野小珥
2025-08-18 07:45:24
2025-08-18 17:51:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15533文章數(shù) 513990關(guān)注度
往期回顧 全部

科技要聞

最近衛(wèi)星發(fā)射頻繁!中國版"星鏈"加速組網(wǎng)

頭條要聞

男子尋親十年找到生父線索 對方卻稱兩年前已找到兒子

頭條要聞

男子尋親十年找到生父線索 對方卻稱兩年前已找到兒子

體育要聞

三項(xiàng)數(shù)據(jù)第一!最血性的中國男籃誰能不愛

娛樂要聞

張維伊對董璇,給自己找了個(gè)媽?

財(cái)經(jīng)要聞

A股放量上漲:創(chuàng)業(yè)板指漲2.84%

汽車要聞

燃油車談放棄還早得很 不再安分的第四代逸動有點(diǎn)躁

態(tài)度原創(chuàng)

時(shí)尚
旅游
房產(chǎn)
公開課
軍事航空

火了100年,“小香風(fēng)”依然是最有態(tài)度的那件衣服

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

容積率僅2.2!荔灣中山八地鐵站旁宅地上新!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美方:俄烏沖突以來 普京首次愿作出一些妥協(xié)

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲国产精品无码中文字视| 国产av国片偷人妻麻豆| 亚洲日韩亚洲另类| 亚洲AV无码精品色在线观看| 久久久久国产精品熟女影院 | 看黄色00P00兽交视频国产的免费看 | 亚洲国产精品成人久久久| 日韩高清不卡一区二区三区| 超级人人操性爱爽| 国产亚洲精品久久77777| 九九热九九操| 亚洲日韩穿丝袜在线推荐| 亚洲av一二三区成人影片| 国产肥妇一区二区熟女精品| 久久久精品人妻一区二区三区妖精| 国产欧美日韩综合| 欧美一级日韩夫妻| 国产午夜在线观看| free性丰满video性中国| 国产青春草视频| 亚洲成a人v欧美综合天堂麻豆| 蜜臀av在线播放一区二区三区| aV成人试看| 疯狂孕妇孕交毛片| 66999热热| 欧美肏屄在线观看| Free欧美丰滿| 欧美成人性爱色专区| 不要app的免费毛片| 男人添女人下部高潮全视频| 好男人官网www在线观看 | 亚洲无码久久久久| 主播无码精品| 玩弄淫荡少妇系列AV| 无码国产精品一区二区色| 免费人妻精品一区二区三区鼻钩| 好屌视频一区二区三区| 亚洲成人av图片| 欧美性爱-熊猫成人网| 在线观看黄色视频网| 国产精品久久AV无码|