夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

M+框架來(lái)了,增加LLM隱空間記憶,不再受上下文窗口限制

0
分享至



本文的第一作者Yu Wang來(lái)自加州大學(xué)圣地亞哥分校,主要研究方向?yàn)镸emory for LLMs and Memory for LLM Agents. 該論文于2024年在MIT-IBM Waston Lab實(shí)習(xí)過(guò)程中完成,通訊作者Zexue He也畢業(yè)于加州大學(xué)圣地亞哥分校。

M+是在 MemoryLLM 之上提出的長(zhǎng)期隱空間記憶擴(kuò)展框架:通過(guò)把「過(guò)期」隱藏向量寫(xiě)入CPU - 側(cè)長(zhǎng)期記憶池,再用協(xié)同檢索器拉回最相關(guān)記憶,它將 8 B 級(jí)模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時(shí)顯存占用保持不變。



  • 論文標(biāo)題:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 論文鏈接:https://arxiv.org/abs/2502.00592
  • 代碼倉(cāng)庫(kù):https://github.com/wangyu-ustc/MemoryLLM
  • 開(kāi)源模型:https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 記憶 & 現(xiàn)有記憶模型的缺陷

上下文窗口并不能直接等價(jià)于記憶。GPT-4.1 之類的模型即便支持 100 萬(wàn) token,也會(huì)隨窗口線性升高顯存與延遲,難以落地本地部署。

業(yè)界主流做法是 “Token-Level Memory”:把歷史內(nèi)容或三元組存在數(shù)據(jù)庫(kù) / 向量庫(kù),檢索后再拼接回 prompt;MemGPT等系統(tǒng)即屬此類。該類做法不需要重復(fù)訓(xùn)練,直接結(jié)合 GPT-4 這樣的大模型便可以獲得很不錯(cuò)的性能,但是,它也會(huì)有一些隨之而來(lái)的問(wèn)題:(1)冗余:原始文本并非最緊湊表達(dá),重復(fù)率高。(2)沖突難解:遇到相互矛盾或不斷更新的信息時(shí),文本級(jí)沖突消解復(fù)雜。(3)多模態(tài)能力弱:由于數(shù)據(jù)庫(kù)格式為文本,處理音頻或者圖片,視頻數(shù)據(jù)將相對(duì)困難。

因此,我們希望探索隱空間 (Latent-Space) 的 Memory -- 既壓縮又可端到端訓(xùn)練,更接近人類在神經(jīng)激活中存儲(chǔ)信息的方式。

M + 的關(guān)鍵改進(jìn):Long-Term Memory

在 MemoryLLM 中,我們?yōu)?8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當(dāng)?shù)谝粚咏邮盏皆~輸入后,會(huì)通過(guò) Embedding 層將詞轉(zhuǎn)化為一系列 4096 維的向量?;谶@一特點(diǎn),我們?cè)O(shè)計(jì)了 MemoryLLM,在每一層都加入 N 個(gè) Memory Tokens(實(shí)驗(yàn)中 N=12800)。在生成過(guò)程中,這些 Memory Tokens 會(huì)作為每一層的 Prefix,通過(guò) Cross-Attention 將信息注入后續(xù)層,使模型能 “看到” 保存在 Memory Pool 中的歷史信息。



在更新階段,我們會(huì)將每層 Memory Token 中最后 K 個(gè)(實(shí)驗(yàn)中 K=256)與需要寫(xiě)入的信息一同送入 Transformer,再次經(jīng)過(guò) Cross-Attention,將信息壓入新的 Memory Tokens 中(如下圖所示)。與此同時(shí),我們?cè)谠?Memory 中隨機(jī)丟棄 K 個(gè)舊 Token,并將新生成的 K 個(gè) Token 放到 Memory 尾部,完成更新。



基于這樣的設(shè)計(jì),借助每層 12800 個(gè) Memory Vectors,我們?cè)?50k tokens 內(nèi)都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后續(xù)在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達(dá) 50k)。然而,這樣的記憶容量仍無(wú)法滿足我們對(duì)更長(zhǎng)序列的期待。要進(jìn)一步擴(kuò)展 Memory,單靠原有的 1.67B 容量已遠(yuǎn)遠(yuǎn)不夠,因此我們提出了Long-Term Memory。

如何高效實(shí)現(xiàn) Long-Term Memory?考慮到 MemoryLLM 中每一個(gè) Memory Token 本質(zhì)上都來(lái)自 Hidden States,我們將那些在更新過(guò)程中被 “丟棄” 的 Memory Token 并非直接舍棄,而是將其保存在長(zhǎng)期記憶池中(如下圖)。



僅僅保存是不夠的,我們還需要具備強(qiáng)大的提取能力。最初我們嘗試用 Attention 來(lái)從長(zhǎng)期記憶中檢索 Hidden States,但實(shí)驗(yàn)表明 Attention 在提取 Hidden States 時(shí)效果有限(在論文的消融實(shí)驗(yàn)中做了詳盡對(duì)比)。因此我們提出協(xié)同提取器(Co-trained Retriever),并與全模型進(jìn)行聯(lián)合訓(xùn)練(如下圖)。



通過(guò)這一結(jié)構(gòu),我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由于 Memory 主要駐留在 CPU,不會(huì)顯著增加 GPU 負(fù)擔(dān)。

M + 的實(shí)驗(yàn)結(jié)果

顯著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個(gè)數(shù)據(jù)集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強(qiáng)大的性能。





更強(qiáng)的信息留存能力:在 SQuAD 數(shù)據(jù)集上表現(xiàn)出遠(yuǎn)超 MemoryLLM-7B 以及相關(guān) ablation baseline 的信息留存能力,可以達(dá)到 160k 依舊不完全遺忘過(guò)去的信息。





結(jié)語(yǔ)

M+ 展示了我們?cè)谔剿麟[空間長(zhǎng)期記憶領(lǐng)域的重要進(jìn)展,也為下一代具備持續(xù)記憶能力的語(yǔ)言模型提供了堅(jiān)實(shí)的技術(shù)支撐。未來(lái),我們將繼續(xù)研究更高效的存儲(chǔ)機(jī)制、更智能的檢索策略,以及與多模態(tài)輸入更自然融合的隱空間記憶架構(gòu)。在此方向上,M+ 不僅是對(duì) MemoryLLM 的一次擴(kuò)展,也是我們對(duì) “讓模型擁有接近人類記憶能力” 這一愿景的又一次有力實(shí)踐。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
11個(gè)月,中國(guó)貿(mào)易順差首超1萬(wàn)億美元!連美媒都感嘆:前所未有!

11個(gè)月,中國(guó)貿(mào)易順差首超1萬(wàn)億美元!連美媒都感嘆:前所未有!

王爺說(shuō)圖表
2025-12-09 21:26:09
畢節(jié)一護(hù)士長(zhǎng)被查,引發(fā)軒然大波!網(wǎng)友:產(chǎn)品采購(gòu),需護(hù)士長(zhǎng)同意

畢節(jié)一護(hù)士長(zhǎng)被查,引發(fā)軒然大波!網(wǎng)友:產(chǎn)品采購(gòu),需護(hù)士長(zhǎng)同意

火山詩(shī)話
2025-12-10 09:53:41
汕頭火災(zāi)遇難者上升到12人,更多細(xì)節(jié)曝光

汕頭火災(zāi)遇難者上升到12人,更多細(xì)節(jié)曝光

靠山屯閑話
2025-12-10 14:09:09
加入CPTPP僅僅7年,越南人均GDP即將翻倍

加入CPTPP僅僅7年,越南人均GDP即將翻倍

山間聽(tīng)雨
2025-12-09 21:18:55
不堪丈夫家暴及生理期強(qiáng)行同房,“換婚”女子投毒殺夫被判無(wú)期徒刑 二審駁回上訴

不堪丈夫家暴及生理期強(qiáng)行同房,“換婚”女子投毒殺夫被判無(wú)期徒刑 二審駁回上訴

紅星新聞
2025-12-10 13:38:33
英特爾公司副總裁宋繼強(qiáng):異構(gòu)AI基礎(chǔ)設(shè)施是未來(lái)發(fā)展趨勢(shì)

英特爾公司副總裁宋繼強(qiáng):異構(gòu)AI基礎(chǔ)設(shè)施是未來(lái)發(fā)展趨勢(shì)

英才商業(yè)
2025-12-10 08:58:45
世界第一王楚欽首輪3-4爆冷出局18歲松島輝空成日本C位

世界第一王楚欽首輪3-4爆冷出局18歲松島輝空成日本C位

說(shuō)故事的阿襲
2025-12-10 12:23:31
社評(píng):正確理解中國(guó)的順差很重要

社評(píng):正確理解中國(guó)的順差很重要

環(huán)球網(wǎng)資訊
2025-12-10 01:08:40
朝鮮對(duì)三名未成年人處以極刑!

朝鮮對(duì)三名未成年人處以極刑!

扶蘇聊歷史
2025-12-10 09:57:20
上海繼續(xù)全國(guó)山姆“第一城”,第7家店將入駐浦東唐鎮(zhèn)

上海繼續(xù)全國(guó)山姆“第一城”,第7家店將入駐浦東唐鎮(zhèn)

上觀新聞
2025-12-09 22:27:04
重磅:烏克蘭摧毀俄羅斯切博克薩雷導(dǎo)彈工廠!打掉S300

重磅:烏克蘭摧毀俄羅斯切博克薩雷導(dǎo)彈工廠!打掉S300

項(xiàng)鵬飛
2025-12-09 17:40:34
中國(guó)絕美風(fēng)景外網(wǎng)爆紅卻被錯(cuò)標(biāo)成是日本,我外交官發(fā)文:這是中國(guó)江西望仙谷,親自來(lái)看看真正的中國(guó)吧

中國(guó)絕美風(fēng)景外網(wǎng)爆紅卻被錯(cuò)標(biāo)成是日本,我外交官發(fā)文:這是中國(guó)江西望仙谷,親自來(lái)看看真正的中國(guó)吧

揚(yáng)子晚報(bào)
2025-12-10 09:14:51
汕頭一自建房夜晚起火8人遇難:一樓為五金店,樓上住有多人,窗戶有防盜網(wǎng)

汕頭一自建房夜晚起火8人遇難:一樓為五金店,樓上住有多人,窗戶有防盜網(wǎng)

極目新聞
2025-12-10 11:32:09
中國(guó)留德女博士與女兒疑遭外籍丈夫殺害 死者弟弟:事發(fā)前無(wú)異常,姐姐曾計(jì)劃與丈夫回國(guó)定居

中國(guó)留德女博士與女兒疑遭外籍丈夫殺害 死者弟弟:事發(fā)前無(wú)異常,姐姐曾計(jì)劃與丈夫回國(guó)定居

紅星新聞
2025-12-09 23:16:11
租別墅造假存單雇演員扮父母,湖北小伙被騙婚案一審宣判:被告人犯詐騙罪獲刑四年半

租別墅造假存單雇演員扮父母,湖北小伙被騙婚案一審宣判:被告人犯詐騙罪獲刑四年半

瀟湘晨報(bào)
2025-12-10 12:26:22
震驚了!中山佳能有20年員工曬出630800元補(bǔ)償金,感動(dòng)到淚流滿面

震驚了!中山佳能有20年員工曬出630800元補(bǔ)償金,感動(dòng)到淚流滿面

火山詩(shī)話
2025-12-10 10:56:09
損失1000萬(wàn)!知名電競(jìng)主播被綁架后報(bào)警,遭綁匪報(bào)復(fù):裸照被曝光

損失1000萬(wàn)!知名電競(jìng)主播被綁架后報(bào)警,遭綁匪報(bào)復(fù):裸照被曝光

念洲
2025-12-10 08:03:45
不止今年,以后的錢(qián)會(huì)越來(lái)越難掙

不止今年,以后的錢(qián)會(huì)越來(lái)越難掙

經(jīng)濟(jì)學(xué)教授V
2025-12-09 18:37:02
為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

西虹市閑話
2025-12-09 14:22:19
“新冠疫苗之父”落馬,榮譽(yù)清零!打過(guò)三針的網(wǎng)友慌了

“新冠疫苗之父”落馬,榮譽(yù)清零!打過(guò)三針的網(wǎng)友慌了

胡嚴(yán)亂語(yǔ)
2025-12-07 15:51:07
2025-12-10 14:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11886文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

8周生死時(shí)速,全員保日活!

頭條要聞

日軍偷襲珍珠港84年后 日美在紀(jì)念儀式大談"同盟關(guān)系"

頭條要聞

日軍偷襲珍珠港84年后 日美在紀(jì)念儀式大談"同盟關(guān)系"

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂(lè)要聞

孫儷扛住死亡鏡頭 網(wǎng)友:嬛嬛回來(lái)了

財(cái)經(jīng)要聞

白銀史上首次站上60美元

汽車要聞

零百2.5s 純電保時(shí)捷Cayenne Turbo新車圖解

態(tài)度原創(chuàng)

游戲
家居
時(shí)尚
本地
健康

城建塔防類肉鴿《王之凝視》推出”火山“重大更新

家居要聞

高端私宅 理想隱居圣地

今年冬天一定要擁有的6件衣服,誰(shuí)穿誰(shuí)好看!

本地新聞

云游安徽|一城活史,千年智慧守淮南

甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 蜜芽MV色欲区一区二区三| 国产亚洲精品第一综合麻豆| 国产成人无码一区二区三区在线观看 | 狠狠噪.夜夜噪| av秘 无码一区二区三区| 好紧啊好疼啊进去视频| 欧美性videos高清精品| 欧美日韩午夜群交多人轮换| 伊人婷婷丁香六月涩七月| 狠狠做五月深爱婷婷天天综合| 久久精品国产在热久久| 四虎永久在线精品免费网址| 毛片久久99| 国内精品综合久久久40p| 无码我要内射| 久久丫精品国产亚洲AV| 亚讲AV无码国产精品色 | 亚洲日韩国产精品第一页一区| 人妻精品一区二区三区 | 国产精品亚洲色婷婷99久久精品 | 天天躁日日躁狠狠躁欧美老妇 | 日韩啪啪A| 亚洲精品潮久久久| 青草热视频在线观看| 污黄啪啪网18以下勿进| 国产精品天天看天天狠| 国产精品麻豆成人AV电影| 人人操人人骑| 日韩亚洲欧美中文高清在线| 国产精品白丝av网站| 国偷自产Av一区二区| 无码国内精品久久人妻蜜桃| 放荡的熟妇高清视频| 精品国产拍国产天天人| 国产双飞在线| 亚洲AV无码一区二区三区东京热| 精品成人免费国产片| 丁香花高清在线观看完整版| 国产居家1234区| 欧美与黑人午夜性猛交久久久 | 精品久久久久黄小说|