夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

M+框架來了,增加LLM隱空間記憶,不再受上下文窗口限制

0
分享至



本文的第一作者Yu Wang來自加州大學圣地亞哥分校,主要研究方向為Memory for LLMs and Memory for LLM Agents. 該論文于2024年在MIT-IBM Waston Lab實習過程中完成,通訊作者Zexue He也畢業(yè)于加州大學圣地亞哥分校。

M+是在 MemoryLLM 之上提出的長期隱空間記憶擴展框架:通過把「過期」隱藏向量寫入CPU - 側長期記憶池,再用協(xié)同檢索器拉回最相關記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時顯存占用保持不變。



  • 論文標題:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 論文鏈接:https://arxiv.org/abs/2502.00592
  • 代碼倉庫:https://github.com/wangyu-ustc/MemoryLLM
  • 開源模型:https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 記憶 & 現(xiàn)有記憶模型的缺陷

上下文窗口并不能直接等價于記憶。GPT-4.1 之類的模型即便支持 100 萬 token,也會隨窗口線性升高顯存與延遲,難以落地本地部署。

業(yè)界主流做法是 “Token-Level Memory”:把歷史內(nèi)容或三元組存在數(shù)據(jù)庫 / 向量庫,檢索后再拼接回 prompt;MemGPT等系統(tǒng)即屬此類。該類做法不需要重復訓練,直接結合 GPT-4 這樣的大模型便可以獲得很不錯的性能,但是,它也會有一些隨之而來的問題:(1)冗余:原始文本并非最緊湊表達,重復率高。(2)沖突難解:遇到相互矛盾或不斷更新的信息時,文本級沖突消解復雜。(3)多模態(tài)能力弱:由于數(shù)據(jù)庫格式為文本,處理音頻或者圖片,視頻數(shù)據(jù)將相對困難。

因此,我們希望探索隱空間 (Latent-Space) 的 Memory -- 既壓縮又可端到端訓練,更接近人類在神經(jīng)激活中存儲信息的方式。

M + 的關鍵改進:Long-Term Memory

在 MemoryLLM 中,我們?yōu)?8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當?shù)谝粚咏邮盏皆~輸入后,會通過 Embedding 層將詞轉化為一系列 4096 維的向量?;谶@一特點,我們設計了 MemoryLLM,在每一層都加入 N 個 Memory Tokens(實驗中 N=12800)。在生成過程中,這些 Memory Tokens 會作為每一層的 Prefix,通過 Cross-Attention 將信息注入后續(xù)層,使模型能 “看到” 保存在 Memory Pool 中的歷史信息。



在更新階段,我們會將每層 Memory Token 中最后 K 個(實驗中 K=256)與需要寫入的信息一同送入 Transformer,再次經(jīng)過 Cross-Attention,將信息壓入新的 Memory Tokens 中(如下圖所示)。與此同時,我們在原有 Memory 中隨機丟棄 K 個舊 Token,并將新生成的 K 個 Token 放到 Memory 尾部,完成更新。



基于這樣的設計,借助每層 12800 個 Memory Vectors,我們在 50k tokens 內(nèi)都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后續(xù)在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k)。然而,這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴展 Memory,單靠原有的 1.67B 容量已遠遠不夠,因此我們提出了Long-Term Memory。

如何高效實現(xiàn) Long-Term Memory?考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States,我們將那些在更新過程中被 “丟棄” 的 Memory Token 并非直接舍棄,而是將其保存在長期記憶池中(如下圖)。



僅僅保存是不夠的,我們還需要具備強大的提取能力。最初我們嘗試用 Attention 來從長期記憶中檢索 Hidden States,但實驗表明 Attention 在提取 Hidden States 時效果有限(在論文的消融實驗中做了詳盡對比)。因此我們提出協(xié)同提取器(Co-trained Retriever),并與全模型進行聯(lián)合訓練(如下圖)。



通過這一結構,我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由于 Memory 主要駐留在 CPU,不會顯著增加 GPU 負擔。

M + 的實驗結果

顯著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個數(shù)據(jù)集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強大的性能。





更強的信息留存能力:在 SQuAD 數(shù)據(jù)集上表現(xiàn)出遠超 MemoryLLM-7B 以及相關 ablation baseline 的信息留存能力,可以達到 160k 依舊不完全遺忘過去的信息。





結語

M+ 展示了我們在探索隱空間長期記憶領域的重要進展,也為下一代具備持續(xù)記憶能力的語言模型提供了堅實的技術支撐。未來,我們將繼續(xù)研究更高效的存儲機制、更智能的檢索策略,以及與多模態(tài)輸入更自然融合的隱空間記憶架構。在此方向上,M+ 不僅是對 MemoryLLM 的一次擴展,也是我們對 “讓模型擁有接近人類記憶能力” 這一愿景的又一次有力實踐。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
快餐界“大秘密”即將揭曉!肯德基非洲分公司宣布:保密54年的炸雞配方8日公開

快餐界“大秘密”即將揭曉!肯德基非洲分公司宣布:保密54年的炸雞配方8日公開

紅星新聞
2025-10-03 14:59:25
國慶前夕,女子運氣爆棚!花18元買彩票中了一千余萬...本人回應

國慶前夕,女子運氣爆棚!花18元買彩票中了一千余萬...本人回應

FM93浙江交通之聲
2025-10-03 06:10:41
事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

千言娛樂記
2025-09-25 20:27:56
“大電池”的天快塌了

“大電池”的天快塌了

妙投APP
2025-10-03 12:47:43
全球美軍高級將領大會后,掌管美軍三分之二核力量的空軍上將突然申請退役

全球美軍高級將領大會后,掌管美軍三分之二核力量的空軍上將突然申請退役

紅星新聞
2025-10-03 14:59:24
多地緊急通知:撤離、停運、關停

多地緊急通知:撤離、停運、關停

FM93浙江交通之聲
2025-10-03 12:51:07
奧斯卡:很多人說中國人不好,中國人吃狗肉,但這不是真的

奧斯卡:很多人說中國人不好,中國人吃狗肉,但這不是真的

懂球帝
2025-10-03 16:15:07
直落4局勝出!王曼昱7連勝張本美和,強勢躋身中國大滿貫四強

直落4局勝出!王曼昱7連勝張本美和,強勢躋身中國大滿貫四強

全景體育V
2025-10-03 20:53:17
1962年中印邊境戰(zhàn)前夕,毛主席獨排眾議的180分鐘:打,必須打!

1962年中印邊境戰(zhàn)前夕,毛主席獨排眾議的180分鐘:打,必須打!

萊克
2025-07-22 16:10:51
英法意西土,都回應了!

英法意西土,都回應了!

環(huán)球時報國際
2025-10-03 00:04:17
顛覆!華西醫(yī)院研究證實:羊肉愛好者ED率超常人30%,肥胖者更甚

顛覆!華西醫(yī)院研究證實:羊肉愛好者ED率超常人30%,肥胖者更甚

番茄健康
2025-10-03 10:52:31
消失春晚3年,退綜藝解散公司,手握88億票房的賈玲,如今太意外

消失春晚3年,退綜藝解散公司,手握88億票房的賈玲,如今太意外

一娛三分地
2025-09-30 19:15:16
年過60歲除不搬重物外,絕對不能做九個動作,一個沒做是優(yōu)質老人

年過60歲除不搬重物外,絕對不能做九個動作,一個沒做是優(yōu)質老人

情感大使館
2025-10-02 14:16:16
國家開始嚴查雙國籍!澳洲華人出境被攔要求銷戶,大批華人受影響

國家開始嚴查雙國籍!澳洲華人出境被攔要求銷戶,大批華人受影響

熱點菌本君
2025-10-03 16:06:26
太慘了!10月燃油車迎來大降價,最高降52%,合資車成為重災區(qū)

太慘了!10月燃油車迎來大降價,最高降52%,合資車成為重災區(qū)

小李子體育
2025-10-03 16:18:52
上海護照姐后續(xù):正臉曝光身份被扒,二婚嫁外國人,下場大快人心

上海護照姐后續(xù):正臉曝光身份被扒,二婚嫁外國人,下場大快人心

清風品歷史
2025-10-03 15:59:24
4名貴州刀迷自駕3000多公里去新疆看刀郎演唱會,途中沖下高速短暫昏迷,當事人:一人輕微骨折,其他人無大礙

4名貴州刀迷自駕3000多公里去新疆看刀郎演唱會,途中沖下高速短暫昏迷,當事人:一人輕微骨折,其他人無大礙

極目新聞
2025-10-03 16:20:49
張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

黃河新流域
2025-09-28 13:34:43
上海外灘游人多到爆棚!有當?shù)鼐W(wǎng)友稱,市區(qū)內(nèi)卻靜悄悄的,人很少

上海外灘游人多到爆棚!有當?shù)鼐W(wǎng)友稱,市區(qū)內(nèi)卻靜悄悄的,人很少

火山詩話
2025-10-03 16:35:18
300萬粉絲的網(wǎng)紅去世,家人發(fā)視頻稱欲進一步尸檢

300萬粉絲的網(wǎng)紅去世,家人發(fā)視頻稱欲進一步尸檢

紅星新聞
2025-10-03 14:38:14
2025-10-03 21:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11396文章數(shù) 142464關注度
往期回顧 全部

科技要聞

特斯拉Q3交付超預期,股價高開低走大跌

頭條要聞

媒體:美國"豆賤傷農(nóng)" 白宮開出兩張"空頭支票"

頭條要聞

媒體:美國"豆賤傷農(nóng)" 白宮開出兩張"空頭支票"

體育要聞

四冠中鋒,比所有人更早開始新賽季

娛樂要聞

繼王晶、向太后 周杰再曝潛規(guī)則

財經(jīng)要聞

國家出手!三大世界級城市群定了

汽車要聞

元戎啟行9月合作車型 交付量突破3萬臺

態(tài)度原創(chuàng)

本地
手機
數(shù)碼
家居
公開課

本地新聞

讀港校想省錢,社恐輸在起跑線

手機要聞

同級別最大體積,OPPO Find X9 Pro手機將搭載0816增強版馬達

數(shù)碼要聞

華為手表商店已擁有超 10 萬款表盤,全球 1750 萬月活躍用戶

家居要聞

潮流地標 引領Z世代風尚

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 日韩国产Av无码一区二区三区| 亚洲色图av无码| 国产主播久热| 人妻丰满熟妇av无码区免| 亚洲伊人久久综合网站| 啪啪五月丁香麻豆视频| 亚韩精品中文字幕无码视频| 国产剧情91精品蜜臀一区| 亚洲日韩AⅤ综合在线观看vr| 乱人伦中文字幕成人网站在线| 蜜桃AV在线播放| 九九久re8在线精品视频| 天天燥成人综合网| 人妻丰满熟妇无码| 欧美性爱第十页| 国产黄色片在线看| 金发美女大战黑巨茎| 97无码精品人妻一区二区三区| 日韩 色 结衣| 亚洲AV无码乱码精品裸果| 欧美熟妇操逼视频| 国产农村老熟女乱子免费视频| 99国产白浆| 久久aaaa片一区二区| 极品精品一二| 蜜桃av在线播放一二区| 狼人潮湿影院| 99草99热| 护士扒开双腿疯狂进出爽爽爽| 无码人妻精品专区在线视频| 成人影片一区免费观看| www.在线看亚洲AV| 日韩射呀射无码区| 国产sm主人调教女m视频| 激情综合亚洲| 少妇被粗大的猛烈进出96影院| 人妻在线超碰| 国产成人无码精品一线二线三线| 国产美女狂喷水潮在线播放| 亚洲最大avxxx性| 另类视频中国女人自拍|