網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

字節(jié)Seed開源長線記憶多模態(tài)Agent，像人一樣能聽會看

2025-08-18 16:09:03　來源: 量子位

北京舉報

分享至

不圓發(fā)自凹非寺
量子位 | 公眾號 QbitAI

字節(jié)Seed發(fā)布全新多模態(tài)智能體框架——M3-Agent。

像人類一樣能聽會看、具備長期記憶，并且免費開源??？

M3-Agent的亮點在于，它不僅能夠處理實時的視覺和聽覺輸入，以構建和更新其長期記憶，還發(fā)展了語義記憶，能夠隨著時間的推移積累知識。

此外，為了評估多模態(tài)智能體中的記憶有效性和基于記憶的推理，來自字節(jié)Seed、浙江大學和上海交通大學的研究團隊還開發(fā)了一個新的長視頻問答基準：M3-Bench，同樣開源。

實驗表明，通過強化學習訓練的M3-Agent在多個基準測試中表現(xiàn)均顯著優(yōu)于基線模型（包括基于商業(yè)模型如Gemini-1.5-Pro和GPT-4o的智能體）。

一位熱心網(wǎng)友總結了這篇論文的兩個核心洞察：

以實體為中心的多模態(tài)記憶至關重要。M3-Agent研究表明，通過在人臉、語音和文本中建立具有持久ID的長期結構化記憶，能夠顯著提升長視頻內(nèi)容的推理能力。
檢索推理優(yōu)于單次RAG。訓練一個RL策略來決定何時以及如何查詢記憶會產(chǎn)生比盲目檢索更強的結果。開發(fā)代理的開發(fā)者應該將檢索視為一個迭代的推理循環(huán)，而不是一個一次性步驟。

詳細內(nèi)容及代碼可見文末鏈接。

M3-Agent框架

對于多模態(tài)智能體而言，達到像人類一樣的智能水平根本上依賴于三種能力：

（1）通過多模態(tài)傳感器持續(xù)感知世界；
（2）將經(jīng)驗存儲在長期記憶中，并逐步構建關于環(huán)境的知識；
（3）基于積累的記憶進行推理，以指導其行動。

為實現(xiàn)這些目標，字節(jié)Seed團隊提出了M3-Agent，一個配備長期記憶的新型多模態(tài)代理框架。

它通過兩個并行過程運作：記憶過程和控制過程。

記憶過程持續(xù)感知實時多模態(tài)輸入以構建和更新長期記憶；控制過程則解釋外部指令，對存儲的記憶進行推理，并執(zhí)行相應的任務。

在記憶過程中，M3-Agent會實時處理輸入的視頻流，通過生成兩種記憶類型來同時捕獲細粒度細節(jié)和高級抽象信息，類似于人類認知系統(tǒng)：

事件記憶
記錄視頻中觀察到的具體事件。例如，“愛麗絲拿起咖啡說，‘早上沒有這個我無法離開’”，以及“愛麗絲將空瓶子扔進綠色的垃圾桶”。
語義記憶
從片段中推導出一般知識。例如，“愛麗絲喜歡早上喝咖啡”和“綠色的垃圾桶用于回收”。

生成的記憶隨后會被存入長期記憶庫中，該庫支持人臉、語音和文本知識等多模態(tài)信息存儲。

此外，記憶以實體為中心的結構進行組織，例如與同一個人相關的信息（例如他們的臉、聲音和相關知識）會以圖的格式連接起來，隨著智能體不斷提取和整合語義記憶，這些關聯(lián)關系會逐步建立完善。

在控制過程中，M3-Agent利用其長期記憶進行推理并完成任務。

M3-Agent并非使用單輪檢索增強生成（RAG）將記憶加載到上下文中，而是采用強化學習來實現(xiàn)多輪推理和迭代記憶檢索，能自主從不同維度（如事件或角色）的長期記憶中檢索相關信息，從而提高任務成功率。

M3-Bench基準

對于多模態(tài)智能體而言，記憶形成與在線視頻理解密切相關，而在線視頻理解是一項需要實時處理視頻流并根據(jù)過去的觀察做出決策的、具有挑戰(zhàn)性的任務。

傳統(tǒng)的長視頻理解方法（例如在多模態(tài)模型中擴展上下文窗口或壓縮視覺標記以增加時間覆蓋范圍）對于無限長的視頻流來說，并不具備有效的擴展性。

為了提高可擴展性，基于記憶的方法引入了記憶模塊來存儲編碼的視覺特征以供未來檢索。這些架構適合在線視頻處理，但它們面臨一個基本限制：難以保持長期一致性。

由于它們只存儲視覺特征，這些方法難以在長時間內(nèi)保持對人類身份或演變事件等實體的連貫跟蹤。

隨著大型多模態(tài)和語言模型的快速發(fā)展，蘇格拉底模型框架已成為已成為在線視頻理解領域的一種頗具前景的研究方向。

該方法通過利用多模態(tài)模型生成視頻描述作為基于語言的記憶，有效提升了系統(tǒng)可擴展性；但它在保持復雜、演變視頻內(nèi)容的長期一致性方面仍然面臨挑戰(zhàn)。

為此，研究團隊提出了M3-Bench，一個用于評估多模態(tài)智能體長期記憶推理能力的 LVQA 數(shù)據(jù)集。

M3-Bench中的每個實例包含一個模擬智能體感知輸入的長視頻，以及一系列開放式問答對。

該數(shù)據(jù)集分為兩個子集：

M3-Bench-robot，包含 100 個從機器人第一人稱視角錄制的真實世界視頻；
M3-Bench-web，包含920個網(wǎng)絡來源的視頻，涵蓋更廣泛的內(nèi)容和場景。

為了全面評估智能體回憶過去觀察結果和基于記憶進行推理的能力，研究團隊整理了五種不同類型的問答題，如下圖所示。

總體而言，M3-Bench 的特點是：

長時長的真實世界視頻，涵蓋了與多模態(tài)智能體部署相關的多樣化現(xiàn)實場景；
具有挑戰(zhàn)性的問題，這些問題超越了淺層感知理解，需要基于長期上下文的復雜推理。

上圖為M3-Bench基準的統(tǒng)計概述，每個問題可能對應多種問題類型。

顯著優(yōu)于基線模型

如上表所示，M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long上均優(yōu)于所有基線模型。

具體而言，在M3-Bench-robot 上，M3-Agent比最強的基線模型MA-LLM提高了6.3%的準確率；在 M3-Bench-web和VideoMME-long上，它分別比最強的基線模型Gemini-GPT4o-Hybrid高出了7.7%和5.3%。

研究團隊在M3-Bench中針對不同問題類型，將M3-Agent與所有基線進行了進一步評估。結果顯示，M3-Agent 在人類理解和跨模態(tài)推理方面表現(xiàn)出色。

具體來說，與M3-Bench-robot上表現(xiàn)最佳的基線 MA-LMM 相比，M3-Agent 在人類理解和跨模態(tài)推理方面分別提升了4.2%和 8.5%；

在M3-Bench-web上，M3-Agent超越了頂尖基線Gemini-GPT4o-Hybrid，在相應類別中分別取得了15.5%和6.7%的提升。

這些結果表明，M3-Agent在保持角色一致性、深化人類理解以及有效整合多模態(tài)信息方面具有卓越能力。

參考鏈接：https://x.com/omarsar0/status/1956773240623235076
論文：https://www.arxiv.org/abs/2508.09736
代碼：https://github.com/bytedance-seed/m3-agent

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.