AI 能否像人類一樣真正“看見”并形成持久的“記憶”?如今,這一設想正逐漸成為現(xiàn)實。
這一突破性進展的實現(xiàn),源自 28 歲華人沈俊瀟(Shawn Shen)所創(chuàng)立的美國硅谷初創(chuàng)公司 Memories.ai。該公司不久前發(fā)布了全球首款大型視覺記憶模型(LVMM,Large Visual Memory Model),突破性地實現(xiàn)了對海量視覺信息的長期存儲、快速檢索與深度推理。
這一技術正應用于安防、個性化 AI 助手、媒體創(chuàng)作等眾多領域。根據(jù)公司描述,其“準確率極高,甚至能精確達到毫秒級理解”,讓機器像人類一樣理解世界,為構建下一代具備持續(xù)學習能力的通用人工智能奠定基礎。
值得關注的是,沈俊瀟的學術與職業(yè)背景也為這一技術突破提供了堅實支撐。他在英國完成高中學業(yè)后,獲得全額獎學金進入英國劍橋大學連續(xù)攻讀本科、碩士及博士學位,其后曾擔任 Meta Reality Labs 的研究科學家,在虛擬與增強現(xiàn)實領域積累了大量前沿經驗。目前,他還同時擔任英國布里斯托大學助理教授,持續(xù)推動視覺計算與人工智能領域的交叉研究。
圖丨沈俊瀟(來源:沈俊瀟)
有望為多個領域帶來顛覆性變化
未來的通用人工智能(AGI)如果要在某些方面接近人類,就必須具備兩個彼此獨立的核心能力:智力與記憶。這兩者分屬不同維度——正如一個人可能聰慧卻健忘,或記憶力超群但推理能力有限。
當前,無論是工業(yè)界還是學術界,大多將重心放在提升 AI 的智力層面,而對 AI 長期記憶機制的系統(tǒng)性探索仍顯不足。盡管已有部分企業(yè)開始涉足這一領域,但多數(shù)局限于文本級別的上下文工程(context engineering),尚未深入更本質的視覺化記憶架構。
在沈俊瀟看來,文字從本質上并不能構成真正的記憶,它更近似于一種短期上下文。這種形式雖然能夠支撐程序性記憶(procedural memory),卻難以承載人類真正意義上的長期記憶——情景記憶(episodic memory)。
他舉例解釋道:“當一個人回想起上次吃漢堡的情景,腦海中浮現(xiàn)的是具體的畫面,比如漢堡的外觀,而非‘我吃了一個漢堡’這樣的文字描述?!睋?jù)他介紹,人類記憶中約 80% 屬于視覺化內容,僅有約 20% 為文字或程序性內容。因此,構建 AI 的長期記憶更應聚焦于引入視覺記憶機制,而非停留在文本層面。
受人類記憶結構的啟發(fā),Memories.ai 在開發(fā) LVMM 時,設計了一套完整的記憶處理架構,其能夠準確解析用戶意圖、精準定位并提取相關的視覺記憶片段、整合所有關聯(lián)視覺信息,并能夠基于這些記憶內容與用戶當前查詢進行復雜推理。
該系統(tǒng)包括多個功能模塊:一個負責將記憶線索轉換為可檢索請求的查詢模型、一個執(zhí)行粗粒度篩選的檢索模型、一個支持全模態(tài)索引的存儲模型、一個執(zhí)行細粒度信息提取的選擇模型、一個用于記憶監(jiān)控的反射模型,以及一個實現(xiàn)記憶重建的重構模型。
沈俊瀟對 DeepTech 表示:“LVMM 部分功能依托視頻檢索,但其核心遠不止于此。理解 10 小時視頻與 1 小時視頻在基礎技術上或許相似,但實現(xiàn)百萬小時級別的視覺理解,則需根本性的架構創(chuàng)新——包括數(shù)據(jù)庫設計、算法優(yōu)化與底層基礎設施的重構。目前,我們可處理數(shù)據(jù)庫的規(guī)模已經達到億級?!?/p>
根據(jù) Memories.ai 發(fā)布的技術報告,LVMM 在視頻分類、檢索與問答等多個任務中都表現(xiàn)出卓越性能。其中一個顯著的對比是,在視頻分析時長方面,OpenAI GPT 4o 是 3 分鐘,Google Gemini 2.5 Pro 可實現(xiàn) 1 小時,而 LVMM 是近乎無限的視覺記憶。
(來源:Memories.ai)
據(jù)介紹,LVMM 的長期視覺記憶有望在多個領域帶來顛覆性的變化。
安防監(jiān)控領域,核心挑戰(zhàn)在于實現(xiàn)持續(xù)的身份識別。一個典型的案例是,在電視劇《我是刑警》的情節(jié)中,警方曾動員數(shù)百人通宵篩查監(jiān)控視頻以追蹤嫌疑人。而借助 LVMM 系統(tǒng),同類任務可通過 AI 自動觀看并快速定位目標片段,甚至可對從童年到成年階段的人物進行追蹤,并極大提升效率。
沈俊瀟還舉例說道:“不同地區(qū)對危險的定義存在差異,例如美國各州對同一行為的判定可能截然不同,系統(tǒng)需借助長期學習以理解這些場景特征?!?/p>
AI 助手與硬件方向,個性化是重要發(fā)展趨勢。理想的 AI 助手應能理解用戶所見所聞,從而更精準地響應需求?,F(xiàn)有工具如 ChatGPT 雖智力表現(xiàn)突出,但在用戶體驗上常顯得“不夠貼心”,仍需用戶頻繁補充上下文,并且這些信息往往涵蓋多模態(tài)內容。因此,發(fā)展具備多模態(tài)長期記憶能力的 AI 助手已成為明確的技術方向之一。據(jù)了解,Memories.ai 已與頭部 AI 硬件公司展開合作,如 Rokid 和前魅族 CMO 李楠創(chuàng)立的 AI 硬件公司 Angry Miao。
媒體和教育領域,Memories.ai 正在與 BBC 等媒體以及相關公司展開合作,旨在將大量歷史視頻素材與其他多模態(tài)數(shù)據(jù)整合為動態(tài)的數(shù)據(jù)湖,以支持更高效的搜索與問答功能。
相冊和視頻管理應用中,長期視覺記憶同樣至關重要。據(jù)介紹,Memories.ai 正在與三星展開合作,把 LVMM 部署到端側手機上。擁有“記憶”意味著在數(shù)萬張照片和視頻中,能夠通過自然語言精準檢索特定的某個片段。對于視頻創(chuàng)作者來說,該系統(tǒng)可構建專門的視頻搜索引擎和文檔引擎,并可實現(xiàn)快速自動剪輯。
此外,基于網(wǎng)絡視頻進行宏觀趨勢分析也成為可能,AI 可借此識別內容流行度規(guī)律、成因與傳播特征,為創(chuàng)作與決策提供參考。
從更長遠的角度看,該技術為構建人工智能的基礎視覺記憶層奠定了重要基礎。無論是能夠追溯生活點滴的 AI 助手、通過觀察世界學習的人形機器人、智能眼鏡或可穿戴設備,還是真正具備視覺理解能力的下一代智能系統(tǒng),都有賴于持續(xù)、穩(wěn)定且高效的視覺記憶機制。
“不走尋常路”:從 14 歲出國讀高中到硅谷創(chuàng)業(yè)
沈俊瀟出生于江蘇吳江,他始終秉持“選擇大于努力”的信念,其人生軌跡也因多次“非同尋?!钡倪x擇而顯得獨特。他的第一個關鍵抉擇是從鎮(zhèn)小學轉至市區(qū)初中就讀,然而他并未止步,始終想去“更大的世界看看”。盡管中考成績出色,14 歲的他仍憑借全國僅有兩個名額的全額獎學金遠赴英國攻讀高中。
在劍橋大學,沈俊瀟完成了從本科到博士的全程學習,博士階段的研究聚焦于開發(fā)基于機器學習的用戶交互意圖推斷模型,應用于光學透視頭戴式顯示器場景,師從佩爾·奧拉·克里斯滕森(Per Ola Kristensson)教授和比爾·伯恩(Bill Byrne)教授。在這一時期,人工智能技術的迅猛發(fā)展使他看到了實現(xiàn)“以技術提升人類效率”這一愿景的現(xiàn)實路徑。
博士畢業(yè)后,沈俊瀟加入 Meta Reality Labs 擔任研究科學家。在該崗位中,他主要從事與時間序列分析密切相關的科研工作。他表示:“我此前從事了大量手勢理解相關研究,而手勢識別本質也屬于時間序列問題。無論是手勢識別、語義理解還是視頻解析,這些研究方向在方法論上是一脈相承的?!?/p>
在多數(shù)企業(yè)集中于提升 AI“智力”之時,他選擇了差異化的研究方向——專注于構建 AI 的“記憶”能力。然而,當前人工智能領域在長期記憶,尤其是對海量視覺信息進行結構化存儲與有效利用方面仍存在諸多尚未突破的科學問題。
在這一背景下,沈俊瀟及合作者率先從人類記憶的理論體系出發(fā),系統(tǒng)探索了 AI 長期記憶的實現(xiàn)路徑。人類智能依托智力與記憶兩大支柱:當前 AI 的智力層面已廣泛采用神經網(wǎng)絡模型,其設計靈感本就源自對人腦結構的借鑒;而在記憶方面,團隊致力于在“生物學合理性”(與人類記憶的相似程度)與“工程性能”(實際解決問題的效能)之間尋求平衡。
完全模擬人類記憶并不一定帶來最優(yōu)性能,而完全脫離生物啟示的設計又往往難以契合復雜認知任務的需求。正如神經網(wǎng)絡并未完全復制人腦,卻在兩者間找到有效平衡,沈俊瀟與團隊也以類似思路推進記憶研究——并非追求一對一的機械映射,而是以人類記憶機制為深層啟發(fā),構建更符合認知架構的 AI 記憶系統(tǒng)。
在沈俊瀟作為通訊作者發(fā)表在預印本網(wǎng)站arXiv的一篇論文中,對此有比較清晰的闡述。相關論文題目為《人類啟發(fā)視角:人工智能長期記憶綜述》(Human-inspired Perspectives: A Survey on AI Long-term Memory)[1]。
該研究從人類記憶機制出發(fā),探討了 AI 長期記憶的存儲、檢索和遺忘機制,并提出了一個基于人類記憶理論的新型認知架構——自適應長期記憶架構(SALM,Self-Adaptive Long-term Memory),為未來 AI 系統(tǒng)的設計提供了理論基礎。
圖丨相關論文(來源:arXiv)
諾貝爾物理學獎得主杰弗里·辛頓(Geoffrey Hinton)曾提出“記憶重構”的概念,即記憶并非靜態(tài)存儲,而是在每次提取時被動態(tài)重建。沈俊瀟團隊同樣將記憶處理為結構化表征,并在回溯時實施層級化的重新塑造,以模擬人類記憶的靈活性與適應性。
研究中還借鑒了人類長期記憶的經典“三分模型”,將人類長期記憶分為情景記憶(Episodic Memory)、語義記憶(Semantic Memory)和程序性記憶(Procedural Memory)。
具體而言,情景記憶是關于特定事件的記憶,比如“我上周開車去郊游”;語義記憶是關于事實和概念的記憶,比如“汽車有四個輪子,自行車有兩個輪子”;而程序性記憶是關于技能和習慣的記憶,比如“我如何學會駕駛汽車”。
(來源:arXiv)
在另一項研究中 [2],沈俊瀟還與合作者共同探討了記憶增強技術的現(xiàn)有局限性,以及為解決這些問題而開展的研究工作。
他們在研究過程中發(fā)現(xiàn),現(xiàn)有的記憶增強技術存在一些明顯的不足。例如,目前的技術只能基于標簽進行搜索,而無法實現(xiàn)基于語義的搜索和問答。這限制了記憶增強技術在復雜場景中的應用,因為語義搜索能夠更精準地理解和回應用戶的查詢需求。
基于這些發(fā)現(xiàn),團隊將長期視頻理解視為更具突破意義的研究方向。他們判斷,以第一視角為主的視頻數(shù)據(jù)將在未來成為主流,因而較早開始推進相關技術的落地探索,致力于使 AI 系統(tǒng)能夠實現(xiàn)對長周期、高復雜度視頻內容的結構化理解和語義檢索。
通過這些工作,團隊提出應通過引入長期視覺記憶增強 AI 的系統(tǒng)能力,并在理論構建與技術實踐之間建立閉環(huán)。他們相信,通過克服現(xiàn)有記憶模型在語義化、自適應與重構能力方面的不足,能夠為構建真正具備可持續(xù)學習與演化能力的 AI 系統(tǒng)開辟新路徑。
正是看到了這些問題,2024 年沈俊瀟決定“快速行動”——他與曾在 Meta并肩作戰(zhàn)的機器學習工程師 Ben(Enmin)Zhou 共同創(chuàng)立了 Memories.ai。另據(jù)悉,截至目前 Memories.ai 已經完成由 Susa Ventures 領投,三星風投、Fusion Fund 等知名機構跟投的 800 萬美元種子輪融資。
圖丨沈俊瀟與 Ben(Enmin)Zhou(右)(來源:Memories.ai)
沈俊瀟認為,AI 技術必將重塑未來硬件形態(tài),在個人電腦和智能手機之后將催生第三代核心終端。依托 Memories.ai 所研發(fā)的海量視頻理解核心技術,公司已與一家國內頭部硬件企業(yè)達成合作,將共同推出產品 LUCI Pin。
目前,Memories.ai 還在積極推進一款與可穿戴設備深度融合的核心硬件研發(fā)。該設備旨在全天候記錄用戶生活影像,捕獲人類的視覺記憶,并將其有效轉化為 AI 可用的視覺記憶體系。“我們希望未來 AI 的長期視覺記憶能變得更精準、更快速,并在更多行業(yè)得到廣泛應用。”沈俊瀟表示。
參考資料:
1.https://arxiv.org/abs/2411.00489
2.J. Shen, J. J. Dudley and P. O. Kristensson, Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception, 2024 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), Bellevue, WA, USA, 2024, pp. 923-931, doi: 10.1109/ISMAR62088.2024.00108.
3.https://shawnshenjx.github.io/
4.https://memories.ai/blog/large-visual-memory-model
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.