智東西
作者 王涵
編輯 漠影
智東西7月25日消息,今天,前Meta員工沈俊瀟(Shawn Shen)在海外社交媒體X上宣布,其和Enmin Zhou聯(lián)合創(chuàng)立的Memories.ai,正式推出其首款大型視覺(jué)記憶模型(Large Visual Memory Model)。
沈俊瀟還宣布Memories.ai已完成由Susa Ventures領(lǐng)投,Crane Venture Partners、三星Next、Fusion Fund等機(jī)構(gòu)跟投的800萬(wàn)美元(約合人民幣5730萬(wàn)元)種子輪融資。
感興趣的用戶(hù)立即享受首月免費(fèi)體驗(yàn),無(wú)需任何附加條件。
體驗(yàn)地址:https://memories.ai/app
▲沈俊瀟官宣推文(來(lái)源:X)
這一技術(shù)旨在為多模態(tài)大語(yǔ)言模型(multi-modal LLMs)賦予視覺(jué)記憶回溯能力。該模型實(shí)現(xiàn)了視覺(jué)記憶檢索功能,能夠解析用戶(hù)意圖,檢索相關(guān)視覺(jué)記憶片段,整合關(guān)聯(lián)的視覺(jué)記憶信息,并基于這些記憶和用戶(hù)查詢(xún)進(jìn)行推理。
其創(chuàng)新點(diǎn)在于智能決策機(jī)制,能自主判斷何時(shí)、如何及調(diào)取哪些視覺(jué)記憶。完成記憶信息整合后,模型能生成記憶引用,并以正確輸出格式回答用戶(hù)問(wèn)題,這使得多模態(tài)大模型具備無(wú)限長(zhǎng)視覺(jué)記憶上下文處理能力。
Memories.ai的兩位聯(lián)合創(chuàng)始人均是華人,沈俊瀟在博客中透露自己14歲就遠(yuǎn)赴英國(guó)讀高中。
一、兩位華人聯(lián)合創(chuàng)立,曾14歲就遠(yuǎn)赴英國(guó)求學(xué)
1999年出生的沈俊瀟,初中在蘇州上學(xué),14歲就獲得獎(jiǎng)學(xué)金到遠(yuǎn)赴英國(guó)讀高中。領(lǐng)英主頁(yè)顯示,其本碩博均在劍橋大學(xué)就讀,2019年取得了工程專(zhuān)業(yè)的文學(xué)學(xué)士學(xué)位( 劍橋大學(xué)等部分高校保留傳統(tǒng)BA授予制度,其工程專(zhuān)業(yè)畢業(yè)生仍獲BA學(xué)位),2020年取得都柏林圣三一學(xué)院的工程學(xué)碩士學(xué)位,2023年獲得工程學(xué)哲學(xué)博士學(xué)位。
在本科就讀期間,沈俊瀟還曾回到上海摩根士丹利短期實(shí)習(xí),在博士就讀期間,2022年,他到了Meta現(xiàn)實(shí)實(shí)驗(yàn)室工作,擔(dān)任研究科學(xué)家職位。2024年沈俊瀟離職創(chuàng)業(yè),聯(lián)合創(chuàng)立了Memories.ai。
▲左:沈俊瀟,右:Enmin Zhou(圖源:Memories.ai)
Memories.ai聯(lián)合創(chuàng)始人兼CTO Enmin Zhou,2020年從美國(guó)加州大學(xué)洛杉磯分校畢業(yè),獲得數(shù)學(xué)與計(jì)算科學(xué)學(xué)士學(xué)位,后在美國(guó)布朗大學(xué)就讀數(shù)據(jù)科學(xué)專(zhuān)業(yè),于2022年畢業(yè)。
本科就讀期間他也曾回到上海,在上海深察信息科技短暫實(shí)習(xí),碩士畢業(yè)后在Meta就職,擔(dān)任機(jī)器學(xué)習(xí)工程師一職。2024年Enmin Zhou離職創(chuàng)業(yè),聯(lián)合創(chuàng)立了Memories.ai。
在博客中,沈俊瀟寫(xiě)道,他們正是因?yàn)橐庾R(shí)到解決視覺(jué)記憶問(wèn)題刻不容緩,才離開(kāi)Meta共同創(chuàng)立Memories.ai。
二、視頻問(wèn)答能力超越Gemini 2.5 Pro、OpenAI GPT 4o和GPT4.1
從性能上看,在視頻零樣本分類(lèi)基準(zhǔn)測(cè)試中,Memories.ai的分?jǐn)?shù)都較歷史第一的模型PE-G都一定上漲,其中在HMD8數(shù)據(jù)庫(kù)中,分?jǐn)?shù)上漲了7.6分,在K400數(shù)據(jù)庫(kù)中,分?jǐn)?shù)上漲了6.6分。
視頻檢索基準(zhǔn)測(cè)試中,Memories.ai在所有數(shù)據(jù)集中的分?jǐn)?shù)都超越了歷史第一Perception Encoder,各項(xiàng)測(cè)試均奪得桂冠,其中在AVN數(shù)據(jù)集的文字轉(zhuǎn)視頻測(cè)試中,其分?jǐn)?shù)較Perception Encoder提升了11分。
視頻問(wèn)答基準(zhǔn)測(cè)試中,Memories.ai在MVBench、NextQA以及Temp Compass數(shù)據(jù)集中,全面超越OpenAI GPT 4o;在ActivityNetQA和Perception Text數(shù)據(jù)集中,超越谷歌Gemini 2.5 Pro和OpenAI GPT4.1,取得新的性能記錄。
▲包括OpenAI和谷歌模型系統(tǒng)在內(nèi)的比較數(shù)據(jù),均源自O(shè)penAI和谷歌各自的官方發(fā)布博客。
三、受人類(lèi)記憶機(jī)制啟發(fā),建立初始記憶架構(gòu)
在另一篇技術(shù)博客中,沈俊瀟介紹到,Memories.ai的創(chuàng)造是受了人類(lèi)記憶機(jī)制啟發(fā),而創(chuàng)立的整個(gè)大視覺(jué)記憶模型的初始記憶架構(gòu),包括:
將記憶線索轉(zhuǎn)化為可搜索請(qǐng)求的查詢(xún)模型、用于粗粒度檢索的檢索模型、全模態(tài)索引模型、用于細(xì)粒度細(xì)節(jié)提取的選擇模型、用于記憶監(jiān)控的反思模型,以及用于記憶重構(gòu)的重建模型。
記憶檢索過(guò)程可分解為以下關(guān)鍵步驟:
1、記憶線索:激發(fā)回憶過(guò)程
回憶通常始于線索。線索可以是外部的,如問(wèn)題、舊照片、旋律、氣味、地名;也可以是內(nèi)部的,如念頭、情緒。當(dāng)大腦接收線索時(shí),會(huì)激活與目標(biāo)記憶相關(guān)的特定神經(jīng)網(wǎng)絡(luò)。
在系統(tǒng)中,采用查詢(xún)模型將線索(主要為基于文本的線索)轉(zhuǎn)化為具體的、可搜索的內(nèi)容,涉及文本解析和轉(zhuǎn)錄等步驟,將線索轉(zhuǎn)化為適合后續(xù)處理的格式。
2、粗粒度檢索:初步 “篩選”
激活過(guò)程并非總是精確的,初始檢索往往粗略且泛化。大腦快速搜索海量信息,尋找與當(dāng)前線索最匹配的模式,一些相關(guān)的視覺(jué)片段可能會(huì)被初步激活,此為 “線索依賴(lài)性回憶”。
在系統(tǒng)中,使用檢索模型進(jìn)行粗粒度檢索。對(duì)于上一步解析的查詢(xún)對(duì)象,檢索模型選擇合適的數(shù)據(jù)庫(kù)和查詢(xún)方法,識(shí)別所有相關(guān)片段,減輕 “線索依賴(lài)性回憶” 的影響,并激活所有相關(guān)視覺(jué)片段。
3、細(xì)粒度細(xì)節(jié)提?。荷疃?“閱讀” 與 “編輯”
當(dāng)初始線索激活相關(guān)區(qū)域后,大腦進(jìn)入更精細(xì)的處理階段,記憶的重構(gòu)特性開(kāi)始顯現(xiàn):
細(xì)節(jié)補(bǔ)全:大腦填補(bǔ)記憶的細(xì)節(jié),這些細(xì)節(jié)可能基于對(duì)世界的理解、邏輯推理和過(guò)往經(jīng)驗(yàn)推斷補(bǔ)充。
關(guān)聯(lián)整合:大腦將不同信息片段(如視覺(jué)圖像、聽(tīng)覺(jué)片段和情緒波動(dòng))關(guān)聯(lián)整合,形成更完整的記憶圖景。
過(guò)濾選擇:大腦根據(jù)當(dāng)前目標(biāo)和問(wèn)題,從所有激活信息中過(guò)濾出最相關(guān)和最重要的片段,具有高度目的性。
在系統(tǒng)中,使用全模態(tài)字幕模型和選擇模型進(jìn)行細(xì)粒度細(xì)節(jié)提取。對(duì)于所有視覺(jué)片段,全模態(tài)字幕代理結(jié)合記憶線索為關(guān)鍵核心內(nèi)容添加字幕。選擇代理基于所有已字幕內(nèi)容進(jìn)行推理,篩選出若干最相關(guān)的視覺(jué)片段,縮小記憶搜索范圍,基本完成視覺(jué)記憶檢索過(guò)程。
4、記憶監(jiān)控:記憶的 “自我校正”
回憶過(guò)程中,大腦會(huì)監(jiān)控和驗(yàn)證檢索到的信息,評(píng)估其準(zhǔn)確性和真實(shí)性,包括將其與現(xiàn)有的知識(shí)、信念和其他相關(guān)記憶進(jìn)行比較。若回憶信息與已知事實(shí)相矛盾,可能會(huì)嘗試進(jìn)一步回憶或修正。
在系統(tǒng)中,使用反思模型進(jìn)行記憶檢測(cè)和驗(yàn)證。當(dāng)檢索到的記憶內(nèi)容與事實(shí)沖突或不一致時(shí),會(huì)重新進(jìn)入細(xì)粒度細(xì)節(jié)提取階段。
5、記憶重構(gòu):從碎片到 “精修版”
回憶復(fù)雜事件時(shí),大腦傾向于提取事件的核心要點(diǎn)、主要參與者和關(guān)鍵結(jié)果,過(guò)濾掉較不重要或冗余的信息,將其概括為更易存儲(chǔ)和檢索的形式。重構(gòu)過(guò)程還涉及將分散的記憶碎片整合成有意義的模式,組織成連貫的敘述或概念。
在系統(tǒng)中,使用重建模型進(jìn)行記憶重構(gòu)?;谟洃浘€索和所有當(dāng)前檢索到的信息,識(shí)別信息模式,利用世界知識(shí)和邏輯推理補(bǔ)全缺失細(xì)節(jié),過(guò)濾和精煉無(wú)關(guān)或冗余信息,將分散的感知、概念和情感片段整合成連貫、有意義的敘述或概念結(jié)構(gòu)。
結(jié)語(yǔ):或?qū)⒊蔀锳GI發(fā)展的重要節(jié)點(diǎn)
沈俊瀟在博客中稱(chēng)“這是在通用人工智能(AGI)發(fā)展中的一步。”
Memories.ai此次推出的大型視覺(jué)記憶模型,在技術(shù)路徑上以人類(lèi)大腦的記憶機(jī)制為參照構(gòu)建了初始架構(gòu),其具備的視覺(jué)記憶檢索、整合及推理能力,在視頻分類(lèi)、檢索、問(wèn)答等基準(zhǔn)測(cè)試中展現(xiàn)出一定性能優(yōu)勢(shì)。
而800萬(wàn)美元種子輪(約合人民幣5730萬(wàn)元)融資的完成,也體現(xiàn)了投資機(jī)構(gòu)對(duì)該技術(shù)方向的關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.