機(jī)器之心報(bào)道
機(jī)器之心編輯部
SALMONN 家族在首個(gè)通用音頻理解模型(ICLR 2024)和首個(gè)全要素音視頻理解模型 video-SALMONN(ICML 2024)基礎(chǔ)上再次迎來(lái)重磅擴(kuò)容,霸榜各大音視頻理解榜單!
全新一代 video-SALMONN 2/2+、首個(gè)開(kāi)源推理增強(qiáng)型音視頻理解大模型 video-SALMONN-o1(ICML 2025)、首個(gè)高幀率視頻理解大模型 F-16(ICML 2025),以及無(wú)文本泄漏基準(zhǔn)測(cè)試 AVUT(EMNLP 2025) 正式發(fā)布。新陣容在視頻理解能力與評(píng)測(cè)體系全線(xiàn)突破,全面鞏固 SALMONN 家族在開(kāi)源音視頻理解大模型賽道的領(lǐng)先地位。
圖像由 Nano-Banana 生成
新旗艦登場(chǎng)
video-SALMONN 2+
video-SALMONN 2+ 是首個(gè)專(zhuān)注于高質(zhì)量、完整視頻描述的音視頻大語(yǔ)言模型。通過(guò)原子事件級(jí)的評(píng)估體系與 MrDPO 多輪強(qiáng)化學(xué)習(xí)優(yōu)化,它大幅減少信息遺漏和幻覺(jué)。在字幕完整性和準(zhǔn)確性指標(biāo)上取得最好結(jié)果(SOTA)。
研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn):利用該模型大規(guī)模生成高質(zhì)量描述,并將其反哺新模型訓(xùn)練,不僅能保持強(qiáng)描述能力,還能顯著提升問(wèn)答等音視頻理解任務(wù)表現(xiàn)。
最終,video-SALMONN 2+ 在 Video-MME、 WorldSense、AVUT、Video-Holmes、DailyOmni 等音視頻理解榜單,MLVU、LVBench 等靜音視頻理解榜單上全面領(lǐng)先。72B 版本整體性能超越 GPT-4o、Google Gemini 1.5 Pro 等閉源巨頭。
得益于對(duì)音頻模態(tài)的同步利用,video-SALMONN 2+ 系列在 Video-MME 等榜單上,無(wú)字幕(端到端真實(shí)系統(tǒng))與有字幕(外掛人工標(biāo)注或商業(yè)語(yǔ)音識(shí)別系統(tǒng)生成的理想字幕)之間的性能差距小于 2%。這表明音視頻聯(lián)動(dòng)能有效增強(qiáng)語(yǔ)義理解能力,并能在無(wú)人工字幕的視頻與具身機(jī)器人等場(chǎng)景中具有明顯優(yōu)勢(shì)。
研究團(tuán)隊(duì)首先以 Qwen 2.5-VL 7B 為底座構(gòu)建音視頻模型,經(jīng)上述音視頻訓(xùn)練流程及 MrDPO 訓(xùn)練得到 video-SALMONN 2+ 7B。隨后,利用該模型對(duì)更大規(guī)模的音視頻數(shù)據(jù)進(jìn)行高質(zhì)量描述標(biāo)注,并以此為數(shù)據(jù)源,訓(xùn)練基于 Qwen 2.5-VL 3B/72B 的音視頻大模型,最終獲得 video-SALMONN 2+ 3B/72B。實(shí)驗(yàn)顯示,相比僅用原始標(biāo)注數(shù)據(jù)訓(xùn)練的基線(xiàn),新模型在視頻理解能力上實(shí)現(xiàn)了全面提升。
Video-MME 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果結(jié)果驗(yàn)證了該的技術(shù)路徑有效性:高描述能力模型可充當(dāng)高質(zhì)量訓(xùn)練數(shù)據(jù)的 “生成器”,為更強(qiáng)音視頻理解模型提供可靠的數(shù)據(jù)基礎(chǔ),推動(dòng)模型持續(xù)迭代與性能躍升。
推理增強(qiáng),讓模型真正看懂
video-SALMONN-o1(ICML 2025)
問(wèn)題: 表演者為什么想成為黑山公民?選擇:
A. 因?yàn)楹谏绞莻€(gè)美麗的國(guó)家
B. 因?yàn)樗胱≡谝粋€(gè)名字匹配他膚色的國(guó)家
C. 他想成為一座山
D. 他覺(jué)得黑山的人都很有吸引力
E. 他覺(jué)得這個(gè)國(guó)家的名字聽(tīng)起來(lái)很酷
video-SALMONN-o1 推理:
喜劇演員說(shuō)歐洲有一個(gè)國(guó)家叫做黑山。
然后他重復(fù)了一遍這個(gè)名字,強(qiáng)調(diào)它的獨(dú)特性:“有一個(gè)滿(mǎn)是白人的國(guó)家,叫做黑山?!?br/>他表示自己很想成為其中一員,甚至開(kāi)玩笑說(shuō)要把國(guó)籍改成黑山。
他想成為黑山公民的理由是:那是一個(gè)美麗的地方,而且名字與他的膚色相符。
因此,答案是 B. 他想生活在一個(gè)與自己膚色相符的國(guó)家
問(wèn)題: 表演者談到了直男在照片中的習(xí)慣。為什么觀眾會(huì)笑呢?請(qǐng)從以下選項(xiàng)中選擇:
A. 表演者的襯衫很好笑。
B. 表演者讓觀眾想起了他們的朋友。
C. 觀眾感到被冒犯了,于是尷尬地笑了。
D. 表演者是女性,覺(jué)得取笑直男很有趣。
E. 光是想象就覺(jué)得好笑,而表演者還把它演出來(lái)了。
video-SALMONN-o1 推理:
表演者在開(kāi)直男的玩笑,說(shuō)他們拍照時(shí)喜歡抬著下巴擺姿勢(shì)。
然后他親自模仿了這種姿勢(shì),并加以夸張來(lái)制造喜劇效果。
觀眾之所以發(fā)笑,是因?yàn)樗麄兡軌虍a(chǎn)生共鳴,并覺(jué)得這種擺姿勢(shì)的行為本身就很滑稽。
因此,答案是 E. 光是想象就覺(jué)得好笑,而表演者還把它演出來(lái)了。
問(wèn)題: 這個(gè)視頻里有什么笑話(huà)以及為什么好笑?請(qǐng)逐步詳細(xì)分析
video-SALMONN-o1 推理:
笑點(diǎn)在于:美國(guó)副總統(tǒng)喬?拜登寫(xiě)了一本自傳。
說(shuō)話(huà)者(很可能是個(gè)喜劇演員或觀眾)說(shuō)他覺(jué)得這本書(shū)比實(shí)際好得多。
這很有趣,因?yàn)樗昧艘粋€(gè)常見(jiàn)的觀念 —— 政治人物往往會(huì)把自己描繪得比他們真正值得的更正面。
說(shuō)話(huà)者暗示拜登的自傳好得令人難以置信,這是一種對(duì)情境的幽默夸張。
在脫口秀等復(fù)雜視頻中,深層理解不僅依賴(lài)于音頻與視覺(jué)的聯(lián)合感知,還需要在此基礎(chǔ)上開(kāi)展多步推理。video-SALMONN-o1 是首個(gè)推理增強(qiáng)的開(kāi)源音視頻大語(yǔ)言模型:相較于同類(lèi)開(kāi)源系統(tǒng)直接輸出答案,它可以同時(shí)接收音頻與視頻輸入,執(zhí)行基于證據(jù)的逐步推理并給出結(jié)論,實(shí)現(xiàn)結(jié)果與理由的一致性。實(shí)驗(yàn)觀察表明,針對(duì)數(shù)學(xué) / 編程的文本推理優(yōu)化,或以圖文為主的推理范式,難以有效泛化至音視頻理解;video-SALMONN-o1 以音視頻原生的過(guò)程監(jiān)督與推理優(yōu)化,拓寬了推理的應(yīng)用邊界,使大模型能以推理為核心更全面地理解物理世界。
問(wèn)題: 雙胞胎研究如何分離TBI(創(chuàng)傷性腦損傷)對(duì)癡呆風(fēng)險(xiǎn)的影響。請(qǐng)逐步分析。
video-SALMONN-o1 推理:
問(wèn)題在于雙胞胎研究如何分離TBI(創(chuàng)傷性腦損傷)對(duì)癡呆風(fēng)險(xiǎn)的影響。我們需要明確該研究中有哪些關(guān)鍵要素,能夠幫助把 TBI 的作用與其他影響癡呆的因素區(qū)分開(kāi)來(lái)。
講者提到,該研究采用 “雙胞胎配對(duì)” 設(shè)計(jì),也就是說(shuō)比較雙胞胎個(gè)體。這意味著研究重點(diǎn)在于控制遺傳因素和共同的環(huán)境因素。
講者強(qiáng)調(diào),研究中的雙胞胎在 TBI 上是不一致的(即一人有 TBI,另一人沒(méi)有),在癡呆發(fā)病上也是不一致的(即一人發(fā)展為癡呆,另一人沒(méi)有)。這種設(shè)計(jì)使研究者能夠控制早期的遺傳和環(huán)境暴露因素,因?yàn)檫@些在雙胞胎之間是相似的。
通過(guò)比較在 TBI 經(jīng)歷和癡呆結(jié)果上不同的雙胞胎,研究就能隔離出 TBI 對(duì)癡呆風(fēng)險(xiǎn)的影響。如果 TBI 是一個(gè)重要的風(fēng)險(xiǎn)因素,我們就會(huì)預(yù)期:有 TBI 的雙胞胎更容易發(fā)展為癡呆,而沒(méi)有 TBI 的雙胞胎則相對(duì)較少出現(xiàn)癡呆。
在脫口秀、學(xué)術(shù)演講等復(fù)雜音視頻場(chǎng)景中,理解不僅依賴(lài)于音頻與視覺(jué)的聯(lián)合感知,還需要在此基礎(chǔ)上開(kāi)展多步推理。video-SALMONN-o1 是首個(gè)推理增強(qiáng)的開(kāi)源音視頻大語(yǔ)言模型:相較于同類(lèi)開(kāi)源系統(tǒng)直接輸出答案,它可以同時(shí)接收音頻與視頻輸入,執(zhí)行基于證據(jù)的逐步推理并給出結(jié)論,實(shí)現(xiàn)結(jié)果與理由的一致性。實(shí)驗(yàn)觀察表明,針對(duì)數(shù)學(xué) / 編程的文本推理,以及圖文推理,均難以泛化至音視頻場(chǎng)景;video-SALMONN-o1 以音視頻原生的過(guò)程監(jiān)督與推理優(yōu)化,拓寬了推理的應(yīng)用邊界,使大模型能以推理為核心更全面準(zhǔn)確的理解物理世界。
核心算法 process DPO
pDPO rollout 和 contrastive step selection 示意圖
Process DPO(pDPO) 是 video-SALMONN-o1 核心提出的訓(xùn)練方法。與傳統(tǒng)過(guò)程獎(jiǎng)勵(lì)函數(shù)(PRM) 同樣關(guān)注逐步(step-level) 優(yōu)化不同,pDPO 面向音視頻場(chǎng)景中自檢能力弱、難以獲得穩(wěn)定步驟級(jí)獎(jiǎng)勵(lì)的問(wèn)題,改用偏好優(yōu)化路徑:在每一步開(kāi)始時(shí)采樣兩個(gè)候選下一步 sk 與 s’k,分別進(jìn)行推理展開(kāi)(rollout),依據(jù)展開(kāi)結(jié)果的正確性比較兩者優(yōu)劣,并將 DPO 損失細(xì)化到步驟級(jí)進(jìn)行優(yōu)化。
針對(duì)大量 rollout 帶來(lái)的計(jì)算開(kāi)銷(xiāo),pDPO 進(jìn)一步引入基于擾動(dòng)的不確定性估計(jì):通過(guò)對(duì)當(dāng)前狀態(tài)施加微小擾動(dòng)、觀察輸出變化來(lái)評(píng)估各步的不確定性,僅對(duì)不確定性高的關(guān)鍵步驟執(zhí)行偏好對(duì)比與優(yōu)化,從而顯著降低計(jì)算成本。
高幀率突破,捕捉?jīng)Q定性瞬間
F-16(ICML 2025)
F-16 是首個(gè)為高幀率視頻理解而生的大模型。人眼感知遠(yuǎn)超 30FPS,體育直播、電競(jìng)高光、快速切鏡這些關(guān)鍵時(shí)刻,高幀率決定你能不能 “看全、看準(zhǔn)”。遺憾的是,多數(shù)視頻大模型還停留在1 FPS左右 的低采樣,信息大量流失;簡(jiǎn)單拉高幀率又會(huì)把算力 “燒空”。
F-16 的答案是多幀聯(lián)合對(duì)齊壓縮。它把多幀特征一起送入對(duì)齊器,一邊對(duì)齊語(yǔ)義、一邊做高效壓縮,既保住圖像編碼器的預(yù)訓(xùn)練語(yǔ)義,又把計(jì)算成本壓下來(lái)。結(jié)果很直接:在通用視頻理解基準(zhǔn)上,F(xiàn)-16 追平并改寫(xiě)同時(shí)期同規(guī)模純視覺(jué)開(kāi)源模型 SOTA 結(jié)果;在運(yùn)動(dòng)等高幀率任務(wù)上穩(wěn)居 SOTA
從左到右: FPS = 16、FPS = 1、FPS = 16、FPS = 1
更直觀的結(jié)果來(lái)了:在籃足體跳四大體育任務(wù)上,用同一訓(xùn)練數(shù)據(jù)微調(diào)的 F-16 高幀率模型不僅全線(xiàn)壓過(guò)低幀率基線(xiàn),還跑贏 GPT-4o、Gemini 1.5 Pro 等頭部閉源模型,再次驗(yàn)證了高幀率信息的價(jià)值。
該研究系統(tǒng)性驗(yàn)證了高幀率信息在通用視頻理解中的關(guān)鍵作用,為后續(xù)對(duì)高幀率視頻理解模型的深入探索奠定了堅(jiān)實(shí)基礎(chǔ)。
降低文本泄漏
打造公正的評(píng)測(cè)基準(zhǔn):AVUT(EMNLP 2025)
AVUT 聚焦通用場(chǎng)景下的音視頻理解,涵蓋信息獲取、內(nèi)容計(jì)數(shù)、事件定位與匹配、說(shuō)話(huà)人日志等多類(lèi)任務(wù)。其中很多測(cè)試依賴(lài)非語(yǔ)音的音頻事件等模態(tài)線(xiàn)索,單純的語(yǔ)音轉(zhuǎn)文本無(wú)法覆蓋,這也凸顯了音視頻協(xié)同理解的必要性。
值得警惕的是,音視頻理解任務(wù)中有一個(gè)常被忽略的大坑:文本短路。很多評(píng)測(cè)里,模型哪怕不看視頻,只看題目和選項(xiàng)就能答對(duì)(見(jiàn)下表 Text-only Accuracy%)。這意味著不少 “高分”,其實(shí)并非真正的音視頻理解。
如上表所示,在多項(xiàng)常用數(shù)據(jù)集中,GPT-4o 模型僅依賴(lài)文本即可取得較高的準(zhǔn)確率。為此,我們提出 AVUT 測(cè)試集,一方面平衡音頻、視頻與文本三種模態(tài)的貢獻(xiàn),另一方面有效抑制文本捷徑,直擊 “只看文本也能答對(duì)” 的評(píng)測(cè)痛點(diǎn)。
我們還引入了 Cycled Accuracy%:把每道題的選項(xiàng)打亂重排 (ABCD, BCDA, CDAB, DABC),將正確答案依次放在不同位置,只有模型在所有排列里都選同一答案才算對(duì)。這樣就能有效抑制 “位置偏好” 造成的水分(比如不確定就 “蒙 C”)。結(jié)果顯示,AVUT 數(shù)據(jù)能夠避免 “偏好型刷分”
隨著video-SALMONN 2+領(lǐng)跑榜單、video-SALMONN-o1推理增強(qiáng)落地、F-16高幀率架構(gòu)升級(jí),以及以音頻為核心的AVUT基準(zhǔn)建立,SALMONN 家族已形成從模型到評(píng)測(cè)、從效率到效果的完整閉環(huán)。它不僅刷新了開(kāi)源視頻理解的上限,也為產(chǎn)業(yè)與學(xué)術(shù)界提供了有效的方法創(chuàng)新和可靠的對(duì)比標(biāo)準(zhǔn)。面向真實(shí)世界的多模態(tài)場(chǎng)景,SALMONN 的這次 “集群式” 進(jìn)化正把視頻理解推向 “看得懂、聽(tīng)得準(zhǔn)、答得明”。未來(lái),SALMONN 系列將持續(xù)迭代,帶來(lái)更強(qiáng)模型與更完善生態(tài)!
團(tuán)隊(duì)介紹
清華大學(xué)電子工程系多媒體信號(hào)與智能信息處理實(shí)驗(yàn)室在醫(yī)工交叉和語(yǔ)音處理領(lǐng)域有長(zhǎng)期積淀。實(shí)驗(yàn)室的張超研究小組成立于 2022 年,專(zhuān)注于多模態(tài)大語(yǔ)言模型、腦信號(hào)解碼與大腦健康研究。
SALMONN 系列開(kāi)源地址:https://github.com/bytedance/SALMONN
論文地址:
- video-SALMONN 2:https://arxiv.org/abs/2506.15220
- video-SALMONN-o1:https://openreview.net/pdf?id=y62fhuA69I
- F-16:https://openreview.net/pdf?id=3H7qAT9Qow
- AVUT Benchmark:https://arxiv.org/abs/2503.19951
文中視頻鏈接:https://mp.weixin.qq.com/s/mvGAXeFULsESoXOuVCOcrA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.