IT之家 8 月 27 日消息,面壁智能 8 月 26 日宣布開源 8B 參數(shù)的面壁小鋼炮 MiniCPM-V 4.5 多模態(tài)旗艦?zāi)P?/strong>,成為行業(yè)首個具備“高刷”視頻理解能力的多模態(tài)模型。
MiniCPM-V 4.5 號稱高刷視頻理解、長視頻理解、OCR、文檔解析能力同級 SOTA,且性能超過 Qwen2.5-VL 72B,號稱“最強(qiáng)端側(cè)多模態(tài)模型”。
面壁智能介紹稱,此前主流的多模態(tài)模型在處理視頻理解任務(wù)中,因為平衡算力、功耗等因素,通常采取 1 fps 抽幀,即每秒只能截取 1 幀畫面進(jìn)行識別和理解。雖然一定程度上保證了模型推理效率,但也因此缺失了絕大部分視覺信息,降低了多模態(tài)大模型對動態(tài)世界「精細(xì)化」的理解。
MiniCPM-V 4.5 是行業(yè)首個具備高刷視頻理解能力的多模態(tài)模型,通過將模型結(jié)構(gòu)從 2D-Resampler 拓展為 3D-Resampler,進(jìn)行三維視頻片段的高密度壓縮,在同等視覺 Token 量開銷下的情況下,最大可接收 6 倍視頻幀數(shù)量,達(dá)到 96 倍視覺壓縮率,是同類模型的 12-24 倍。
MiniCPM-V 4.5 通過顯著增加抽幀頻次,從看「PPT」變成理解「動態(tài)畫面」,面對一閃而過的畫面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更準(zhǔn)、更細(xì)。
在 MotionBench、FavorBench 兩項體現(xiàn)高刷視頻理解能力的榜單中,MiniCPM-V 4.5 達(dá)到同尺寸 SOTA,且超過 Qwen2.5-VL 72B,實現(xiàn)越級領(lǐng)先水平。
MiniCPM-V 4.5 憑借 8B 參數(shù),在圖片理解、視頻理解、復(fù)雜文檔識別等多模態(tài)能力上再次刷新能力上限。
圖片理解性能上,MiniCPM-V 4.5 在 OpenCompass 測評中,領(lǐng)先 GPT-4o、GPT-4.1、Gemini-2.0-Pro 等眾多閉源模型,甚至超過 Qwen2.5-VL 72B,實現(xiàn)越級領(lǐng)先。
視頻理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜單中,均達(dá)到同級最佳水平。
在復(fù)雜文檔識別任務(wù)中,MiniCPM-V 4.5 在 OmniDocBench 榜單的 OverallEdit、TextEdit、TableEdit 三項指標(biāo)上,均取得了通用多模態(tài)模型同級別的 SOTA 表現(xiàn)。
此外,MiniCPM-V 4.5 同時支持常規(guī)模式和深度思考模式,實現(xiàn)了性能與響應(yīng)速度的平衡,常規(guī)模式在絕大部分場景下提供出色的多模態(tài)理解能力,深度思考模式則專注于應(yīng)對復(fù)雜與復(fù)合型推理任務(wù)。
在視頻理解榜單 VideoMME、以及單圖 OpenCompass 測試中,MiniCPM-V 4.5 達(dá)到同級 SOTA 水平,顯存占用、平均推理時間等方面實現(xiàn)領(lǐng)先。
其中,在覆蓋短、中、長三種類型的視頻理解評測集 Video-MME 上,MiniCPM-V 4.5 采用 3 幀打包策略進(jìn)行推理,時間開銷(未計算模型抽幀時間)僅為同級模型的 1/10 。
IT之家附模型開源鏈接:
- Github:https://github.com/OpenBMB/MiniCPM-o
- Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4_5
- ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.