夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬(wàn)幀視頻單卡跑通! Video-XL-2碾壓級(jí)效率定義長(zhǎng)視頻新標(biāo)準(zhǔn)

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。A800/H20等算力6.25元/卡時(shí),支持在線微調(diào)訓(xùn)練,及線部署和。

長(zhǎng)視頻理解是多模態(tài)大模型關(guān)鍵能力之一。盡管OpenAI GPT-4o、Google Gemini等私有模型已在該領(lǐng)域取得顯著進(jìn)展,當(dāng)前的開源模型在效果、計(jì)算開銷和運(yùn)行效率等方面仍存在明顯短板。

智源研究院聯(lián)合上海交通大學(xué)等機(jī)構(gòu)發(fā)布開源模型Video-XL-2,顯著提升長(zhǎng)視頻理解能力,其核心亮點(diǎn)在于三個(gè)維度全面優(yōu)化了開源多模態(tài)大模型對(duì)長(zhǎng)視頻內(nèi)容的理解能力:

效果更佳Video-XL-2在長(zhǎng)視頻理解任務(wù)中表現(xiàn)出色,在MLVU、Video-MME、LVBench等主流評(píng)測(cè)基準(zhǔn)上達(dá)到了同參數(shù)規(guī)模開源模型的領(lǐng)先水平。

長(zhǎng)度更長(zhǎng)新模型顯著擴(kuò)展了可處理視頻的時(shí)長(zhǎng),支持在單張顯卡上高效處理長(zhǎng)達(dá)萬(wàn)幀的視頻輸入。

速度更快Video-XL-2大幅提升了處理效率,編碼2048幀視頻僅需12秒,顯著加速長(zhǎng)視頻理解流程。

未來(lái),該模型有望在影視內(nèi)容分析、異常行為監(jiān)測(cè)等多個(gè)實(shí)際場(chǎng)景中展現(xiàn)重要應(yīng)用價(jià)值。目前,Video-XL-2的模型權(quán)重已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


模型地址

https://wisemodel.cn/models/lxrrrr/Video-XL-2

01.

技術(shù)簡(jiǎn)介

在模型架構(gòu)設(shè)計(jì)上,Video-XL-2主要由三個(gè)核心組件構(gòu)成:視覺編碼器(Visual Encoder)、動(dòng)態(tài)Token合成模塊(Dynamic Token Synthesis, DTS)以及大語(yǔ)言模型(LLM)。


Video-XL-2的模型架構(gòu)示意圖

具體而言,Video-XL-2采用SigLIP-SO400M作為視覺編碼器,對(duì)輸入視頻進(jìn)行逐幀處理,將每一幀編碼為高維視覺特征。

隨后,DTS模塊對(duì)這些視覺特征進(jìn)行融合壓縮,并建模其時(shí)序關(guān)系,以提取更具語(yǔ)義的動(dòng)態(tài)信息。

處理后的視覺表征通過平均池化與多層感知機(jī)(MLP)進(jìn)一步映射到文本嵌入空間,實(shí)現(xiàn)模態(tài)對(duì)齊。最終,對(duì)齊后的視覺信息輸入至Qwen2.5-Instruct,以實(shí)現(xiàn)對(duì)視覺內(nèi)容的理解與推理,并完成相應(yīng)的下游任務(wù)。

在訓(xùn)練策略上,Video-XL-2采用了四階段漸進(jìn)式訓(xùn)練的設(shè)計(jì),逐步構(gòu)建其強(qiáng)大的長(zhǎng)視頻理解能力。

前兩個(gè)階段主要利用圖像/視頻-文本對(duì),完成DTS模塊的初始化與跨模態(tài)對(duì)齊

第三階段則引入更大規(guī)模,更高質(zhì)量的圖像與視頻描述數(shù)據(jù),初步奠定模型對(duì)視覺內(nèi)容的理解能力;

第四階段,在大規(guī)模、高質(zhì)量且多樣化的圖像與視頻指令數(shù)據(jù)上進(jìn)行微調(diào),使Video-XL-2的視覺理解能力得到進(jìn)一步提升與強(qiáng)化,從而能夠更準(zhǔn)確地理解和響應(yīng)復(fù)雜的視覺指令。


Chunk-based Prefilling


Bi-granularity KV Decoding

此外,Video-XL-2還系統(tǒng)性設(shè)計(jì)了效率優(yōu)化策略

首先,Video-XL-2引入了分段式的預(yù)裝填策略(Chunk-based Prefilling,如圖3所示):將超長(zhǎng)視頻劃分為若干連續(xù)的片段(chunk),在每個(gè)chunk內(nèi)部使用稠密注意力機(jī)制進(jìn)行編碼,而不同chunk之間則通過時(shí)間戳傳遞上下文信息。

該設(shè)計(jì)顯著降低了預(yù)裝填階段的計(jì)算成本與顯存開銷。其次,Video-XL-2還設(shè)計(jì)了基于雙粒度KV的解碼機(jī)制(Bi-granularity KV Decoding,如圖4所示):在推理過程中,模型會(huì)根據(jù)任務(wù)需求,選擇性地對(duì)關(guān)鍵片段加載完整的KVs(dense KVs),而對(duì)其他次要片段僅加載降采樣后的稀疏的KVs(sparse KVs)。

這一機(jī)制有效縮短了推理窗口長(zhǎng)度,從而大幅提升解碼效率。得益于上述策略的協(xié)同優(yōu)化,Video-XL-2實(shí)現(xiàn)了在單張顯卡上對(duì)萬(wàn)幀級(jí)視頻的高效推理,顯著增強(qiáng)了其在實(shí)際應(yīng)用場(chǎng)景中的實(shí)用性。

02.

實(shí)驗(yàn)效果

在模型具體表現(xiàn)方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流長(zhǎng)視頻評(píng)測(cè)基準(zhǔn)上全面超越現(xiàn)有所有輕量級(jí)開源模型,達(dá)成當(dāng)前最先進(jìn)性能(SOTA),相較第一代 Video-XL 實(shí)現(xiàn)了顯著提升

尤其值得關(guān)注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數(shù)規(guī)模高達(dá)720億的大模型。

此外,在時(shí)序定位(Temporal Grounding)任務(wù)中,Video-XL-2也表現(xiàn)出色,在Charades-STA數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果,進(jìn)一步驗(yàn)證了其在多模態(tài)視頻理解場(chǎng)景中的廣泛適用性與實(shí)際價(jià)值。


Video-XL-2的全面對(duì)比結(jié)果

除了效果上的提升,Video-XL-2在視頻長(zhǎng)度方面也展現(xiàn)出顯著優(yōu)勢(shì)。如下圖所示,在單張24GB消費(fèi)級(jí)顯卡(如 RTX 3090 / 4090)上,Video-XL-2可處理長(zhǎng)達(dá)千幀的視頻;而在單張 80GB 高性能顯卡(如 A100 / H100)上,模型更支持萬(wàn)幀級(jí)視頻輸入,遠(yuǎn)超現(xiàn)有主流開源模型。


Video-XL-2輸入長(zhǎng)度的對(duì)比展示

相較于VideoChat-Flash 和初代 Video-XL,Video-XL-2顯著拓展了視頻理解的長(zhǎng)度并有效降低了資源需求,為處理復(fù)雜的視頻任務(wù)提供了有力的支撐。

最后,Video-XL-2在速度上也展現(xiàn)出卓越性能。

Video-XL-2僅需12秒即可完成2048幀視頻的預(yù)填充。更重要的是,其預(yù)填充時(shí)間與輸入幀數(shù)之間呈現(xiàn)出近似線性增長(zhǎng),體現(xiàn)了其出色的可擴(kuò)展性。


Video-XL-2 Prefilling速度和輸入幀數(shù)的關(guān)系圖

相比之下,Video-XL與VideoChat-Flash 在輸入長(zhǎng)視頻條件下的工作效率明顯落后于Video-XL-2。


Video-XL-2 Prefilling速度的對(duì)比展示

03.

應(yīng)用潛力

得益于出色的視頻理解能力與對(duì)超長(zhǎng)視頻的高效處理性能,Video-XL-2在多種實(shí)際應(yīng)用場(chǎng)景中展現(xiàn)出很高的應(yīng)用潛力。例如,它可廣泛應(yīng)用于影視內(nèi)容分析、劇情理解、監(jiān)控視頻中的異常行為檢測(cè)與安全預(yù)警等任務(wù),為現(xiàn)實(shí)世界中的復(fù)雜視頻理解需求提供高效、精準(zhǔn)的技術(shù)支撐。

以下是一些具體的例子,將展示Video-XL-2在實(shí)際應(yīng)用中的潛力:

Example 1:電影情節(jié)問答


Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?
Answer: The phone’s color is red

Example 2:監(jiān)控異常檢測(cè)


Question: Is there any unexpected event happening in this surveillance footage?
Answer: There is physical altercation between the customers and the store employees

Example 3: 影視作品內(nèi)容總結(jié)

Example4:游戲直播內(nèi)容總結(jié)

----- END -----


wisemodel相關(guān):

系統(tǒng)升級(jí):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張?zhí)m汪小菲一家齊聚,邊吃飯邊聊!氣氛融洽!網(wǎng)友:這畫面久違了

張?zhí)m汪小菲一家齊聚,邊吃飯邊聊!氣氛融洽!網(wǎng)友:這畫面久違了

心靜物娛
2025-08-26 10:20:20
小吃店買400粒復(fù)方甘草片加工鹵料,含嗎啡、可待因等成分!網(wǎng)友提醒:警惕異?!磅r美”的鹵味

小吃店買400粒復(fù)方甘草片加工鹵料,含嗎啡、可待因等成分!網(wǎng)友提醒:警惕異?!磅r美”的鹵味

新民晚報(bào)
2025-08-25 18:06:58
F1舉辦權(quán)費(fèi)用突破每年5億人民幣,馬來(lái)西亞宣布放棄

F1舉辦權(quán)費(fèi)用突破每年5億人民幣,馬來(lái)西亞宣布放棄

星耀國(guó)際足壇
2025-08-26 00:19:20
最近,東莞晚上出現(xiàn)大批警察!怎么回事?

最近,東莞晚上出現(xiàn)大批警察!怎么回事?

東莞好生活
2025-08-26 07:37:41
電訊報(bào):梅努恐離隊(duì),曼聯(lián)一項(xiàng)維持八十余年的記錄或?qū)⒔K結(jié)

電訊報(bào):梅努恐離隊(duì),曼聯(lián)一項(xiàng)維持八十余年的記錄或?qū)⒔K結(jié)

雷速體育
2025-08-26 11:16:12
于正公司唯一的“幸存者”是吳謹(jǐn)言!只有她,逃過了許凱

于正公司唯一的“幸存者”是吳謹(jǐn)言!只有她,逃過了許凱

小娛樂悠悠
2025-08-26 10:20:08
日本偶像在著名觀光地故意“內(nèi)衣外穿”,引巨大爭(zhēng)議

日本偶像在著名觀光地故意“內(nèi)衣外穿”,引巨大爭(zhēng)議

隨波蕩漾的漂流瓶
2025-08-25 17:00:11
“不穿文胸怎么了?”夜跑不穿內(nèi)衣的妻子引發(fā)沖突,造成悲??!

馬拉松跑步健身
2025-08-13 19:41:11

女子養(yǎng)野狼8年,發(fā)現(xiàn)它頻頻盯著自己,專家檢查后表示:立刻送走

女子養(yǎng)野狼8年,發(fā)現(xiàn)它頻頻盯著自己,專家檢查后表示:立刻送走

清茶淺談
2025-07-15 21:39:21
國(guó)外懸崖上發(fā)現(xiàn)中國(guó)漢字,破譯后專家嚎啕大哭:終于對(duì)上了!

國(guó)外懸崖上發(fā)現(xiàn)中國(guó)漢字,破譯后專家嚎啕大哭:終于對(duì)上了!

玥來(lái)玥好講故事
2025-08-25 20:34:56
王莉霞落馬幕后

王莉霞落馬幕后

李微敖
2025-08-24 22:55:12
九三大閱兵還剩9天,第一位外國(guó)領(lǐng)導(dǎo)人抵達(dá)中國(guó),日本傳出雜音

九三大閱兵還剩9天,第一位外國(guó)領(lǐng)導(dǎo)人抵達(dá)中國(guó),日本傳出雜音

掌青說(shuō)歷史
2025-08-25 09:04:26
拜碼頭這一塊!NBA球星中國(guó)行 是不是都得來(lái)和姚明打個(gè)招呼?

拜碼頭這一塊!NBA球星中國(guó)行 是不是都得來(lái)和姚明打個(gè)招呼?

直播吧
2025-08-26 11:36:19
《生萬(wàn)物》林永健曝片酬再高也不和秦海璐合作!回復(fù)原因笑翻全場(chǎng)

《生萬(wàn)物》林永健曝片酬再高也不和秦海璐合作!回復(fù)原因笑翻全場(chǎng)

花心電影
2025-08-25 17:54:02
九三大閱兵臨近,又有3位外國(guó)領(lǐng)導(dǎo)官宣訪華,朝鮮2號(hào)人物也要來(lái)?

九三大閱兵臨近,又有3位外國(guó)領(lǐng)導(dǎo)官宣訪華,朝鮮2號(hào)人物也要來(lái)?

司馬平邦
2025-08-26 09:15:01
華為官宣,將發(fā)布重磅成果!

華為官宣,將發(fā)布重磅成果!

每日經(jīng)濟(jì)新聞
2025-08-26 08:03:31
有高人預(yù)測(cè),如果不出意外,9月后社會(huì)或?qū)⒊霈F(xiàn)這7大變化

有高人預(yù)測(cè),如果不出意外,9月后社會(huì)或?qū)⒊霈F(xiàn)這7大變化

巢客HOME
2025-08-26 05:35:03
體檢報(bào)告中,若這3個(gè)指標(biāo)都正常,基本可排除很多疾病

體檢報(bào)告中,若這3個(gè)指標(biāo)都正常,基本可排除很多疾病

犀利辣椒
2025-08-06 07:07:55
谷歌前CEO怒噴:美國(guó)愚蠢的綠卡政策把人才逼回搞了中國(guó)量子技術(shù)!美國(guó)那么大,完全可留下!

谷歌前CEO怒噴:美國(guó)愚蠢的綠卡政策把人才逼回搞了中國(guó)量子技術(shù)!美國(guó)那么大,完全可留下!

大白聊IT
2025-08-25 12:13:50
我國(guó)規(guī)模最大石化產(chǎn)業(yè)基地建成

我國(guó)規(guī)模最大石化產(chǎn)業(yè)基地建成

經(jīng)濟(jì)日?qǐng)?bào)
2025-08-26 06:45:48
2025-08-26 12:07:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
349文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

Siri數(shù)據(jù)不給我用!馬斯克怒告蘋果OpenAI

頭條要聞

多位奧迪A6L車主反映車輛門鎖現(xiàn)異常:鎖車后一拉就開

頭條要聞

多位奧迪A6L車主反映車輛門鎖現(xiàn)異常:鎖車后一拉就開

體育要聞

14年顛沛流離,沒人看好的孩子最爭(zhēng)氣

娛樂要聞

19歲黃多多美上熱搜!謝幕那一刻絕了

財(cái)經(jīng)要聞

送檢八大品牌奶茶:五款檢出反式脂肪酸

汽車要聞

嵐圖發(fā)布智能超混800V技術(shù) 新夢(mèng)想家/追光L下半年上市

態(tài)度原創(chuàng)

藝術(shù)
旅游
健康
游戲
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

精神科專家解答學(xué)習(xí)困難七大問題

《流放之路2》免費(fèi)周末確認(rèn)!進(jìn)度可繼承 還有外觀獎(jiǎng)勵(lì)

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产乱子伦精品免费女| 午夜日韩久久影院| 色婷婷V∧三| www.熟女| 中国熟女爱爱视频| 欧美精品三区四区| 成人午夜三级| 国产96在线 | 欧美| 精品无码国产AV一区| 国产精品久久久一本精品| 香蕉视频官网| 手机AV最新| 精品亚洲成在人线av无码| 成年人视频在线观看一区| 亚洲 制服 丝袜 无码 | 亚欧伦片99久久| 奇米777在线| 成人国产一区二三区视频在线| 精品久久久久久久久久中文字幕| 东京热成人AⅤ| 国产精品久久久久久亚洲内射| 秋霞A级毛片在线看| 成人 免费毛片视频| 超碰100在线| 99国产在线视频| 国产亚洲色婷婷久久99精品9j| 欧美人与性禽动交情品| 欧美人与性动交α欧美精品张 | 国产成_人_综合_亚洲_国产绿巨人| 久久久久久国产精品一区| 国产疯狂性受XXXXX喷水| 免费av观看网址| 激情综合网址| 精品少妇人妻av免费久久胖妇 | 熟女国产乱伦| 蜜芽黄片大全| 欧美精品国产综合久久| 蜜臀AⅤ永久无码一区二区| 中文字幕日产无码| 亚洲成人av免费一区| 欧美A级电影录像|