夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

攻克長文檔與多模態(tài)挑戰(zhàn),Paper2Video實現(xiàn)學術(shù)視頻的自動化生產(chǎn)

0
分享至



本研究由新加坡國立大學 Show Lab 團隊主導完成。共一作者 Zeyu Zhu 祝澤宇(博士生)與 Kevin Qinghong Lin 林慶泓(博士生)均來自 ShowLab@NUS,聚焦于多模態(tài)理解以及智能體(Agent)研究。項目負責人為新加坡國立大學校長青年助理教授 Mike Zheng Shou 壽政。

背景:學術(shù)展示視頻生成挑戰(zhàn)

學術(shù)展示視頻作為科研交流的重要媒介,制作過程仍高度依賴人工,需要反復進行幻燈片設(shè)計、逐頁錄制和后期剪輯,往往需要數(shù)小時才能產(chǎn)出幾分鐘的視頻,效率低下且成本高昂,這凸顯了推動學術(shù)展示視頻自動化生成的必要性。然而,與自然視頻生成不同(如 Sora2、Veo3 等擴散模型),學術(shù)展示視頻面臨以下獨特挑戰(zhàn):

  • 長文檔與高密度輸入 (Multi-modal Long-context Input):來源于完整學術(shù)論文,包含大段專業(yè)文本、復雜公式、多幅圖表,遠超自然視頻的輸入復雜度。
  • 多模態(tài)通道的協(xié)同生成 (Coordination of Multiple Aligned Channels):需要同時生成并對齊幻燈片、字幕、語音、光標軌跡與講者視頻,保證多模態(tài)之間的語義一致性與時序同步。
  • 缺乏專門的評價標準 (Lacks Well-defined Evaluation Metrics):現(xiàn)有視頻生成指標主要關(guān)注畫面質(zhì)量或風格一致性,難以衡量學術(shù)展示視頻在 知識傳遞、受眾理解與學術(shù)可用性 上的效果。

因此,現(xiàn)有自然視頻生成模型和簡單的幻燈片 + 語音拼接方法難以勝任,亟需一個系統(tǒng)化的基準和方法來推動自動化、可用的學術(shù)視頻生成。為了解決以上挑戰(zhàn),本文提出了 Paper2Video 基準對學術(shù)展示視頻進行評價,并提出一個多智能圖框架 PaperTalker,為實現(xiàn)自動化和可用的學術(shù)視頻生成邁出切實可行的一步:



圖 1: Paper2Video 概覽



  • 論文鏈接:https://arxiv.org/abs/2510.05096
  • 項目主頁:https://showlab.github.io/Paper2Video/
  • 開源代碼:https://github.com/showlab/Paper2Video
  • 開源數(shù)據(jù):https://huggingface.co/datasets/ZaynZhu/Paper2Video

Paper2Video 評價基準

為了評價學術(shù)展示視頻的質(zhì)量,本文收集了 101 片論文和對應的作者錄制的學術(shù)展示視頻作為測試基準,并從學術(shù)展示視頻的用途出發(fā),提出了四個評價指標: Meta Similarity, PresentArena, PresentQuiz 和 IP Memory。

Paper2Video 基準



圖 2: Paper2Video 基準統(tǒng)計概覽

Paper2Video 基準收集了來自近三年頂會的 101 篇論文及其作者錄制的展示視頻,涵蓋機器學習、計算機視覺與自然語言處理領(lǐng)域。每個樣例包含論文 LaTeX 工程、幻燈片、展示視頻、講者肖像與語音樣本,其中部分還提供原始 PDF 幻燈片。數(shù)據(jù)統(tǒng)計顯示,論文平均 13.3K 字、44.7 幅圖表,展示視頻平均 16 頁幻燈片、時長 6 分鐘。

作為首個系統(tǒng)化的學術(shù)展示視頻基準,它為多模態(tài)長文檔輸入與多通道輸出(幻燈片、字幕、語音、光標、講者)的生成與評估提供了可靠依據(jù),為推動自動化學術(shù)展示視頻生成奠定了基礎(chǔ)。

Paper2Video 評價指標



圖 3: Paper2Video 評價指標設(shè)計

本文從學術(shù)展示視頻的用途出發(fā),認為其質(zhì)量應從三個核心視角進行衡量:

  • 類人一致性:生成的視頻應與作者精心設(shè)計的人類版本保持相似,反映人類偏好。
  • 信息傳遞性:生成的視頻應盡可能涵蓋論文中的關(guān)鍵信息,并被受眾正確理解。
  • 學術(shù)影響力:生成的視頻應能突出作者的學術(shù)身份,并增強觀眾對該工作的記憶。

基于上述視角,我們設(shè)計了四個互補的評價指標:

  • Meta Similarity — 類人相似度(內(nèi)容級):比較生成的幻燈片、字幕和語音與人類版本的一致性,衡量生成結(jié)果在細節(jié)和風格上的接近程度。
  • PresentArena — 類人一致性(觀感級):使用 VideoLLM 作為代理觀眾進行成對對比,從清晰度、流暢性與吸引力等維度判斷生成視頻是否符合人類偏好。
  • PresentQuiz — 信息傳遞性:通過基于論文構(gòu)造選擇題,使用 VideoLLM 作為代理觀眾進行問答,測試生成視頻能否覆蓋并有效傳遞論文中的關(guān)鍵信息。
  • IP Memory — 學術(shù)影響力:模擬會議場景,使用 VideoLLM 作為代理觀眾,評估觀眾是否能夠在觀看后將視頻與作者身份和研究工作正確關(guān)聯(lián),反映學術(shù)可見性與記憶度。

四個指標共同構(gòu)建了一個覆蓋類人偏好、信息傳遞與學術(shù)記憶的系統(tǒng)化評價框架,為學術(shù)展示視頻生成的客觀測評提供了可靠依據(jù)。

PaperTalker 多智體架構(gòu)



圖 4: PaperTalker 流程簡介

為解決學術(shù)展示視頻制作繁瑣且難以自動化的問題,本文提出了PaperTalker—— 首個支持學術(shù)展示視頻生成的多智能體框架,用于處理這一具有長時依賴的多模態(tài)智能體任務(wù)(Long-horizon Multi-modal Agentic Task)。該框架以研究論文、講者圖像與語音樣本為輸入,自動生成包含幻燈片、字幕、語音、光標軌跡和講者視頻 (slide creation, subtitling, speech, cursor highlight, talking head)的完整展示視頻。

PaperTalker 由四個關(guān)鍵構(gòu)建模塊組成:

  1. Slide Builder:基于論文內(nèi)容生成 LaTeX Beamer 幻燈片,并引入 Tree Search Visual Choice 模塊克服大語言模型在細粒度數(shù)值調(diào)整上的局限,從而優(yōu)化版面布局,確保幻燈片布局合理設(shè)計。
  2. Subtitle Builder:利用視覺語言模型從幻燈片提取關(guān)鍵信息,生成逐句字幕及對應的視覺焦點提示詞。
  3. Cursor Builder:結(jié)合 UI-Grounding 和 WhisperX 模型,實現(xiàn)光標在時間和空間上的精準對齊,在演講過程中,引導觀眾關(guān)注關(guān)鍵信息。
  4. Talker Builder:根據(jù)講者肖像與語音樣本,合成身份一致、唇形同步的個性化講者視頻,并支持逐頁并行生成以提升效率。

由此,PaperTalker 通過模塊化的多智能體協(xié)作,實現(xiàn)了可控、個性化、學術(shù)風格化的展示視頻生成。

高效魯棒的幻燈片生成

在學術(shù)展示視頻生成任務(wù)中,我們測試發(fā)現(xiàn) LaTeX/Beamer 在輸出效果與穩(wěn)定性上顯著優(yōu)于 pptx,能夠直接生成學術(shù)風格的幻燈片。但在此過程中,即便是閉源 VLM 也難以魯棒地判斷視覺元素(如圖片文字大小、排版比例),導致基于多輪交互的參數(shù)調(diào)優(yōu)效率極低。

Tree Search Visual Choice 布局優(yōu)化機制



圖 5: Tree Search Visual Choice 模塊

為此,本文提出Tree Search Visual Choice:針對給定的視覺素材,預設(shè)一組比例參數(shù),渲染得到多種候選布局,并將這些候選拼接成單張大圖,交由 VLM 進行一次性的多選比較,從而將低效的多輪參數(shù)搜索轉(zhuǎn)化為高效的單輪視覺判別,實現(xiàn)圖像尺寸與布局的自動優(yōu)化。

空間–時間對齊的光標生成

本文進一步探討了如何模擬人類在講解過程中使用鼠標的行為。光標軌跡能夠引導觀眾聚焦于幻燈片的關(guān)鍵區(qū)域,但實現(xiàn)這一點需要將幻燈片和演講內(nèi)容與光標停留點 — 時間戳 — 屏幕空間坐標 (x, y, t)建立起對應關(guān)系。為此,我們引入Computer-Use 和 WhisperX模型分別進行空間和時間的標定,實現(xiàn)了時間與空間的雙重對齊。

具體來說,我們首先基于幻燈片內(nèi)容生成逐句字幕及視覺焦點提示,然后利用 UI-TARS 將提示 grounding 為屏幕坐標 (x, y),再通過 WhisperX 獲取詞級時間戳并對齊到對應的字幕句子,從而得到精確的光標軌跡 (x, y, t)。

Talking-head 生成

在學術(shù)展示視頻生成中,講者部分對于增強觀眾參與感和體現(xiàn)研究者的學術(shù)身份至關(guān)重要。然而,Talking-Head 渲染通常需要數(shù)小時才能生成幾分鐘的視頻,而且部分模型甚至無法原生支持長時段視頻的生成,這嚴重限制了方法的可擴展性與實用性。

為此,本文提出一種高效的解決方案:首先,基于每頁幻燈片的字幕與講者的語音樣本,利用 F5-TTS 合成逐頁的個性化語音;隨后,結(jié)合 Hallo2(高保真頭像驅(qū)動)與 FantasyTalking(支持上半身動作)生成對應的講者視頻。受到人類逐頁錄制習慣的啟發(fā),我們進一步將講者生成過程 劃分為獨立的幻燈片片段,并行化執(zhí)行每頁的語音合成與視頻渲染。由于幻燈片間存在自然的硬切換,且無需保持跨頁的動作連續(xù)性,這種設(shè)計既保證了身份一致性與唇形同步,又顯著提升了整體效率,實驗證明這種方式實現(xiàn)了超過 6 倍的加速。

基于 Paper2Video 基準的實驗與評估

在實驗中,本文對比了三類方法:

(i) 端到端方法(如 Wan2.2、Veo3),直接從文本或提示生成視頻;

(ii) 多智能體框架(如 PresentAgent、PPTAgent),將論文內(nèi)容轉(zhuǎn)化為幻燈片并結(jié)合文本轉(zhuǎn)語音生成展示視頻;

(iii) 本文提出的 PaperTalker,通過幻燈片生成與布局優(yōu)化、字幕與光標對齊以及個性化講者合成來生成的學術(shù)展示視頻。

學術(shù)演示視頻性能比較



圖 6: 學術(shù)演示視頻性能比較

  • Meta Similarity(相似度)
  • PaperTalker 在幻燈片、字幕和語音的相似度上均取得最高分,說明其生成結(jié)果與人類作品最為接近。
  • 個性化 Text-to-Speech 模型與基于 Beamer 的幻燈片生成設(shè)計顯著提升了相似度表現(xiàn)。
  • PresentArena(觀感質(zhì)量對比)
  • 在與人類視頻的成對對比中,PaperTalker 獲得最高的勝率,說明 PaperTalker 視頻觀感質(zhì)量最高。
  • 同時,相比去掉講者和光標的變體,完整的 PaperTalker 視頻更受偏好,表明講者與光標均有貢獻。
  • PresentQuiz(知識傳遞)
  • PaperTalker 在問答準確率上超過了其他基線方法,能夠更好地覆蓋論文信息。
  • 缺少講者和光標的版本會導致性能下降,表明這些模塊有助于增強信息傳遞。
  • IP Memory(學術(shù)記憶度)
  • PaperTalker 在觀眾識別作者與作品的一致性上表現(xiàn)最佳
  • 引入講者視頻(面孔與聲音)顯著提升了記憶效果。
  • 人類主觀評價
  • 人類評價結(jié)果顯示,人類錄制視頻得分最高,PaperTalker 次之,且顯著優(yōu)于其他方法,接近人類水平。

實驗結(jié)果表明,本文提出的 PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四個維度均取得最佳表現(xiàn):其生成的幻燈片、字幕與語音更接近人類作品,整體觀感更受偏好,知識傳遞更完整,且在學術(shù)身份記憶方面更具優(yōu)勢;同時,人類主觀評價也顯示 PaperTalker 的視頻質(zhì)量接近人工錄制水平。

模型效率比較



圖 7: 模型效率比較

PaperTalker 在生成成本上最低。其效率主要來自三個方面:(i) 基于 Beamer 的幻燈片生成顯著減少了 token 消耗;(ii) 引入輕量化的 tree search visual choice 作為幻燈片的后處理;(iii) 采用并行的 talking-head 生成機制縮短了整體運行時間。相比之下,PresentAgent 由于在幻燈片編輯過程中頻繁依賴大模型查詢,導致成本更高。

消融實驗

光標提示對信息定位與理解的貢獻



圖 8: 光標提示消融實驗

光標提示通過提供顯式空間線索,幫助觀眾和 VLM 更好地定位幻燈片中的關(guān)鍵信息。為驗證這一點,本文設(shè)計了定位問答任務(wù),比較有無光標情況下的答題準確率。結(jié)果顯示,帶光標的視頻準確率顯著更高,證明了光標在增強學術(shù)展示視頻的視覺定位與內(nèi)容可達性方面的重要作用。

Tree Search Visual Choice 在幻燈片質(zhì)量提升中的作用



圖 9: Tree Search Visual Choice 消融實驗

為評估 Tree Search Visual Choice 模塊的貢獻,本文進行了消融實驗(表 5),利用 VLM 從內(nèi)容、設(shè)計與連貫性三個維度對生成的幻燈片進行 1–5 分評價。結(jié)果顯示,當去除該模塊時,幻燈片的設(shè)計質(zhì)量明顯下降,說明該方法在解決版面溢出問題、提升整體設(shè)計質(zhì)量方面發(fā)揮了關(guān)鍵作用。圖 9 展示了該模塊的性能。



圖 10: Tree Search Visual Choice 可視化

結(jié)語

本文提出 Paper2Video 基準與 PaperTalker 框架,為學術(shù)展示視頻生成提供了系統(tǒng)化任務(wù)與評測體系。實驗驗證了其在信息傳遞、觀感質(zhì)量與學術(shù)記憶方面的優(yōu)勢,生成效果接近人工水平。我們期待這項工作能推動 AI4Research 的發(fā)展,促進科研交流的自動化與規(guī)?;?。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
遭知名歌手鄭智化控訴“沒人性”,深圳機場深夜再道歉:立行立改,將增加保障人員并試點啟用有一定坡度的登機連接裝置

遭知名歌手鄭智化控訴“沒人性”,深圳機場深夜再道歉:立行立改,將增加保障人員并試點啟用有一定坡度的登機連接裝置

每日經(jīng)濟新聞
2025-10-26 00:21:15
河南一男子網(wǎng)上聯(lián)系買家,28萬賣掉家中100多噸小麥,兩天后因資金涉詐被凍結(jié),小麥也不知去向

河南一男子網(wǎng)上聯(lián)系買家,28萬賣掉家中100多噸小麥,兩天后因資金涉詐被凍結(jié),小麥也不知去向

三湘都市報
2025-10-25 21:25:47
黃奇帆建議“全體婦女延遲退休10年”說明啥

黃奇帆建議“全體婦女延遲退休10年”說明啥

阿亮評論
2025-10-26 17:02:13
18歲少年鰲太線失聯(lián)超10天 搜救隊再次進山,展開第二輪搜救

18歲少年鰲太線失聯(lián)超10天 搜救隊再次進山,展開第二輪搜救

紅星新聞
2025-10-26 17:49:24
標價88萬元玉白菜,實價到底多少錢?大風新聞記者暗訪高檔酒店玉器店,揭秘“轉(zhuǎn)讓打折”內(nèi)情

標價88萬元玉白菜,實價到底多少錢?大風新聞記者暗訪高檔酒店玉器店,揭秘“轉(zhuǎn)讓打折”內(nèi)情

大風新聞
2025-10-26 16:05:07
小米YU7內(nèi)掏出不明零件最新進展 市監(jiān)局介入處理

小米YU7內(nèi)掏出不明零件最新進展 市監(jiān)局介入處理

嚴選好車163
2025-10-24 17:32:13
華為官網(wǎng)更新余承東職位

華為官網(wǎng)更新余承東職位

新京報
2025-10-26 13:01:27
安世半導體那事,反轉(zhuǎn)了!

安世半導體那事,反轉(zhuǎn)了!

汽車公社
2025-10-24 14:23:59
廣東人對穿著真的一點都不在乎的嗎?網(wǎng)友:在廣東治好了穿衣焦慮

廣東人對穿著真的一點都不在乎的嗎?網(wǎng)友:在廣東治好了穿衣焦慮

阿萊美食匯
2025-10-26 04:45:45
花生再次被關(guān)注!研究發(fā)現(xiàn):常吃花生的人,不用多久,或有6改善

花生再次被關(guān)注!研究發(fā)現(xiàn):常吃花生的人,不用多久,或有6改善

王曉愛體彩
2025-10-24 13:18:21
中美談判,出乎世界預料,中國對美國的要價都變了

中美談判,出乎世界預料,中國對美國的要價都變了

南宮一二
2025-10-26 12:23:08
倒查13年,有人已經(jīng)瑟瑟發(fā)抖!

倒查13年,有人已經(jīng)瑟瑟發(fā)抖!

槽三刀
2025-10-25 22:33:59
高速橋下空間竟成“私人莊園”?圈地建屋開辟菜地還養(yǎng)了大量家禽

高速橋下空間竟成“私人莊園”?圈地建屋開辟菜地還養(yǎng)了大量家禽

現(xiàn)代快報
2025-10-26 14:45:03
楊振寧葬禮不到24小時,清華宣布一重要決定,翁帆眼都哭腫了

楊振寧葬禮不到24小時,清華宣布一重要決定,翁帆眼都哭腫了

小娛樂悠悠
2025-10-25 13:15:45
兩人在足浴店內(nèi)進行非法性交易!民警夜間巡邏時將其現(xiàn)場查獲

兩人在足浴店內(nèi)進行非法性交易!民警夜間巡邏時將其現(xiàn)場查獲

南方都市報
2025-10-25 19:11:09
住建局改名,大基建時代結(jié)束了

住建局改名,大基建時代結(jié)束了

新浪財經(jīng)
2025-10-25 20:59:47
特朗普深夜發(fā)文,宣布終止談判,中國已接到通知,美親密盟友倒戈

特朗普深夜發(fā)文,宣布終止談判,中國已接到通知,美親密盟友倒戈

科普100克克
2025-10-26 16:32:23
快讓他轉(zhuǎn)正?42歲韓鵬主場完美謝幕!率泰山狙擊申花海港+6-0國安

快讓他轉(zhuǎn)正?42歲韓鵬主場完美謝幕!率泰山狙擊申花海港+6-0國安

我愛英超
2025-10-26 18:09:29
觸目驚心!55.5%男精液檢出微塑料,重慶醫(yī)科大:外賣是元兇

觸目驚心!55.5%男精液檢出微塑料,重慶醫(yī)科大:外賣是元兇

思思夜話
2025-10-26 11:36:24
楊振寧留給翁帆的遺書太催淚:小帆,望你再婚是愿你余生有人陪伴

楊振寧留給翁帆的遺書太催淚:小帆,望你再婚是愿你余生有人陪伴

鉞鑒
2025-10-25 18:55:56
2025-10-26 19:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11554文章數(shù) 142495關(guān)注度
往期回顧 全部

科技要聞

誰“殺死”了新能源汽車周榜?

頭條要聞

女子參加荒野求生半個月灰頭土臉瘦成"閃電" 本人發(fā)聲

頭條要聞

女子參加荒野求生半個月灰頭土臉瘦成"閃電" 本人發(fā)聲

體育要聞

曼聯(lián):計劃有變!目標爭冠!

娛樂要聞

邁克爾·杰克遜女兒拿到4.6億仍要索賠

財經(jīng)要聞

李成鋼:中美就有關(guān)議題形成了初步共識

汽車要聞

兩條腿走得更遠 哈弗H6L為燃油SUV上分

態(tài)度原創(chuàng)

手機
藝術(shù)
本地
時尚
公開課

手機要聞

OPPO Find X9 Ultra突然曝光:雙潛望長焦+頂級性能,這波穩(wěn)了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

這個秋天,一起來粉上漓渚!所有風景只為等你

真愛大牌破價|| 回購多年,這次竟然破天荒200+

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 亚洲日韩寡妇久久久久久| 中文天堂在线WWW最新版官网| 三级国产三级在线| 国产 AV 白浆 喷水| 亚洲精品蜜桃视频| 国产亚洲成av片在线观看| 久久久久久久久无码中文字幕| 国产精品亚洲专区无码影院| 欧美老肥綜合網| 欧美肏屄视频| 日韩精品中文字幕人妻| 久久久久国产综合av天堂| 老熟妇浓毛大泬视频| 亚洲第一区欧美国产不卡综合 | 久久久久久无码精品人妻| 青青青国产免费线在| 无码国模在线观看视频| 九九热com| 蜜臀色欲久久久999洲精品| 成人A级毛片免费观看AV网扯| 国产精品tv992在线观看| 亚洲国产成人综合熟女| 强奸网站毛片网站| www.日本色| 久久精品亚洲中文字幕乱码| 免费看男女做羞羞的事网站| 粉嫩小泬久久久久久久MV| 欧美日韩国产综合草草| 中国老太婆bbbbbxxxxx| 国产熟女一区二区丰满| 亚洲爆乳大丰满无码专区| 少妇人妻在线无码天堂视频网| www国产无套内射com| 男女激情一区二区三区| jiujiure| 色AV色AV色AV| 俄罗斯操逼图片| 日韩免费一区二区三区高清| 99视频有精品视频高清| 欧美色网亚欧色网| 好吊视频在线一区二区三区|