攻克長文檔與多模態(tài)挑戰(zhàn)，Paper2Video實現(xiàn)學術(shù)視頻的自動化生產(chǎn)

2025-10-23 17:20:23　來源: 機器之心Pro

北京舉報

分享至

本研究由新加坡國立大學 Show Lab 團隊主導完成。共一作者 Zeyu Zhu 祝澤宇（博士生）與 Kevin Qinghong Lin 林慶泓（博士生）均來自 ShowLab@NUS，聚焦于多模態(tài)理解以及智能體（Agent）研究。項目負責人為新加坡國立大學校長青年助理教授 Mike Zheng Shou 壽政。

背景：學術(shù)展示視頻生成挑戰(zhàn)

學術(shù)展示視頻作為科研交流的重要媒介，制作過程仍高度依賴人工，需要反復進行幻燈片設(shè)計、逐頁錄制和后期剪輯，往往需要數(shù)小時才能產(chǎn)出幾分鐘的視頻，效率低下且成本高昂，這凸顯了推動學術(shù)展示視頻自動化生成的必要性。然而，與自然視頻生成不同（如 Sora2、Veo3 等擴散模型），學術(shù)展示視頻面臨以下獨特挑戰(zhàn)：

長文檔與高密度輸入 (Multi-modal Long-context Input):來源于完整學術(shù)論文，包含大段專業(yè)文本、復雜公式、多幅圖表，遠超自然視頻的輸入復雜度。
多模態(tài)通道的協(xié)同生成 (Coordination of Multiple Aligned Channels):需要同時生成并對齊幻燈片、字幕、語音、光標軌跡與講者視頻，保證多模態(tài)之間的語義一致性與時序同步。
缺乏專門的評價標準 (Lacks Well-defined Evaluation Metrics):現(xiàn)有視頻生成指標主要關(guān)注畫面質(zhì)量或風格一致性，難以衡量學術(shù)展示視頻在知識傳遞、受眾理解與學術(shù)可用性上的效果。

因此，現(xiàn)有自然視頻生成模型和簡單的幻燈片 + 語音拼接方法難以勝任，亟需一個系統(tǒng)化的基準和方法來推動自動化、可用的學術(shù)視頻生成。為了解決以上挑戰(zhàn)，本文提出了 Paper2Video 基準對學術(shù)展示視頻進行評價，并提出一個多智能圖框架 PaperTalker，為實現(xiàn)自動化和可用的學術(shù)視頻生成邁出切實可行的一步:

圖 1: Paper2Video 概覽

論文鏈接：https://arxiv.org/abs/2510.05096
項目主頁：https://showlab.github.io/Paper2Video/
開源代碼：https://github.com/showlab/Paper2Video
開源數(shù)據(jù)：https://huggingface.co/datasets/ZaynZhu/Paper2Video

Paper2Video 評價基準

為了評價學術(shù)展示視頻的質(zhì)量，本文收集了 101 片論文和對應的作者錄制的學術(shù)展示視頻作為測試基準，并從學術(shù)展示視頻的用途出發(fā)，提出了四個評價指標: Meta Similarity, PresentArena, PresentQuiz 和 IP Memory。

Paper2Video 基準

圖 2: Paper2Video 基準統(tǒng)計概覽

Paper2Video 基準收集了來自近三年頂會的 101 篇論文及其作者錄制的展示視頻，涵蓋機器學習、計算機視覺與自然語言處理領(lǐng)域。每個樣例包含論文 LaTeX 工程、幻燈片、展示視頻、講者肖像與語音樣本，其中部分還提供原始 PDF 幻燈片。數(shù)據(jù)統(tǒng)計顯示，論文平均 13.3K 字、44.7 幅圖表，展示視頻平均 16 頁幻燈片、時長 6 分鐘。

作為首個系統(tǒng)化的學術(shù)展示視頻基準，它為多模態(tài)長文檔輸入與多通道輸出（幻燈片、字幕、語音、光標、講者）的生成與評估提供了可靠依據(jù)，為推動自動化學術(shù)展示視頻生成奠定了基礎(chǔ)。

Paper2Video 評價指標

圖 3: Paper2Video 評價指標設(shè)計

本文從學術(shù)展示視頻的用途出發(fā)，認為其質(zhì)量應從三個核心視角進行衡量：

類人一致性：生成的視頻應與作者精心設(shè)計的人類版本保持相似，反映人類偏好。
信息傳遞性：生成的視頻應盡可能涵蓋論文中的關(guān)鍵信息，并被受眾正確理解。
學術(shù)影響力：生成的視頻應能突出作者的學術(shù)身份，并增強觀眾對該工作的記憶。

基于上述視角，我們設(shè)計了四個互補的評價指標：

Meta Similarity — 類人相似度（內(nèi)容級）:比較生成的幻燈片、字幕和語音與人類版本的一致性，衡量生成結(jié)果在細節(jié)和風格上的接近程度。
PresentArena — 類人一致性（觀感級）:使用 VideoLLM 作為代理觀眾進行成對對比，從清晰度、流暢性與吸引力等維度判斷生成視頻是否符合人類偏好。
PresentQuiz — 信息傳遞性：通過基于論文構(gòu)造選擇題，使用 VideoLLM 作為代理觀眾進行問答，測試生成視頻能否覆蓋并有效傳遞論文中的關(guān)鍵信息。
IP Memory — 學術(shù)影響力：模擬會議場景，使用 VideoLLM 作為代理觀眾，評估觀眾是否能夠在觀看后將視頻與作者身份和研究工作正確關(guān)聯(lián)，反映學術(shù)可見性與記憶度。

四個指標共同構(gòu)建了一個覆蓋類人偏好、信息傳遞與學術(shù)記憶的系統(tǒng)化評價框架，為學術(shù)展示視頻生成的客觀測評提供了可靠依據(jù)。

PaperTalker 多智體架構(gòu)

圖 4: PaperTalker 流程簡介

為解決學術(shù)展示視頻制作繁瑣且難以自動化的問題，本文提出了PaperTalker—— 首個支持學術(shù)展示視頻生成的多智能體框架，用于處理這一具有長時依賴的多模態(tài)智能體任務(wù)（Long-horizon Multi-modal Agentic Task）。該框架以研究論文、講者圖像與語音樣本為輸入，自動生成包含幻燈片、字幕、語音、光標軌跡和講者視頻 (slide creation, subtitling, speech, cursor highlight, talking head)的完整展示視頻。

PaperTalker 由四個關(guān)鍵構(gòu)建模塊組成：

Slide Builder：基于論文內(nèi)容生成 LaTeX Beamer 幻燈片，并引入 Tree Search Visual Choice 模塊克服大語言模型在細粒度數(shù)值調(diào)整上的局限，從而優(yōu)化版面布局，確保幻燈片布局合理設(shè)計。
Subtitle Builder：利用視覺語言模型從幻燈片提取關(guān)鍵信息，生成逐句字幕及對應的視覺焦點提示詞。
Cursor Builder：結(jié)合 UI-Grounding 和 WhisperX 模型，實現(xiàn)光標在時間和空間上的精準對齊，在演講過程中，引導觀眾關(guān)注關(guān)鍵信息。
Talker Builder：根據(jù)講者肖像與語音樣本，合成身份一致、唇形同步的個性化講者視頻，并支持逐頁并行生成以提升效率。

由此，PaperTalker 通過模塊化的多智能體協(xié)作，實現(xiàn)了可控、個性化、學術(shù)風格化的展示視頻生成。

高效魯棒的幻燈片生成

在學術(shù)展示視頻生成任務(wù)中，我們測試發(fā)現(xiàn) LaTeX/Beamer 在輸出效果與穩(wěn)定性上顯著優(yōu)于 pptx，能夠直接生成學術(shù)風格的幻燈片。但在此過程中，即便是閉源 VLM 也難以魯棒地判斷視覺元素（如圖片文字大小、排版比例），導致基于多輪交互的參數(shù)調(diào)優(yōu)效率極低。

Tree Search Visual Choice 布局優(yōu)化機制

圖 5: Tree Search Visual Choice 模塊

為此，本文提出Tree Search Visual Choice：針對給定的視覺素材，預設(shè)一組比例參數(shù)，渲染得到多種候選布局，并將這些候選拼接成單張大圖，交由 VLM 進行一次性的多選比較，從而將低效的多輪參數(shù)搜索轉(zhuǎn)化為高效的單輪視覺判別，實現(xiàn)圖像尺寸與布局的自動優(yōu)化。

空間–時間對齊的光標生成

本文進一步探討了如何模擬人類在講解過程中使用鼠標的行為。光標軌跡能夠引導觀眾聚焦于幻燈片的關(guān)鍵區(qū)域，但實現(xiàn)這一點需要將幻燈片和演講內(nèi)容與光標停留點 — 時間戳 — 屏幕空間坐標 (x, y, t)建立起對應關(guān)系。為此，我們引入Computer-Use 和 WhisperX模型分別進行空間和時間的標定，實現(xiàn)了時間與空間的雙重對齊。

具體來說，我們首先基于幻燈片內(nèi)容生成逐句字幕及視覺焦點提示，然后利用 UI-TARS 將提示 grounding 為屏幕坐標 (x, y)，再通過 WhisperX 獲取詞級時間戳并對齊到對應的字幕句子，從而得到精確的光標軌跡 (x, y, t)。

Talking-head 生成

在學術(shù)展示視頻生成中，講者部分對于增強觀眾參與感和體現(xiàn)研究者的學術(shù)身份至關(guān)重要。然而，Talking-Head 渲染通常需要數(shù)小時才能生成幾分鐘的視頻，而且部分模型甚至無法原生支持長時段視頻的生成，這嚴重限制了方法的可擴展性與實用性。

為此，本文提出一種高效的解決方案：首先，基于每頁幻燈片的字幕與講者的語音樣本，利用 F5-TTS 合成逐頁的個性化語音；隨后，結(jié)合 Hallo2（高保真頭像驅(qū)動）與 FantasyTalking（支持上半身動作）生成對應的講者視頻。受到人類逐頁錄制習慣的啟發(fā)，我們進一步將講者生成過程劃分為獨立的幻燈片片段，并行化執(zhí)行每頁的語音合成與視頻渲染。由于幻燈片間存在自然的硬切換，且無需保持跨頁的動作連續(xù)性，這種設(shè)計既保證了身份一致性與唇形同步，又顯著提升了整體效率，實驗證明這種方式實現(xiàn)了超過 6 倍的加速。

基于 Paper2Video 基準的實驗與評估

在實驗中，本文對比了三類方法：

(i) 端到端方法（如 Wan2.2、Veo3），直接從文本或提示生成視頻；

(ii) 多智能體框架（如 PresentAgent、PPTAgent），將論文內(nèi)容轉(zhuǎn)化為幻燈片并結(jié)合文本轉(zhuǎn)語音生成展示視頻；

(iii) 本文提出的 PaperTalker，通過幻燈片生成與布局優(yōu)化、字幕與光標對齊以及個性化講者合成來生成的學術(shù)展示視頻。

學術(shù)演示視頻性能比較

圖 6: 學術(shù)演示視頻性能比較

Meta Similarity（相似度）
PaperTalker 在幻燈片、字幕和語音的相似度上均取得最高分，說明其生成結(jié)果與人類作品最為接近。
個性化 Text-to-Speech 模型與基于 Beamer 的幻燈片生成設(shè)計顯著提升了相似度表現(xiàn)。
PresentArena（觀感質(zhì)量對比）
在與人類視頻的成對對比中，PaperTalker 獲得最高的勝率，說明 PaperTalker 視頻觀感質(zhì)量最高。
同時，相比去掉講者和光標的變體，完整的 PaperTalker 視頻更受偏好，表明講者與光標均有貢獻。
PresentQuiz（知識傳遞）
PaperTalker 在問答準確率上超過了其他基線方法，能夠更好地覆蓋論文信息。
缺少講者和光標的版本會導致性能下降，表明這些模塊有助于增強信息傳遞。
IP Memory（學術(shù)記憶度）
PaperTalker 在觀眾識別作者與作品的一致性上表現(xiàn)最佳
引入講者視頻（面孔與聲音）顯著提升了記憶效果。
人類主觀評價
人類評價結(jié)果顯示，人類錄制視頻得分最高，PaperTalker 次之，且顯著優(yōu)于其他方法，接近人類水平。

實驗結(jié)果表明，本文提出的 PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四個維度均取得最佳表現(xiàn)：其生成的幻燈片、字幕與語音更接近人類作品，整體觀感更受偏好，知識傳遞更完整，且在學術(shù)身份記憶方面更具優(yōu)勢；同時，人類主觀評價也顯示 PaperTalker 的視頻質(zhì)量接近人工錄制水平。

模型效率比較

圖 7: 模型效率比較

PaperTalker 在生成成本上最低。其效率主要來自三個方面：(i) 基于 Beamer 的幻燈片生成顯著減少了 token 消耗；(ii) 引入輕量化的 tree search visual choice 作為幻燈片的后處理；(iii) 采用并行的 talking-head 生成機制縮短了整體運行時間。相比之下，PresentAgent 由于在幻燈片編輯過程中頻繁依賴大模型查詢，導致成本更高。

消融實驗

光標提示對信息定位與理解的貢獻

圖 8: 光標提示消融實驗

光標提示通過提供顯式空間線索，幫助觀眾和 VLM 更好地定位幻燈片中的關(guān)鍵信息。為驗證這一點，本文設(shè)計了定位問答任務(wù)，比較有無光標情況下的答題準確率。結(jié)果顯示，帶光標的視頻準確率顯著更高，證明了光標在增強學術(shù)展示視頻的視覺定位與內(nèi)容可達性方面的重要作用。

Tree Search Visual Choice 在幻燈片質(zhì)量提升中的作用

圖 9: Tree Search Visual Choice 消融實驗

為評估 Tree Search Visual Choice 模塊的貢獻，本文進行了消融實驗（表 5），利用 VLM 從內(nèi)容、設(shè)計與連貫性三個維度對生成的幻燈片進行 1–5 分評價。結(jié)果顯示，當去除該模塊時，幻燈片的設(shè)計質(zhì)量明顯下降，說明該方法在解決版面溢出問題、提升整體設(shè)計質(zhì)量方面發(fā)揮了關(guān)鍵作用。圖 9 展示了該模塊的性能。

圖 10: Tree Search Visual Choice 可視化

結(jié)語

本文提出 Paper2Video 基準與 PaperTalker 框架，為學術(shù)展示視頻生成提供了系統(tǒng)化任務(wù)與評測體系。實驗驗證了其在信息傳遞、觀感質(zhì)量與學術(shù)記憶方面的優(yōu)勢，生成效果接近人工水平。我們期待這項工作能推動 AI4Research 的發(fā)展，促進科研交流的自動化與規(guī)?；?。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.