會「思考」！字節(jié)跳動發(fā)布OmniHuman-1.5，讓虛擬人擁有邏輯靈魂

2025-09-05 16:24:44　來源: 機器之心Pro

河北舉報

分享至

想象一個虛擬人，他不僅能精準(zhǔn)地對上你的口型，還能在你講到關(guān)鍵點時做出恍然大悟的表情，在你講述悲傷故事時流露出同情的神態(tài)，甚至能根據(jù)你的話語邏輯做出有意義的手勢。

這不再是科幻電影的場景。8 月底，字節(jié)跳動數(shù)字人團(tuán)隊推出了 OmniHuman-1.5，提出了一種全新的虛擬人生成框架，讓虛擬人真正擁有了「思考」和「表達(dá)」的能力。

數(shù)月前 OmniHuman-1 上線時，曾引發(fā)國內(nèi)外熱潮。相比前作，1.5 版本有了更多突破，不僅可以根據(jù)文字指令讓虛擬人在對口型之余做出指定動作、表情，還支持在多人場景中控制發(fā)言者以外的角色做出具體動作。據(jù)悉，新版本很快也將上線即夢 AI。

論文鏈接： https://arxiv.org/abs/2508.19209
項目主頁： https://omnihuman-lab.github.io/v1_5/

一個「會思考」的虛擬人是什么樣？

傳統(tǒng)虛擬人總感覺差了點「靈魂」，動作機械、重復(fù)，而 OmniHuman-1.5 首次將諾貝爾獎得主丹尼爾?卡尼曼的「雙系統(tǒng)理論」引入 AI，通過一個由多模態(tài)大語言模型（MLLM）驅(qū)動的「思考大腦」，讓虛擬人學(xué)會了深思熟慮。

在深入技術(shù)細(xì)節(jié)之前，先用最直觀的方式，感受一下這個框架創(chuàng)造出的虛擬人，究竟有何不同：

超越簡單的模仿，模型展現(xiàn)了邏輯推理能力。它能準(zhǔn)確理解指令，按順序拿出紅藍(lán)藥丸，執(zhí)行復(fù)雜的動作意圖。

https://mp.weixin.qq.com/s/zTsVDez9MAZgkxD55gVpuw?click_id=11

虛擬人精準(zhǔn)地根據(jù)語音內(nèi)容規(guī)劃動作，實現(xiàn)了「先畫眼線，再介紹眼影盤」這樣的邏輯序列，展現(xiàn)了對內(nèi)容的理解。

挑戰(zhàn)長視頻與多人互動。模型不僅能生成穩(wěn)定的長時間雙人對唱，還能駕馭豐富的運鏡效果，同時角色的動作、表情和互動極為多樣，告別了單調(diào)重復(fù)。

虛擬人學(xué)會了「傾聽」。它可以在對話和傾聽狀態(tài)間自如切換，說話時的情緒與內(nèi)容匹配。

https://mp.weixin.qq.com/s/zTsVDez9MAZgkxD55gVpuw?click_id=11

除了高動態(tài)場景，還是需要細(xì)膩情感表達(dá)的獨白，模型都能拿捏，展現(xiàn)出了表演張力。

雙系統(tǒng)框架為虛擬人裝上「大腦」

近年來，視頻虛擬人技術(shù)發(fā)展迅猛，從最初的口型合成，進(jìn)化到了半身乃至全身的動畫生成。大家的目標(biāo)也越來越宏大：創(chuàng)造一個與真人無異，既能理性行動又能真實表達(dá)情感的「數(shù)字生命」。

然而，盡管現(xiàn)有方法（尤其是基于 Diffusion Transformer 的模型）能夠生成與音頻同步的流暢視頻，但它們更像一個出色的「反應(yīng)機器」。仔細(xì)觀察你會發(fā)現(xiàn)，這些模型捕捉到的僅僅是音頻信號與身體動作之間的淺層、直接關(guān)聯(lián)。結(jié)果就是，虛擬人能精準(zhǔn)地對上口型，做一些簡單的、跟隨節(jié)奏的擺動，但一旦涉及更復(fù)雜的、需要理解對話內(nèi)容的交互，就立刻「露餡」了。它們的行為缺乏長期規(guī)劃和邏輯一致性，離真正的「以假亂真」還有很長的路要走。

為什么會這樣？研究者們從認(rèn)知科學(xué)中找到了答案。人類的行為被認(rèn)為由兩個系統(tǒng)主導(dǎo)：

系統(tǒng) 1（System 1）：快速、無意識、自動化的反應(yīng)系統(tǒng)。對于虛擬人而言，這就像是驅(qū)動嘴部肌肉發(fā)出聲音，或下意識的身體搖晃。這與當(dāng)前模型的工作模式非常相似。

系統(tǒng) 2（System 2）：緩慢、有意識、需要努力的分析系統(tǒng)。這對應(yīng)著根據(jù)對話內(nèi)容，組織一個有意義且契合語境的表情或手勢。這是當(dāng)前模型普遍缺乏的能力。

顯然，要讓虛擬人「活」起來，就必須為它裝上「系統(tǒng) 2」這個深思熟慮的大腦。因此，本文的核心思路應(yīng)運而生：利用多模態(tài)大語言模型（MLLM）強大的推理能力來顯式地模擬「系統(tǒng) 2」的決策過程，并將其與模擬「系統(tǒng) 1」的反應(yīng)式生成模塊相結(jié)合。

為了實現(xiàn)這一構(gòu)想，研究者們設(shè)計了一個精巧的「雙系統(tǒng)模擬框架」。它主要由兩部分構(gòu)成：一個負(fù)責(zé)規(guī)劃的「系統(tǒng) 2」大腦，和一個負(fù)責(zé)渲染的「系統(tǒng) 1」身體。

圖注：框架流程圖。左側(cè)為總體流程，展示了「系統(tǒng) 2」如何利用 MLLM 智能體對所有輸入（音、圖、文）進(jìn)行推理，生成一個宏觀的「行為規(guī)劃表」（Schedule）。這個規(guī)劃表隨后指導(dǎo)「系統(tǒng) 1」的 MMDiT 網(wǎng)絡(luò)，后者在其專用的文本、音頻和視頻分支中融合信息，最終合成視頻。右側(cè)是關(guān)鍵模塊的細(xì)節(jié)圖。

1. 系統(tǒng) 2：MLLM 智能體進(jìn)行深思熟慮的規(guī)劃

這部分是整個框架的「大腦」和「指揮中心」。研究者設(shè)計了一個由兩個 MLLM 組成的智能體（Agent）推理流程：

分析器（Analyzer）：第一個 MLLM 負(fù)責(zé)「情景分析」。它接收角色的參考圖、音頻、以及用戶可選的文本提示，然后像一個偵探一樣，分析出角色的性格、情緒、意圖以及周圍環(huán)境，并輸出結(jié)構(gòu)化的分析結(jié)果

規(guī)劃器（Planner）：第二個 MLLM 接收「分析器」的結(jié)論，并基于此制定一個詳細(xì)的「行動計劃」。這個計劃被構(gòu)造成一個鏡頭序列，為視頻的每一小段都定義了角色的表情和動作。

通過這種「分析 - 規(guī)劃」的協(xié)作，模型得以生成一個全局一致、邏輯連貫的行動計劃，為虛擬人的行為提供了「頂層設(shè)計」。

2. 系統(tǒng) 1：多模態(tài)融合網(wǎng)絡(luò)進(jìn)行反應(yīng)式渲染

有了「大腦」的規(guī)劃，還需要一個強大的「身體」來執(zhí)行。這部分由一個特殊設(shè)計的多模態(tài)擴(kuò)散模型（MMDiT）承擔(dān)，它負(fù)責(zé)將「系統(tǒng) 2」的高層文本規(guī)劃與「系統(tǒng) 1」的底層音頻信號（用于口型同步等）完美融合，生成最終視頻。

然而，將文本、音頻、參考圖這幾種完全不同的信息（模態(tài)）塞進(jìn)一個模型里，極易引發(fā)「模態(tài)沖突」，導(dǎo)致模型顧此失彼。為此，研究者提出了兩大核心技術(shù)創(chuàng)新來解決這個難題。

如何讓「大腦」與「身體」高效協(xié)作？

1. 重新思考身份維持：「偽最終幀」的設(shè)計

傳統(tǒng)方法為了讓虛擬人保持固定的身份（長相），通常會在模型中輸入一張參考圖。但研究者敏銳地發(fā)現(xiàn)，這會帶來一個嚴(yán)重的問題：模型會錯誤地學(xué)習(xí)到「生成的視頻里必須出現(xiàn)和參考圖一模一樣的畫面」，這極大地限制了角色的動態(tài)范圍，導(dǎo)致動作僵硬。

圖注：該圖解釋了為什么需要 “偽最終幀”。右側(cè)揭示了核心困境：當(dāng)參考圖與目標(biāo)片段內(nèi)容高度相關(guān)時（綠色區(qū)域），會限制動作多樣性；而當(dāng)二者不相關(guān)時（紅色區(qū)域），又會導(dǎo)致生成內(nèi)容與參考圖出現(xiàn)預(yù)期外的偏差。

為此，他們提出了一個名為偽最終幀（Pseudo Last Frame）的解決方案。

訓(xùn)練時：完全拋棄參考圖。模型只學(xué)習(xí)根據(jù)視頻的「第一幀」和「最后一幀」來進(jìn)行預(yù)測。

推理時：將用戶提供的參考圖巧妙地放在「最后一幀」的位置上，并告訴模型這是一個「偽」的最終幀。

這個「偽最終幀」就像一根「掛在驢子眼前的胡蘿卜」：它引導(dǎo)著模型朝參考圖的身份特征生成，但從不強迫模型必須一模一樣地復(fù)現(xiàn)它。實驗證明，這種方法完美地在「身份一致性」和「動作多樣性」之間取得了平衡。

2. 解決模態(tài)沖突：「對稱融合」與「兩階段預(yù)熱」

為了讓文本（系統(tǒng) 2 規(guī)劃）和音頻（系統(tǒng) 1 信號）更好地協(xié)作，研究者為音頻信號也設(shè)計了一個獨立的、與視頻和文本分支結(jié)構(gòu)對稱的「音頻分支」。這三個分支在模型的每一層都通過共享的自注意力機制進(jìn)行深度融合，確保信息充分對齊。

但新的問題來了：音頻信號在時間上非常密集，模型在聯(lián)合訓(xùn)練時會偷懶，傾向于只依賴音頻來做所有預(yù)測，從而忽略了文本提供的高層語義指導(dǎo)。這就是「模態(tài)沖突」。

研究者的解決方案是「兩階段預(yù)熱（Two-stage Warm-up）」訓(xùn)練策略：

第一階段：先在一個「小模型」上強制讓三個分支一起工作。這逼迫模型學(xué)會「分工」：文本和視頻分支負(fù)責(zé)宏觀語義，音頻分支則專注于自己的核心任務(wù)（如口型、語音風(fēng)格）。

第二階段：將預(yù)訓(xùn)練好的主模型（文本和視頻分支）與第一階段「預(yù)熱」過的音頻分支組合起來，再進(jìn)行微調(diào)。

通過這種方式，每個分支都帶著自己最擅長的「先驗知識」進(jìn)入最終的訓(xùn)練，從而有效避免了模態(tài)沖突，讓「大腦」的指令和「身體」的反應(yīng)都能得到忠實執(zhí)行。

效果對比

除了直觀的效果展示，硬核的量化數(shù)據(jù)和直接的SOTA對比更能說明問題。

1.Agent 推理 + MMDiT 架構(gòu)的有效性驗證

圖注：消融實驗（Ablation Study）的結(jié)果清晰地證明了框架中兩大核心設(shè)計的有效性。從數(shù)據(jù)中可以看到，無論是負(fù)責(zé) “思考” 的 Agent 推理模塊，還是負(fù)責(zé) “執(zhí)行” 的 MMDiT 架構(gòu)，都對最終的生成質(zhì)量，尤其是在邏輯性和語義連貫性上，做出了不可或缺的貢獻(xiàn)。

2. 全面超越 SOTA 模型

圖注：在與當(dāng)前最先進(jìn)（SOTA）的多個公開模型進(jìn)行的全方位對比中，本方法在所有關(guān)鍵指標(biāo)上都取得了顯著優(yōu)勢或極具競爭力的表現(xiàn)。

圖注：這張可視化對比圖直觀地展示了「思考能力」的價值。相比于沒有推理能力加持、只會做簡單說話和重復(fù)性動作的模型方案，OmniHuman-1.5 顯示了更高的動態(tài)范圍和更有邏輯性的動作效果，實現(xiàn)了從「動嘴」到「表達(dá)」的飛躍。

總結(jié)與展望

Omnihuman-1.5 為虛擬人領(lǐng)域提供了一個全新的、極具啟發(fā)性的視角。它通過借鑒認(rèn)知科學(xué)的「雙系統(tǒng)理論」，巧妙地利用 MLLM 作為「系統(tǒng) 2」的推理核心，并設(shè)計了一套創(chuàng)新的多模態(tài)融合架構(gòu)來解決關(guān)鍵的技術(shù)瓶頸，最終實現(xiàn)了虛擬人行為從「反應(yīng)式」到「思考式」的飛躍。

目前即夢 AI 視頻生成中對口型能力的大師模式是基于 Omnihuaman-1.0，依靠一張圖 + 一段音頻就能生成流暢自然的虛擬人視頻。很快 OmniHuman-1.5 也將上線即夢 AI。相比 1.0 版本，Omnihuaman-1.5 不僅可以生成更加真實、靈動的虛擬人，也為人機交互、影視制作、虛擬社交等領(lǐng)域帶來新的可能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.