想象一個虛擬人,他不僅能精準(zhǔn)地對上你的口型,還能在你講到關(guān)鍵點時做出恍然大悟的表情,在你講述悲傷故事時流露出同情的神態(tài),甚至能根據(jù)你的話語邏輯做出有意義的手勢。
這不再是科幻電影的場景。8 月底,字節(jié)跳動數(shù)字人團(tuán)隊推出了 OmniHuman-1.5,提出了一種全新的虛擬人生成框架,讓虛擬人真正擁有了「思考」和 「表達(dá)」的能力。
數(shù)月前 OmniHuman-1 上線時,曾引發(fā)國內(nèi)外熱潮。相比前作,1.5 版本有了更多突破,不僅可以根據(jù)文字指令讓虛擬人在對口型之余做出指定動作、表情,還支持在多人場景中控制發(fā)言者以外的角色做出具體動作。據(jù)悉,新版本很快也將上線即夢 AI。
- 論文鏈接: https://arxiv.org/abs/2508.19209
- 項目主頁: https://omnihuman-lab.github.io/v1_5/
一個「會思考」的虛擬人是什么樣?
傳統(tǒng)虛擬人總感覺差了點「靈魂」,動作機械、重復(fù),而 OmniHuman-1.5 首次將諾貝爾獎得主丹尼爾?卡尼曼的「雙系統(tǒng)理論」引入 AI,通過一個由多模態(tài)大語言模型(MLLM)驅(qū)動的「思考大腦」,讓虛擬人學(xué)會了深思熟慮。
在深入技術(shù)細(xì)節(jié)之前,先用最直觀的方式,感受一下這個框架創(chuàng)造出的虛擬人,究竟有何不同:
超越簡單的模仿,模型展現(xiàn)了邏輯推理能力。它能準(zhǔn)確理解指令,按順序拿出紅藍(lán)藥丸,執(zhí)行復(fù)雜的動作意圖。
https://mp.weixin.qq.com/s/zTsVDez9MAZgkxD55gVpuw?click_id=11
虛擬人精準(zhǔn)地根據(jù)語音內(nèi)容規(guī)劃動作,實現(xiàn)了「先畫眼線,再介紹眼影盤」這樣的邏輯序列,展現(xiàn)了對內(nèi)容的理解。
挑戰(zhàn)長視頻與多人互動。模型不僅能生成穩(wěn)定的長時間雙人對唱,還能駕馭豐富的運鏡效果,同時角色的動作、表情和互動極為多樣,告別了單調(diào)重復(fù)。
虛擬人學(xué)會了「傾聽」。它可以在對話和傾聽狀態(tài)間自如切換,說話時的情緒與內(nèi)容匹配。
https://mp.weixin.qq.com/s/zTsVDez9MAZgkxD55gVpuw?click_id=11
除了高動態(tài)場景,還是需要細(xì)膩情感表達(dá)的獨白,模型都能拿捏,展現(xiàn)出了表演張力。
雙系統(tǒng)框架為虛擬人裝上「大腦」
近年來,視頻虛擬人技術(shù)發(fā)展迅猛,從最初的口型合成,進(jìn)化到了半身乃至全身的動畫生成。大家的目標(biāo)也越來越宏大:創(chuàng)造一個與真人無異,既能理性行動又能真實表達(dá)情感的「數(shù)字生命」。
然而,盡管現(xiàn)有方法(尤其是基于 Diffusion Transformer 的模型)能夠生成與音頻同步的流暢視頻,但它們更像一個出色的「反應(yīng)機器」。仔細(xì)觀察你會發(fā)現(xiàn),這些模型捕捉到的僅僅是音頻信號與身體動作之間的淺層、直接關(guān)聯(lián)。結(jié)果就是,虛擬人能精準(zhǔn)地對上口型,做一些簡單的、跟隨節(jié)奏的擺動,但一旦涉及更復(fù)雜的、需要理解對話內(nèi)容的交互,就立刻「露餡」了。它們的行為缺乏長期規(guī)劃和邏輯一致性,離真正的「以假亂真」還有很長的路要走。
為什么會這樣?研究者們從認(rèn)知科學(xué)中找到了答案。人類的行為被認(rèn)為由兩個系統(tǒng)主導(dǎo):
- 系統(tǒng) 1(System 1): 快速、無意識、自動化的反應(yīng)系統(tǒng)。對于虛擬人而言,這就像是驅(qū)動嘴部肌肉發(fā)出聲音,或下意識的身體搖晃。這與當(dāng)前模型的工作模式非常相似。
- 系統(tǒng) 2(System 2): 緩慢、有意識、需要努力的分析系統(tǒng)。這對應(yīng)著根據(jù)對話內(nèi)容,組織一個有意義且契合語境的表情或手勢。這是當(dāng)前模型普遍缺乏的能力。
顯然,要讓虛擬人「活」起來,就必須為它裝上「系統(tǒng) 2」這個深思熟慮的大腦。因此,本文的核心思路應(yīng)運而生:利用多模態(tài)大語言模型(MLLM)強大的推理能力來顯式地模擬「系統(tǒng) 2」的決策過程,并將其與模擬「系統(tǒng) 1」的反應(yīng)式生成模塊相結(jié)合。
為了實現(xiàn)這一構(gòu)想,研究者們設(shè)計了一個精巧的「雙系統(tǒng)模擬框架」。它主要由兩部分構(gòu)成:一個負(fù)責(zé)規(guī)劃的「系統(tǒng) 2」大腦,和一個負(fù)責(zé)渲染的「系統(tǒng) 1」身體。
圖注: 框架流程圖。左側(cè)為總體流程,展示了「系統(tǒng) 2」如何利用 MLLM 智能體對所有輸入(音、圖、文)進(jìn)行推理,生成一個宏觀的「行為規(guī)劃表」(Schedule)。這個規(guī)劃表隨后指導(dǎo)「系統(tǒng) 1」的 MMDiT 網(wǎng)絡(luò),后者在其專用的文本、音頻和視頻分支中融合信息,最終合成視頻。右側(cè)是關(guān)鍵模塊的細(xì)節(jié)圖。
1. 系統(tǒng) 2:MLLM 智能體進(jìn)行深思熟慮的規(guī)劃
這部分是整個框架的「大腦」和「指揮中心」。研究者設(shè)計了一個由兩個 MLLM 組成的智能體(Agent)推理流程:
- 分析器(Analyzer): 第一個 MLLM 負(fù)責(zé)「情景分析」。它接收角色的參考圖、音頻、以及用戶可選的文本提示,然后像一個偵探一樣,分析出角色的性格、情緒、意圖以及周圍環(huán)境,并輸出結(jié)構(gòu)化的分析結(jié)果
- 規(guī)劃器(Planner): 第二個 MLLM 接收「分析器」的結(jié)論,并基于此制定一個詳細(xì)的「行動計劃」。這個計劃被構(gòu)造成一個鏡頭序列,為視頻的每一小段都定義了角色的表情和動作。
通過這種「分析 - 規(guī)劃」的協(xié)作,模型得以生成一個全局一致、邏輯連貫的行動計劃,為虛擬人的行為提供了「頂層設(shè)計」。
2. 系統(tǒng) 1:多模態(tài)融合網(wǎng)絡(luò)進(jìn)行反應(yīng)式渲染
有了「大腦」的規(guī)劃,還需要一個強大的「身體」來執(zhí)行。這部分由一個特殊設(shè)計的多模態(tài)擴(kuò)散模型(MMDiT)承擔(dān),它負(fù)責(zé)將「系統(tǒng) 2」的高層文本規(guī)劃與「系統(tǒng) 1」的底層音頻信號(用于口型同步等)完美融合,生成最終視頻。
然而,將文本、音頻、參考圖這幾種完全不同的信息(模態(tài))塞進(jìn)一個模型里,極易引發(fā)「模態(tài)沖突」,導(dǎo)致模型顧此失彼。為此,研究者提出了兩大核心技術(shù)創(chuàng)新來解決這個難題。
如何讓「大腦」與「身體」高效協(xié)作?
1. 重新思考身份維持:「偽最終幀」的設(shè)計
傳統(tǒng)方法為了讓虛擬人保持固定的身份(長相),通常會在模型中輸入一張參考圖。但研究者敏銳地發(fā)現(xiàn),這會帶來一個嚴(yán)重的問題:模型會錯誤地學(xué)習(xí)到「生成的視頻里必須出現(xiàn)和參考圖一模一樣的畫面」,這極大地限制了角色的動態(tài)范圍,導(dǎo)致動作僵硬。
圖注: 該圖解釋了為什么需要 “偽最終幀”。右側(cè)揭示了核心困境:當(dāng)參考圖與目標(biāo)片段內(nèi)容高度相關(guān)時(綠色區(qū)域),會限制動作多樣性;而當(dāng)二者不相關(guān)時(紅色區(qū)域),又會導(dǎo)致生成內(nèi)容與參考圖出現(xiàn)預(yù)期外的偏差。
為此,他們提出了一個名為偽最終幀(Pseudo Last Frame)的解決方案。
- 訓(xùn)練時: 完全拋棄參考圖。模型只學(xué)習(xí)根據(jù)視頻的「第一幀」和「最后一幀」 來進(jìn)行預(yù)測。
- 推理時: 將用戶提供的參考圖巧妙地放在「最后一幀」的位置上,并告訴模型這是一個「偽」的最終幀。
這個「偽最終幀」就像一根「掛在驢子眼前的胡蘿卜」:它引導(dǎo)著模型朝參考圖的身份特征生成,但從不強迫模型必須一模一樣地復(fù)現(xiàn)它。實驗證明,這種方法完美地在「身份一致性」和「動作多樣性」之間取得了平衡。
2. 解決模態(tài)沖突:「對稱融合」與「兩階段預(yù)熱」
為了讓文本(系統(tǒng) 2 規(guī)劃)和音頻(系統(tǒng) 1 信號)更好地協(xié)作,研究者為音頻信號也設(shè)計了一個獨立的、與視頻和文本分支結(jié)構(gòu)對稱的「音頻分支」。這三個分支在模型的每一層都通過共享的自注意力機制進(jìn)行深度融合,確保信息充分對齊。
但新的問題來了:音頻信號在時間上非常密集,模型在聯(lián)合訓(xùn)練時會偷懶,傾向于只依賴音頻來做所有預(yù)測,從而忽略了文本提供的高層語義指導(dǎo)。這就是「模態(tài)沖突」。
研究者的解決方案是「兩階段預(yù)熱(Two-stage Warm-up)」訓(xùn)練策略:
- 第一階段: 先在一個「小模型」上強制讓三個分支一起工作。這逼迫模型學(xué)會 「分工」:文本和視頻分支負(fù)責(zé)宏觀語義,音頻分支則專注于自己的核心任務(wù)(如口型、語音風(fēng)格)。
- 第二階段: 將預(yù)訓(xùn)練好的主模型(文本和視頻分支)與第一階段「預(yù)熱」過的音頻分支組合起來,再進(jìn)行微調(diào)。
通過這種方式,每個分支都帶著自己最擅長的「先驗知識」進(jìn)入最終的訓(xùn)練,從而有效避免了模態(tài)沖突,讓「大腦」的指令和「身體」的反應(yīng)都能得到忠實執(zhí)行。
效果對比
除了直觀的效果展示,硬核的量化數(shù)據(jù)和直接的SOTA對比更能說明問題。
1.Agent 推理 + MMDiT 架構(gòu)的有效性驗證
圖注: 消融實驗(Ablation Study)的結(jié)果清晰地證明了框架中兩大核心設(shè)計的有效性。從數(shù)據(jù)中可以看到,無論是負(fù)責(zé) “思考” 的 Agent 推理模塊,還是負(fù)責(zé) “執(zhí)行” 的 MMDiT 架構(gòu),都對最終的生成質(zhì)量,尤其是在邏輯性和語義連貫性上,做出了不可或缺的貢獻(xiàn)。
2. 全面超越 SOTA 模型
圖注: 在與當(dāng)前最先進(jìn)(SOTA)的多個公開模型進(jìn)行的全方位對比中,本方法在所有關(guān)鍵指標(biāo)上都取得了顯著優(yōu)勢或極具競爭力的表現(xiàn)。
圖注: 這張可視化對比圖直觀地展示了「思考能力」的價值。相比于沒有推理能力加持、只會做簡單說話和重復(fù)性動作的模型方案,OmniHuman-1.5 顯示了更高的動態(tài)范圍和更有邏輯性的動作效果,實現(xiàn)了從「動嘴」到 「表達(dá)」的飛躍。
總結(jié)與展望
Omnihuman-1.5 為虛擬人領(lǐng)域提供了一個全新的、極具啟發(fā)性的視角。它通過借鑒認(rèn)知科學(xué)的「雙系統(tǒng)理論」,巧妙地利用 MLLM 作為「系統(tǒng) 2」的推理核心,并設(shè)計了一套創(chuàng)新的多模態(tài)融合架構(gòu)來解決關(guān)鍵的技術(shù)瓶頸,最終實現(xiàn)了虛擬人行為從「反應(yīng)式」到「思考式」的飛躍。
目前即夢 AI 視頻生成中對口型能力的大師模式是基于 Omnihuaman-1.0,依靠一張圖 + 一段音頻就能生成流暢自然的虛擬人視頻。很快 OmniHuman-1.5 也將上線即夢 AI。相比 1.0 版本,Omnihuaman-1.5 不僅可以生成更加真實、靈動的虛擬人,也為人機交互、影視制作、虛擬社交等領(lǐng)域帶來新的可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.