夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

會「思考」!字節(jié)跳動發(fā)布OmniHuman-1.5,讓虛擬人擁有邏輯靈魂

0
分享至



想象一個虛擬人,他不僅能精準(zhǔn)地對上你的口型,還能在你講到關(guān)鍵點時做出恍然大悟的表情,在你講述悲傷故事時流露出同情的神態(tài),甚至能根據(jù)你的話語邏輯做出有意義的手勢。

這不再是科幻電影的場景。8 月底,字節(jié)跳動數(shù)字人團(tuán)隊推出了 OmniHuman-1.5,提出了一種全新的虛擬人生成框架,讓虛擬人真正擁有了「思考」和 「表達(dá)」的能力。

數(shù)月前 OmniHuman-1 上線時,曾引發(fā)國內(nèi)外熱潮。相比前作,1.5 版本有了更多突破,不僅可以根據(jù)文字指令讓虛擬人在對口型之余做出指定動作、表情,還支持在多人場景中控制發(fā)言者以外的角色做出具體動作。據(jù)悉,新版本很快也將上線即夢 AI。

  • 論文鏈接: https://arxiv.org/abs/2508.19209
  • 項目主頁: https://omnihuman-lab.github.io/v1_5/

一個「會思考」的虛擬人是什么樣?

傳統(tǒng)虛擬人總感覺差了點「靈魂」,動作機械、重復(fù),而 OmniHuman-1.5 首次將諾貝爾獎得主丹尼爾?卡尼曼的「雙系統(tǒng)理論」引入 AI,通過一個由多模態(tài)大語言模型(MLLM)驅(qū)動的「思考大腦」,讓虛擬人學(xué)會了深思熟慮。

在深入技術(shù)細(xì)節(jié)之前,先用最直觀的方式,感受一下這個框架創(chuàng)造出的虛擬人,究竟有何不同:

超越簡單的模仿,模型展現(xiàn)了邏輯推理能力。它能準(zhǔn)確理解指令,按順序拿出紅藍(lán)藥丸,執(zhí)行復(fù)雜的動作意圖。


https://mp.weixin.qq.com/s/zTsVDez9MAZgkxD55gVpuw?click_id=11

虛擬人精準(zhǔn)地根據(jù)語音內(nèi)容規(guī)劃動作,實現(xiàn)了「先畫眼線,再介紹眼影盤」這樣的邏輯序列,展現(xiàn)了對內(nèi)容的理解。

挑戰(zhàn)長視頻與多人互動。模型不僅能生成穩(wěn)定的長時間雙人對唱,還能駕馭豐富的運鏡效果,同時角色的動作、表情和互動極為多樣,告別了單調(diào)重復(fù)。

虛擬人學(xué)會了「傾聽」。它可以在對話和傾聽狀態(tài)間自如切換,說話時的情緒與內(nèi)容匹配。


https://mp.weixin.qq.com/s/zTsVDez9MAZgkxD55gVpuw?click_id=11

除了高動態(tài)場景,還是需要細(xì)膩情感表達(dá)的獨白,模型都能拿捏,展現(xiàn)出了表演張力。

雙系統(tǒng)框架為虛擬人裝上「大腦」

近年來,視頻虛擬人技術(shù)發(fā)展迅猛,從最初的口型合成,進(jìn)化到了半身乃至全身的動畫生成。大家的目標(biāo)也越來越宏大:創(chuàng)造一個與真人無異,既能理性行動又能真實表達(dá)情感的「數(shù)字生命」。

然而,盡管現(xiàn)有方法(尤其是基于 Diffusion Transformer 的模型)能夠生成與音頻同步的流暢視頻,但它們更像一個出色的「反應(yīng)機器」。仔細(xì)觀察你會發(fā)現(xiàn),這些模型捕捉到的僅僅是音頻信號與身體動作之間的淺層、直接關(guān)聯(lián)。結(jié)果就是,虛擬人能精準(zhǔn)地對上口型,做一些簡單的、跟隨節(jié)奏的擺動,但一旦涉及更復(fù)雜的、需要理解對話內(nèi)容的交互,就立刻「露餡」了。它們的行為缺乏長期規(guī)劃和邏輯一致性,離真正的「以假亂真」還有很長的路要走。

為什么會這樣?研究者們從認(rèn)知科學(xué)中找到了答案。人類的行為被認(rèn)為由兩個系統(tǒng)主導(dǎo):

  • 系統(tǒng) 1(System 1): 快速、無意識、自動化的反應(yīng)系統(tǒng)。對于虛擬人而言,這就像是驅(qū)動嘴部肌肉發(fā)出聲音,或下意識的身體搖晃。這與當(dāng)前模型的工作模式非常相似。

  • 系統(tǒng) 2(System 2): 緩慢、有意識、需要努力的分析系統(tǒng)。這對應(yīng)著根據(jù)對話內(nèi)容,組織一個有意義且契合語境的表情或手勢。這是當(dāng)前模型普遍缺乏的能力。

顯然,要讓虛擬人「活」起來,就必須為它裝上「系統(tǒng) 2」這個深思熟慮的大腦。因此,本文的核心思路應(yīng)運而生:利用多模態(tài)大語言模型(MLLM)強大的推理能力來顯式地模擬「系統(tǒng) 2」的決策過程,并將其與模擬「系統(tǒng) 1」的反應(yīng)式生成模塊相結(jié)合。

為了實現(xiàn)這一構(gòu)想,研究者們設(shè)計了一個精巧的「雙系統(tǒng)模擬框架」。它主要由兩部分構(gòu)成:一個負(fù)責(zé)規(guī)劃的「系統(tǒng) 2」大腦,和一個負(fù)責(zé)渲染的「系統(tǒng) 1」身體。



圖注: 框架流程圖。左側(cè)為總體流程,展示了「系統(tǒng) 2」如何利用 MLLM 智能體對所有輸入(音、圖、文)進(jìn)行推理,生成一個宏觀的「行為規(guī)劃表」(Schedule)。這個規(guī)劃表隨后指導(dǎo)「系統(tǒng) 1」的 MMDiT 網(wǎng)絡(luò),后者在其專用的文本、音頻和視頻分支中融合信息,最終合成視頻。右側(cè)是關(guān)鍵模塊的細(xì)節(jié)圖。

1. 系統(tǒng) 2:MLLM 智能體進(jìn)行深思熟慮的規(guī)劃

這部分是整個框架的「大腦」和「指揮中心」。研究者設(shè)計了一個由兩個 MLLM 組成的智能體(Agent)推理流程:

  • 分析器(Analyzer): 第一個 MLLM 負(fù)責(zé)「情景分析」。它接收角色的參考圖、音頻、以及用戶可選的文本提示,然后像一個偵探一樣,分析出角色的性格、情緒、意圖以及周圍環(huán)境,并輸出結(jié)構(gòu)化的分析結(jié)果

  • 規(guī)劃器(Planner): 第二個 MLLM 接收「分析器」的結(jié)論,并基于此制定一個詳細(xì)的「行動計劃」。這個計劃被構(gòu)造成一個鏡頭序列,為視頻的每一小段都定義了角色的表情和動作。

通過這種「分析 - 規(guī)劃」的協(xié)作,模型得以生成一個全局一致、邏輯連貫的行動計劃,為虛擬人的行為提供了「頂層設(shè)計」。

2. 系統(tǒng) 1:多模態(tài)融合網(wǎng)絡(luò)進(jìn)行反應(yīng)式渲染

有了「大腦」的規(guī)劃,還需要一個強大的「身體」來執(zhí)行。這部分由一個特殊設(shè)計的多模態(tài)擴(kuò)散模型(MMDiT)承擔(dān),它負(fù)責(zé)將「系統(tǒng) 2」的高層文本規(guī)劃與「系統(tǒng) 1」的底層音頻信號(用于口型同步等)完美融合,生成最終視頻。

然而,將文本、音頻、參考圖這幾種完全不同的信息(模態(tài))塞進(jìn)一個模型里,極易引發(fā)「模態(tài)沖突」,導(dǎo)致模型顧此失彼。為此,研究者提出了兩大核心技術(shù)創(chuàng)新來解決這個難題。

如何讓「大腦」與「身體」高效協(xié)作?

1. 重新思考身份維持:「偽最終幀」的設(shè)計

傳統(tǒng)方法為了讓虛擬人保持固定的身份(長相),通常會在模型中輸入一張參考圖。但研究者敏銳地發(fā)現(xiàn),這會帶來一個嚴(yán)重的問題:模型會錯誤地學(xué)習(xí)到「生成的視頻里必須出現(xiàn)和參考圖一模一樣的畫面」,這極大地限制了角色的動態(tài)范圍,導(dǎo)致動作僵硬。



圖注: 該圖解釋了為什么需要 “偽最終幀”。右側(cè)揭示了核心困境:當(dāng)參考圖與目標(biāo)片段內(nèi)容高度相關(guān)時(綠色區(qū)域),會限制動作多樣性;而當(dāng)二者不相關(guān)時(紅色區(qū)域),又會導(dǎo)致生成內(nèi)容與參考圖出現(xiàn)預(yù)期外的偏差。

為此,他們提出了一個名為偽最終幀(Pseudo Last Frame)的解決方案。

  • 訓(xùn)練時: 完全拋棄參考圖。模型只學(xué)習(xí)根據(jù)視頻的「第一幀」和「最后一幀」 來進(jìn)行預(yù)測。

  • 推理時: 將用戶提供的參考圖巧妙地放在「最后一幀」的位置上,并告訴模型這是一個「偽」的最終幀。

這個「偽最終幀」就像一根「掛在驢子眼前的胡蘿卜」:它引導(dǎo)著模型朝參考圖的身份特征生成,但從不強迫模型必須一模一樣地復(fù)現(xiàn)它。實驗證明,這種方法完美地在「身份一致性」和「動作多樣性」之間取得了平衡。

2. 解決模態(tài)沖突:「對稱融合」與「兩階段預(yù)熱」

為了讓文本(系統(tǒng) 2 規(guī)劃)和音頻(系統(tǒng) 1 信號)更好地協(xié)作,研究者為音頻信號也設(shè)計了一個獨立的、與視頻和文本分支結(jié)構(gòu)對稱的「音頻分支」。這三個分支在模型的每一層都通過共享的自注意力機制進(jìn)行深度融合,確保信息充分對齊。

但新的問題來了:音頻信號在時間上非常密集,模型在聯(lián)合訓(xùn)練時會偷懶,傾向于只依賴音頻來做所有預(yù)測,從而忽略了文本提供的高層語義指導(dǎo)。這就是「模態(tài)沖突」。

研究者的解決方案是「兩階段預(yù)熱(Two-stage Warm-up)」訓(xùn)練策略:

  • 第一階段: 先在一個「小模型」上強制讓三個分支一起工作。這逼迫模型學(xué)會 「分工」:文本和視頻分支負(fù)責(zé)宏觀語義,音頻分支則專注于自己的核心任務(wù)(如口型、語音風(fēng)格)。

  • 第二階段: 將預(yù)訓(xùn)練好的主模型(文本和視頻分支)與第一階段「預(yù)熱」過的音頻分支組合起來,再進(jìn)行微調(diào)。

通過這種方式,每個分支都帶著自己最擅長的「先驗知識」進(jìn)入最終的訓(xùn)練,從而有效避免了模態(tài)沖突,讓「大腦」的指令和「身體」的反應(yīng)都能得到忠實執(zhí)行。

效果對比

除了直觀的效果展示,硬核的量化數(shù)據(jù)和直接的SOTA對比更能說明問題。

1.Agent 推理 + MMDiT 架構(gòu)的有效性驗證



圖注: 消融實驗(Ablation Study)的結(jié)果清晰地證明了框架中兩大核心設(shè)計的有效性。從數(shù)據(jù)中可以看到,無論是負(fù)責(zé) “思考” 的 Agent 推理模塊,還是負(fù)責(zé) “執(zhí)行” 的 MMDiT 架構(gòu),都對最終的生成質(zhì)量,尤其是在邏輯性和語義連貫性上,做出了不可或缺的貢獻(xiàn)。

2. 全面超越 SOTA 模型



圖注: 在與當(dāng)前最先進(jìn)(SOTA)的多個公開模型進(jìn)行的全方位對比中,本方法在所有關(guān)鍵指標(biāo)上都取得了顯著優(yōu)勢或極具競爭力的表現(xiàn)。



圖注: 這張可視化對比圖直觀地展示了「思考能力」的價值。相比于沒有推理能力加持、只會做簡單說話和重復(fù)性動作的模型方案,OmniHuman-1.5 顯示了更高的動態(tài)范圍和更有邏輯性的動作效果,實現(xiàn)了從「動嘴」到 「表達(dá)」的飛躍。

總結(jié)與展望

Omnihuman-1.5 為虛擬人領(lǐng)域提供了一個全新的、極具啟發(fā)性的視角。它通過借鑒認(rèn)知科學(xué)的「雙系統(tǒng)理論」,巧妙地利用 MLLM 作為「系統(tǒng) 2」的推理核心,并設(shè)計了一套創(chuàng)新的多模態(tài)融合架構(gòu)來解決關(guān)鍵的技術(shù)瓶頸,最終實現(xiàn)了虛擬人行為從「反應(yīng)式」到「思考式」的飛躍。

目前即夢 AI 視頻生成中對口型能力的大師模式是基于 Omnihuaman-1.0,依靠一張圖 + 一段音頻就能生成流暢自然的虛擬人視頻。很快 OmniHuman-1.5 也將上線即夢 AI。相比 1.0 版本,Omnihuaman-1.5 不僅可以生成更加真實、靈動的虛擬人,也為人機交互、影視制作、虛擬社交等領(lǐng)域帶來新的可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
深表歉意!武大開學(xué)典禮座椅標(biāo)識意在便于分類!校方將提高嚴(yán)謹(jǐn)性

深表歉意!武大開學(xué)典禮座椅標(biāo)識意在便于分類!校方將提高嚴(yán)謹(jǐn)性

聲情專遞
2025-09-06 21:29:10
烏克蘭宣布提供軍用無人機,支持菲方在南海對付中國

烏克蘭宣布提供軍用無人機,支持菲方在南海對付中國

王朝風(fēng)云
2025-09-06 07:22:25
詹姆斯以夢八隊成員身份入選名人堂 并穿上了名人堂夾克!

詹姆斯以夢八隊成員身份入選名人堂 并穿上了名人堂夾克!

直播吧
2025-09-07 08:17:15
全進(jìn)華白切雞風(fēng)波后續(xù)!輿論反轉(zhuǎn),本人被罵到刪視頻,全妹受牽連

全進(jìn)華白切雞風(fēng)波后續(xù)!輿論反轉(zhuǎn),本人被罵到刪視頻,全妹受牽連

法老不說教
2025-09-06 16:08:55
法國預(yù)測明年將爆發(fā)戰(zhàn)爭,醫(yī)院做好戰(zhàn)時準(zhǔn)備,擔(dān)憂東方首先動手

法國預(yù)測明年將爆發(fā)戰(zhàn)爭,醫(yī)院做好戰(zhàn)時準(zhǔn)備,擔(dān)憂東方首先動手

頭條爆料007
2025-09-03 07:32:16
102歲抗戰(zhàn)老兵看完閱兵后安詳離世 家人稱“圓夢” 網(wǎng)友嘆“歸隊”

102歲抗戰(zhàn)老兵看完閱兵后安詳離世 家人稱“圓夢” 網(wǎng)友嘆“歸隊”

封面新聞
2025-09-06 15:21:16
中國制裁有沒有用?看看今天的洛馬就知道了,什么叫“慢性死亡”

中國制裁有沒有用?看看今天的洛馬就知道了,什么叫“慢性死亡”

小莜讀史
2025-09-06 05:29:53
金正恩剛回朝鮮,不到24小時,三國將在半島軍演,中方態(tài)度很明確

金正恩剛回朝鮮,不到24小時,三國將在半島軍演,中方態(tài)度很明確

南宮一二
2025-09-06 13:09:38
亞預(yù)賽亂了:6分未出線!一夜17隊出局+9場慘案,中國隊形勢反轉(zhuǎn)

亞預(yù)賽亂了:6分未出線!一夜17隊出局+9場慘案,中國隊形勢反轉(zhuǎn)

侃球熊弟
2025-09-07 00:35:27
大S律師突然發(fā)布聲明

大S律師突然發(fā)布聲明

都市快報橙柿互動
2025-09-07 00:14:43
廣州生活10年美國姐妹,回紐約坐地鐵嚇得一動不動:地上就是針頭

廣州生活10年美國姐妹,回紐約坐地鐵嚇得一動不動:地上就是針頭

尋墨閣
2025-09-06 13:05:06
跌懵了!杭州一樓盤單價從25106到8928,4年縮水近7成,房東哭暈

跌懵了!杭州一樓盤單價從25106到8928,4年縮水近7成,房東哭暈

火山詩話
2025-09-07 08:08:07
“秀才”相當(dāng)于現(xiàn)在什么學(xué)歷?說出來可別不信,別被影視劇誤導(dǎo)了

“秀才”相當(dāng)于現(xiàn)在什么學(xué)歷?說出來可別不信,別被影視劇誤導(dǎo)了

大千世界觀
2025-09-06 19:30:06
歐盟“外長”卡拉斯瞎說啥呢,惹得中國強烈譴責(zé)!

歐盟“外長”卡拉斯瞎說啥呢,惹得中國強烈譴責(zé)!

新民周刊
2025-09-07 09:08:47
2-0!凱恩啞火,1.2億巨頭破門,英格蘭丑陋贏球,圖赫爾黑臉

2-0!凱恩啞火,1.2億巨頭破門,英格蘭丑陋贏球,圖赫爾黑臉

我的護(hù)球最獨特
2025-09-07 01:58:29
上海一女子赴美生子去世后倆孩子生父成謎,誰來擔(dān)任孩子監(jiān)護(hù)人?

上海一女子赴美生子去世后倆孩子生父成謎,誰來擔(dān)任孩子監(jiān)護(hù)人?

環(huán)球網(wǎng)資訊
2025-09-07 08:04:14
今日白露,這菜要使勁吃!一潤燥、二化痰、三護(hù)眼助眠,別不懂吃

今日白露,這菜要使勁吃!一潤燥、二化痰、三護(hù)眼助眠,別不懂吃

Lily美食談
2025-09-07 00:02:13
又一國產(chǎn)巨頭“塌房”!細(xì)菌嚴(yán)重超標(biāo),坑害百姓,央媒點名怒批

又一國產(chǎn)巨頭“塌房”!細(xì)菌嚴(yán)重超標(biāo),坑害百姓,央媒點名怒批

法老不說教
2025-09-06 16:15:50
為啥男性不愿讓著女性了,看江蘇食堂事件就知道了,輿論風(fēng)向變了

為啥男性不愿讓著女性了,看江蘇食堂事件就知道了,輿論風(fēng)向變了

愛下廚的阿釃
2025-09-06 11:44:12
歐錦賽-芬蘭16強爆冷淘汰塞爾維亞 馬爾卡寧29+8 約基奇33+8

歐錦賽-芬蘭16強爆冷淘汰塞爾維亞 馬爾卡寧29+8 約基奇33+8

直播吧
2025-09-07 06:21:06
2025-09-07 10:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11240文章數(shù) 142442關(guān)注度
往期回顧 全部

科技要聞

我國為何將主動撞擊一顆小行星?

頭條要聞

牛彈琴:特朗普對印態(tài)度又180度轉(zhuǎn)彎 全世界哭笑不得

頭條要聞

牛彈琴:特朗普對印態(tài)度又180度轉(zhuǎn)彎 全世界哭笑不得

體育要聞

40歲C羅世預(yù)賽完美開局:雙響+遠(yuǎn)程世界波

娛樂要聞

虞書欣受風(fēng)波影響!缺席新劇應(yīng)援活動

財經(jīng)要聞

易會滿幾個家人也被一并帶走調(diào)查

汽車要聞

科技加持 BMW R 1300 GS Adv依舊標(biāo)桿實力

態(tài)度原創(chuàng)

旅游
藝術(shù)
游戲
家居
手機

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

夢幻西游N哥15萬購得暢玩服第一火車頭,精銳第1三防御手鐲誕生?

家居要聞

親子空間 舒適家居氛圍

手機要聞

iPhone 17全系電池容量:Pro Max超過5000mAh,17 Air續(xù)航并不差

無障礙瀏覽 進(jìn)入關(guān)懷版 久久综合一个色综合网| 亚洲香蕉一区久| 久久九九精品国产综合喷水| 免费无码黄十八禁网站| 亚洲色大成网站www永久在线观看| 欧美xxxxx高潮喷水| 国产性三级高清在线观看| 免费观看国产短视频| 仑理片一区二区| 韩国深夜福利视频在线观看| 好了AV在线第四站综合网站| 成人网站在线观看sss| 精品国产av无码一区| 肏逼嗷嗷喷水视频免费看| 亚洲专区32p| 激情小说 亚洲热图| 中文字幕无码精品亚洲资源网| 久久理论无码中文字幕| 特级毛片a级毛片免费播放| 欧洲av无码专区| 我要看www免费看插插视频| 黑人啊灬啊灬啊灬快灬深| 人妻熟妇乱又伦精品无码专区| 91桃色视频在线观看| 88精品人妻| 肥臀浪妇太爽了快点再快点| 国产69囗曝吞精在线视频| 人妻丝袜精品一区二区| 无码精品人妻一区二区三区拉屎| 国产作爱视频免费播放| 无码人妻精品一区二区三区99日韩| 国内精品免费视频自在线拍| 国产av永久无码天堂影院| av天堂资源在线中文网| 久久夜色av| 国语自产精品视频在线第100页| 中文字幕无码无码专区| 国产熟人精品一区二区| 婷婷社区久久综合| 免费精品国偷自产在线在线| 丁香五月婷婷在线观看视频|