機器之心報道
機器之心編輯部
多模態(tài)的生成,是 AI 未來的方向。
最近,AI 領(lǐng)域的氣氛正在發(fā)生微妙的變化。比如,剛剛推出了 Grok 4 的 xAI 卻在重點宣傳他們的視頻生成模型 Grok Image。
與此前使用文字提示生成視頻的方式不同,新一代的工具已經(jīng)實現(xiàn)全鏈路覆蓋:先用文字或語音生成圖像,再用圖像生成視頻。你也可以直接上傳圖片來生成視頻,還能自帶音效,然后一鍵發(fā)到社交媒體瘋狂轉(zhuǎn)發(fā)。
如果說很長一段時間里,我們印象中的 AI 還停留在寫稿子、畫張圖,那么現(xiàn)在,它們已經(jīng)能一鍵生成一部「電影級大片」了。不得不說,這就像是正在進(jìn)行的一場工業(yè)革命:過去需要整支團隊、大量資金和很長周期才能完成的創(chuàng)意性工作,現(xiàn)在只需要一張圖片、一段文本指令就能實現(xiàn)。
就在今天下午,百度把視頻生成 AI 技術(shù)推向了新的高度,其全球首發(fā)中文音視頻一體化模型百度蒸汽機(MuseSteamer)2.0,實現(xiàn)了生成視頻中人物口型、表情、動作的毫秒級同步
這個 7 月初首次亮相的視頻生成模型,從剛開始合成高質(zhì)量音效到如今音畫高度一致,完成了質(zhì)的飛躍,讓國產(chǎn) AI 視頻真正邁入到了「有聲有色」的全新階段。
百度蒸汽機全系視頻模型 & 應(yīng)用升級發(fā)布會現(xiàn)場。
在人物口型與語音毫秒級對齊之外,表情、動作同樣自然流暢,連運鏡都像是出自大師之手。從角色對白到鏡頭推進(jìn),仿佛背后真有一個經(jīng)驗豐富的導(dǎo)演在操控。
此次,百度蒸汽機 2.0 對Turbo 版、Lite 版、Pro 版及有聲版本來了一波全方位升級,并全部開放給用戶使用。各個模型版本在視頻分辨率、生成時長以及主打特性上各有側(cè)重,為不同創(chuàng)作需求提供了靈活選擇,其中:
- Turbo 版可生成分辨率 720p 和時長 5s 的視頻,適合快速體驗與廣泛應(yīng)用;
- Lite 版是 Turbo 更輕量級的版本,生成速度更快,成本更低,適合追求效率和性價比的用戶使用;
- Pro 版輸出分辨率 1080p 和時長 5s,主打高分辨率與電影級質(zhì)感,適合追求高畫質(zhì)的創(chuàng)作者;
- 最后是有聲版,分辨率 720p 和時長 5s/10s,專注于音畫一體的沉浸式體驗,是此次的重頭戲。
與此同時,百度蒸汽機 2.0 在價格這塊也極具競爭力,全系價格僅為國內(nèi)主流競品的 70%,Turbo 版生成 5 秒有聲視頻限時價格僅為 1.4 元,這就為用戶帶來了更高的性價比。
百度商業(yè)體系商業(yè)研發(fā)總經(jīng)理劉林在活動中
目前,用戶既可以在百度搜索、百度 APP 以及各個手機瀏覽器的百度搜索入口直接進(jìn)行體驗,也可以登錄百度蒸汽機的應(yīng)用平臺「繪想」進(jìn)行創(chuàng)作。
繪想平臺地址:https://huixiang.baidu.com/
一張圖、一段話,便能生成有聲視頻。真的有那么神奇嗎?帶著這個疑問,我們對百度蒸汽機 2.0 來了波實測。
第一手實測
AI 生成的人物對話,就像在演情景劇
在「繪想」用戶界面,我們可以看到,百度蒸汽機 2.0 全系模型現(xiàn)已正式上線。
用戶上傳的首幀圖支持 JPEG、PNG、WEBP 等多種格式,并且可以根據(jù)自己的需求自由選擇是否加入背景音。
我們「牛刀小試」,來個單人吃播場景,音畫同步的效果可以說是杠杠的。
動作整體保持流暢,畫面清晰度和亮度都比較穩(wěn)定,沒有明顯的閃爍或抖動;眨眼、嘴角咀嚼的一些細(xì)小動作也讓人物更加地鮮活。
不過,既然百度蒸汽機 2.0 有聲版的核心亮點之一是「多人對話互動」,我們重點測了一波多人場景,看看它是否能拿捏住不同角色和復(fù)雜語境。
我們先讓模型復(fù)現(xiàn) OpenAI 發(fā)布 o1 時的景象,將 o 系列前核心架構(gòu)師 Hyung Won Chung 的介紹轉(zhuǎn)換成中文,說起來還是很溜的。
最近國產(chǎn)動畫電影《浪浪山小妖怪》大賣,我們找一個截圖,讓幾位主角(小豬妖、蛤蟆精、黃鼠狼精和猩猩怪)來場對話。
整體看下來,動作切換沒有出現(xiàn)明顯的「卡頓」或機械感,流暢度很高;此外,各個主角的面部細(xì)節(jié)與神態(tài)轉(zhuǎn)換也很自然。
打了一場大勝仗的 AI「丞相」,開心地扇著小風(fēng)扇,終于可以享受享受了。
除了中文,英文語境同樣可以 hold 住。多個人加上多個動物,也能表現(xiàn)出穩(wěn)定的效果,貓頭鷹的腦袋在以正確的方式轉(zhuǎn)動。
側(cè)臉場景也能穩(wěn)穩(wěn)拿下。最近,OpenAI 被 Meta 挖人挖麻了,雙方在人才戰(zhàn)中火藥味十足。這兩家 AI 巨頭的 CEO 面對面坐下來之后,會發(fā)生怎樣有趣的對話呢?
口型與聲音的同步雖不如正臉那樣嚴(yán)絲合縫,但保持了基本的自然銜接,兩人的動作與神態(tài)演繹得相當(dāng)?shù)轿?,包括肢體起伏、眨眼細(xì)節(jié),更貼近真實場景。
進(jìn)一步測試中,我們嘗試了不同運鏡語言下的畫面生成
例如,生成一段車水馬龍的延時攝影,它能精準(zhǔn)模擬車流的動態(tài)變化和時間流逝的效果,紅白交織的車燈在畫面中迅速閃現(xiàn),呈現(xiàn)出延時攝影中常見的快速移動感和光影交錯的美感,畫面自然連貫,幾乎看不出什么瑕疵。
同時,背景音的加入也為整體畫面增添了真實感。
提示詞:快速的延時攝影,熙熙攘攘的車流極快速行駛,出現(xiàn)一道道紅白相間的燈光,車輛行駛的聲音需背景音
多個鏡頭語言疊加的場景中,模型同樣表現(xiàn)出色
比如下面這則視頻,鏡頭一開始聚焦于男人,隨后平滑轉(zhuǎn)移到身后的女孩,鏡頭推拉與焦點切換的過程都非常流暢,畫面絲毫沒有出現(xiàn)崩壞或突兀的情況。
提示詞:聚焦于看向女孩的男人,鏡頭焦點隨后轉(zhuǎn)移到女孩身上,她自信地看向鏡頭并擺出姿勢
經(jīng)過數(shù)輪測試,我們發(fā)現(xiàn)百度蒸汽機 2.0 的主要優(yōu)勢在于一步到位 —— 相比于其他視頻生成模型,它生成的內(nèi)容音畫俱全,而且需要再次調(diào)整的地方較少,經(jīng)常能夠達(dá)到直接可用的程度。
為讓 AI 學(xué)會「編劇」,革新模型架構(gòu)
從最初只能生成扭曲畫面、配點塑料音效 bgm,到如今的電影級運鏡,人物聲音精準(zhǔn)對上口型,AI 視頻生成需要跨越一條艱難的技術(shù)鴻溝。要真正做到「有聲有色」,模型必須同時攻克以下兩大核心難題。
一是時序?qū)R,視頻是按幀生成的,而語音是連續(xù)波形,這就導(dǎo)致兩者的采樣率和時間粒度不同。因此,音畫同步首要解決的便是口型與語音的毫秒級對齊,較高的延遲會給人「口型對不上聲」的不適感。二是多模態(tài)特征融合,語音不單單要對上口型,其自身還承載了節(jié)奏、情感、力度,它們與表情、動作、環(huán)境的協(xié)調(diào)決定了畫面是否自然,因此模型要能理解并生成跨模態(tài)細(xì)粒度特征,比如語調(diào)對應(yīng)的面部微表情變化。
此外,模型還要解決長時序生成與連貫性,數(shù)秒甚至十?dāng)?shù)秒內(nèi)保持音畫一致;環(huán)境音效與動作的匹配,如走路有腳步聲、門開有開門聲;以及多角色場景的交互,要精確定位到誰在說話、誰在聽,保證不同聲音與對應(yīng)人物同步,避免多人口型重疊或者角色錯位。
今年 5 月推出的谷歌 Veo 3 解決了音畫同步面臨的絕大多數(shù)挑戰(zhàn),但仍有不足,比如聚焦單人場景,多角色交互雖然也能生成,但規(guī)劃性與自然度不足。另外,它雖支持多語言,但非英文場景體驗很差。這些都限制了本土創(chuàng)作者的發(fā)揮空間,于是更符合「中國創(chuàng)作者體質(zhì)」的百度蒸汽機應(yīng)運而生。
作為國內(nèi)首個支持聲畫同步的視頻生成模型,蒸汽機的參數(shù)體量達(dá)到了百億,在實現(xiàn)畫面與音效、人聲協(xié)同創(chuàng)作的同時,更在多角色互動、豐富運鏡、跨場景表達(dá)方面深度優(yōu)化。此前在權(quán)威視頻生成評測基準(zhǔn)的圖生視頻榜單 VBench I2V 中,蒸汽機 1.0 以 89.38% 的總分成為了全球第一。
榜單地址:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
2.0 版的成績我們暫時還不知道,不過在實際體驗上,新版本的蒸汽機相對于 1.0 版在指令遵循、運鏡能力、敘事流暢度等維度上面取得了顯著提升。
從數(shù)據(jù)到模型,百度蒸汽機 2.0 在技術(shù)上帶來了一系列進(jìn)步。
在數(shù)據(jù)方面,模型利用大量多模態(tài)數(shù)據(jù)進(jìn)行了訓(xùn)練。在構(gòu)建數(shù)據(jù)集時,工程師利用多模態(tài)理解模型、語音識別模型對海量視頻語料的多模信號進(jìn)行抽取、數(shù)據(jù)清洗和對齊,其中包括內(nèi)容、主體、人聲、臺詞和環(huán)境音的抽取和對齊。百度重點打造了面向中文語音和語境的有聲視頻模型,模型訓(xùn)練加入了海量精選的中文語料庫,實現(xiàn)了 Veo 3 等模型目前不支持的中文能力。
同時,百度也完成了一些數(shù)據(jù)生成工作,通過少量專業(yè)人工精標(biāo),訓(xùn)練出專精的鏡頭語言理解模型,進(jìn)而產(chǎn)出海量的運鏡訓(xùn)練數(shù)據(jù)。
在實現(xiàn)視頻內(nèi)容中多角色身份、情感和互動邏輯的統(tǒng)一規(guī)劃時,我們會面臨一系列的新挑戰(zhàn),如角色規(guī)劃編排的合理性:需要讓 AI 能夠準(zhǔn)確理解用戶的輸入,確定「誰來說」、「什么時候說」;同時也要保證生成角色形神音容的一致性,解決角色的音色、語調(diào)、動作和表情跟用戶輸入表達(dá)匹配度,以及多角色對話的自然度。
百度蒸汽機 2.0 重點優(yōu)化了角色間交互的自然度和一致性,以保證有聲視頻的可用率。
在模型架構(gòu)方面,蒸汽機首創(chuàng)了 LMMP(Latent Multi-Modal Planner),能讓 AI 自行規(guī)劃出生成內(nèi)容里的多個角色身份、他們的臺詞、情感以及互動邏輯,帶來協(xié)調(diào)一致的畫面生成,呈現(xiàn)出更真實、更具表現(xiàn)力的多人對話互動。
作為一個基于擴散架構(gòu)的規(guī)劃思考模型,LMMP 在視頻生成前期會先生成規(guī)劃思考內(nèi)容,再基于思考內(nèi)容在擴散中后期完成視頻生成。它最大的特點是將「思考能力」融入視頻生成模型中,在敘事邏輯、鏡頭銜接、動作合理性等方面保持更強的一致性和可控性。
此外, 在完整的音視頻一體化生成系統(tǒng)中,Planner 和視頻生成是端到端訓(xùn)練優(yōu)化,以多目標(biāo)的方式保障規(guī)劃思考與視頻內(nèi)容的正確性。規(guī)劃層的思考與生成層的執(zhí)行相互校正,保證最終輸出的視頻在語義和邏輯等方面更加準(zhǔn)確與可靠。
百度工程師表示,未來他們還希望結(jié)合長視頻生成技術(shù)來實現(xiàn)更好的故事續(xù)寫和全局呈現(xiàn)?;蛟S過不了多久,我們就能夠欣賞到 AI 生成的長鏡頭視頻。
需求驅(qū)動
AI 的多模態(tài)還能更實用
不同于「實驗室里的模型」,蒸汽機開創(chuàng)了應(yīng)用驅(qū)動模型研發(fā)的新范式,即由應(yīng)用需求牽引、從百度自身生態(tài)里生長出來。該模型在追求技術(shù)指標(biāo)之外,緊扣百度現(xiàn)有的搜索、內(nèi)容、商業(yè)和云生態(tài),形成了場景催生模型 —— 模型反哺業(yè)務(wù)的應(yīng)用閉環(huán)。
目前,蒸汽機模型已經(jīng)深度融入到百度移動生態(tài)中,還進(jìn)一步強化了百度的全鏈路多模態(tài)體驗,讓搜索更具表現(xiàn)力,讓內(nèi)容更具創(chuàng)造力,讓商業(yè)更具想象力。對于用戶和企業(yè)而言,也獲得了更強的創(chuàng)造力和生產(chǎn)力工具。
創(chuàng)作門檻進(jìn)一步降低,更多中小型創(chuàng)作者以及普通用戶都有機會參與到專業(yè)級視頻的生成中,真正實現(xiàn)「人人皆可導(dǎo)演」。企業(yè)借助蒸汽機,可以在商業(yè)營銷、產(chǎn)品推廣等相關(guān)應(yīng)用場景中,以更低的成本、更快的周期產(chǎn)出高質(zhì)量視頻內(nèi)容。
曾參與《2012》《黑客帝國 3》《變形金剛 3》等多部好萊塢大片以及國產(chǎn)科幻劇《三體》視效工作的姚騏,借助百度蒸汽機 2.0,僅用一周左右就制作出一個時長 2 分鐘的科幻短片《歸途》。該作品共有 40 多個鏡頭,創(chuàng)作過程中每個鏡頭生成 3 次左右,共用 AI 生成了 120 多個片段素材。
《歸途》片段
如果按照傳統(tǒng)影視制作方式,這個科幻短片可能需要花費上百萬,AI 的運用讓這一成本直接降到了幾百塊(約 330 元),簡直是降維打擊
AI 視頻化表達(dá)的前景已經(jīng)全面鋪開,百度蒸汽機正扮演著「加速器」的角色。
文中視頻鏈接:https://mp.weixin.qq.com/s/xC7vjXpdtR5SI2UPATWEKw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.