當?shù)貢r間 10 月 15 日,就在 OpenAI 于上月底推出全新的 Sora 2 后不到三周,谷歌也端出了自家視頻生成模型的最新版本——Veo 3.1。
根據(jù)谷歌官方博客公布的信息,Veo 3.1 作為今年 5 月推出的 Veo 3 的迭代更新,主打“更豐富的音頻、更強的敘事控制和增強的真實感”。這次更新同步登陸了谷歌旗下的多個平臺,包括面向普通創(chuàng)作者的 Flow 影視制作工具、供開發(fā)者使用的 Gemini API 以及企業(yè)級的 Vertex AI 平臺。
從技術規(guī)格上看,Veo 3.1 延續(xù)了前代的基礎架構,支持 720p 和 1080p 兩種分辨率輸出,幀率固定在 24fps。單次生成可以選擇 4 秒、6 秒或 8 秒三種時長,通過“Extend”延展功能,用戶理論上可以將視頻延長至 148 秒。
音頻能力的提升是 Veo 3.1 此次更新的重點之一。在之前的版本中,諸如“Frames to Video”(首尾幀插值)、“Ingredients to Video”(多圖像合成)和“Extend”(場景延展)等功能都不支持原生音頻生成,用戶必須在后期手動添加配樂或音效。現(xiàn)在這些功能全部打通了音頻通道,可以根據(jù)畫面內容自動生成對應的環(huán)境音、對話和音效。
此次更新中,谷歌還引入了幾項新的編輯功能?!癐nsert”功能允許用戶向現(xiàn)有場景中添加任何元素——從寫實的細節(jié)到奇幻的生物都可以,系統(tǒng)會自動處理陰影和場景光照,使新增內容能夠自然融入。還有”Remove“讓用戶可以無縫移除場景中的任意對象或角色,系統(tǒng)會重建背景和周圍環(huán)境。這些功能如果成熟,將極大地改變視頻后期制作的工作流程,但目前“Remove”功能尚未在 Flow 中上線,依舊處于“即將到來”的狀態(tài)中。
值得一提的是,Veo 3.1 終于開始支持豎屏 16:9 視頻的生成。此前 Veo 3 只能輸出橫屏 720p 內容,這在以 TikTok 和 Instagram Reels 為代表的短視頻時代顯得有些格格不入。谷歌此前曾承諾將 Veo 的視頻生成能力整合到 YouTube Shorts 中,支持豎屏格式的 Veo 3.1 或許正是為兌現(xiàn)這一承諾做準備。
不過,從目前的社區(qū)實測與反饋來看,除了功能上的豐富,Veo 3.1 在生成質量上貌似沒有特別大的提升(畢竟 Veo 3 本身的質量其實已經(jīng)不錯了)。AI 工具公司 Otherside AI 的創(chuàng)始人 Matt Shumer 在 X 上直言不諱地表達了失望,他認為 Veo 3.1“明顯不如 Sora 2”,并且“價格貴得多”。
圖丨相關推文(來源:X)
有博主在詳細測試后指出,Veo 3.1 在音效和對話生成上確有改進,特別是環(huán)境音的空間感更強了,但系統(tǒng)仍然缺乏自定義語音支持,用戶無法選擇特定的生成語音風格,這對需要品牌一致性的商業(yè)項目來說是個硬傷。當攝像機角度變化時,Veo 3.1 生成的人物面部特征和服裝細節(jié)容易出現(xiàn)不連貫,需要創(chuàng)作者精心設計提示詞來規(guī)避,而 Sora 2 在這方面的處理要自然得多。
筆者也進行了一些簡單的測試,發(fā)現(xiàn) Veo 3.1 在畫面精致程度、物理真實性等方面維持了 Veo 3 一貫的出色表現(xiàn)。
例如在駕駛跑車的場景中,它的表現(xiàn)依舊出色。無論是車身的光澤、海邊公路的光影變化,還是高速行駛帶來的動態(tài)模糊,Veo 3.1 都處理得比較到位,延續(xù)了它在制作電影感、廣告級大片上的優(yōu)勢。
在之前 Sora 2 上爆火的“AI 街頭采訪”這類場景里,Veo 3.1 的表現(xiàn)也相當不錯。從我生成的視頻來看,人物的口型與語音基本能對應上,表情和神態(tài)也比較自然,背景的路人活動也合情合理,沒有出現(xiàn)明顯的穿幫。
但一旦場景變得更復雜,尤其是在短視頻場景下,其短板就開始暴露了...
當筆者嘗試生成一個老年人在網(wǎng)吧打游戲的段子視頻,雖然主要的內容都已經(jīng)實現(xiàn),但細節(jié)上的毛病不少,視頻里出現(xiàn)的中文文字依舊是亂碼。
更重要的是,作為主打功能的音頻,表現(xiàn)很不穩(wěn)定。有時生成的視頻完全沒聲音;有時雖然有對話,但個別(中文)字詞的讀音明顯是錯的,聽起來非常別扭。
有網(wǎng)友就評價道,Veo 的視頻像是高預算制作的廣告片,畫面精致但總有種“太完美”的疏離感(以及偶爾的“油膩感”);Sora 2 則更像是 TikTok 或 Instagram Reels 上的素人視頻,有瑕疵、有抖動,但恰恰因此顯得真實可信(而且 Sora 2 那種與生俱來的、莫名的幽默感,似乎還沒有其他視頻生成軟件能夠匹敵)。這種差異在生成社交媒體內容時尤為明顯——當用戶需要那種手持拍攝的即興感時,Veo 的“電影化”反而成了負擔。筆者猜測,某種程度上,這可能也與 Veo 3 的訓練數(shù)據(jù)來自 YouTube 而非 TikTok 等短視頻平臺有關。
總體來看,Veo 3.1 更多的是在工具性上的豐富,對于需要高質量商業(yè)素材、穩(wěn)定視覺風格的專業(yè)用戶來說,它依然是可靠的選擇。但如果目標是制作社交媒體爆款,需要真人視頻的隨性感,市場上已經(jīng)有了更合適的選項。畢竟它也只是 0.1 的小版本提升,更大幅度的提高,可能還是要在 Veo 4 上才能看到了。
參考資料:
1.https://blog.google/technology/ai/veo-updates-flow/
2.https://venturebeat.com/ai/google-releases-new-ai-video-model-veo-3-1-in-flow-and-api-what-it-means-for
3.https://x.com/mattshumer_/status/1978503288992461205
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.