谷歌Veo 3.1來了，但來得似乎有點倉促

2025-10-16 19:09:39　來源: DeepTech深科技

北京舉報

分享至

當?shù)貢r間 10 月 15 日，就在 OpenAI 于上月底推出全新的 Sora 2 后不到三周，谷歌也端出了自家視頻生成模型的最新版本——Veo 3.1。

根據(jù)谷歌官方博客公布的信息，Veo 3.1 作為今年 5 月推出的 Veo 3 的迭代更新，主打“更豐富的音頻、更強的敘事控制和增強的真實感”。這次更新同步登陸了谷歌旗下的多個平臺，包括面向普通創(chuàng)作者的 Flow 影視制作工具、供開發(fā)者使用的 Gemini API 以及企業(yè)級的 Vertex AI 平臺。

從技術規(guī)格上看，Veo 3.1 延續(xù)了前代的基礎架構，支持 720p 和 1080p 兩種分辨率輸出，幀率固定在 24fps。單次生成可以選擇 4 秒、6 秒或 8 秒三種時長，通過“Extend”延展功能，用戶理論上可以將視頻延長至 148 秒。

音頻能力的提升是 Veo 3.1 此次更新的重點之一。在之前的版本中，諸如“Frames to Video”（首尾幀插值）、“Ingredients to Video”（多圖像合成）和“Extend”（場景延展）等功能都不支持原生音頻生成，用戶必須在后期手動添加配樂或音效。現(xiàn)在這些功能全部打通了音頻通道，可以根據(jù)畫面內容自動生成對應的環(huán)境音、對話和音效。

此次更新中，谷歌還引入了幾項新的編輯功能?！癐nsert”功能允許用戶向現(xiàn)有場景中添加任何元素——從寫實的細節(jié)到奇幻的生物都可以，系統(tǒng)會自動處理陰影和場景光照，使新增內容能夠自然融入。還有”Remove“讓用戶可以無縫移除場景中的任意對象或角色，系統(tǒng)會重建背景和周圍環(huán)境。這些功能如果成熟，將極大地改變視頻后期制作的工作流程，但目前“Remove”功能尚未在 Flow 中上線，依舊處于“即將到來”的狀態(tài)中。

值得一提的是，Veo 3.1 終于開始支持豎屏 16:9 視頻的生成。此前 Veo 3 只能輸出橫屏 720p 內容，這在以 TikTok 和 Instagram Reels 為代表的短視頻時代顯得有些格格不入。谷歌此前曾承諾將 Veo 的視頻生成能力整合到 YouTube Shorts 中，支持豎屏格式的 Veo 3.1 或許正是為兌現(xiàn)這一承諾做準備。

不過，從目前的社區(qū)實測與反饋來看，除了功能上的豐富，Veo 3.1 在生成質量上貌似沒有特別大的提升（畢竟 Veo 3 本身的質量其實已經(jīng)不錯了）。AI 工具公司 Otherside AI 的創(chuàng)始人 Matt Shumer 在 X 上直言不諱地表達了失望，他認為 Veo 3.1“明顯不如 Sora 2”，并且“價格貴得多”。

圖丨相關推文（來源：X）

有博主在詳細測試后指出，Veo 3.1 在音效和對話生成上確有改進，特別是環(huán)境音的空間感更強了，但系統(tǒng)仍然缺乏自定義語音支持，用戶無法選擇特定的生成語音風格，這對需要品牌一致性的商業(yè)項目來說是個硬傷。當攝像機角度變化時，Veo 3.1 生成的人物面部特征和服裝細節(jié)容易出現(xiàn)不連貫，需要創(chuàng)作者精心設計提示詞來規(guī)避，而 Sora 2 在這方面的處理要自然得多。

筆者也進行了一些簡單的測試，發(fā)現(xiàn) Veo 3.1 在畫面精致程度、物理真實性等方面維持了 Veo 3 一貫的出色表現(xiàn)。

例如在駕駛跑車的場景中，它的表現(xiàn)依舊出色。無論是車身的光澤、海邊公路的光影變化，還是高速行駛帶來的動態(tài)模糊，Veo 3.1 都處理得比較到位，延續(xù)了它在制作電影感、廣告級大片上的優(yōu)勢。

在之前 Sora 2 上爆火的“AI 街頭采訪”這類場景里，Veo 3.1 的表現(xiàn)也相當不錯。從我生成的視頻來看，人物的口型與語音基本能對應上，表情和神態(tài)也比較自然，背景的路人活動也合情合理，沒有出現(xiàn)明顯的穿幫。

但一旦場景變得更復雜，尤其是在短視頻場景下，其短板就開始暴露了...

當筆者嘗試生成一個老年人在網(wǎng)吧打游戲的段子視頻，雖然主要的內容都已經(jīng)實現(xiàn)，但細節(jié)上的毛病不少，視頻里出現(xiàn)的中文文字依舊是亂碼。

更重要的是，作為主打功能的音頻，表現(xiàn)很不穩(wěn)定。有時生成的視頻完全沒聲音；有時雖然有對話，但個別（中文）字詞的讀音明顯是錯的，聽起來非常別扭。

有網(wǎng)友就評價道，Veo 的視頻像是高預算制作的廣告片，畫面精致但總有種“太完美”的疏離感（以及偶爾的“油膩感”）；Sora 2 則更像是 TikTok 或 Instagram Reels 上的素人視頻，有瑕疵、有抖動，但恰恰因此顯得真實可信（而且 Sora 2 那種與生俱來的、莫名的幽默感，似乎還沒有其他視頻生成軟件能夠匹敵）。這種差異在生成社交媒體內容時尤為明顯——當用戶需要那種手持拍攝的即興感時，Veo 的“電影化”反而成了負擔。筆者猜測，某種程度上，這可能也與 Veo 3 的訓練數(shù)據(jù)來自 YouTube 而非 TikTok 等短視頻平臺有關。

總體來看，Veo 3.1 更多的是在工具性上的豐富，對于需要高質量商業(yè)素材、穩(wěn)定視覺風格的專業(yè)用戶來說，它依然是可靠的選擇。但如果目標是制作社交媒體爆款，需要真人視頻的隨性感，市場上已經(jīng)有了更合適的選項。畢竟它也只是 0.1 的小版本提升，更大幅度的提高，可能還是要在 Veo 4 上才能看到了。

參考資料：

1.https://blog.google/technology/ai/veo-updates-flow/

2.https://venturebeat.com/ai/google-releases-new-ai-video-model-veo-3-1-in-flow-and-api-what-it-means-for

3.https://x.com/mattshumer_/status/1978503288992461205

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.