Google DeepMind 近日發(fā)表了一篇論文,詳細(xì)介紹了其生成式視頻模型 Veo 3 所展現(xiàn)出的“零樣本”學(xué)習(xí)與推理能力,并提出了一個(gè)與大型語(yǔ)言模型中的“思維鏈”相對(duì)應(yīng)的核心概念——“幀鏈”(CoF,Chain-of-Frames)。研究團(tuán)隊(duì)通過(guò)對(duì)超過(guò) 18,000 個(gè)生成視頻的分析,系統(tǒng)地展示了 Veo 3 在未經(jīng)過(guò)任何特定任務(wù)微調(diào)的情況下,解決從基礎(chǔ)感知到復(fù)雜視覺(jué)推理等一系列問(wèn)題的潛力。這篇題為《視頻模型是零樣本學(xué)習(xí)者和推理者》(Video models are zero-shot learners and reasoners)的論文,明確提出了一個(gè)論點(diǎn):正如 LLM(Large Language Model,大型語(yǔ)言模型)統(tǒng)一了自然語(yǔ)言處理領(lǐng)域,生成式視頻模型正走在成為機(jī)器視覺(jué)領(lǐng)域通用基礎(chǔ)模型的道路上。
圖丨相關(guān)論文(來(lái)源:arXiv)
在過(guò)去幾年中,自然語(yǔ)言處理(NLP,Natural Language Processing)領(lǐng)域經(jīng)歷了一場(chǎng)重大的變革,從為翻譯、摘要、問(wèn)答等每個(gè)任務(wù)構(gòu)建專(zhuān)門(mén)的“定制模型”,轉(zhuǎn)向了由一個(gè)統(tǒng)一的、可通過(guò)提示(prompting)解決多樣化問(wèn)題的 LLM 主導(dǎo)的時(shí)代。如今的機(jī)器視覺(jué)領(lǐng)域,在某種程度上正在復(fù)現(xiàn)NLP 變革前的狀態(tài):我們擁有在特定任務(wù)上表現(xiàn)卓越的模型,例如用于物體檢測(cè)的 YOLO 系列或用于圖像分割的 Segment Anything,但缺少一個(gè)僅通過(guò)指令就能解決開(kāi)放式視覺(jué)問(wèn)題的通用模型。DeepMind 的研究人員認(rèn)為,促使 LLM 能力涌現(xiàn)的核心要素——即在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集上訓(xùn)練大型生成模型——同樣適用于當(dāng)代的視頻模型。Veo 3 的實(shí)驗(yàn)結(jié)果,正是為了驗(yàn)證這一判斷。
此項(xiàng)研究的亮點(diǎn)在于,它借鑒了大型語(yǔ)言模型中廣為人知的“思維鏈”(CoT,Chain-of-Thought),并創(chuàng)造性地提出了一個(gè)視覺(jué)領(lǐng)域的平行概念——“幀鏈”(CoF,Chain-of-Frames)。思維鏈通過(guò)將復(fù)雜問(wèn)題分解為一系列中間推理步驟,并以文本形式逐步生成,極大地增強(qiáng)了語(yǔ)言模型的邏輯推理能力。
DeepMind 指出,視頻生成在本質(zhì)上是一個(gè)逐幀應(yīng)用變化的過(guò)程,這種時(shí)空上的序列生成,恰好為視覺(jué)問(wèn)題提供了一種內(nèi)在的、循序漸進(jìn)的解決方案,這便是“幀鏈”。語(yǔ)言模型操縱的是人類(lèi)發(fā)明的符號(hào),而視頻模型則直接在時(shí)間和空間這兩個(gè)物理維度上應(yīng)用改變。因此,幀鏈推理使得視頻模型有潛力通過(guò)一步步生成畫(huà)面,來(lái)解決需要多步規(guī)劃和動(dòng)態(tài)理解的復(fù)雜視覺(jué)任務(wù)。
為系統(tǒng)地評(píng)估 Veo 3 的能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋四個(gè)層級(jí)的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基礎(chǔ)的感知層面,Veo 3 展示了在沒(méi)有經(jīng)過(guò)顯式訓(xùn)練的情況下,完成一系列經(jīng)典計(jì)算機(jī)視覺(jué)任務(wù)的能力,包括圖像分割、邊緣檢測(cè)、關(guān)鍵點(diǎn)定位、超分辨率、盲去模糊和去噪。這些“涌現(xiàn)”出的能力,意味著視頻模型未來(lái)可能取代目前許多需要專(zhuān)門(mén)訓(xùn)練的視覺(jué)工具模型。
圖丨Veo 3 零樣本能力的定性概覽(來(lái)源:arXiv)
在感知之上是建模能力,即理解世界運(yùn)行的基本規(guī)律,尤其是直覺(jué)物理。Veo 3 能夠?qū)傮w和柔體的動(dòng)態(tài)、表面交互進(jìn)行建模,并表現(xiàn)出對(duì)浮力、空氣阻力、折射與反射等物理現(xiàn)象的理解。在一個(gè)模擬“視覺(jué)疊疊樂(lè)”(Visual Jenga)的任務(wù)中,模型能夠以物理上合理的方式移除場(chǎng)景中的物體。它還能理解物體功能,例如判斷哪些物品可以被放進(jìn)背包。此外,模型還能在時(shí)間和鏡頭移動(dòng)中保持對(duì)世界狀態(tài)的記憶,這構(gòu)成了其進(jìn)行更復(fù)雜操作的基礎(chǔ)。
在此之上,便是模型的操控能力。Veo 3 能夠執(zhí)行多樣的零樣本圖像編輯任務(wù),如背景移除、風(fēng)格遷移、圖像上色和修復(fù)。它還能根據(jù)涂鴉指令編輯圖像,將不同物體合成為一個(gè)協(xié)調(diào)的場(chǎng)景,或?qū)⒁粡堊耘男は褶D(zhuǎn)化為專(zhuān)業(yè)的商務(wù)頭像。這種對(duì)場(chǎng)景進(jìn)行合理修改的能力,使其可以想象復(fù)雜的交互,模擬靈巧的物體操控,例如演示如何卷一個(gè)墨西哥卷餅,或讓機(jī)器人手臂像人類(lèi)一樣自然地拿起錘子。
這一系列能力的集成,最終賦予了模型進(jìn)行視覺(jué)推理的能力。這正是“幀鏈”機(jī)制發(fā)揮關(guān)鍵作用的領(lǐng)域。在迷宮求解任務(wù)中,Veo 3 通過(guò)逐幀生成紅色方塊在白色路徑上的移動(dòng),最終停在綠色終點(diǎn),從而完成任務(wù)。其在 5x5 網(wǎng)格迷宮上的成功率(pass@10)達(dá)到了 78%,遠(yuǎn)高于其前代模型 Veo 2 的 14%。
圖丨Veo 3 在不同復(fù)雜度迷宮中的求解表現(xiàn)(來(lái)源:arXiv)
研究還將其與最近大熱的圖像模型 Nano Banana 和語(yǔ)言模型 Gemini 2.5 Pro 進(jìn)行了比較。結(jié)果顯示,靜態(tài)的圖像模型難以解決需要過(guò)程的迷宮任務(wù),而語(yǔ)言模型雖然在處理 ASCII 文本迷宮時(shí)表現(xiàn)優(yōu)異,但在直接理解圖像輸入時(shí)則面臨困難。這也凸顯出視頻模型通過(guò)“幀鏈”進(jìn)行逐步視覺(jué)推理的獨(dú)特優(yōu)勢(shì)。除了迷宮,Veo 3 還能完成視覺(jué)序列補(bǔ)全、連接匹配顏色、解決簡(jiǎn)單的數(shù)獨(dú)謎題和視覺(jué)對(duì)稱(chēng)性補(bǔ)全等任務(wù)。
不過(guò),團(tuán)隊(duì)表示,目前 Veo 3 在許多任務(wù)上的表現(xiàn)仍不及最先進(jìn)的專(zhuān)用模型,這與 LLM 發(fā)展的早期階段(如 GPT-3 與精調(diào)模型的對(duì)比)非常類(lèi)似。
此外,生成視頻的計(jì)算成本依然相當(dāng)高昂。但論文援引歷史數(shù)據(jù)指出,LLM 的推理成本正以每年 9 到 900 倍的速度下降,早期被認(rèn)為“部署成本過(guò)高”的通用模型,最終憑借其通用性和成本的快速下降取代了多數(shù)專(zhuān)用模型。如果 NLP 的發(fā)展軌跡可作為參考,同樣的趨勢(shì)也將在視覺(jué)領(lǐng)域上演。
參考資料:
1. https://arxiv.org/pdf/2509.20328
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.