網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepMind團(tuán)隊(duì)提出“幀鏈”理論，揭示Veo 3的通用智能潛力

2025-09-28 18:12:25　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

Google DeepMind 近日發(fā)表了一篇論文，詳細(xì)介紹了其生成式視頻模型 Veo 3 所展現(xiàn)出的“零樣本”學(xué)習(xí)與推理能力，并提出了一個(gè)與大型語(yǔ)言模型中的“思維鏈”相對(duì)應(yīng)的核心概念——“幀鏈”（CoF，Chain-of-Frames）。研究團(tuán)隊(duì)通過(guò)對(duì)超過(guò) 18,000 個(gè)生成視頻的分析，系統(tǒng)地展示了 Veo 3 在未經(jīng)過(guò)任何特定任務(wù)微調(diào)的情況下，解決從基礎(chǔ)感知到復(fù)雜視覺(jué)推理等一系列問(wèn)題的潛力。這篇題為《視頻模型是零樣本學(xué)習(xí)者和推理者》（Video models are zero-shot learners and reasoners）的論文，明確提出了一個(gè)論點(diǎn)：正如 LLM（Large Language Model，大型語(yǔ)言模型）統(tǒng)一了自然語(yǔ)言處理領(lǐng)域，生成式視頻模型正走在成為機(jī)器視覺(jué)領(lǐng)域通用基礎(chǔ)模型的道路上。

圖丨相關(guān)論文（來(lái)源：arXiv）

在過(guò)去幾年中，自然語(yǔ)言處理（NLP，Natural Language Processing）領(lǐng)域經(jīng)歷了一場(chǎng)重大的變革，從為翻譯、摘要、問(wèn)答等每個(gè)任務(wù)構(gòu)建專(zhuān)門(mén)的“定制模型”，轉(zhuǎn)向了由一個(gè)統(tǒng)一的、可通過(guò)提示（prompting）解決多樣化問(wèn)題的 LLM 主導(dǎo)的時(shí)代。如今的機(jī)器視覺(jué)領(lǐng)域，在某種程度上正在復(fù)現(xiàn)NLP 變革前的狀態(tài)：我們擁有在特定任務(wù)上表現(xiàn)卓越的模型，例如用于物體檢測(cè)的 YOLO 系列或用于圖像分割的 Segment Anything，但缺少一個(gè)僅通過(guò)指令就能解決開(kāi)放式視覺(jué)問(wèn)題的通用模型。DeepMind 的研究人員認(rèn)為，促使 LLM 能力涌現(xiàn)的核心要素——即在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集上訓(xùn)練大型生成模型——同樣適用于當(dāng)代的視頻模型。Veo 3 的實(shí)驗(yàn)結(jié)果，正是為了驗(yàn)證這一判斷。

此項(xiàng)研究的亮點(diǎn)在于，它借鑒了大型語(yǔ)言模型中廣為人知的“思維鏈”（CoT，Chain-of-Thought），并創(chuàng)造性地提出了一個(gè)視覺(jué)領(lǐng)域的平行概念——“幀鏈”（CoF，Chain-of-Frames）。思維鏈通過(guò)將復(fù)雜問(wèn)題分解為一系列中間推理步驟，并以文本形式逐步生成，極大地增強(qiáng)了語(yǔ)言模型的邏輯推理能力。

DeepMind 指出，視頻生成在本質(zhì)上是一個(gè)逐幀應(yīng)用變化的過(guò)程，這種時(shí)空上的序列生成，恰好為視覺(jué)問(wèn)題提供了一種內(nèi)在的、循序漸進(jìn)的解決方案，這便是“幀鏈”。語(yǔ)言模型操縱的是人類(lèi)發(fā)明的符號(hào)，而視頻模型則直接在時(shí)間和空間這兩個(gè)物理維度上應(yīng)用改變。因此，幀鏈推理使得視頻模型有潛力通過(guò)一步步生成畫(huà)面，來(lái)解決需要多步規(guī)劃和動(dòng)態(tài)理解的復(fù)雜視覺(jué)任務(wù)。

為系統(tǒng)地評(píng)估 Veo 3 的能力，研究團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋四個(gè)層級(jí)的能力框架：感知（Perception）、建模（Modeling）、操控（Manipulation）和推理（Reasoning）。在最基礎(chǔ)的感知層面，Veo 3 展示了在沒(méi)有經(jīng)過(guò)顯式訓(xùn)練的情況下，完成一系列經(jīng)典計(jì)算機(jī)視覺(jué)任務(wù)的能力，包括圖像分割、邊緣檢測(cè)、關(guān)鍵點(diǎn)定位、超分辨率、盲去模糊和去噪。這些“涌現(xiàn)”出的能力，意味著視頻模型未來(lái)可能取代目前許多需要專(zhuān)門(mén)訓(xùn)練的視覺(jué)工具模型。

圖丨Veo 3 零樣本能力的定性概覽（來(lái)源：arXiv）

在感知之上是建模能力，即理解世界運(yùn)行的基本規(guī)律，尤其是直覺(jué)物理。Veo 3 能夠?qū)傮w和柔體的動(dòng)態(tài)、表面交互進(jìn)行建模，并表現(xiàn)出對(duì)浮力、空氣阻力、折射與反射等物理現(xiàn)象的理解。在一個(gè)模擬“視覺(jué)疊疊樂(lè)”（Visual Jenga）的任務(wù)中，模型能夠以物理上合理的方式移除場(chǎng)景中的物體。它還能理解物體功能，例如判斷哪些物品可以被放進(jìn)背包。此外，模型還能在時(shí)間和鏡頭移動(dòng)中保持對(duì)世界狀態(tài)的記憶，這構(gòu)成了其進(jìn)行更復(fù)雜操作的基礎(chǔ)。

在此之上，便是模型的操控能力。Veo 3 能夠執(zhí)行多樣的零樣本圖像編輯任務(wù)，如背景移除、風(fēng)格遷移、圖像上色和修復(fù)。它還能根據(jù)涂鴉指令編輯圖像，將不同物體合成為一個(gè)協(xié)調(diào)的場(chǎng)景，或?qū)⒁粡堊耘男は褶D(zhuǎn)化為專(zhuān)業(yè)的商務(wù)頭像。這種對(duì)場(chǎng)景進(jìn)行合理修改的能力，使其可以想象復(fù)雜的交互，模擬靈巧的物體操控，例如演示如何卷一個(gè)墨西哥卷餅，或讓機(jī)器人手臂像人類(lèi)一樣自然地拿起錘子。

這一系列能力的集成，最終賦予了模型進(jìn)行視覺(jué)推理的能力。這正是“幀鏈”機(jī)制發(fā)揮關(guān)鍵作用的領(lǐng)域。在迷宮求解任務(wù)中，Veo 3 通過(guò)逐幀生成紅色方塊在白色路徑上的移動(dòng)，最終停在綠色終點(diǎn)，從而完成任務(wù)。其在 5x5 網(wǎng)格迷宮上的成功率（pass@10）達(dá)到了 78%，遠(yuǎn)高于其前代模型 Veo 2 的 14%。

圖丨Veo 3 在不同復(fù)雜度迷宮中的求解表現(xiàn)（來(lái)源：arXiv）

研究還將其與最近大熱的圖像模型 Nano Banana 和語(yǔ)言模型 Gemini 2.5 Pro 進(jìn)行了比較。結(jié)果顯示，靜態(tài)的圖像模型難以解決需要過(guò)程的迷宮任務(wù)，而語(yǔ)言模型雖然在處理 ASCII 文本迷宮時(shí)表現(xiàn)優(yōu)異，但在直接理解圖像輸入時(shí)則面臨困難。這也凸顯出視頻模型通過(guò)“幀鏈”進(jìn)行逐步視覺(jué)推理的獨(dú)特優(yōu)勢(shì)。除了迷宮，Veo 3 還能完成視覺(jué)序列補(bǔ)全、連接匹配顏色、解決簡(jiǎn)單的數(shù)獨(dú)謎題和視覺(jué)對(duì)稱(chēng)性補(bǔ)全等任務(wù)。

不過(guò)，團(tuán)隊(duì)表示，目前 Veo 3 在許多任務(wù)上的表現(xiàn)仍不及最先進(jìn)的專(zhuān)用模型，這與 LLM 發(fā)展的早期階段（如 GPT-3 與精調(diào)模型的對(duì)比）非常類(lèi)似。

此外，生成視頻的計(jì)算成本依然相當(dāng)高昂。但論文援引歷史數(shù)據(jù)指出，LLM 的推理成本正以每年 9 到 900 倍的速度下降，早期被認(rèn)為“部署成本過(guò)高”的通用模型，最終憑借其通用性和成本的快速下降取代了多數(shù)專(zhuān)用模型。如果 NLP 的發(fā)展軌跡可作為參考，同樣的趨勢(shì)也將在視覺(jué)領(lǐng)域上演。

參考資料：

1. https://arxiv.org/pdf/2509.20328

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.