新智元報道
編輯:元宇
【新智元導(dǎo)讀】DeepMind公開了有關(guān)Veo 3視頻模型最新論文!論文提出了「幀鏈」(Chain-of-Frames,CoF),認(rèn)為視頻模型也可能像通用大模型一樣具備推理能力。零樣本能力的涌現(xiàn),表明視頻模型的「GPT-3時刻」來了。
大模型的「零樣本能力」,使自然語言處理從任務(wù)特定模型躍遷到了統(tǒng)一的、通用的基礎(chǔ)模型。
這樣的飛躍源于在規(guī)模數(shù)據(jù)上訓(xùn)練的大型生成式模型。
視頻模型是否可以實現(xiàn)同樣的飛躍,也向著具有通用視覺理解的方向發(fā)展。
在DeepMind近日發(fā)布的一篇論文中驗證了這一猜想:
視頻模型是「零樣本學(xué)習(xí)者與推理者」,這一論點在足夠強(qiáng)大的模型上幾乎都能得到驗證。
項目頁面:https://video-zero-shot.github.io/
論文地址:https://arxiv.org/abs/2509.20328
研究證明,Veo 3可以完成大量它并未專門訓(xùn)練過的任務(wù),比如:
物體分割、邊緣檢測、圖像編輯、物理屬性理解、物體可操作性識別、工具使用模擬等。
在多項視覺任務(wù)中,Veo 3涌現(xiàn)出零樣本學(xué)習(xí)能力。這足以表明視頻模型正朝著統(tǒng)一的、通用的「視覺基礎(chǔ)模型」的方向發(fā)展——正如大語言模型成為語言基礎(chǔ)模型一樣。
谷歌發(fā)視覺版GPT-3模型
但無一作者來自美國
風(fēng)險投資合伙人、谷歌搜索前員工、康奈爾計算機(jī)科學(xué)畢業(yè)生Deedy,對新論文推崇備至:Veo 3就是視覺推理的GPT-3時刻。
意外的是,隨后Deedy發(fā)現(xiàn)論文作者中沒有一個來自美國。
這8位研究者中,3位來自加拿大,2位來自德國,來自中國、韓國、印度各一位。
這篇「GPT-3」級別的論文的作者,沒有一個來自美國,而且沒有一個人在美國完成本科教育。哪怕算上博士畢業(yè)院校,美國也只有兩所。
這不禁讓網(wǎng)友懷疑:美國科研真不行了嗎?
論文第一作者谷歌DeepMind實習(xí)生、在讀博士生Thadd?us Wiedemer澄清道:
新論文只是評估了Veo和Gemini團(tuán)隊實現(xiàn)和訓(xùn)練的模型。
也就是說,Veo 3主要是由其他團(tuán)隊實現(xiàn)和訓(xùn)練的,新論文≠Veo 3。
這篇論文和OpenAI的GPT-3論文,在標(biāo)題上具有極大的相似性,但谷歌新論文作者對Veo 3的實際貢獻(xiàn)明顯 < OpenAI論文作者對GPT-3的實際貢獻(xiàn)。
盡管GPT-3論文的核心在于證明了語言模型的少樣本學(xué)習(xí)能力,但論文作者的確訓(xùn)練出GPT-3。
論文鏈接:https://arxiv.org/abs/2005.14165
Thadd?us Wiedemer還指出,這項工作是在DeepMind多倫多完成的。
這就解釋了為什么來自加拿大的作者最多——
近水樓臺先得月,多倫多本地的加拿大人參與此項研究的機(jī)會更大。
不過,值得一提的是,Thadd?us Wiedemer在清華大學(xué)從事過約1年的研究實習(xí)。
此外,第二作者Yuxuan (Effie) Li來自國內(nèi);作者Shixiang Shane Gu則是華裔加拿大人。
視頻模型是零樣本學(xué)習(xí)者和推理者
大模型日益展現(xiàn)出「零樣本學(xué)習(xí)」所衍生出的解決新任務(wù)的能力。
所謂零樣本學(xué)習(xí),即僅通過提示詞指令即可完成任務(wù),無需微調(diào)或添加任務(wù)特定模塊。
研究人員通過分析18,384個Veo 3生成的視頻,在62個定性任務(wù)和7個定量任務(wù)中,發(fā)現(xiàn)它可以完成多種未曾訓(xùn)練或適配的任務(wù):
憑借感知、建模和操控視覺世界的能力,Veo 3展現(xiàn)出「幀鏈?zhǔn)剑–hain-of-Frames, CoF)」視覺推理的初步能力。
雖然目前的任務(wù)特定模型性能仍優(yōu)于零樣本視頻模型,但研究人員觀察到Veo 3相比Veo 2在表現(xiàn)上有顯著提升,這表明視頻模型能力正在快速演進(jìn)。
研究人員采用的方法很簡單:向Veo模型提供提示詞。
為何選擇Veo?
研究人員之所以選擇Veo,是因為它在text2video和image2video排行榜中表現(xiàn)突出。
為展現(xiàn)性能進(jìn)步的速度,研究人員還將Veo 3與其前代Veo 2進(jìn)行對比。
研究人員對多個視覺任務(wù)進(jìn)行了廣泛的定性研究,以評估視頻模型是否具備作為視覺基礎(chǔ)模型的潛力,并將發(fā)現(xiàn)歸納為四個層級能力體系,每一層都在前一層基礎(chǔ)上演化而來(見圖 1 和圖 2):
感知:理解視覺信息的基本能力
建模:在感知物體的基礎(chǔ)上對視覺世界進(jìn)行建模
操控:對已建模的視覺世界進(jìn)行有意義的修改
推理:跨時間與空間的視覺推理能力
建模直覺物理與世界模型
視頻模型在感知視覺世界的基礎(chǔ)上,開始嘗試對其進(jìn)行建模。
對世界及其運(yùn)行原理(例如物理定律)進(jìn)行建模,是實現(xiàn)有效預(yù)測與行動的關(guān)鍵一步。
目前,已有多項研究在深度模型中探索并量化了直覺物理能力,論文中節(jié)選了其中部分具有代表性的任務(wù)進(jìn)行分析。
比如,Veo對物理規(guī)律的理解,體現(xiàn)在其能夠建模剛體與軟體的動力學(xué)以及它們之間的表面交互。
Veo還展現(xiàn)了對多種物理屬性的認(rèn)知,例如可燃性、空氣阻力對下落物體的影響、浮力、光學(xué)現(xiàn)象等。
除了物理屬性,Veo還理解抽象關(guān)系,這對于建?,F(xiàn)實世界也至關(guān)重要。
例如,Veo能夠區(qū)分玩具與筆記本電腦等其他物品。
研究人員還展示了Veo在識別模式、生成變體以及將整體結(jié)構(gòu)拆解為部分等方面的能力。
此外,Veo還能在視頻中跨時間與鏡頭變化維持對世界狀態(tài)的記憶。
從「思維鏈」到「幀鏈」
Veo能夠感知物體,并建模它們之間以及與環(huán)境的關(guān)系,因此它也具備對視覺世界進(jìn)行有意義操控的能力。
感知、建模與操控的能力相互融合,共同構(gòu)建起視覺推理的基礎(chǔ)。
與語言模型操控文字符號不同,視頻模型可以在真實世界的兩個關(guān)鍵維度——時間與空間中進(jìn)行操作。
這一過程類似于語言模型中的「思維鏈」(Chain-of-Thought,CoT),研究人員稱之為「幀鏈」(Chain-of-Frames,CoF)。
研究人員認(rèn)為,在語言領(lǐng)域中,思維鏈?zhǔn)鼓P湍軌蚪鉀Q推理類問題;同樣幀鏈(也即視頻生成)或許也能幫助視頻模型解決那些需要跨時間和空間逐步推理的復(fù)雜視覺問題。
盡管模型的表現(xiàn)尚不完美,但其在零樣本條件下解決這些問題的能力,展示了未來更強(qiáng)大視頻模型在視覺推理和規(guī)劃方面的巨大潛力。
定量評估
在對視頻模型的能力做了定性研究之后,研究人員從七個具體任務(wù)出發(fā),對其進(jìn)行定量評估。
從視覺理解的不同方面來考察模型表現(xiàn):
感知能力:評估Veo在邊緣檢測、圖像分割和目標(biāo)提取方面的能力;
操控能力:測試其在圖像編輯方面的表現(xiàn);
推理能力:通過迷宮求解、視覺對稱性和視覺類比任務(wù)來評估。
邊緣檢測
研究發(fā)現(xiàn),即便沒有專門為邊緣檢測任務(wù)訓(xùn)練,Veo 3仍然可以通過提示詞實現(xiàn)邊緣感知。
圖3展示了Veo 2和Veo 3在邊緣檢測任務(wù)上的表現(xiàn)。
圖4顯示在LVIS數(shù)據(jù)集的一個包含50張簡單場景圖像(每張圖像中含有1到3個大型物體)的子集上進(jìn)行類別無關(guān)的實例分割。
圖像分割
與經(jīng)典的實例分割或可提示分割不同,研究人員提示模型分割場景中的所有物體,而不指定物體類別或位置。
如圖4所示,Veo 3實現(xiàn)了0.74的mIoU(最佳幀 pass@10),與Nano Banana的0.73 相當(dāng)。
當(dāng)然,Veo 3的性能落后于像SAMv2這樣的定制模型,但仍然展示了卓越的零樣本分割能力。
物體提取
研究人員要求Veo提取并將所有動物排成一排,彼此之間用白色背景分隔,通過統(tǒng)計最后一幀中連接組件的數(shù)量,來判斷提取的動物數(shù)量是否正確。
圖5展示了示例和實驗結(jié)果。Veo 2的表現(xiàn)接近隨機(jī),而Veo 3的pass@10最高可達(dá)92.6%。
圖6展示了一個編輯示例和評估結(jié)果,研究人員發(fā)現(xiàn)Veo 3尤其擅長在編輯過程中保留細(xì)節(jié)和紋理。
迷宮求解
在圖7的迷宮求解中,各種迷宮標(biāo)有起點(紅色)和終點(綠色)位置。
Veo 2即使在求解較小規(guī)模的迷宮時也表現(xiàn)不佳,這主要由于生成過程中早期出現(xiàn)了非法移動,Veo 3 表現(xiàn)得更好。
總體來看,視頻模型具備對數(shù)字視覺世界進(jìn)行操作與模擬的能力。
圖像編輯
圖像編輯,是指根據(jù)文本指令對圖像進(jìn)行操作(例如添加、移除物體或更改外觀)。
研究人員在Emu-edit數(shù)據(jù)集的一個隨機(jī)子集(共 30 個樣本)上評估了Veo的圖像編輯能力。
圖案對稱補(bǔ)全任務(wù)用于評估模型對空間推理的理解與應(yīng)用能力。圖8顯示,在這方面Veo 3的表現(xiàn)遠(yuǎn)超Veo 2和Nano Banana。
視覺類比任務(wù)用于評估模型理解物體變換及其關(guān)系的能力,屬于抽象推理的一種形式。
圖9顯示,盡管Veo 2在理解類比任務(wù)方面表現(xiàn)不佳,Veo 3能夠正確完成顏色變化和尺寸變化的樣例。
然而,在鏡像和旋轉(zhuǎn)類比上,兩種模型的表現(xiàn)均低于猜測水平(0.33),表明存在系統(tǒng)性錯誤偏差。
視覺領(lǐng)域的 「GPT-3 時刻」
近年來,自然語言處理(NLP)領(lǐng)域的發(fā)展尤為迅猛。
這一趨勢由通用型大模型的崛起所推動,其在零樣本學(xué)習(xí)場景中解決新任務(wù)的能力,已使其取代了NLP中大多數(shù)的特定任務(wù)模型。
研究人員據(jù)此提出一個觀點:機(jī)器視覺也正處于類似的范式轉(zhuǎn)變臨界點,這一變革由大規(guī)模視頻模型所展現(xiàn)的涌現(xiàn)能力所驅(qū)動。
本論文的核心發(fā)現(xiàn)是:
Veo 3能夠以零樣本方式完成各類任務(wù),涵蓋從感知、建模、操控,甚至到早期的視覺推理等整個視覺技術(shù)棧。
盡管其性能尚未盡善盡美,但Veo 2到Veo 3所展現(xiàn)出的顯著且持續(xù)的性能提升,表明視頻模型很有可能像語言模型之NLP一樣,成為視覺領(lǐng)域的通用型基礎(chǔ)模型。
研究人員認(rèn)為當(dāng)前視頻模型正值一個激動人心的時刻:
機(jī)器視覺可能正在經(jīng)歷類似NLP從特定任務(wù)模型向通用模型轉(zhuǎn)型的變革,而Veo 3等視頻模型憑借其完成從感知到視覺推理等多種任務(wù)的零樣本能力,或?qū)⒁I(lǐng)這一轉(zhuǎn)變,帶來視頻模型的 「GPT-3 時刻」。
參考資料:
https://video-zero-shot.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.