谷歌Veo 3論文竟無一作者來自美國！揭秘零樣本「看懂」世界

2025-09-29 12:14:33　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導(dǎo)讀】DeepMind公開了有關(guān)Veo 3視頻模型最新論文！論文提出了「幀鏈」（Chain-of-Frames，CoF），認(rèn)為視頻模型也可能像通用大模型一樣具備推理能力。零樣本能力的涌現(xiàn)，表明視頻模型的「GPT-3時刻」來了。

大模型的「零樣本能力」，使自然語言處理從任務(wù)特定模型躍遷到了統(tǒng)一的、通用的基礎(chǔ)模型。

這樣的飛躍源于在規(guī)模數(shù)據(jù)上訓(xùn)練的大型生成式模型。

視頻模型是否可以實現(xiàn)同樣的飛躍，也向著具有通用視覺理解的方向發(fā)展。

在DeepMind近日發(fā)布的一篇論文中驗證了這一猜想：

視頻模型是「零樣本學(xué)習(xí)者與推理者」，這一論點在足夠強(qiáng)大的模型上幾乎都能得到驗證。

項目頁面：https://video-zero-shot.github.io/

論文地址：https://arxiv.org/abs/2509.20328

研究證明，Veo 3可以完成大量它并未專門訓(xùn)練過的任務(wù)，比如：

物體分割、邊緣檢測、圖像編輯、物理屬性理解、物體可操作性識別、工具使用模擬等。

在多項視覺任務(wù)中，Veo 3涌現(xiàn)出零樣本學(xué)習(xí)能力。這足以表明視頻模型正朝著統(tǒng)一的、通用的「視覺基礎(chǔ)模型」的方向發(fā)展——正如大語言模型成為語言基礎(chǔ)模型一樣。

谷歌發(fā)視覺版GPT-3模型

但無一作者來自美國

風(fēng)險投資合伙人、谷歌搜索前員工、康奈爾計算機(jī)科學(xué)畢業(yè)生Deedy，對新論文推崇備至：Veo 3就是視覺推理的GPT-3時刻。

意外的是，隨后Deedy發(fā)現(xiàn)論文作者中沒有一個來自美國。

這8位研究者中，3位來自加拿大，2位來自德國，來自中國、韓國、印度各一位。

這篇「GPT-3」級別的論文的作者，沒有一個來自美國，而且沒有一個人在美國完成本科教育。哪怕算上博士畢業(yè)院校，美國也只有兩所。

這不禁讓網(wǎng)友懷疑：美國科研真不行了嗎？

論文第一作者谷歌DeepMind實習(xí)生、在讀博士生Thadd?us Wiedemer澄清道：

新論文只是評估了Veo和Gemini團(tuán)隊實現(xiàn)和訓(xùn)練的模型。

也就是說，Veo 3主要是由其他團(tuán)隊實現(xiàn)和訓(xùn)練的，新論文≠Veo 3。

這篇論文和OpenAI的GPT-3論文，在標(biāo)題上具有極大的相似性，但谷歌新論文作者對Veo 3的實際貢獻(xiàn)明顯 < OpenAI論文作者對GPT-3的實際貢獻(xiàn)。

盡管GPT-3論文的核心在于證明了語言模型的少樣本學(xué)習(xí)能力，但論文作者的確訓(xùn)練出GPT-3。

論文鏈接：https://arxiv.org/abs/2005.14165

Thadd?us Wiedemer還指出，這項工作是在DeepMind多倫多完成的。

這就解釋了為什么來自加拿大的作者最多——

近水樓臺先得月，多倫多本地的加拿大人參與此項研究的機(jī)會更大。

不過，值得一提的是，Thadd?us Wiedemer在清華大學(xué)從事過約1年的研究實習(xí)。

此外，第二作者Yuxuan (Effie) Li來自國內(nèi)；作者Shixiang Shane Gu則是華裔加拿大人。

視頻模型是零樣本學(xué)習(xí)者和推理者

大模型日益展現(xiàn)出「零樣本學(xué)習(xí)」所衍生出的解決新任務(wù)的能力。

所謂零樣本學(xué)習(xí)，即僅通過提示詞指令即可完成任務(wù)，無需微調(diào)或添加任務(wù)特定模塊。

研究人員通過分析18,384個Veo 3生成的視頻，在62個定性任務(wù)和7個定量任務(wù)中，發(fā)現(xiàn)它可以完成多種未曾訓(xùn)練或適配的任務(wù)：

憑借感知、建模和操控視覺世界的能力，Veo 3展現(xiàn)出「幀鏈?zhǔn)剑–hain-of-Frames, CoF）」視覺推理的初步能力。

雖然目前的任務(wù)特定模型性能仍優(yōu)于零樣本視頻模型，但研究人員觀察到Veo 3相比Veo 2在表現(xiàn)上有顯著提升，這表明視頻模型能力正在快速演進(jìn)。

研究人員采用的方法很簡單：向Veo模型提供提示詞。

為何選擇Veo？

研究人員之所以選擇Veo，是因為它在text2video和image2video排行榜中表現(xiàn)突出。

為展現(xiàn)性能進(jìn)步的速度，研究人員還將Veo 3與其前代Veo 2進(jìn)行對比。

研究人員對多個視覺任務(wù)進(jìn)行了廣泛的定性研究，以評估視頻模型是否具備作為視覺基礎(chǔ)模型的潛力，并將發(fā)現(xiàn)歸納為四個層級能力體系，每一層都在前一層基礎(chǔ)上演化而來（見圖 1 和圖 2）：

感知：理解視覺信息的基本能力
建模：在感知物體的基礎(chǔ)上對視覺世界進(jìn)行建模
操控：對已建模的視覺世界進(jìn)行有意義的修改
推理：跨時間與空間的視覺推理能力

建模直覺物理與世界模型

視頻模型在感知視覺世界的基礎(chǔ)上，開始嘗試對其進(jìn)行建模。

對世界及其運(yùn)行原理（例如物理定律）進(jìn)行建模，是實現(xiàn)有效預(yù)測與行動的關(guān)鍵一步。

目前，已有多項研究在深度模型中探索并量化了直覺物理能力，論文中節(jié)選了其中部分具有代表性的任務(wù)進(jìn)行分析。

比如，Veo對物理規(guī)律的理解，體現(xiàn)在其能夠建模剛體與軟體的動力學(xué)以及它們之間的表面交互。

Veo還展現(xiàn)了對多種物理屬性的認(rèn)知，例如可燃性、空氣阻力對下落物體的影響、浮力、光學(xué)現(xiàn)象等。

除了物理屬性，Veo還理解抽象關(guān)系，這對于建?，F(xiàn)實世界也至關(guān)重要。

例如，Veo能夠區(qū)分玩具與筆記本電腦等其他物品。

研究人員還展示了Veo在識別模式、生成變體以及將整體結(jié)構(gòu)拆解為部分等方面的能力。

此外，Veo還能在視頻中跨時間與鏡頭變化維持對世界狀態(tài)的記憶。

從「思維鏈」到「幀鏈」

Veo能夠感知物體，并建模它們之間以及與環(huán)境的關(guān)系，因此它也具備對視覺世界進(jìn)行有意義操控的能力。

感知、建模與操控的能力相互融合，共同構(gòu)建起視覺推理的基礎(chǔ)。

與語言模型操控文字符號不同，視頻模型可以在真實世界的兩個關(guān)鍵維度——時間與空間中進(jìn)行操作。

這一過程類似于語言模型中的「思維鏈」（Chain-of-Thought，CoT），研究人員稱之為「幀鏈」（Chain-of-Frames，CoF）。

研究人員認(rèn)為，在語言領(lǐng)域中，思維鏈?zhǔn)鼓Ｐ湍軌蚪鉀Q推理類問題；同樣幀鏈（也即視頻生成）或許也能幫助視頻模型解決那些需要跨時間和空間逐步推理的復(fù)雜視覺問題。

盡管模型的表現(xiàn)尚不完美，但其在零樣本條件下解決這些問題的能力，展示了未來更強(qiáng)大視頻模型在視覺推理和規(guī)劃方面的巨大潛力。

定量評估

在對視頻模型的能力做了定性研究之后，研究人員從七個具體任務(wù)出發(fā)，對其進(jìn)行定量評估。

從視覺理解的不同方面來考察模型表現(xiàn)：

感知能力：評估Veo在邊緣檢測、圖像分割和目標(biāo)提取方面的能力；

操控能力：測試其在圖像編輯方面的表現(xiàn)；

推理能力：通過迷宮求解、視覺對稱性和視覺類比任務(wù)來評估。

邊緣檢測

研究發(fā)現(xiàn)，即便沒有專門為邊緣檢測任務(wù)訓(xùn)練，Veo 3仍然可以通過提示詞實現(xiàn)邊緣感知。

圖3展示了Veo 2和Veo 3在邊緣檢測任務(wù)上的表現(xiàn)。

圖4顯示在LVIS數(shù)據(jù)集的一個包含50張簡單場景圖像（每張圖像中含有1到3個大型物體）的子集上進(jìn)行類別無關(guān)的實例分割。

圖像分割

與經(jīng)典的實例分割或可提示分割不同，研究人員提示模型分割場景中的所有物體，而不指定物體類別或位置。

如圖4所示，Veo 3實現(xiàn)了0.74的mIoU（最佳幀 pass@10），與Nano Banana的0.73 相當(dāng)。

當(dāng)然，Veo 3的性能落后于像SAMv2這樣的定制模型，但仍然展示了卓越的零樣本分割能力。

物體提取

研究人員要求Veo提取并將所有動物排成一排，彼此之間用白色背景分隔，通過統(tǒng)計最后一幀中連接組件的數(shù)量，來判斷提取的動物數(shù)量是否正確。

圖5展示了示例和實驗結(jié)果。Veo 2的表現(xiàn)接近隨機(jī)，而Veo 3的pass@10最高可達(dá)92.6%。

圖6展示了一個編輯示例和評估結(jié)果，研究人員發(fā)現(xiàn)Veo 3尤其擅長在編輯過程中保留細(xì)節(jié)和紋理。

迷宮求解

在圖7的迷宮求解中，各種迷宮標(biāo)有起點（紅色）和終點（綠色）位置。

Veo 2即使在求解較小規(guī)模的迷宮時也表現(xiàn)不佳，這主要由于生成過程中早期出現(xiàn)了非法移動，Veo 3 表現(xiàn)得更好。

總體來看，視頻模型具備對數(shù)字視覺世界進(jìn)行操作與模擬的能力。

圖像編輯

圖像編輯，是指根據(jù)文本指令對圖像進(jìn)行操作（例如添加、移除物體或更改外觀）。

研究人員在Emu-edit數(shù)據(jù)集的一個隨機(jī)子集（共 30 個樣本）上評估了Veo的圖像編輯能力。

圖案對稱補(bǔ)全任務(wù)用于評估模型對空間推理的理解與應(yīng)用能力。圖8顯示，在這方面Veo 3的表現(xiàn)遠(yuǎn)超Veo 2和Nano Banana。

視覺類比任務(wù)用于評估模型理解物體變換及其關(guān)系的能力，屬于抽象推理的一種形式。

圖9顯示，盡管Veo 2在理解類比任務(wù)方面表現(xiàn)不佳，Veo 3能夠正確完成顏色變化和尺寸變化的樣例。

然而，在鏡像和旋轉(zhuǎn)類比上，兩種模型的表現(xiàn)均低于猜測水平（0.33），表明存在系統(tǒng)性錯誤偏差。

視覺領(lǐng)域的「GPT-3 時刻」

近年來，自然語言處理（NLP）領(lǐng)域的發(fā)展尤為迅猛。

這一趨勢由通用型大模型的崛起所推動，其在零樣本學(xué)習(xí)場景中解決新任務(wù)的能力，已使其取代了NLP中大多數(shù)的特定任務(wù)模型。

研究人員據(jù)此提出一個觀點：機(jī)器視覺也正處于類似的范式轉(zhuǎn)變臨界點，這一變革由大規(guī)模視頻模型所展現(xiàn)的涌現(xiàn)能力所驅(qū)動。

本論文的核心發(fā)現(xiàn)是：

Veo 3能夠以零樣本方式完成各類任務(wù)，涵蓋從感知、建模、操控，甚至到早期的視覺推理等整個視覺技術(shù)棧。

盡管其性能尚未盡善盡美，但Veo 2到Veo 3所展現(xiàn)出的顯著且持續(xù)的性能提升，表明視頻模型很有可能像語言模型之NLP一樣，成為視覺領(lǐng)域的通用型基礎(chǔ)模型。

研究人員認(rèn)為當(dāng)前視頻模型正值一個激動人心的時刻：

機(jī)器視覺可能正在經(jīng)歷類似NLP從特定任務(wù)模型向通用模型轉(zhuǎn)型的變革，而Veo 3等視頻模型憑借其完成從感知到視覺推理等多種任務(wù)的零樣本能力，或?qū)⒁I(lǐng)這一轉(zhuǎn)變，帶來視頻模型的「GPT-3 時刻」。

參考資料：

https://video-zero-shot.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

Gemini靈魂人物加盟xAI，馬斯克親自夾道歡迎！

量子位 2025-09-28 14:23:00
12 跟貼 12
SALMONN 音視頻理解大模型霸榜回歸！推理增強(qiáng)、高幀率全線突破

機(jī)器之心Pro 2025-09-29 15:16:07
0 跟貼 0

長視頻AI數(shù)字人來了！字節(jié)×浙大(1)

機(jī)器之心Pro 2025-09-04 17:27:37
0 跟貼 0

創(chuàng)智「小紅書」震撼上線(1)

機(jī)器之心Pro 2025-07-22 17:16:40
0 跟貼 0
Anthropic推出Claude Sonnet 4.5，號稱 “全球最佳編碼模型”

華爾街見聞官方 2025-09-30 04:57:59
0 跟貼 0

在具身智能的岔路口，這場論壇把數(shù)據(jù)、模型、Infra聊透了

機(jī)器之心Pro 2025-09-29 17:13:33
0 跟貼 0

零樣本「即插即用」！智源開源RoboBrain-X0，一個基座模型開動不同機(jī)器人

新智元 2025-09-29 18:32:07
0 跟貼 0
安徽第二城，又一個“起飛”機(jī)會已至？

每日經(jīng)濟(jì)新聞 2025-09-29 22:48:14
1 跟貼 1

格斗冠軍機(jī)器人突然發(fā)瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0
37歲1200億，他登頂今年最年輕富豪

華爾街見聞官方 2025-09-29 20:27:52
1 跟貼 1
何小鵬和雷軍真正的塑料兄弟

雷科技 2025-06-06 21:23:05
47 跟貼 47
全球權(quán)威評測榜單BIRD：螞蟻數(shù)科超越谷歌等公司位居第一

量子位 2025-09-29 14:53:54
0 跟貼 0
我在舊金山體驗谷歌的 Waymo 無人駕駛

倪云華 2025-09-29 13:08:36
3 跟貼 3
靜悄悄的餓了么，戰(zhàn)斗力到底有多強(qiáng)？

華商韜略 2025-04-30 14:18:35
18 跟貼 18
DeepSeek-V3.2-Exp第一時間上線華為云

量子位 2025-09-29 23:40:27
6 跟貼 6
AI理解語言的終極密碼，千問3向量模型開源，性能超谷歌OpenAI

機(jī)器之心Pro 2025-06-11 19:17:56
0 跟貼 0
在星巴克和瑞幸店里“枯坐”一整天，我們發(fā)現(xiàn)了咖啡的資本密碼

飯統(tǒng)戴老板 2025-09-10 19:37:27
32 跟貼 32
黃仁勛：中國的AI市場無論有沒有英偉達(dá)都會進(jìn)步與華為是競爭對手不是敵人

財聯(lián)社 2025-07-21 10:22:14
1 跟貼 1
獨家！DeepSeek最新模型上線，全新注意力機(jī)制基于北大ACL最佳論文

新智元 2025-09-29 20:38:00
5 跟貼 5
萬斯稱美國正考慮向烏克蘭提供“戰(zhàn)斧”導(dǎo)彈

央視新聞客戶端 2025-09-29 05:29:49
10167 跟貼 10167
菲律賓百般請求，中方終于放行，坐灘艦銹跡斑斑，解體已不可避免

一飲山河 2025-09-29 16:22:40
4 跟貼 4
9月27日國際七大消息，條條都是大事

大國見聞錄 2025-09-28 23:42:31
0 跟貼 0
三星堆公布重大發(fā)現(xiàn)！專家：種種跡象表明，三星堆可能爆發(fā)過內(nèi)戰(zhàn)，神權(quán)貴族集團(tuán)受到嚴(yán)重打擊，城市水系也因此改變

每日經(jīng)濟(jì)新聞 2025-09-27 22:27:12
12645 跟貼 12645
一邊購中國裝備，一邊在暗地捅刀？竟想當(dāng)“中轉(zhuǎn)站”泄密給美國！

嘻嘻笑 2025-09-29 07:41:34
0 跟貼 0
聚類分析的類型及計算原理

醫(yī)咖會 2025-09-12 20:07:29
0 跟貼 0
39歲，高校副教授不幸去世，其博士論文后記令人動容

超級數(shù)學(xué)建模 2025-09-29 23:29:57
5 跟貼 5
免費、開源！谷歌Gemini CLI火了(1)

機(jī)器之心Pro 2025-06-26 14:18:43
0 跟貼 0
高溫火焰噴向銅板，發(fā)生了不可思議的現(xiàn)象，銅熱著色是什么原理

胖達(dá)影視 2025-09-29 09:44:39
0 跟貼 0
清華女老師、微軟高管，敦煌網(wǎng)創(chuàng)始人做電商

每日經(jīng)濟(jì)新聞 2025-04-17 14:16:14
1 跟貼 1
伊朗傳來重大消息，超乎你的想象！

王焱Talk 2025-09-28 23:51:59
4 跟貼 4
黃仁勛：華為是一家非凡的科技公司他們的成就值得欽佩

每日經(jīng)濟(jì)新聞 2025-07-24 17:15:31
14 跟貼 14
余承東：我有一個夢想馬路上的所有車?yán)锒加腥A為的技術(shù)

每日經(jīng)濟(jì)新聞 2025-07-23 17:06:16
0 跟貼 0
被視覺舞蹈迷惑住了！網(wǎng)友：等一下等一下！我再數(shù)一數(shù)

河海觀潮 2025-09-29 16:55:48
0 跟貼 0
福特CEO：暫不考慮CarPlay Ultra，看好中國車企軟件體驗

IT之家 2025-09-29 21:14:49
0 跟貼 0
比亞迪王傳福：做大產(chǎn)業(yè)，做出中國制造業(yè)應(yīng)有的位置

每日經(jīng)濟(jì)新聞 2025-07-22 17:51:59
0 跟貼 0
研究生寫論文，到底有什么意義？

復(fù)旦張軍平 2025-09-29 20:00:00
0 跟貼 0
蔚來李斌：讓每一個蔚來車主都覺得購買蔚來的車是正確選擇

每日經(jīng)濟(jì)新聞 2025-07-07 17:30:53
0 跟貼 0
國外網(wǎng)友看：美國六代戰(zhàn)機(jī)命名為F47，熱評：PPT工程動工！

愛歌唱的叮當(dāng)貓 2025-09-29 13:11:29
0 跟貼 0
45歲張柏芝重慶出席活動，打扮貴氣美得像建模，現(xiàn)場比心人氣超高

星娛STAR 2025-09-27 22:36:03
8 跟貼 8
【招商房地產(chǎn)】二手房日均網(wǎng)簽面積高于去年同期水平——樣本城市周度高頻數(shù)據(jù)全追蹤

新浪財經(jīng) 2025-09-28 22:23:34
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

13538文章數(shù) 66186關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

時尚

家居

數(shù)碼

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

谷歌Veo 3論文竟無一作者來自美國！揭秘零樣本「看懂」世界

DeepSeek發(fā)布3.2新模型，API降價50%以上

特朗普稱內(nèi)塔尼亞胡已接受其加沙和平計劃

特朗普稱內(nèi)塔尼亞胡已接受其加沙和平計劃

1.3億賣掉西甲隊，中國資本的十年一夢

看小天后單依純處境，李健預(yù)言應(yīng)驗？

臭蝦供應(yīng)商背靠新希望 競標(biāo)卻自稱小企業(yè)

沖擊豪華高端SUV 極氪9X上市46.59萬起

態(tài)度原創(chuàng)

讀港校想省錢，社恐輸在起跑線

秋天，還是穿牛仔褲最過癮

重慶目耳 進(jìn)入金屬叢林

三星計劃于2026年推出256 TB PCIe 6.0 SSD 2027年實現(xiàn)512TB容量

美軍將領(lǐng)緊急會議主題披露

DeepSeek發(fā)布3.2新模型，API降價50%以上

1.3億賣掉西甲隊，中國資本的十年一夢

臭蝦供應(yīng)商背靠新希望競標(biāo)卻自稱小企業(yè)

讀港校想省錢，社恐輸在起跑線

秋天，還是穿牛仔褲最過癮

重慶目耳進(jìn)入金屬叢林