夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌Veo 3論文竟無一作者來自美國!揭秘零樣本「看懂」世界

0
分享至


新智元報道

編輯:元宇

【新智元導(dǎo)讀】DeepMind公開了有關(guān)Veo 3視頻模型最新論文!論文提出了「幀鏈」(Chain-of-Frames,CoF),認(rèn)為視頻模型也可能像通用大模型一樣具備推理能力。零樣本能力的涌現(xiàn),表明視頻模型的「GPT-3時刻」來了。

大模型的「零樣本能力」,使自然語言處理從任務(wù)特定模型躍遷到了統(tǒng)一的、通用的基礎(chǔ)模型。

這樣的飛躍源于在規(guī)模數(shù)據(jù)上訓(xùn)練的大型生成式模型。

視頻模型是否可以實現(xiàn)同樣的飛躍,也向著具有通用視覺理解的方向發(fā)展。

在DeepMind近日發(fā)布的一篇論文中驗證了這一猜想:

視頻模型是「零樣本學(xué)習(xí)者與推理者」,這一論點在足夠強(qiáng)大的模型上幾乎都能得到驗證。


項目頁面:https://video-zero-shot.github.io/

論文地址:https://arxiv.org/abs/2509.20328

研究證明,Veo 3可以完成大量它并未專門訓(xùn)練過的任務(wù),比如:

物體分割、邊緣檢測、圖像編輯、物理屬性理解、物體可操作性識別、工具使用模擬等。


在多項視覺任務(wù)中,Veo 3涌現(xiàn)出零樣本學(xué)習(xí)能力。這足以表明視頻模型正朝著統(tǒng)一的、通用的「視覺基礎(chǔ)模型」的方向發(fā)展——正如大語言模型成為語言基礎(chǔ)模型一樣。

谷歌發(fā)視覺版GPT-3模型

但無一作者來自美國

風(fēng)險投資合伙人、谷歌搜索前員工、康奈爾計算機(jī)科學(xué)畢業(yè)生Deedy,對新論文推崇備至:Veo 3就是視覺推理的GPT-3時刻。


意外的是,隨后Deedy發(fā)現(xiàn)論文作者中沒有一個來自美國。


這8位研究者中,3位來自加拿大,2位來自德國,來自中國、韓國、印度各一位。

這篇「GPT-3」級別的論文的作者,沒有一個來自美國,而且沒有一個人在美國完成本科教育。哪怕算上博士畢業(yè)院校,美國也只有兩所。

這不禁讓網(wǎng)友懷疑:美國科研真不行了嗎?

論文第一作者谷歌DeepMind實習(xí)生、在讀博士生Thadd?us Wiedemer澄清道:

新論文只是評估了Veo和Gemini團(tuán)隊實現(xiàn)和訓(xùn)練的模型。


也就是說,Veo 3主要是由其他團(tuán)隊實現(xiàn)和訓(xùn)練的,新論文≠Veo 3。

這篇論文和OpenAI的GPT-3論文,在標(biāo)題上具有極大的相似性,但谷歌新論文作者對Veo 3的實際貢獻(xiàn)明顯 < OpenAI論文作者對GPT-3的實際貢獻(xiàn)。

盡管GPT-3論文的核心在于證明了語言模型的少樣本學(xué)習(xí)能力,但論文作者的確訓(xùn)練出GPT-3。


論文鏈接:https://arxiv.org/abs/2005.14165

Thadd?us Wiedemer還指出,這項工作是在DeepMind多倫多完成的。


這就解釋了為什么來自加拿大的作者最多——

近水樓臺先得月,多倫多本地的加拿大人參與此項研究的機(jī)會更大。

不過,值得一提的是,Thadd?us Wiedemer在清華大學(xué)從事過約1年的研究實習(xí)。


此外,第二作者Yuxuan (Effie) Li來自國內(nèi);作者Shixiang Shane Gu則是華裔加拿大人。


視頻模型是零樣本學(xué)習(xí)者和推理者

大模型日益展現(xiàn)出「零樣本學(xué)習(xí)」所衍生出的解決新任務(wù)的能力。

所謂零樣本學(xué)習(xí),即僅通過提示詞指令即可完成任務(wù),無需微調(diào)或添加任務(wù)特定模塊。

研究人員通過分析18,384個Veo 3生成的視頻,在62個定性任務(wù)和7個定量任務(wù)中,發(fā)現(xiàn)它可以完成多種未曾訓(xùn)練或適配的任務(wù):

憑借感知、建模和操控視覺世界的能力,Veo 3展現(xiàn)出「幀鏈?zhǔn)剑–hain-of-Frames, CoF)」視覺推理的初步能力。

雖然目前的任務(wù)特定模型性能仍優(yōu)于零樣本視頻模型,但研究人員觀察到Veo 3相比Veo 2在表現(xiàn)上有顯著提升,這表明視頻模型能力正在快速演進(jìn)。

研究人員采用的方法很簡單:向Veo模型提供提示詞。

為何選擇Veo?

研究人員之所以選擇Veo,是因為它在text2video和image2video排行榜中表現(xiàn)突出。

為展現(xiàn)性能進(jìn)步的速度,研究人員還將Veo 3與其前代Veo 2進(jìn)行對比。

研究人員對多個視覺任務(wù)進(jìn)行了廣泛的定性研究,以評估視頻模型是否具備作為視覺基礎(chǔ)模型的潛力,并將發(fā)現(xiàn)歸納為四個層級能力體系,每一層都在前一層基礎(chǔ)上演化而來(見圖 1 和圖 2):

  • 感知:理解視覺信息的基本能力

  • 建模:在感知物體的基礎(chǔ)上對視覺世界進(jìn)行建模

  • 操控:對已建模的視覺世界進(jìn)行有意義的修改

  • 推理:跨時間與空間的視覺推理能力



建模直覺物理與世界模型

視頻模型在感知視覺世界的基礎(chǔ)上,開始嘗試對其進(jìn)行建模。

對世界及其運(yùn)行原理(例如物理定律)進(jìn)行建模,是實現(xiàn)有效預(yù)測與行動的關(guān)鍵一步。

目前,已有多項研究在深度模型中探索并量化了直覺物理能力,論文中節(jié)選了其中部分具有代表性的任務(wù)進(jìn)行分析。

比如,Veo對物理規(guī)律的理解,體現(xiàn)在其能夠建模剛體與軟體的動力學(xué)以及它們之間的表面交互。

Veo還展現(xiàn)了對多種物理屬性的認(rèn)知,例如可燃性、空氣阻力對下落物體的影響、浮力、光學(xué)現(xiàn)象等。

除了物理屬性,Veo還理解抽象關(guān)系,這對于建?,F(xiàn)實世界也至關(guān)重要。

例如,Veo能夠區(qū)分玩具與筆記本電腦等其他物品。

研究人員還展示了Veo在識別模式、生成變體以及將整體結(jié)構(gòu)拆解為部分等方面的能力。

此外,Veo還能在視頻中跨時間與鏡頭變化維持對世界狀態(tài)的記憶。

從「思維鏈」到「幀鏈」

Veo能夠感知物體,并建模它們之間以及與環(huán)境的關(guān)系,因此它也具備對視覺世界進(jìn)行有意義操控的能力。

感知、建模與操控的能力相互融合,共同構(gòu)建起視覺推理的基礎(chǔ)。

與語言模型操控文字符號不同,視頻模型可以在真實世界的兩個關(guān)鍵維度——時間與空間中進(jìn)行操作。

這一過程類似于語言模型中的「思維鏈」(Chain-of-Thought,CoT),研究人員稱之為「幀鏈」(Chain-of-Frames,CoF)。

研究人員認(rèn)為,在語言領(lǐng)域中,思維鏈?zhǔn)鼓P湍軌蚪鉀Q推理類問題;同樣幀鏈(也即視頻生成)或許也能幫助視頻模型解決那些需要跨時間和空間逐步推理的復(fù)雜視覺問題。

盡管模型的表現(xiàn)尚不完美,但其在零樣本條件下解決這些問題的能力,展示了未來更強(qiáng)大視頻模型在視覺推理和規(guī)劃方面的巨大潛力。

定量評估

在對視頻模型的能力做了定性研究之后,研究人員從七個具體任務(wù)出發(fā),對其進(jìn)行定量評估。

從視覺理解的不同方面來考察模型表現(xiàn):

感知能力:評估Veo在邊緣檢測、圖像分割和目標(biāo)提取方面的能力;

操控能力:測試其在圖像編輯方面的表現(xiàn);

推理能力:通過迷宮求解、視覺對稱性和視覺類比任務(wù)來評估。

邊緣檢測


研究發(fā)現(xiàn),即便沒有專門為邊緣檢測任務(wù)訓(xùn)練,Veo 3仍然可以通過提示詞實現(xiàn)邊緣感知。

圖3展示了Veo 2和Veo 3在邊緣檢測任務(wù)上的表現(xiàn)。


圖4顯示在LVIS數(shù)據(jù)集的一個包含50張簡單場景圖像(每張圖像中含有1到3個大型物體)的子集上進(jìn)行類別無關(guān)的實例分割。

圖像分割

與經(jīng)典的實例分割或可提示分割不同,研究人員提示模型分割場景中的所有物體,而不指定物體類別或位置。

如圖4所示,Veo 3實現(xiàn)了0.74的mIoU(最佳幀 pass@10),與Nano Banana的0.73 相當(dāng)。

當(dāng)然,Veo 3的性能落后于像SAMv2這樣的定制模型,但仍然展示了卓越的零樣本分割能力。

物體提取

研究人員要求Veo提取并將所有動物排成一排,彼此之間用白色背景分隔,通過統(tǒng)計最后一幀中連接組件的數(shù)量,來判斷提取的動物數(shù)量是否正確。


圖5展示了示例和實驗結(jié)果。Veo 2的表現(xiàn)接近隨機(jī),而Veo 3的pass@10最高可達(dá)92.6%。


圖6展示了一個編輯示例和評估結(jié)果,研究人員發(fā)現(xiàn)Veo 3尤其擅長在編輯過程中保留細(xì)節(jié)和紋理。

迷宮求解


在圖7的迷宮求解中,各種迷宮標(biāo)有起點(紅色)和終點(綠色)位置。

Veo 2即使在求解較小規(guī)模的迷宮時也表現(xiàn)不佳,這主要由于生成過程中早期出現(xiàn)了非法移動,Veo 3 表現(xiàn)得更好。

總體來看,視頻模型具備對數(shù)字視覺世界進(jìn)行操作與模擬的能力。

圖像編輯

圖像編輯,是指根據(jù)文本指令對圖像進(jìn)行操作(例如添加、移除物體或更改外觀)。

研究人員在Emu-edit數(shù)據(jù)集的一個隨機(jī)子集(共 30 個樣本)上評估了Veo的圖像編輯能力。


圖案對稱補(bǔ)全任務(wù)用于評估模型對空間推理的理解與應(yīng)用能力。圖8顯示,在這方面Veo 3的表現(xiàn)遠(yuǎn)超Veo 2和Nano Banana。

視覺類比任務(wù)用于評估模型理解物體變換及其關(guān)系的能力,屬于抽象推理的一種形式。


圖9顯示,盡管Veo 2在理解類比任務(wù)方面表現(xiàn)不佳,Veo 3能夠正確完成顏色變化和尺寸變化的樣例。

然而,在鏡像和旋轉(zhuǎn)類比上,兩種模型的表現(xiàn)均低于猜測水平(0.33),表明存在系統(tǒng)性錯誤偏差。

視覺領(lǐng)域的 「GPT-3 時刻」

近年來,自然語言處理(NLP)領(lǐng)域的發(fā)展尤為迅猛。

這一趨勢由通用型大模型的崛起所推動,其在零樣本學(xué)習(xí)場景中解決新任務(wù)的能力,已使其取代了NLP中大多數(shù)的特定任務(wù)模型。

研究人員據(jù)此提出一個觀點:機(jī)器視覺也正處于類似的范式轉(zhuǎn)變臨界點,這一變革由大規(guī)模視頻模型所展現(xiàn)的涌現(xiàn)能力所驅(qū)動。

本論文的核心發(fā)現(xiàn)是:

Veo 3能夠以零樣本方式完成各類任務(wù),涵蓋從感知、建模、操控,甚至到早期的視覺推理等整個視覺技術(shù)棧。

盡管其性能尚未盡善盡美,但Veo 2到Veo 3所展現(xiàn)出的顯著且持續(xù)的性能提升,表明視頻模型很有可能像語言模型之NLP一樣,成為視覺領(lǐng)域的通用型基礎(chǔ)模型。

研究人員認(rèn)為當(dāng)前視頻模型正值一個激動人心的時刻:

機(jī)器視覺可能正在經(jīng)歷類似NLP從特定任務(wù)模型向通用模型轉(zhuǎn)型的變革,而Veo 3等視頻模型憑借其完成從感知到視覺推理等多種任務(wù)的零樣本能力,或?qū)⒁I(lǐng)這一轉(zhuǎn)變,帶來視頻模型的 「GPT-3 時刻」。

參考資料:

https://video-zero-shot.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
動物真的會報恩嗎?網(wǎng)友:學(xué)到了,下次做完好事就去買彩票

動物真的會報恩嗎?網(wǎng)友:學(xué)到了,下次做完好事就去買彩票

帶你感受人間冷暖
2025-09-22 00:10:09
雷軍演講,被罵上熱搜

雷軍演講,被罵上熱搜

梳子姐
2025-09-28 11:29:09
為啥我們國家從2025年2月份開始就不再公布信用卡的違約數(shù)據(jù)?

為啥我們國家從2025年2月份開始就不再公布信用卡的違約數(shù)據(jù)?

流蘇晚晴
2025-09-28 18:54:40
劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

路飛寫代碼
2025-09-29 09:41:52
哀悼!知名溫州籍浙商陳光旭逝世

哀悼!知名溫州籍浙商陳光旭逝世

極目新聞
2025-09-29 17:01:59
意甲最新積分戰(zhàn)報:前3積分相同,衛(wèi)冕冠軍倒下,萊切補(bǔ)時絕平

意甲最新積分戰(zhàn)報:前3積分相同,衛(wèi)冕冠軍倒下,萊切補(bǔ)時絕平

足球狗說
2025-09-29 07:57:22
放話了,快船隊總裁表示,他的球隊無需擔(dān)心NBA正在進(jìn)行的調(diào)查

放話了,快船隊總裁表示,他的球隊無需擔(dān)心NBA正在進(jìn)行的調(diào)查

好火子
2025-09-30 02:41:26
美國為啥無腦支持以色列?

美國為啥無腦支持以色列?

朝不慵
2025-09-23 11:52:33
華南理工又發(fā)生一起車禍,2天前遇難大一女生不是農(nóng)村獨女

華南理工又發(fā)生一起車禍,2天前遇難大一女生不是農(nóng)村獨女

九方魚論
2025-09-29 19:25:56
華南理工大肇事者身份曝光,畢業(yè)于北京舞蹈學(xué)院,是老師也是黨員

華南理工大肇事者身份曝光,畢業(yè)于北京舞蹈學(xué)院,是老師也是黨員

深析古今
2025-09-29 09:00:19
9月29日俄烏:烏無人機(jī)空中摧毀俄直升機(jī),俄發(fā)電廠被炸

9月29日俄烏:烏無人機(jī)空中摧毀俄直升機(jī),俄發(fā)電廠被炸

山河路口
2025-09-29 18:15:40
虛情假意是什么樣?看《天聲一對》陳紫函、陳喬恩夫婦就知道了

虛情假意是什么樣?看《天聲一對》陳紫函、陳喬恩夫婦就知道了

阿廢冷眼觀察所
2025-09-28 14:27:17
突然被曝:上海門店全部關(guān)閉!曾是“排隊王”,網(wǎng)友:還能退款太良心

突然被曝:上海門店全部關(guān)閉!曾是“排隊王”,網(wǎng)友:還能退款太良心

新民晚報
2025-09-26 15:50:09
青島一銀行解散!

青島一銀行解散!

膠州西南鄉(xiāng)
2025-09-29 14:14:52
戚薇夫婦帶兒子巴黎逛街,李承鉉180高個,圓寸素顏仍帥的很突出

戚薇夫婦帶兒子巴黎逛街,李承鉉180高個,圓寸素顏仍帥的很突出

八怪娛
2025-09-29 09:20:18
王健林和萬達(dá)“自救”這三年:引入600億戰(zhàn)投,賣了超80座萬達(dá)廣場,仍在努力走出債務(wù)泥潭

王健林和萬達(dá)“自救”這三年:引入600億戰(zhàn)投,賣了超80座萬達(dá)廣場,仍在努力走出債務(wù)泥潭

時代周報
2025-09-29 23:18:08
王健林被限制高消費,王思聰在新加坡當(dāng)背包客,一個時代的遠(yuǎn)去!

王健林被限制高消費,王思聰在新加坡當(dāng)背包客,一個時代的遠(yuǎn)去!

BenSir本色說
2025-09-28 22:34:44
“出差遭老板性侵”當(dāng)事人崔麗麗怒懟網(wǎng)友:開價2000萬私了本意是戲謔和怒斥對方虛偽,多久報案是我的權(quán)利

“出差遭老板性侵”當(dāng)事人崔麗麗怒懟網(wǎng)友:開價2000萬私了本意是戲謔和怒斥對方虛偽,多久報案是我的權(quán)利

極目新聞
2025-09-29 10:16:33
漢奸吳藍(lán)田:勾引女干部,解放后躲上海當(dāng)鞋販,因托弟弟賣房暴露

漢奸吳藍(lán)田:勾引女干部,解放后躲上海當(dāng)鞋販,因托弟弟賣房暴露

柳絮憶史
2025-09-30 06:30:03
上海區(qū)長呂鳴,調(diào)任北京門頭溝區(qū)代區(qū)長

上海區(qū)長呂鳴,調(diào)任北京門頭溝區(qū)代區(qū)長

觀察者網(wǎng)
2025-09-29 13:53:03
2025-09-30 07:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13538文章數(shù) 66186關(guān)注度
往期回顧 全部

科技要聞

DeepSeek發(fā)布3.2新模型,API降價50%以上

頭條要聞

特朗普稱內(nèi)塔尼亞胡已接受其加沙和平計劃

頭條要聞

特朗普稱內(nèi)塔尼亞胡已接受其加沙和平計劃

體育要聞

1.3億賣掉西甲隊,中國資本的十年一夢

娛樂要聞

看小天后單依純處境,李健預(yù)言應(yīng)驗?

財經(jīng)要聞

臭蝦供應(yīng)商背靠新希望 競標(biāo)卻自稱小企業(yè)

汽車要聞

沖擊豪華高端SUV 極氪9X上市46.59萬起

態(tài)度原創(chuàng)

本地
時尚
家居
數(shù)碼
軍事航空

本地新聞

讀港校想省錢,社恐輸在起跑線

秋天,還是穿牛仔褲最過癮

家居要聞

重慶目耳 進(jìn)入金屬叢林

數(shù)碼要聞

三星計劃于2026年推出256 TB PCIe 6.0 SSD 2027年實現(xiàn)512TB容量

軍事要聞

美軍將領(lǐng)緊急會議主題披露

無障礙瀏覽 進(jìn)入關(guān)懷版 人人操很很操| 亚洲成AV人片高潮喷水| 一区二区三区四区五区自拍| www.色鬼7777| 国产嫖妓视频一产二产三产| 欧美黄色性爱网站| 无套中出丰满人妻无码| 最新av中文网资源| 日本有码专区| 色欲AV伊人久久大香线蕉影院| 任你躁国语自产一区在线播放| 国产精品视频无码中出| 国产精品三级av及在线观看| 日韩精品ZO0| 欧美日韩性爱视频| 亚洲一区二区三区中文字幕5566| 性欧美videofree厨房| 国产av无码专区亚洲av琪琪| 日韩AV资源| 九九久久人妻一区精品色| 在线观看国产高潮| 国产精品露脸国语对白| 亚洲精品国产精品国在线| 午夜欧美一区二区三区在线播放| 蜜桃精品日韩一区二区三区| 欧美亚洲日本国产综合在线美利坚| 久久 亚洲援| 日本一区二区三区视频视频| 无套高潮激情| 日本一卡二卡3卡四卡免费| 啊灬啊灬啊灬快灬高潮少妇 | 国产aⅴ无码专区亚洲av麻豆| 精品成人18秘 亚洲AV播放| 中文字幕一区二区久久综合| 无码一区亚洲| 久久久久熟女| 亚洲日韩久热中文字幕| 最新国产乱伦AV| 厨房玩弄人妻| 真人与拘做受免费视频一| 在线观看国产精美视频|