夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepMind團(tuán)隊(duì)提出“幀鏈”理論,揭示Veo 3的通用智能潛力

0
分享至

Google DeepMind 近日發(fā)表了一篇論文,詳細(xì)介紹了其生成式視頻模型 Veo 3 所展現(xiàn)出的“零樣本”學(xué)習(xí)與推理能力,并提出了一個(gè)與大型語(yǔ)言模型中的“思維鏈”相對(duì)應(yīng)的核心概念——“幀鏈”(CoF,Chain-of-Frames)。研究團(tuán)隊(duì)通過(guò)對(duì)超過(guò) 18,000 個(gè)生成視頻的分析,系統(tǒng)地展示了 Veo 3 在未經(jīng)過(guò)任何特定任務(wù)微調(diào)的情況下,解決從基礎(chǔ)感知到復(fù)雜視覺(jué)推理等一系列問(wèn)題的潛力。這篇題為《視頻模型是零樣本學(xué)習(xí)者和推理者》(Video models are zero-shot learners and reasoners)的論文,明確提出了一個(gè)論點(diǎn):正如 LLM(Large Language Model,大型語(yǔ)言模型)統(tǒng)一了自然語(yǔ)言處理領(lǐng)域,生成式視頻模型正走在成為機(jī)器視覺(jué)領(lǐng)域通用基礎(chǔ)模型的道路上。


圖丨相關(guān)論文(來(lái)源:arXiv)

在過(guò)去幾年中,自然語(yǔ)言處理(NLP,Natural Language Processing)領(lǐng)域經(jīng)歷了一場(chǎng)重大的變革,從為翻譯、摘要、問(wèn)答等每個(gè)任務(wù)構(gòu)建專(zhuān)門(mén)的“定制模型”,轉(zhuǎn)向了由一個(gè)統(tǒng)一的、可通過(guò)提示(prompting)解決多樣化問(wèn)題的 LLM 主導(dǎo)的時(shí)代。如今的機(jī)器視覺(jué)領(lǐng)域,在某種程度上正在復(fù)現(xiàn)NLP 變革前的狀態(tài):我們擁有在特定任務(wù)上表現(xiàn)卓越的模型,例如用于物體檢測(cè)的 YOLO 系列或用于圖像分割的 Segment Anything,但缺少一個(gè)僅通過(guò)指令就能解決開(kāi)放式視覺(jué)問(wèn)題的通用模型。DeepMind 的研究人員認(rèn)為,促使 LLM 能力涌現(xiàn)的核心要素——即在網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)集上訓(xùn)練大型生成模型——同樣適用于當(dāng)代的視頻模型。Veo 3 的實(shí)驗(yàn)結(jié)果,正是為了驗(yàn)證這一判斷。

此項(xiàng)研究的亮點(diǎn)在于,它借鑒了大型語(yǔ)言模型中廣為人知的“思維鏈”(CoT,Chain-of-Thought),并創(chuàng)造性地提出了一個(gè)視覺(jué)領(lǐng)域的平行概念——“幀鏈”(CoF,Chain-of-Frames)。思維鏈通過(guò)將復(fù)雜問(wèn)題分解為一系列中間推理步驟,并以文本形式逐步生成,極大地增強(qiáng)了語(yǔ)言模型的邏輯推理能力。

DeepMind 指出,視頻生成在本質(zhì)上是一個(gè)逐幀應(yīng)用變化的過(guò)程,這種時(shí)空上的序列生成,恰好為視覺(jué)問(wèn)題提供了一種內(nèi)在的、循序漸進(jìn)的解決方案,這便是“幀鏈”。語(yǔ)言模型操縱的是人類(lèi)發(fā)明的符號(hào),而視頻模型則直接在時(shí)間和空間這兩個(gè)物理維度上應(yīng)用改變。因此,幀鏈推理使得視頻模型有潛力通過(guò)一步步生成畫(huà)面,來(lái)解決需要多步規(guī)劃和動(dòng)態(tài)理解的復(fù)雜視覺(jué)任務(wù)。

為系統(tǒng)地評(píng)估 Veo 3 的能力,研究團(tuán)隊(duì)構(gòu)建了一個(gè)涵蓋四個(gè)層級(jí)的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基礎(chǔ)的感知層面,Veo 3 展示了在沒(méi)有經(jīng)過(guò)顯式訓(xùn)練的情況下,完成一系列經(jīng)典計(jì)算機(jī)視覺(jué)任務(wù)的能力,包括圖像分割、邊緣檢測(cè)、關(guān)鍵點(diǎn)定位、超分辨率、盲去模糊和去噪。這些“涌現(xiàn)”出的能力,意味著視頻模型未來(lái)可能取代目前許多需要專(zhuān)門(mén)訓(xùn)練的視覺(jué)工具模型。


圖丨Veo 3 零樣本能力的定性概覽(來(lái)源:arXiv)

在感知之上是建模能力,即理解世界運(yùn)行的基本規(guī)律,尤其是直覺(jué)物理。Veo 3 能夠?qū)傮w和柔體的動(dòng)態(tài)、表面交互進(jìn)行建模,并表現(xiàn)出對(duì)浮力、空氣阻力、折射與反射等物理現(xiàn)象的理解。在一個(gè)模擬“視覺(jué)疊疊樂(lè)”(Visual Jenga)的任務(wù)中,模型能夠以物理上合理的方式移除場(chǎng)景中的物體。它還能理解物體功能,例如判斷哪些物品可以被放進(jìn)背包。此外,模型還能在時(shí)間和鏡頭移動(dòng)中保持對(duì)世界狀態(tài)的記憶,這構(gòu)成了其進(jìn)行更復(fù)雜操作的基礎(chǔ)。

在此之上,便是模型的操控能力。Veo 3 能夠執(zhí)行多樣的零樣本圖像編輯任務(wù),如背景移除、風(fēng)格遷移、圖像上色和修復(fù)。它還能根據(jù)涂鴉指令編輯圖像,將不同物體合成為一個(gè)協(xié)調(diào)的場(chǎng)景,或?qū)⒁粡堊耘男は褶D(zhuǎn)化為專(zhuān)業(yè)的商務(wù)頭像。這種對(duì)場(chǎng)景進(jìn)行合理修改的能力,使其可以想象復(fù)雜的交互,模擬靈巧的物體操控,例如演示如何卷一個(gè)墨西哥卷餅,或讓機(jī)器人手臂像人類(lèi)一樣自然地拿起錘子。

這一系列能力的集成,最終賦予了模型進(jìn)行視覺(jué)推理的能力。這正是“幀鏈”機(jī)制發(fā)揮關(guān)鍵作用的領(lǐng)域。在迷宮求解任務(wù)中,Veo 3 通過(guò)逐幀生成紅色方塊在白色路徑上的移動(dòng),最終停在綠色終點(diǎn),從而完成任務(wù)。其在 5x5 網(wǎng)格迷宮上的成功率(pass@10)達(dá)到了 78%,遠(yuǎn)高于其前代模型 Veo 2 的 14%。


圖丨Veo 3 在不同復(fù)雜度迷宮中的求解表現(xiàn)(來(lái)源:arXiv)

研究還將其與最近大熱的圖像模型 Nano Banana 和語(yǔ)言模型 Gemini 2.5 Pro 進(jìn)行了比較。結(jié)果顯示,靜態(tài)的圖像模型難以解決需要過(guò)程的迷宮任務(wù),而語(yǔ)言模型雖然在處理 ASCII 文本迷宮時(shí)表現(xiàn)優(yōu)異,但在直接理解圖像輸入時(shí)則面臨困難。這也凸顯出視頻模型通過(guò)“幀鏈”進(jìn)行逐步視覺(jué)推理的獨(dú)特優(yōu)勢(shì)。除了迷宮,Veo 3 還能完成視覺(jué)序列補(bǔ)全、連接匹配顏色、解決簡(jiǎn)單的數(shù)獨(dú)謎題和視覺(jué)對(duì)稱(chēng)性補(bǔ)全等任務(wù)。

不過(guò),團(tuán)隊(duì)表示,目前 Veo 3 在許多任務(wù)上的表現(xiàn)仍不及最先進(jìn)的專(zhuān)用模型,這與 LLM 發(fā)展的早期階段(如 GPT-3 與精調(diào)模型的對(duì)比)非常類(lèi)似。

此外,生成視頻的計(jì)算成本依然相當(dāng)高昂。但論文援引歷史數(shù)據(jù)指出,LLM 的推理成本正以每年 9 到 900 倍的速度下降,早期被認(rèn)為“部署成本過(guò)高”的通用模型,最終憑借其通用性和成本的快速下降取代了多數(shù)專(zhuān)用模型。如果 NLP 的發(fā)展軌跡可作為參考,同樣的趨勢(shì)也將在視覺(jué)領(lǐng)域上演。

參考資料:

1. https://arxiv.org/pdf/2509.20328

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“吃飯八分飽”被推翻了?醫(yī)生:過(guò)了67歲,吃飯盡量要做到這7點(diǎn)

“吃飯八分飽”被推翻了?醫(yī)生:過(guò)了67歲,吃飯盡量要做到這7點(diǎn)

華庭講美食
2025-10-01 07:49:53
孩子哪些話(huà)震驚了你?網(wǎng)友:幼兒園幼崽不會(huì)撒謊,但是會(huì)吹牛逼

孩子哪些話(huà)震驚了你?網(wǎng)友:幼兒園幼崽不會(huì)撒謊,但是會(huì)吹牛逼

解讀熱點(diǎn)事件
2025-09-30 00:10:03
萬(wàn)達(dá)到底欠了多少錢(qián)?為什么賣(mài)了8年資產(chǎn),債務(wù)還解決不了呢?

萬(wàn)達(dá)到底欠了多少錢(qián)?為什么賣(mài)了8年資產(chǎn),債務(wù)還解決不了呢?

擔(dān)撲
2025-09-30 21:10:44
大連一宅基地翻建緣何成違建,六年訴訟未了

大連一宅基地翻建緣何成違建,六年訴訟未了

經(jīng)濟(jì)觀(guān)察報(bào)
2025-09-30 19:45:06
對(duì)方哪個(gè)行為讓你終止相親了?網(wǎng)友:能當(dāng)面說(shuō)丑的,那是真丑

對(duì)方哪個(gè)行為讓你終止相親了?網(wǎng)友:能當(dāng)面說(shuō)丑的,那是真丑

解讀熱點(diǎn)事件
2025-09-29 00:15:05
羅永浩聲援小米:海報(bào)小字是行業(yè)普遍陋習(xí),非小米獨(dú)創(chuàng);此前小米17Pro海報(bào)宣傳“逆光之王”,又用小字寫(xiě)是設(shè)計(jì)目標(biāo)

羅永浩聲援小米:海報(bào)小字是行業(yè)普遍陋習(xí),非小米獨(dú)創(chuàng);此前小米17Pro海報(bào)宣傳“逆光之王”,又用小字寫(xiě)是設(shè)計(jì)目標(biāo)

極目新聞
2025-09-30 11:07:02
“天下第一水司樓”曾舉債2億爛尾,時(shí)隔8年改成高檔酒店迎客,國(guó)慶假期最貴房型3688元/晚

“天下第一水司樓”曾舉債2億爛尾,時(shí)隔8年改成高檔酒店迎客,國(guó)慶假期最貴房型3688元/晚

揚(yáng)子晚報(bào)
2025-10-01 11:08:58
“難怪行政能吊打科研”,一份高校內(nèi)部表格,讓大學(xué)生們看清現(xiàn)實(shí)

“難怪行政能吊打科研”,一份高校內(nèi)部表格,讓大學(xué)生們看清現(xiàn)實(shí)

熙熙說(shuō)教
2025-09-30 22:11:56
保時(shí)捷女銷(xiāo)售9月再奪銷(xiāo)冠:國(guó)慶假期我上7天班,很少有不是銷(xiāo)冠的時(shí)候;曾兩年賣(mài)340臺(tái)保時(shí)捷,因被造黃謠報(bào)警

保時(shí)捷女銷(xiāo)售9月再奪銷(xiāo)冠:國(guó)慶假期我上7天班,很少有不是銷(xiāo)冠的時(shí)候;曾兩年賣(mài)340臺(tái)保時(shí)捷,因被造黃謠報(bào)警

極目新聞
2025-09-30 17:16:34
英國(guó)前情報(bào)高官:英國(guó)或已與俄羅斯處于戰(zhàn)爭(zhēng)狀態(tài)

英國(guó)前情報(bào)高官:英國(guó)或已與俄羅斯處于戰(zhàn)爭(zhēng)狀態(tài)

參考消息
2025-09-30 17:37:06
強(qiáng)渡大渡河的18勇士,新中國(guó)后,授銜最高的一位是什么軍銜?

強(qiáng)渡大渡河的18勇士,新中國(guó)后,授銜最高的一位是什么軍銜?

青途歷史
2025-10-01 07:36:51
從失蹤到被捕:21歲中國(guó)女子在埃及卷入跨國(guó)詐騙案

從失蹤到被捕:21歲中國(guó)女子在埃及卷入跨國(guó)詐騙案

新民周刊
2025-09-30 17:20:12
韋唯三兒子飛北京為她慶生,一家高顏值,場(chǎng)面很溫馨

韋唯三兒子飛北京為她慶生,一家高顏值,場(chǎng)面很溫馨

阿器談史
2025-09-30 20:18:39
臧天朔去世7周年,黑衣男墓前擺茅臺(tái) 軟中華,光點(diǎn)煙不開(kāi)酒引爭(zhēng)議

臧天朔去世7周年,黑衣男墓前擺茅臺(tái) 軟中華,光點(diǎn)煙不開(kāi)酒引爭(zhēng)議

尋墨閣
2025-09-30 10:37:33
中國(guó)大滿(mǎn)貫!國(guó)乒男單0-3完敗,世界冠軍被淘汰,莫雷加德大爆發(fā)

中國(guó)大滿(mǎn)貫!國(guó)乒男單0-3完敗,世界冠軍被淘汰,莫雷加德大爆發(fā)

知軒體育
2025-10-01 00:41:58
江西46歲富豪猝死:戴金佛珠、老婆29歲、女兒才3歲,結(jié)果命沒(méi)了

江西46歲富豪猝死:戴金佛珠、老婆29歲、女兒才3歲,結(jié)果命沒(méi)了

禾寒?dāng)?/span>
2025-09-30 19:13:57
錢(qián)多有何用??jī)鹤由娑九畠菏盎牧骼耍?1歲成龍晚年凄涼,無(wú)人同情

錢(qián)多有何用??jī)鹤由娑九畠菏盎牧骼耍?1歲成龍晚年凄涼,無(wú)人同情

有范又有料
2025-09-09 15:22:11
亞冠精英東亞區(qū)最新積分榜:成都升至第6,海港仍在淘汰區(qū)

亞冠精英東亞區(qū)最新積分榜:成都升至第6,海港仍在淘汰區(qū)

懂球帝
2025-09-30 22:47:11
發(fā)現(xiàn)一個(gè)很辛酸的現(xiàn)象:低層次的家庭,個(gè)個(gè)是犟種

發(fā)現(xiàn)一個(gè)很辛酸的現(xiàn)象:低層次的家庭,個(gè)個(gè)是犟種

婉秋聊育兒
2025-09-30 21:59:48
金正恩有多厲害?能力太強(qiáng),極有可能成為世界級(jí)大人物

金正恩有多厲害?能力太強(qiáng),極有可能成為世界級(jí)大人物

沈言論
2025-09-30 15:20:03
2025-10-01 13:24:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15678文章數(shù) 514138關(guān)注度
往期回顧 全部

科技要聞

天問(wèn)二號(hào)最新影像!五星紅旗與地球同框

頭條要聞

美政府正式"關(guān)門(mén)" 特朗普:可能帶來(lái)"很多好處"

頭條要聞

美政府正式"關(guān)門(mén)" 特朗普:可能帶來(lái)"很多好處"

體育要聞

揭秘庫(kù)明加續(xù)約:勇士奢侈稅增7000萬(wàn)

娛樂(lè)要聞

36歲文詠珊官宣當(dāng)媽 公開(kāi)寶寶腳丫照

財(cái)經(jīng)要聞

這五大消費(fèi)趨勢(shì),有望貫穿國(guó)慶長(zhǎng)假

汽車(chē)要聞

轎車(chē)仍是品牌核心產(chǎn)品 寶馬最新消息曝光

態(tài)度原創(chuàng)

藝術(shù)
家居
旅游
數(shù)碼
公開(kāi)課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

數(shù)碼要聞

離大譜!電腦組裝竟敢報(bào)價(jià)78000元:不買(mǎi)也有2萬(wàn)8的取消費(fèi)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 日韩精品国产另类专区| 欧美巨大喷流久久久亚洲乱码| 国产精品一区2区3区| 国产成人AV三级在线观看按摩| 婷婷五月天六月丁香| 久久青草影视频| 亚洲秘无码一区二区三区欧美| 风韵丰满熟妇啪啪区老老熟女百度| 国产骚妇视频| 午夜福利视频一区| 免费看一区二区三区| 日本少妇XXX| 韩国三级丰满40少妇高潮| av网页国产| 亚洲人妻无码在线| 亚洲伊人久久综合影院| 亚洲综合色图| 亚洲高清无码一区二区| 夜夜躁狠狠躁日日躁老女八| 久久99国产精品尤物| 日本在线看片免费人成视频| 极品人妻乱又伦| 国产精品福利自产拍在线观看| 免费无码123| 国产片AV国语在线观看手机版| 无码日韩做暖暖大全免费不卡| 亚洲成人AAA| 国产精品96久久久久久| 中文字幕无线码一区2020青青| 日日夜夜精品视频| xxxx.av| 婷婷中文在线| 欧美一区二区三区放荡人妇| 蜜臀av一区| 亚洲乱亚洲乱妇无码麻豆中| 成人国产精品一区二区免费| 激情人妻欧美激情| 北条麻妃Av片| 激情久久av一区二区三区| 两性色午夜免费视频| 黄色片在线播放|