夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

港大開源ViMax火了,實現(xiàn)AI自編自導自演

0
分享至



想象一下,只需要一句話描述,AI 就能為你拍出一部完整的短???以后可能真的人人都能當導演了。不用學復雜的拍攝技巧,不用買昂貴設備,甚至不用找演員。有個好想法,AI 就能幫你實現(xiàn)。

為了讓這個想法變成現(xiàn)實,香港大學黃超教授團隊開源了 ViMax 框架,并在 GitHub 獲得 1.4k + 星標,專注于 Agentic Video Generation 的前沿探索。通過多智能體協(xié)作,ViMax 實現(xiàn)了真正的 "自編自導自演"—— 從創(chuàng)意構思到成片輸出的完整自動化,把傳統(tǒng)影視制作的每個環(huán)節(jié)都搬進了 AI 世界。

ViMax 的 "一人劇組" 有多強? 它就像一個數(shù)字化的全能團隊 ——AI 編劇負責寫劇本,AI 導演掌控節(jié)奏和鏡頭語言,AI 攝像師負責構圖和視覺呈現(xiàn),AI 剪輯師精心打磨每個細節(jié)。這些 AI 小伙伴會自己討論創(chuàng)意,分配任務,協(xié)調(diào)配合。你只需要輸入一個想法,AI 就能獨立完成整個制作流程,輸出千贊級別的視頻內(nèi)容。

在 AI 視頻制作領域,我們正在見證一場從 "片段生成" 到 "系統(tǒng)化制作" 的重要轉變。這不僅僅是技術升級,更是創(chuàng)作方式的根本改變。



  • 實驗室地址:https://sites.google.com/view/chaoh
  • 開源地址:https://github.com/HKUDS/ViMax

長視頻生成:核心技術挑戰(zhàn)

當前主流的文本到視頻模型,如 Sora、Runway 等,雖然在短片段生成上表現(xiàn)亮眼,但面對真正的長視頻制作時,卻遭遇了兩個核心瓶頸:

1. 敘事規(guī)劃的復雜度爆炸

長視頻制作需要統(tǒng)籌數(shù)百個鏡頭的敘事邏輯,涉及角色發(fā)展、情節(jié)推進和主題呼應等多個維度。這種多層次的故事架構已經(jīng)超出了當前語言模型的單輪處理極限。關鍵挑戰(zhàn)在于:如何將龐大的故事脈絡拆解成可操作的規(guī)劃模塊,同時確保整體敘事的邏輯自洽和情感連貫。

2. 跨鏡頭視覺連貫性難題

現(xiàn)有生成模型各自為戰(zhàn),缺乏對前序內(nèi)容的記憶能力,這導致角色形象、場景風格、空間布局在不同鏡頭間頻繁 "變臉"。這種視覺記憶缺失在長視頻中會產(chǎn)生雪球效應,嚴重影響觀眾的沉浸感和故事可信度。

如何突破這兩大技術瓶頸,成為 AIGC 中長視頻亟待解決的關鍵問題。

端到端多智能體協(xié)同架構

ViMax 采用分層協(xié)作的設計思路,將長視頻制作分解為五個相互協(xié)調(diào)的階段,每個階段由專門的智能體負責:

階段 1:劇本創(chuàng)作(Screenwriting)

無論用戶輸入的是簡單的一句話想法、完整小說還是劇本片段,編劇智能體都能將其重新組織為標準化的影視劇本,包括場景設定、角色臺詞和故事節(jié)奏安排。

階段 2:分鏡規(guī)劃(Shot Planning)

分鏡智能體運用專業(yè)電影制作理論,為每個劇本場景設計精確的鏡頭語言 —— 從攝像機位置、運動軌跡,到光影布局、角色調(diào)度,再到每個鏡頭的時間把控,形成完整的拍攝藍圖。

階段 3:視覺資產(chǎn)生成(Visual Asset Creation)

制作智能體采用 "先圖后視頻" 的兩步生成策略:首先創(chuàng)建核心視覺元素(角色造型、場景設計、關鍵畫面),然后以此為基礎生成對應的動態(tài)視頻片段,確保視覺風格的精準控制。

階段 4:質量把控(Quality Assessment)

對于每個生成任務,系統(tǒng)會同時產(chǎn)出多個版本,由質檢智能體運用視覺語言模型進行專業(yè)評估,篩選出最符合分鏡要求的版本。若所有候選都未達標,系統(tǒng)將自動調(diào)優(yōu)參數(shù)并重新生成。

階段 5:統(tǒng)籌協(xié)調(diào)

導演智能體擔任總指揮,監(jiān)控全流程的協(xié)調(diào)運轉,維護各階段輸出的風格統(tǒng)一,并負責智能體間的任務分配與信息同步。

從敘事到鏡頭:三層遞歸規(guī)劃體系

遞歸式敘事分解策略

ViMax 采用遞歸分解機制來馴服長視頻敘事規(guī)劃的復雜性挑戰(zhàn)。系統(tǒng)將完整劇本按照敘事邏輯分解為三個層次化管理單元:

  • 事件層(Events):捕獲核心敘事節(jié)點,如故事起始、情感轉折、結局收束等關鍵劇情錨點,構建整體故事骨架。
  • 場景層(Scenes):將抽象事件具象化為可執(zhí)行的戲劇單元,如 "雨夜咖啡廳的告別對話" 或 "辦公室里的緊張對峙",明確時空背景和情境設定。
  • 鏡頭層(Shots):為每個場景輸出精確的執(zhí)行指令,涵蓋鏡頭語言(特寫、全景、移動軌跡)、演員調(diào)度、光影氛圍等具體制作參數(shù)。

這種分層遞歸策略確保語言模型在每個認知層次都面對適度的規(guī)劃范圍,既避免了整體敘事處理的認知瓶頸,又通過層次間的依賴傳遞維持了故事內(nèi)在的邏輯連貫性和情感節(jié)奏。

RAG 增強的全局上下文同步

分層分解雖然有效控制了復雜度,但也帶來了上下文碎片化的風險 —— 原始素材中的豐富背景信息可能在層次切分中丟失。ViMax 通過集成檢索增強生成(RAG)系統(tǒng)來應對這一挑戰(zhàn):

  • 建立全局知識庫:系統(tǒng)首先對原始劇本或小說進行深度解析,構建包含角色關系、情節(jié)脈絡、主題元素的綜合索引庫。
  • 動態(tài)上下文檢索:在每個分解階段,系統(tǒng)根據(jù)當前生成的文本描述,智能檢索相關的全局背景信息,包括前文伏筆、角色設定、情感基調(diào)等關鍵要素。
  • 上下文融合生成:將檢索到的全局信息與當前層次的局部規(guī)劃需求相融合,生成既滿足具體制作要求又保持整體故事邏輯的詳細描述。

這種 RAG 機制確保每個局部規(guī)劃決策都能 "看見" 更大的故事圖景,有效避免了角色性格突變、情節(jié)邏輯矛盾、主題偏離等常見問題,讓 AI 在處理復雜敘事時既見樹木,又見森林。

圖網(wǎng)絡驅動的視覺一致性方案

基于圖結構的視覺元素追蹤機制

為解決跨鏡頭視覺一致性難題,ViMax 設計了基于依賴關系的智能生成框架。系統(tǒng)在規(guī)劃階段對所有鏡頭描述進行深度解析,自動識別共享視覺元素 —— 包括角色身份、場景環(huán)境、道具物件等關鍵要素,并構建反映這些元素間依賴關系的有向圖結構。

在生成執(zhí)行階段,系統(tǒng)對依賴圖進行拓撲排序優(yōu)化:無依賴關系的獨立鏡頭可實現(xiàn)并行批量生成,而存在依賴關系的鏡頭則啟用條件引導生成模式 —— 以先前生成的視覺內(nèi)容為參考基準,而非單純依賴文本描述進行從零生成。

這種圖網(wǎng)絡驅動的方案在確保視覺連貫性的同時,通過智能并行化處理顯著提升了整體生成效率。

過渡視頻的空間幾何約束機制

針對同一場景內(nèi)的多視角拍攝需求,ViMax 引入了過渡視頻生成技術來維護空間幾何的嚴格一致性。當多個鏡頭需要從不同角度展現(xiàn)同一物理空間時,保持準確的空間關系對避免 3D 布局沖突至關重要。

系統(tǒng)首先識別需要空間連貫性約束的場景組合,然后生成連接不同視角的流暢攝像機運動軌跡。這些過渡視頻充當空間校準錨點,確保場景內(nèi)所有視角都遵循統(tǒng)一的 3D 幾何約束。

例如,在生成兩角色對話的正反打鏡頭時,系統(tǒng)會先創(chuàng)建一個從角色 A 視角平滑過渡到角色 B 視角的連續(xù)運動視頻,以此為幾何基準生成兩個獨立的對話鏡頭,從而保證空間位置關系的完美契合。

多智能體協(xié)同的專業(yè)化分工

ViMax 的核心智能體角色

  • 導演智能體(Director Agent):擔任全流程總指揮,統(tǒng)籌任務調(diào)度、進度監(jiān)控和品質審核,確保各環(huán)節(jié)協(xié)調(diào)配合和整體輸出標準。
  • 編劇智能體(Screenwriter Agent):專門處理各種形式的輸入內(nèi)容,將用戶的創(chuàng)意想法轉化為標準化、結構完整的劇本格式。
  • 分鏡智能體(Shot Planning Agent):具備深度的影視語言專業(yè)知識,運用鏡頭美學、敘事節(jié)奏和視覺表達理論,為每個劇本段落設計精確的視聽呈現(xiàn)策略。
  • 視頻生成智能體(Video Generation Agent):執(zhí)行核心創(chuàng)作任務,從角色造型設計、場景環(huán)境構建到動態(tài)視頻合成,負責將抽象描述轉化為具體視覺內(nèi)容。
  • 質量控制智能體(Quality Control Agent):基于先進視覺語言模型的多維度評估體系,對生成內(nèi)容進行嚴格的質量檢驗和智能化迭代引導。

VLM 驅動的迭代質量優(yōu)化機制

系統(tǒng)采用多候選并行生成策略,為每個創(chuàng)作任務同時產(chǎn)出多個版本,隨后通過視覺語言模型進行綜合評估。評估體系涵蓋視覺真實感、敘事邏輯連貫性、分鏡技術規(guī)格執(zhí)行度等關鍵質量指標。

當所有候選版本均未達到預設質量閾值時,系統(tǒng)啟動智能迭代機制:基于 VLM 提供的詳細反饋信息,自動調(diào)優(yōu)生成參數(shù)配置,并重新執(zhí)行生成過程,直至輸出符合標準的高質量內(nèi)容。

這種閉環(huán)質量控制機制確保每個制作環(huán)節(jié)都能輸出專業(yè)級別的成果,為最終的完整視頻奠定堅實基礎。


https://mp.weixin.qq.com/s/AgFk-DstU4GQ0ayeCXnTxA?click_id=1

技術展望與未來方向

ViMax 標志著 AI 視頻生成從 "碎片化拼接" 向 "體系化創(chuàng)作" 的重要躍遷,但仍有不少提升空間:

  • 計算效率提升:目前系統(tǒng)需要頻繁調(diào)用外部 API,后續(xù)可通過模型集成或蒸餾技術來降低計算開銷,提高響應速度。
  • 交互編輯功能:支持用戶在制作過程中隨時介入調(diào)整,比如修改某個鏡頭設計或調(diào)整劇情節(jié)奏,讓創(chuàng)作更靈活。
  • 多元文化支持:擴展對不同地區(qū)敘事風格和視覺傳統(tǒng)的理解,讓系統(tǒng)能創(chuàng)作出更有地域特色的內(nèi)容。
  • 音頻制作整合:補齊音效、配樂、對白等音頻環(huán)節(jié),形成完整的影視制作流程。

從技術發(fā)展角度看,ViMax 的核心價值在于找到了一種將專業(yè)制作經(jīng)驗轉化為系統(tǒng)化流程的方法。這種思路不僅適用于視頻制作,對其他需要多環(huán)節(jié)協(xié)作的復雜創(chuàng)作任務也有借鑒意義。隨著技術成熟,我們有理由期待看到更多專業(yè)創(chuàng)作工具的自動化突破。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中央首提解決地方財政困難,釋放什么信號?

中央首提解決地方財政困難,釋放什么信號?

第一財經(jīng)資訊
2025-12-12 15:13:17
超預期!降息150個基點

超預期!降息150個基點

中國基金報
2025-12-11 20:56:02
MacBook Pro首次采用OLED:Mini LED時代將終結

MacBook Pro首次采用OLED:Mini LED時代將終結

快科技
2025-12-12 16:42:47
廣西一中職學校7.7萬采購22套服裝引質疑,招標負責人稱采購合規(guī)

廣西一中職學校7.7萬采購22套服裝引質疑,招標負責人稱采購合規(guī)

澎湃新聞
2025-12-12 13:08:26
24年上海女子安樂死,從清醒到離開僅5分鐘,父親哭訴:不想她走

24年上海女子安樂死,從清醒到離開僅5分鐘,父親哭訴:不想她走

卷史
2025-09-06 16:07:00
烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

烏克蘭最美體操冠軍,放棄國籍做中國媳婦,37歲生二胎仍似少女

林雁飛
2025-12-11 16:20:56
亞洲第1!16歲中國新星身價22.5萬歐,與歐洲頂級新星齊名

亞洲第1!16歲中國新星身價22.5萬歐,與歐洲頂級新星齊名

小金體壇大視野
2025-12-12 17:13:32
A股,尾盤突發(fā)利好信號,下周,或將迎來新一輪“牛市”行情!

A股,尾盤突發(fā)利好信號,下周,或將迎來新一輪“牛市”行情!

夜深愛雜談
2025-12-12 19:28:40
太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

太炸裂了!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

小魚愛魚樂
2025-12-12 08:39:41
隨著王楚欽4-1勝大勒布倫,晉級半決賽!男單4強國乒提前鎖定2席

隨著王楚欽4-1勝大勒布倫,晉級半決賽!男單4強國乒提前鎖定2席

球場沒跑道
2025-12-12 13:53:27
華南師范大學林勇教授,在廣州逝世

華南師范大學林勇教授,在廣州逝世

南方都市報
2025-12-12 13:09:11
學歷貶值太狠!月薪3000,珠海一工廠招現(xiàn)場作業(yè)崗要本科以上…

學歷貶值太狠!月薪3000,珠海一工廠招現(xiàn)場作業(yè)崗要本科以上…

火山詩話
2025-12-12 05:51:17
男子因拒絕在公司年會上表演,被領導以曠工為由開除,法院:公司行為違法,判賠18.5萬元

男子因拒絕在公司年會上表演,被領導以曠工為由開除,法院:公司行為違法,判賠18.5萬元

觀威海
2025-12-12 14:14:02
昔日女團門面買下40億大樓!遭網(wǎng)酸“靠擦|邊致富”!

昔日女團門面買下40億大樓!遭網(wǎng)酸“靠擦|邊致富”!

一盅情懷
2025-12-12 18:07:44
54歲于和偉演毛主席,這一次,他讓唐國強和整個娛樂圈沉默了!

54歲于和偉演毛主席,這一次,他讓唐國強和整個娛樂圈沉默了!

溫讀史
2025-08-08 23:40:18
中國“固態(tài)電池第一股”要來了

中國“固態(tài)電池第一股”要來了

界面新聞
2025-12-12 11:48:19
蘇聯(lián)攻克柏林后,斯大林沒有選黃金,用3000列火車運走德國鐵疙瘩

蘇聯(lián)攻克柏林后,斯大林沒有選黃金,用3000列火車運走德國鐵疙瘩

古書記史
2025-12-11 22:22:41
他是廣東知名主持人,32歲娶了女老師,如今女兒接班主持為他爭光

他是廣東知名主持人,32歲娶了女老師,如今女兒接班主持為他爭光

阿訊說天下
2025-12-11 18:46:43
男人注意:女人若有過很多男人,多半有這5個表現(xiàn),別傻傻看不清

男人注意:女人若有過很多男人,多半有這5個表現(xiàn),別傻傻看不清

伊人河畔
2025-12-04 11:27:19
山東臨沂一高三男生墜亡,官方介入

山東臨沂一高三男生墜亡,官方介入

深圳晚報
2025-12-11 23:18:58
2025-12-12 20:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11907文章數(shù) 142509關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

10人聚餐后9人離開 最后1人拒付餐費:付錢就是冤大頭

頭條要聞

10人聚餐后9人離開 最后1人拒付餐費:付錢就是冤大頭

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經(jīng)要聞

鎂信健康闖關港交所:被指竊取商業(yè)秘密

汽車要聞

表面風平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

手機
家居
時尚
數(shù)碼
教育

手機要聞

vivo官方聲明:網(wǎng)上代購、轉售S50發(fā)布會門票為虛假信息

家居要聞

溫潤質感 打造干凈空間

今日熱點:迪士尼OpenAI合作;JENNIE和DEX將出演新綜藝……

數(shù)碼要聞

PConline 2025 智臻科技獎|年度卓越設計:WIKO Hi MateBook 14

教育要聞

保護孩子寶媽必學,小心孩子遇到這種欺凌加侵犯的行為!

無障礙瀏覽 進入關懷版 国产成人精品视频一区二区三| 亚洲A成人片在线播放| 一本色道久久无码综合人妻 | 午夜成人理论无码电影在线播放| 欧美深爱激情网| 欧美性爱免费领取| 亚洲欧美中文日韩v日本| 日韩免费无码专区精品观看| 日本xxx在线观看免费播放| 亚洲综合久久成人av| 日本老妇一区| 制服欧美激情丝袜综合色| 久久精品夜夜夜夜夜久久| 老骚屄老熟女| 香港无码视频| 手机无码人妻一区二区三区免费| 人妻在线超碰| xxx/国产50| 亚洲AV熟女一区二区三区| 夜夜高潮夜夜爽夜夜爱爱| 久久久精品一区二区藌桃| 精品亚洲一区二区三区在线播放| 国产人与禽zoz0性伦| 精品熟女日韩中文十区| 久久99久久99精品中…| 黄色高清无码网址| 三上悠亚在线精品二区| 绯色AV无码一区二区白浆| 搡BBBB 搡BBB图| 丰满老熟女毛片| 人妻码有码精品中文字幕在线视频| 国产无码精品影视| 亚洲精品av一区在线观看| 欧美午夜三男一女| 久久天天躁狠狠躁夜夜躁2014| 日韩中文二区| 亚洲精品熟女一区二区| 无码人妻aⅴ一区二区三区视频| 久久久久人妻啪啪一区二区| 国产精品三级一区二区按摩| 國产一二三内射在线看片|