機器之心報道
編輯:+0
制作一個視頻需要幾步?可以簡單概括為:拍攝 + 配音 + 剪輯。
還記得 veo3 發(fā)布時引起的轟動嗎?「音畫同步」功能的革命性直接把其他視頻生成模型按在地上摩擦,拍攝 + 配音 + 粗剪一鍵搞定。
那如果我就是想用自己迷人的聲音呢?或者我自帶精妙絕倫的配音?有沒有其他解決方案?
有的朋友,有的!
8 月 11 日,Pika 推出了一個名為「音頻驅(qū)動表演模型」(Audio-Driven Performance Model)的新模型。
Pika 允許用戶上傳音頻文件(如語音、音樂、說唱或任何聲音片段),并結合靜態(tài)圖像(如自拍或任意圖片)生成高度同步的視頻。視頻中的角色會自動匹配音頻,實現(xiàn)精確的口型同步(lip sync)、自然的表情變化和流暢的身體動作。
更通俗一點說就是,讓任何一張靜態(tài)圖片,跟著你給的音頻動起來,而且是活靈活現(xiàn)的那種。
你隨便扔給它一張自拍,再配上一段馬保國的「年輕人不講武德」,你照片里那張帥氣的臉,馬上就能口型神同步,連眉毛挑動的時機都分毫不差,主打一個「本人親授」。
這事兒要是放以前,你起碼得是個頂級特效師,搗鼓個十天半個月才能弄出來?,F(xiàn)在,Pika 告訴你,平均只要 6 秒
你沒看錯,就是 6 秒。你上個廁所的功夫,那邊視頻都生成好了,而且還是 720p 高清,長度不限,想讓蒙娜麗莎給你唱一整首《忐忑》都行。
不過目前功能僅限 iOS 端,且需要邀請碼,期待功能盡快開放。
話不多說,我們來看看網(wǎng)友測評。
首先來看看我們前面提到的自拍 + 音頻,效果可以說是相當驚艷了。
- 址:https://x.com/WilliamLamkin/status/1954940047624372508
不論是說唱部分還是歌曲部分,唇同步準確性非常高,避免了以往 AI 視頻中常見的「假唱」問題。
你如果仔細觀察會發(fā)現(xiàn)說唱部分中間有一段停頓,人物的表情神態(tài)也很自然,活人感十足。不過也不是完美無缺,男歌手的手看起來就怪怪的。
Pika 官方也分享了幾個用戶制作的精彩視頻。
- 地址:https://x.com/pika_labs/status/1955007656302924192
對于不同語言,Pika 生成的效果看起來也非常不錯。
還可以生成一段不是吉米的吉米秀,AI 演員的表現(xiàn)力非常不錯。
用來拍電影怎么樣?讓亞洲面孔的大叔一口印式英語,吐槽露營的糟糕體驗。
還可以直接來一場 live 秀!
我們可以預見,它將很快成為社交媒體上的新寵,誕生無數(shù)有趣的 Meme 和創(chuàng)意短片。
但它的潛力遠不止于此:獨立游戲開發(fā)者可以用它快速生成 NPC 對話動畫,教育工作者可以制作更生動的講解視頻,甚至在不遠的將來,我們每個人都能擁有一個專屬的、能言善辯的 AI 數(shù)字分身。
當然,技術總是一把雙刃劍。當任何圖片都能被賦予任何聲音時,如何辨別信息的真?zhèn)我渤闪宋覀儽仨毭鎸Φ男抡n題。
但無論如何,一個全民參與、創(chuàng)意迸發(fā)的視頻新時代,似乎已經(jīng)敲響了大門。下一個引爆全網(wǎng)的病毒視頻,或許就將出自你我之手。
視頻鏈接:https://mp.weixin.qq.com/s/EBQUtfKuPaXNLpAZcsM3NQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.