“5天6款A(yù)I大模型,昆侖萬(wàn)維是在下一盤大棋。
昆侖萬(wàn)維用一周的時(shí)間占滿了科技頭條。
從8月11日起,周一到周五昆侖萬(wàn)維每天發(fā)布一款模型,覆蓋視頻生成、世界模型、統(tǒng)一多模態(tài)模型、智能體及音樂創(chuàng)作幾大方向。全面展示昆侖萬(wàn)維Skywork在多模態(tài)AI領(lǐng)域的突破性成果。
這是國(guó)內(nèi)廠商罕見的科技“日更”,在同一周內(nèi)把視頻、世界模型、多模態(tài)、Agent、音樂五大熱門賽道全部“拉滿”,在這高頻、密集產(chǎn)品發(fā)布背后,昆侖萬(wàn)維到底在布什么局?
外界看到的是昆侖萬(wàn)維高調(diào)技術(shù)“秀肌肉”。但這場(chǎng)看似突如其來(lái)的密集發(fā)布,實(shí)際上早就埋下伏筆,也是昆侖萬(wàn)維在AI領(lǐng)域布局的“蓄謀已久”。也可以說(shuō)是昆侖萬(wàn)維的長(zhǎng)期AI投入,進(jìn)入收獲期。
5天發(fā)布6款模型
六大模型的發(fā)布都有哪些?
以下用一幅圖來(lái)總結(jié)昆侖萬(wàn)維“技術(shù)發(fā)布周”五天(2025年8月11日—15日)的六大模型:
具體來(lái)看,昆侖萬(wàn)維的五大AI技術(shù)領(lǐng)域包括了視頻生成(SkyReels-A3)、世界模型(Matrix-Game 2.0、Matrix 3D)、統(tǒng)一多模態(tài)模型(Skywork UniPic 2.0)、智能體(Agent)及AI音樂創(chuàng)作(Mureka V7.5)。
8月11日,率先登場(chǎng)的SkyReels-A3,這是一款音頻驅(qū)動(dòng)的人像視頻生成模型。
如今,隨著對(duì)真實(shí)世界復(fù)雜性模擬需求的增加,AI需要在內(nèi)容創(chuàng)作中扮演更主動(dòng)的角色,從基本的主體動(dòng)起來(lái)逐漸過(guò)渡到自然的環(huán)境互動(dòng)和執(zhí)行精準(zhǔn)復(fù)雜指令。然而當(dāng)場(chǎng)景復(fù)雜度提升到存在人-物體交互,且音頻時(shí)間更長(zhǎng)時(shí),現(xiàn)有方法面臨顯著的瓶頸,核心挑戰(zhàn)在于,比如不同場(chǎng)景下精準(zhǔn)的嘴部對(duì)齊,包括不同物種,不同參考圖風(fēng)格等,同時(shí),保持甚至優(yōu)化畫面質(zhì)量。同時(shí),是否能支持更長(zhǎng)的音頻,特別是對(duì)于主播帶貨,廣告等場(chǎng)景等
相較同類產(chǎn)品,此次發(fā)布的SkyReels-A3,是基于DiT(Diffusion Transformer)視頻擴(kuò)散模型為基礎(chǔ)。在技術(shù)上采用3D-VAE+DiT擴(kuò)散架構(gòu),保證長(zhǎng)視頻畫面不崩,能夠?qū)崿F(xiàn)任意時(shí)長(zhǎng)的全模態(tài)音頻驅(qū)動(dòng)數(shù)字人創(chuàng)作。用戶只需上傳一張照片并配上語(yǔ)音,圖中人物即可精準(zhǔn)匹配口型、表情和動(dòng)作開口說(shuō)話或表演。據(jù)介紹,它在唇形同步、面部穩(wěn)定性和動(dòng)作自然度方面表現(xiàn)突出,并支持更豐富的鏡頭變化和最長(zhǎng)60秒視頻生成,將深度賦能電影制作、虛擬直播、游戲開發(fā)、教育內(nèi)容創(chuàng)作等多場(chǎng)景。
SkyReels-A3實(shí)現(xiàn)音頻驅(qū)動(dòng)人物對(duì)話視頻生成技術(shù)框架
SkyReels-A3的定量評(píng)估
在定量評(píng)估中,SkyReels-A3在不同的音頻驅(qū)動(dòng)場(chǎng)景,與先進(jìn)的開源模型omniavatar和閉源模型omnihuman等方法進(jìn)行了對(duì)比。結(jié)果顯示,SkyReels-A3在大多數(shù)指標(biāo)上超越了這些方法,尤其是在唇形同步(sync-c和sync-d)方面標(biāo)出卓越的性能。同時(shí),我們引入了step蒸餾,采用了更少的步數(shù) (40步減少為4步),效果幾乎沒有損失。
據(jù)悉,此款產(chǎn)品于2025年2月發(fā)布V1版,4月發(fā)布V2,8月發(fā)布A3;時(shí)長(zhǎng)變化:最初視頻不超過(guò)10s,逐步升級(jí)至約30s,直至如今的1min以上。
在第二日,昆侖萬(wàn)維推出的自研世界模型Matrix系列中Matrix-Game交互世界模型的升級(jí)版本——Matrix-Game 2.0,是一款交互式視頻生成模型。這款模型在低延遲、高幀率的長(zhǎng)序列交互性能上實(shí)現(xiàn)突破,可在多場(chǎng)景中以25FPS的速度,生成連續(xù)視頻內(nèi)容,且生成時(shí)長(zhǎng)可擴(kuò)展至分鐘級(jí),大幅提升了連貫性與實(shí)用性,這也是國(guó)內(nèi)國(guó)內(nèi)首家對(duì)標(biāo)Google genie3的模型。
Matrix世界模型系列中的另一個(gè)重要組成模型——Matrix-3D,用于3D世界的生成與探索——一個(gè)融合全景視頻生成與三維重建的統(tǒng)一框架,單圖秒變360°可漫游空間。Matrix-3D以文本、圖像為輸入,生成的3D場(chǎng)景支持360度自由環(huán)視,且在幾何結(jié)構(gòu)與色彩上保持一致性。它能根據(jù)用戶輸入的不同軌跡,精準(zhǔn)生成對(duì)應(yīng)的3D場(chǎng)景。在生成結(jié)果的視覺質(zhì)量和相機(jī)可控性層面,Matrix-3D均優(yōu)于現(xiàn)有方法。此產(chǎn)品的技術(shù)亮點(diǎn)是全景+3D重建統(tǒng)一框架,支持任意視角,并且模型已全面開源,方便二次開發(fā)。
可交互視頻生成大模型Matrix-Game-Turbo和3D場(chǎng)景生成大模型Matrix-3D打破了內(nèi)容生成與交互之間的壁壘,打造出具備多模態(tài)感知、動(dòng)態(tài)交互和長(zhǎng)期記憶能力的虛擬世界模擬系統(tǒng),為游戲引擎、元宇宙、具身智能、自動(dòng)駕駛等多個(gè)領(lǐng)域提供強(qiáng)有力的技術(shù)基座。
8月13日發(fā)布了Skywork UniPic 2.0。這是一款面向統(tǒng)一多模態(tài)建模的高效訓(xùn)練與推理框架,在生成和編輯模塊上進(jìn)行了輕量化優(yōu)化,并通過(guò)與多模態(tài)理解模型的聯(lián)合訓(xùn)練,構(gòu)建了理解、生圖、編輯一體化的核心能力,目標(biāo)是實(shí)現(xiàn)"高效、高質(zhì)、統(tǒng)一"的多模態(tài)生成模型。目前,Skywork UniPic 2.0及其系列模型已全面開源,涵蓋模型權(quán)重、推理代碼及強(qiáng)化策略,方便開發(fā)者與研究者快速上手,構(gòu)建多模態(tài)應(yīng)用。在多個(gè)權(quán)威評(píng)測(cè)任務(wù)中,UniPic 2.0刷新了性能記錄,也顯著降低了模型的推理與部署門檻,為消費(fèi)級(jí)多模態(tài)智能系統(tǒng)奠定了技術(shù)基礎(chǔ)。
8月14日,昆侖萬(wàn)維正式發(fā)布Skywork Deep Research Agent v2,該模型是天工超級(jí)智能體(Skywork Super Agents)的核心引擎。公司表示,Skywork Deep Research Agent自5月22日上線后,大幅重塑了大模型在AI Office領(lǐng)域的角色,通過(guò)skywork.ai為用戶產(chǎn)出了大量信息密度極高的優(yōu)質(zhì)文檔、PPT、表格以及其他交付物。新版本的Skywork Deep Research Agent v2將帶來(lái)更多的體驗(yàn)提升。
作為技術(shù)發(fā)布周收官之作,8月15日昆侖萬(wàn)維正式推出音樂模型Mureka V7.5,可AI生成音樂。相比傳統(tǒng)的音樂創(chuàng)作流程,Mureka可以大幅節(jié)約時(shí)間和節(jié)省成本,據(jù)介紹,不論是音樂性還是文本控制準(zhǔn)確性均領(lǐng)先同類音樂模型。
Mureka V7.5表現(xiàn)
據(jù)悉Mureka自上線以來(lái),在海內(nèi)外獲得了非常好的市場(chǎng)反響。早在今年3月,公司正式發(fā)布全新AI音樂生成模型Mureka V6與Mureka O1,Mureka O1和Mureka V6公測(cè)后用戶反映非常好。全球訪問(wèn)量達(dá)333萬(wàn),環(huán)比增長(zhǎng)86.5%,目前已經(jīng)有超過(guò)100個(gè)國(guó)家和地區(qū)的用戶在使用,增速位列全球AI音樂品類第一。
此次發(fā)布的Mureka V7.5模型,在中文歌曲上的演繹再上新臺(tái)階,不僅實(shí)現(xiàn)了中文歌曲音色、演奏技法的大幅提升,還完成了中文歌曲咬字與情感表現(xiàn)提升。其核心突破在于構(gòu)建了深度融合文化語(yǔ)境與語(yǔ)言特性的音樂音頻理解模塊。該模型通過(guò)系統(tǒng)性訓(xùn)練,已形成對(duì)中文音樂多樣性的全面認(rèn)知,從傳統(tǒng)民歌、戲曲到經(jīng)典華語(yǔ)流行金曲及當(dāng)代民謠,均能精準(zhǔn)捕捉藝術(shù)神韻。
至此,昆侖萬(wàn)維用五天時(shí)間完成“視頻-世界模型-多模態(tài)編輯-研究Agent-音樂”全棧布局。
“秀肌肉”背后,實(shí)則是“蓄謀已久”
5天連發(fā)6款大模型,外界看到的是高調(diào)技術(shù)“秀肌肉”。但這場(chǎng)看似突如其來(lái)的密集發(fā)布,實(shí)際很早就埋下伏筆,也是昆侖萬(wàn)維在AI領(lǐng)域布局的“蓄謀已久”,也可以說(shuō),是昆侖萬(wàn)維的長(zhǎng)期AI投入,進(jìn)入收獲期。
昆侖萬(wàn)維是一家怎樣的公司?
拉長(zhǎng)時(shí)間線來(lái)看,昆侖萬(wàn)維是一家游戲起家的公司,成立于2008年,2015年登陸深交所,被譽(yù)為最早一批“游戲出?!钡闹袊?guó)廠商。后轉(zhuǎn)型成了一家平臺(tái)型互聯(lián)網(wǎng)企業(yè),再到現(xiàn)在,它正加速轉(zhuǎn)型為一家AI企業(yè)??梢哉f(shuō),十幾年的時(shí)間,完成了主業(yè)三連跳,成長(zhǎng)為一家領(lǐng)先的AI科技公司。
大模型浪潮襲來(lái)時(shí),昆侖萬(wàn)維極為果斷,開始堅(jiān)決投入。正如此前媒體采訪中,公司相關(guān)負(fù)責(zé)人談到的,最好的戰(zhàn)略一定是面向未來(lái)十年去做產(chǎn)品。2023年,自公司提出“All in AGI 與 AIGC”以來(lái),公司就開始持續(xù)投入大量資源開發(fā)各類AI應(yīng)用,蓬勃的技術(shù)涌現(xiàn)正推動(dòng)多場(chǎng)景商業(yè)化落地。此后,公司也朝著越來(lái)越高的“含AI量”一路狂奔。
2023年,昆侖萬(wàn)維通過(guò)增資方式控股AI算力芯片企業(yè)——北京艾捷科芯科技有限公司,前瞻性地完成了“算力基礎(chǔ)設(shè)施—大模型算法—AI應(yīng)用”全產(chǎn)業(yè)鏈布局。據(jù)此前媒體采訪,相關(guān)負(fù)責(zé)人提到,昆侖萬(wàn)維不僅僅在做大語(yǔ)言模型和AI應(yīng)用,公司在整個(gè)產(chǎn)業(yè)鏈都有布局。
2024年11月,昆侖萬(wàn)維正式推出了其最新產(chǎn)品——“天工大模型4.0”4o版(Skywork 4o)及實(shí)時(shí)語(yǔ)音對(duì)話助手Skyo,引起了業(yè)界的廣泛關(guān)注。過(guò)去一年,天工大模型從2.0升級(jí)到4.0,并在海外市場(chǎng)持續(xù)高歌猛進(jìn)。
值得一提的是,SkyReels、Mureka、Linky等產(chǎn)品矩陣已在終端市場(chǎng)獲得積極反饋,同期海外業(yè)務(wù)增速迅猛,標(biāo)志著其從“技術(shù)探索期”邁入“商業(yè)收獲期”,此次技術(shù)周的舉辦,也意味著公司AI商業(yè)化的加速落地。
據(jù)了解,就在8月技術(shù)周前一周,在Hugging Face最新發(fā)布的中國(guó)AI社區(qū)7月重點(diǎn)成果中,昆侖萬(wàn)維與阿里、騰訊等互聯(lián)網(wǎng)“大廠”企業(yè)共同入選“中國(guó)AI開源16強(qiáng)”,該榜單被視為官方對(duì)開源貢獻(xiàn)的年度蓋章。
技術(shù)周落幕,AI的“發(fā)令槍”才剛響起
技術(shù)周的鎂光燈已經(jīng)熄滅, 但AI的“發(fā)令槍”仿佛才剛剛響起。
如今,大模型技術(shù)進(jìn)行密集迭代期,AI開始“卷應(yīng)用”的窗口期到來(lái)。
當(dāng)前形勢(shì)下,在“AI出?!边@一領(lǐng)域中,昆侖萬(wàn)維已然取得了領(lǐng)先位置,這歸功于其具有前瞻性的布局。
梳理昆侖萬(wàn)維的的歷程,給予我們兩點(diǎn)關(guān)鍵啟示:
其一,中國(guó)AI企業(yè)出海有著廣闊的前景。以昆侖萬(wàn)維為例,中國(guó)的AI大模型企業(yè)開始在出海方面獲取規(guī)模化收益。不過(guò),這一成果背后的方法是否具備可復(fù)制性呢?可能要因公司而宜,畢竟不是每一個(gè)國(guó)內(nèi)的企業(yè)都能有資本和能力像昆侖萬(wàn)維這樣走“大航海模式”。
其二,AI從研發(fā)到落地的商業(yè)閉環(huán)得到證實(shí)。SkyReels、Skywork Super Agents、Mureka、Linky等在國(guó)內(nèi)外市場(chǎng)收獲的積極反響,表明昆侖萬(wàn)維的研發(fā)成果有著較高的商業(yè)變現(xiàn)能力。這意味著昆侖萬(wàn)維已從“技術(shù)探索期”漸漸步入“商業(yè)收獲期”,并在研發(fā)與商業(yè)化之間構(gòu)建起正向循環(huán)。此次昆侖萬(wàn)維技術(shù)周的模型發(fā)布,無(wú)疑是“開花結(jié)果”的又一“助推器”。
眾所周知,步入2025年,AI競(jìng)爭(zhēng)已從“比拼參數(shù)”階段進(jìn)入“比拼場(chǎng)景、比拼收入”的后半場(chǎng)。大模型廠商的同質(zhì)化狀況開始出現(xiàn),市場(chǎng)正以訂單、DAU和現(xiàn)金流為評(píng)判標(biāo)準(zhǔn)。曾經(jīng)引人注目的“秀肌肉”階段,以炫技性的參數(shù)比拼和技術(shù)展示為特征,正逐漸退去。取而代之的是更加務(wù)實(shí)且激烈的“比拼落地”戰(zhàn)場(chǎng)。
于是,各行業(yè)的探索者們開始著眼于一個(gè)更核心的問(wèn)題:怎樣將AI的力量切實(shí)融入產(chǎn)業(yè)肌理,解決實(shí)際問(wèn)題、創(chuàng)造可見價(jià)值?這也成為昆侖萬(wàn)維必須深入思索的課題,此次技術(shù)發(fā)布周正是其給出的一份有力答卷。
昆侖萬(wàn)維在此前,把每一個(gè)垂類完成了商業(yè)閉環(huán)。
可以說(shuō),剛剛落幕的“AI技術(shù)周”以及密集的模型上新,昆侖萬(wàn)維再次向整個(gè)行業(yè)傳達(dá)了清晰信號(hào):將全心投入技術(shù)創(chuàng)新,保持競(jìng)爭(zhēng)優(yōu)勢(shì),加速AI應(yīng)用落地和商業(yè)化變現(xiàn)。
技術(shù)周雖已結(jié)束,但發(fā)令槍才剛剛打響,昆侖萬(wàn)維的下一站,值得期待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.