近日,全球知名增長咨詢公司沙利文發(fā)布《2025年中國世界模型發(fā)展白皮書》報告。沙利文在報告中指出,中國世界模型領(lǐng)域玩家已經(jīng)超過10家企業(yè),從技術(shù)產(chǎn)品、應(yīng)用能力以及生態(tài)建設(shè)三方面進行綜合評價,商湯“絕影開悟”世界模型位居榜單第一,并處于全球領(lǐng)先地位。
盡管許多車企都在爭前恐后地說自己的智駕多么領(lǐng)先,但是在實際使用時,我們還是會發(fā)現(xiàn)它的真實水平與車企所宣傳的差異非常大,天氣、光照和極限場景都會導致駕駛水平出現(xiàn)較大的浮動。
同時,由于智駕 AI 訓練需要看大量的視頻(Clips),訓練成本相比簡單的文本生成模型也大得多,目前只有極少數(shù)頭部車企才有足夠的資源訓練自有模型。
AI 配圖
然而眾所周知,羊毛出在羊身上,這些成本又會轉(zhuǎn)嫁到消費者身上,最終消費者要么明著花幾萬購買使用權(quán)(比如特斯拉 FSD),要么就在車價中支付了,總之從廠商到消費者,大家的負擔都很大。
接下來,老狐就給用輕松、易懂的方式,解讀一下“絕影開悟”世界模型究竟是什么?它為什么能夠解決這些問題,以及大家最感興趣的:商湯絕影為什么能夠做出如此強大的世界模型。
絕影開悟是什么?
正如介紹 DeepSeek R1 之前需要介紹推理模型是什么,在介紹絕影開悟之前,老狐認為也需要先介紹一下什么是世界模型,讓狐友們能夠更好地理解它。
就像商湯絕影 CEO 王曉剛在汽車之家全球AI科技大會講到的那樣:智能駕駛 1.0 階段是依賴人工標注的“規(guī)則式智駕”;現(xiàn)在發(fā)展到 2.0 階段,是把人類行為積累轉(zhuǎn)化成為模型的“端到端智駕”;最終正邁向 3.0 階段,就是通過世界模型和強化學習帶來超越人類的“生成式智駕”。
怎么理解“生成式智駕”?我們?nèi)粘J褂玫?DeepSeek、豆包和文心一言,在 AI 大模型領(lǐng)域的分類名是大型語言模型,其主要功能是通過輸入的文本、音頻和圖片生成自然語言,對真實物理環(huán)境和物理動作并不具備直接的模擬預測能力。
而世界模型就很不一樣了,從名字上就能看出它的核心功能是讓自身具備模擬、預測真實物理環(huán)境的能力,就像是給 AI 在腦中建立一個真實、能夠用數(shù)據(jù)演算的物理世界。
比如當世界模型在開車的時候,如果它發(fā)現(xiàn),右側(cè)有一輛車,它想要知道自己保持當前車速,右側(cè)的車會不會并過來,它就能夠在腦中迅速地演算、模擬未來幾秒鐘可能發(fā)生的所有情況,并做出最正確的駕駛動作調(diào)整,比人類老司機的駕駛預判水平更上一層樓。
AI 配圖
在如今智駕 AI 訓練所需的高質(zhì)量真實數(shù)據(jù)日漸耗盡,同時智駕 AI 還需要重復、大量訓練才能有所成長的當下,擅長理解物理世界的物理規(guī)律、預測生成所有潛在情況的世界模型,其在智駕 AI 訓練領(lǐng)域的應(yīng)用,能夠有效地解決這一問題。
何況年初的 DeepSeek 已經(jīng)證明通過大量的合成數(shù)據(jù)訓練出的 AI,其能力甚至比通過真實數(shù)據(jù)訓練出的 AI 更強,通過合成數(shù)據(jù)訓練 AI 已經(jīng)成為了所有 AI 大模型訓練領(lǐng)域的新范式。
說到這里,老狐相信很多狐友會有一個疑問:既然世界模型這么強大,為什么一直以來智駕 AI 訓練領(lǐng)域沒有大量采用世界模型生成的數(shù)據(jù)呢?
這一問題其實不僅僅困擾著狐友,也是很多智駕專家想做但又做不到的事情。
原因很簡單,相比 DeepSeek 等文字生成模型,智駕 AI 對安全性的要求顯然高出了幾個量級,假如 DeepSeek 使用低質(zhì)量的訓練集,導致生成了錯誤的文字,頂多就是用戶按「重試」即可,而智駕 AI 一旦發(fā)生了相同的事情,那后果不堪設(shè)想。
多年以來,智駕 AI 訓練領(lǐng)域的專家們并不是沒有嘗試過生成模擬的合成數(shù)據(jù),但是以往的合成數(shù)據(jù)存在各種各樣的問題。
AI 配圖
比如合成的視頻時長特別短、清晰度特別差,生成的視頻看起來像是十多年前用 1M 存儲的功能機拍攝的;視角完全固定,只能生成車的正前方畫面,車兩側(cè)的畫面完全缺失,根本起不到讓 AI 能夠?qū)W習到現(xiàn)實駕車情況的作用;生成場景的內(nèi)容完全不可控,凡是環(huán)境一經(jīng)生成,就徹底無法變動,訓練只能「一條道走到黑」,沒法一次性充分訓練所有的場景。
然而絕影開悟世界模型能夠全面、徹底地解決智駕 AI 訓練領(lǐng)域中的這些疑難雜癥。
首先,絕影開悟最強大也是最重要的能力就是能夠?qū)崿F(xiàn)多樣化駕駛場景的可控生成,用戶不僅可以生成任意的駕駛場景,還能夠在生成之后,在這個虛擬的場景中駕駛,隨意剎車、加速和轉(zhuǎn)向,就像是真的在開車一樣。
同時,用戶還可以對場景中的一切元素進行精細化的調(diào)整,比如路面情況、光照、天氣和場景中其他車輛的車速、類型,都能夠完全按照用戶需要的方式進行調(diào)整。
并且如果發(fā)現(xiàn)智駕 AI 在應(yīng)對某個特殊場景時存在問題,還能夠使用絕影開悟模型直接生成成百上千個類類似場景,徹底讓智駕 AI 搞清楚怎么解決問題。
這兩項能力結(jié)合世界模型本身的預測模擬能力,能夠顯著地提升智駕 AI 強化學習的效率,也能夠更輕松地檢查智駕 AI 在應(yīng)對不同情況時的水平如何。
打個比方,這就像是 AI 生成視頻后,如果我們想要修改每一個角色佩戴的帽子的形狀,我們只需要讓 AI 單獨調(diào)整帽子形狀即可,不用在電腦前一直等著 AI 把整個視頻重新生成一遍,更靈活、更高效,有效降低了「返工」的概率。
其次,絕影開悟還支持生成最多 11 個視角的視頻,并且這些視頻中的內(nèi)容都做到了時間、空間的雙對齊,無論從哪一個角度觀察合成的物理環(huán)境,得到的結(jié)果都是一致的,實現(xiàn)了完美的時空一致性,同時絕影開悟還克服了真實攝像頭存在的魚眼視角畸變問題,讓智駕 AI 更容易看懂訓練數(shù)據(jù),學得更快。
此外,在分辨率和時長方面,絕影開悟也有突破性的表現(xiàn)。
相比其他世界模型生成的堪稱老年機畫質(zhì)的短短幾秒的訓練視頻,絕影開悟已經(jīng)能窮舉各種駕駛行為,自動生成多樣化、高風險和長尾場景的合成數(shù)據(jù),時長可達分鐘級、分辨率可達 1080p 畫質(zhì)的高清視頻,真正實現(xiàn)滿足智駕 AI 的訓練需求,實現(xiàn)了合成數(shù)和真實數(shù)據(jù)一樣有效,
能夠結(jié)合虛實數(shù)據(jù)進行 1:1 訓練,讓智駕 AI 從模擬到實戰(zhàn)都能有一致的駕駛表現(xiàn)。
AI 配圖
反觀人類司機由于永遠無法清晰地記住所有的危險情況的處理方法,所以通過全面的合成數(shù)據(jù)訓練出的智駕 AI,不但能夠像人類司機一樣駕駛,還能超越人類司機的極限駕駛水平,在所有的環(huán)境都做到最優(yōu)的駕駛表現(xiàn)。
這里可能又會有狐友提問:盡管絕影開悟世界模型真的很強,但是它對降低智駕 AI 訓練成本會有幫助嗎?
有的,兄弟,這個有的!
如開頭所說,目前智駕 AI 訓練的確存在消耗成本巨大的問題,而且高度可用的訓練資料價格也非常高,這確實是阻礙智駕 AI 發(fā)展的一大核心原因。
比如智駕行業(yè)就普遍認為,只有 1000 萬以上的 Clips 才有機會訓練出一個好用的端到端智駕模型,特斯拉之所以能夠在智駕市場始終處于第一梯隊,就與他們目前已經(jīng)量產(chǎn)交付的 700 多萬輛能夠回傳數(shù)據(jù)的車有密切的關(guān)系。
所以說起缺乏像特斯拉這樣龐大的智駕車隊的車企時,從業(yè)者基本不會看好它的智駕水平,訓練數(shù)據(jù)瓶頸就是阻礙這些車企向上發(fā)展的天花板。
而絕影開悟之所以強大就在于它不僅生成的合成數(shù)據(jù)極其出色,做到了能夠替代真實數(shù)據(jù)訓練智駕 AI 的水平,它的數(shù)據(jù)生成成本也非常的低廉。
僅僅使用一張 312 TFLOPS(FP16)算力的 A100,絕影開悟每天生成的高質(zhì)量數(shù)據(jù),就相當于 500 輛量產(chǎn)車采集的數(shù)據(jù)量,讓智駕企業(yè)能夠在缺乏量產(chǎn)車部署量的情況下,一樣可以實現(xiàn)數(shù)據(jù)采集量的大幅提升,大幅降低購買真實數(shù)據(jù)的費用開支,有效降低了訓練智駕 AI 的成本,進而能夠把安全、出色的智駕 AI 的價格打下來,讓人人都能享受到頂尖的智駕 AI。
絕影開悟的應(yīng)用也不僅僅限于智駕 AI 訓練領(lǐng)域,模型生成的數(shù)據(jù)訓練集具備非常出色的泛化性,對于時下熱門的具身智能領(lǐng)域,也就是智能機器人領(lǐng)域同樣也有非常大的作用。
狐友們想必都還記得去年春晚時登臺演出的宇樹機器人,誠然,從機器人工程學的角度來說,宇樹科技的機器人在關(guān)節(jié)靈活性、成本等方面都做到了世界一流的水平,讓機器人的價格從六位數(shù)、五位數(shù)一下子打到了四位數(shù)。
但是購買了宇樹機器人的用戶在使用中,卻會發(fā)現(xiàn)宇樹機器人并不能真正理解物理世界的物理常識、預測物理動作的相互關(guān)系,這導致宇樹機器人在沒有訓練過、學習過的場景中,經(jīng)常容易「翻車」,難以準確完成用戶的每一個指令。
AI 優(yōu)化圖片
這其中的原因就在于宇樹機器人等具身智能,腦中并不具備預測、演算物理世界的能力,因此想要真正實現(xiàn) AGI,讓機器人能夠成為人類可靠的幫手,就需要為具身智能補上「世界模型」這一課。
商湯絕影世界模型的能力便是最適合教授此課的「老師」,其依托于多傳感器融合和實時處理能力實現(xiàn)的多模態(tài)時空對齊能力,結(jié)合行業(yè)領(lǐng)先的物理世界建模和預測能力,能夠生成具身智能機器人在訓練中完全可以直接使用的海量訓練集。
從而極快地提升具身智能機器人的智能程度,不再僅僅是通過預設(shè)編程控制的大號玩具,迅速推動具身智能行業(yè)的發(fā)展,讓我們普通消費者早日用上能夠幫我們看孩子、做家務(wù)的保姆機器人。
絕影開悟現(xiàn)已應(yīng)用到智駕 AI 訓練領(lǐng)域
在老狐看來,絕影開悟除了自身的模型性能、使用成本和泛化性三方面極其出色,其最珍貴的是它實際應(yīng)用到了智駕 AI 的訓練領(lǐng)域。
此前,商湯絕影已經(jīng)發(fā)布了完全由絕影開悟生成的高達 100萬 Clips 的 WorldSim-Drive 智駕 AI 數(shù)據(jù)集,它不僅是業(yè)內(nèi)迄今為止數(shù)量最大的生成式數(shù)據(jù)集,還憑借絕影開悟自身的能力,做到了高分辨率、分鐘級時長和多攝像頭視角的時空一致,還實現(xiàn)了 50 多類不同的光照條件、200 多類交通標志的全覆蓋!
毫不夸張地說,這一數(shù)據(jù)集的內(nèi)容量甚至已經(jīng)超越了許多人一生的駕駛中所能遇到的全部場景。
正因如此,絕影開悟在智駕 AI 訓練領(lǐng)域深受國內(nèi)頂尖智駕公司、車企的信賴,得到了一致好評,商業(yè)化成果可謂遍地開花。
在由智能汽車創(chuàng)新發(fā)展平臺牽頭、一眾科技、車企巨頭參與的上海智駕實訓場中,商湯絕影與上海儀電、庫帕思等企業(yè)一起合作,基于絕影開悟世界模型的數(shù)據(jù)生成、仿真測試等能力,攜手為上汽集團的智己汽車提供全面的端到端輔助駕駛開發(fā)支持,有效加快了智己汽車的智駕訓練迭代速度和量產(chǎn)落地效率。
絕影開悟算是最強的世界模型嗎?
在全面了解了絕影開悟之后,老狐猜大家可能和自己都有一個一樣的疑問:絕影開悟算是最強的世界模型嗎?
相信認真看完了前文的狐友們,在心里都會有一個明確的判斷,商湯絕影世界模型的產(chǎn)品技術(shù)、應(yīng)用能力和生態(tài)建設(shè),無論是在第三方智駕供應(yīng)商中,還是在主機廠中的排名均位列第一,結(jié)合前文來看,商湯絕影世界模型的整體優(yōu)勢非常明顯,屬于既穩(wěn)還強的行業(yè)優(yōu)等生。
當然,肯定也會有狐友好奇與國外的世界模型相比,商湯絕影的表現(xiàn)又如何呢?
我們就再用專業(yè)研究機構(gòu)發(fā)布的評測數(shù)據(jù)來回答這個問題,這次的數(shù)據(jù)采用了更為硬核的比較標準,直接用世界模型的 5 個關(guān)鍵技術(shù)指標進行對比,含金量更高:FID(衡量模型生成圖片與真實圖片之間的相似度)、FVD(衡量模型生成視頻與真實視頻之間的相似度)、幀率、時長和一致性。
只看數(shù)據(jù)的話,盡管商湯絕影在一些部分略有落后于谷歌的 Genie3,但是整體來看,仍然處于第二名的水平,如果我們結(jié)合商湯絕影開悟已經(jīng)全面地在智駕 AI 訓練領(lǐng)域中落地的背景,那么商湯絕影的綜合成績絕對算是第一名的水平。
所以老狐在此敢大膽下判斷,商湯的絕影開悟世界模型不僅是中國第一,就算放在全球范圍內(nèi),其綜合表現(xiàn)也完完全全算得上是行業(yè)領(lǐng)先的水平,這一結(jié)論并不算夸張。
從豪華專屬到科技普惠
絕影開悟讓智駕模型訓練來到了新的拐點,從此智駕模型的訓練有了新范式,出色的生成能力、超低的成本讓實現(xiàn)超越人類司機駕駛水平的 AI 有了可能,從此安全不再僅僅豪華智能汽車的專屬,而是成為了人人能夠享受的科技普惠。
從限定規(guī)則的智駕,到模仿人類的端到端智駕,智駕 AI 始終難以突破人類司機的上限,但是絕影開悟出色的數(shù)據(jù)生成能力和超低的生成成本,讓智駕 AI 高效率、低成本地進化到超越人類頂尖司機駕駛水平不再只是停留在 PPT 上的想象。
AI 配圖
毫無疑問,在智駕 AI 訓練領(lǐng)域的真實訓練數(shù)據(jù)逼近枯竭、獲取成本越來越高的背景下,商湯絕影的絕影開悟世界模型的生成式數(shù)據(jù)路線將會是智駕 AI 訓練領(lǐng)域的新拐點。
老狐再次大膽預測,未來隨著絕影開悟世界模型的進一步發(fā)展,極致的安全智駕不再僅僅是豪華智能汽車的專屬,而是將會成為人人能夠享受的科技普惠。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.