趕超華為“蔚小理”！沖上國產(chǎn)榜一的絕影開悟世界模型有啥實力？

2025-09-29 11:34:38　來源: 科技狐

廣東舉報

分享至

近日，全球知名增長咨詢公司沙利文發(fā)布《2025年中國世界模型發(fā)展白皮書》報告。沙利文在報告中指出，中國世界模型領(lǐng)域玩家已經(jīng)超過10家企業(yè)，從技術(shù)產(chǎn)品、應(yīng)用能力以及生態(tài)建設(shè)三方面進行綜合評價，商湯“絕影開悟”世界模型位居榜單第一，并處于全球領(lǐng)先地位。

盡管許多車企都在爭前恐后地說自己的智駕多么領(lǐng)先，但是在實際使用時，我們還是會發(fā)現(xiàn)它的真實水平與車企所宣傳的差異非常大，天氣、光照和極限場景都會導致駕駛水平出現(xiàn)較大的浮動。

同時，由于智駕 AI 訓練需要看大量的視頻（Clips），訓練成本相比簡單的文本生成模型也大得多，目前只有極少數(shù)頭部車企才有足夠的資源訓練自有模型。

AI 配圖

然而眾所周知，羊毛出在羊身上，這些成本又會轉(zhuǎn)嫁到消費者身上，最終消費者要么明著花幾萬購買使用權(quán)（比如特斯拉 FSD），要么就在車價中支付了，總之從廠商到消費者，大家的負擔都很大。

接下來，老狐就給用輕松、易懂的方式，解讀一下“絕影開悟”世界模型究竟是什么？它為什么能夠解決這些問題，以及大家最感興趣的：商湯絕影為什么能夠做出如此強大的世界模型。

絕影開悟是什么？

正如介紹 DeepSeek R1 之前需要介紹推理模型是什么，在介紹絕影開悟之前，老狐認為也需要先介紹一下什么是世界模型，讓狐友們能夠更好地理解它。

就像商湯絕影 CEO 王曉剛在汽車之家全球AI科技大會講到的那樣：智能駕駛 1.0 階段是依賴人工標注的“規(guī)則式智駕”；現(xiàn)在發(fā)展到 2.0 階段，是把人類行為積累轉(zhuǎn)化成為模型的“端到端智駕”；最終正邁向 3.0 階段，就是通過世界模型和強化學習帶來超越人類的“生成式智駕”。

怎么理解“生成式智駕”？我們?nèi)粘Ｊ褂玫?DeepSeek、豆包和文心一言，在 AI 大模型領(lǐng)域的分類名是大型語言模型，其主要功能是通過輸入的文本、音頻和圖片生成自然語言，對真實物理環(huán)境和物理動作并不具備直接的模擬預測能力。

而世界模型就很不一樣了，從名字上就能看出它的核心功能是讓自身具備模擬、預測真實物理環(huán)境的能力，就像是給 AI 在腦中建立一個真實、能夠用數(shù)據(jù)演算的物理世界。

比如當世界模型在開車的時候，如果它發(fā)現(xiàn)，右側(cè)有一輛車，它想要知道自己保持當前車速，右側(cè)的車會不會并過來，它就能夠在腦中迅速地演算、模擬未來幾秒鐘可能發(fā)生的所有情況，并做出最正確的駕駛動作調(diào)整，比人類老司機的駕駛預判水平更上一層樓。

AI 配圖

在如今智駕 AI 訓練所需的高質(zhì)量真實數(shù)據(jù)日漸耗盡，同時智駕 AI 還需要重復、大量訓練才能有所成長的當下，擅長理解物理世界的物理規(guī)律、預測生成所有潛在情況的世界模型，其在智駕 AI 訓練領(lǐng)域的應(yīng)用，能夠有效地解決這一問題。

何況年初的 DeepSeek 已經(jīng)證明通過大量的合成數(shù)據(jù)訓練出的 AI，其能力甚至比通過真實數(shù)據(jù)訓練出的 AI 更強，通過合成數(shù)據(jù)訓練 AI 已經(jīng)成為了所有 AI 大模型訓練領(lǐng)域的新范式。

說到這里，老狐相信很多狐友會有一個疑問：既然世界模型這么強大，為什么一直以來智駕 AI 訓練領(lǐng)域沒有大量采用世界模型生成的數(shù)據(jù)呢？

這一問題其實不僅僅困擾著狐友，也是很多智駕專家想做但又做不到的事情。

原因很簡單，相比 DeepSeek 等文字生成模型，智駕 AI 對安全性的要求顯然高出了幾個量級，假如 DeepSeek 使用低質(zhì)量的訓練集，導致生成了錯誤的文字，頂多就是用戶按「重試」即可，而智駕 AI 一旦發(fā)生了相同的事情，那后果不堪設(shè)想。

多年以來，智駕 AI 訓練領(lǐng)域的專家們并不是沒有嘗試過生成模擬的合成數(shù)據(jù)，但是以往的合成數(shù)據(jù)存在各種各樣的問題。

AI 配圖

比如合成的視頻時長特別短、清晰度特別差，生成的視頻看起來像是十多年前用 1M 存儲的功能機拍攝的；視角完全固定，只能生成車的正前方畫面，車兩側(cè)的畫面完全缺失，根本起不到讓 AI 能夠?qū)W習到現(xiàn)實駕車情況的作用；生成場景的內(nèi)容完全不可控，凡是環(huán)境一經(jīng)生成，就徹底無法變動，訓練只能「一條道走到黑」，沒法一次性充分訓練所有的場景。

然而絕影開悟世界模型能夠全面、徹底地解決智駕 AI 訓練領(lǐng)域中的這些疑難雜癥。

首先，絕影開悟最強大也是最重要的能力就是能夠?qū)崿F(xiàn)多樣化駕駛場景的可控生成，用戶不僅可以生成任意的駕駛場景，還能夠在生成之后，在這個虛擬的場景中駕駛，隨意剎車、加速和轉(zhuǎn)向，就像是真的在開車一樣。

同時，用戶還可以對場景中的一切元素進行精細化的調(diào)整，比如路面情況、光照、天氣和場景中其他車輛的車速、類型，都能夠完全按照用戶需要的方式進行調(diào)整。

并且如果發(fā)現(xiàn)智駕 AI 在應(yīng)對某個特殊場景時存在問題，還能夠使用絕影開悟模型直接生成成百上千個類類似場景，徹底讓智駕 AI 搞清楚怎么解決問題。

這兩項能力結(jié)合世界模型本身的預測模擬能力，能夠顯著地提升智駕 AI 強化學習的效率，也能夠更輕松地檢查智駕 AI 在應(yīng)對不同情況時的水平如何。

打個比方，這就像是 AI 生成視頻后，如果我們想要修改每一個角色佩戴的帽子的形狀，我們只需要讓 AI 單獨調(diào)整帽子形狀即可，不用在電腦前一直等著 AI 把整個視頻重新生成一遍，更靈活、更高效，有效降低了「返工」的概率。

其次，絕影開悟還支持生成最多 11 個視角的視頻，并且這些視頻中的內(nèi)容都做到了時間、空間的雙對齊，無論從哪一個角度觀察合成的物理環(huán)境，得到的結(jié)果都是一致的，實現(xiàn)了完美的時空一致性，同時絕影開悟還克服了真實攝像頭存在的魚眼視角畸變問題，讓智駕 AI 更容易看懂訓練數(shù)據(jù)，學得更快。

此外，在分辨率和時長方面，絕影開悟也有突破性的表現(xiàn)。

相比其他世界模型生成的堪稱老年機畫質(zhì)的短短幾秒的訓練視頻，絕影開悟已經(jīng)能窮舉各種駕駛行為，自動生成多樣化、高風險和長尾場景的合成數(shù)據(jù)，時長可達分鐘級、分辨率可達 1080p 畫質(zhì)的高清視頻，真正實現(xiàn)滿足智駕 AI 的訓練需求，實現(xiàn)了合成數(shù)和真實數(shù)據(jù)一樣有效，

能夠結(jié)合虛實數(shù)據(jù)進行 1:1 訓練，讓智駕 AI 從模擬到實戰(zhàn)都能有一致的駕駛表現(xiàn)。

AI 配圖

反觀人類司機由于永遠無法清晰地記住所有的危險情況的處理方法，所以通過全面的合成數(shù)據(jù)訓練出的智駕 AI，不但能夠像人類司機一樣駕駛，還能超越人類司機的極限駕駛水平，在所有的環(huán)境都做到最優(yōu)的駕駛表現(xiàn)。

這里可能又會有狐友提問：盡管絕影開悟世界模型真的很強，但是它對降低智駕 AI 訓練成本會有幫助嗎？

有的，兄弟，這個有的！

如開頭所說，目前智駕 AI 訓練的確存在消耗成本巨大的問題，而且高度可用的訓練資料價格也非常高，這確實是阻礙智駕 AI 發(fā)展的一大核心原因。

比如智駕行業(yè)就普遍認為，只有 1000 萬以上的 Clips 才有機會訓練出一個好用的端到端智駕模型，特斯拉之所以能夠在智駕市場始終處于第一梯隊，就與他們目前已經(jīng)量產(chǎn)交付的 700 多萬輛能夠回傳數(shù)據(jù)的車有密切的關(guān)系。

所以說起缺乏像特斯拉這樣龐大的智駕車隊的車企時，從業(yè)者基本不會看好它的智駕水平，訓練數(shù)據(jù)瓶頸就是阻礙這些車企向上發(fā)展的天花板。

而絕影開悟之所以強大就在于它不僅生成的合成數(shù)據(jù)極其出色，做到了能夠替代真實數(shù)據(jù)訓練智駕 AI 的水平，它的數(shù)據(jù)生成成本也非常的低廉。

僅僅使用一張 312 TFLOPS（FP16）算力的 A100，絕影開悟每天生成的高質(zhì)量數(shù)據(jù)，就相當于 500 輛量產(chǎn)車采集的數(shù)據(jù)量，讓智駕企業(yè)能夠在缺乏量產(chǎn)車部署量的情況下，一樣可以實現(xiàn)數(shù)據(jù)采集量的大幅提升，大幅降低購買真實數(shù)據(jù)的費用開支，有效降低了訓練智駕 AI 的成本，進而能夠把安全、出色的智駕 AI 的價格打下來，讓人人都能享受到頂尖的智駕 AI。

絕影開悟的應(yīng)用也不僅僅限于智駕 AI 訓練領(lǐng)域，模型生成的數(shù)據(jù)訓練集具備非常出色的泛化性，對于時下熱門的具身智能領(lǐng)域，也就是智能機器人領(lǐng)域同樣也有非常大的作用。

狐友們想必都還記得去年春晚時登臺演出的宇樹機器人，誠然，從機器人工程學的角度來說，宇樹科技的機器人在關(guān)節(jié)靈活性、成本等方面都做到了世界一流的水平，讓機器人的價格從六位數(shù)、五位數(shù)一下子打到了四位數(shù)。

但是購買了宇樹機器人的用戶在使用中，卻會發(fā)現(xiàn)宇樹機器人并不能真正理解物理世界的物理常識、預測物理動作的相互關(guān)系，這導致宇樹機器人在沒有訓練過、學習過的場景中，經(jīng)常容易「翻車」，難以準確完成用戶的每一個指令。

AI 優(yōu)化圖片

這其中的原因就在于宇樹機器人等具身智能，腦中并不具備預測、演算物理世界的能力，因此想要真正實現(xiàn) AGI，讓機器人能夠成為人類可靠的幫手，就需要為具身智能補上「世界模型」這一課。

商湯絕影世界模型的能力便是最適合教授此課的「老師」，其依托于多傳感器融合和實時處理能力實現(xiàn)的多模態(tài)時空對齊能力，結(jié)合行業(yè)領(lǐng)先的物理世界建模和預測能力，能夠生成具身智能機器人在訓練中完全可以直接使用的海量訓練集。

從而極快地提升具身智能機器人的智能程度，不再僅僅是通過預設(shè)編程控制的大號玩具，迅速推動具身智能行業(yè)的發(fā)展，讓我們普通消費者早日用上能夠幫我們看孩子、做家務(wù)的保姆機器人。

絕影開悟現(xiàn)已應(yīng)用到智駕 AI 訓練領(lǐng)域

在老狐看來，絕影開悟除了自身的模型性能、使用成本和泛化性三方面極其出色，其最珍貴的是它實際應(yīng)用到了智駕 AI 的訓練領(lǐng)域。

此前，商湯絕影已經(jīng)發(fā)布了完全由絕影開悟生成的高達 100萬 Clips 的 WorldSim-Drive 智駕 AI 數(shù)據(jù)集，它不僅是業(yè)內(nèi)迄今為止數(shù)量最大的生成式數(shù)據(jù)集，還憑借絕影開悟自身的能力，做到了高分辨率、分鐘級時長和多攝像頭視角的時空一致，還實現(xiàn)了 50 多類不同的光照條件、200 多類交通標志的全覆蓋！

毫不夸張地說，這一數(shù)據(jù)集的內(nèi)容量甚至已經(jīng)超越了許多人一生的駕駛中所能遇到的全部場景。

正因如此，絕影開悟在智駕 AI 訓練領(lǐng)域深受國內(nèi)頂尖智駕公司、車企的信賴，得到了一致好評，商業(yè)化成果可謂遍地開花。

在由智能汽車創(chuàng)新發(fā)展平臺牽頭、一眾科技、車企巨頭參與的上海智駕實訓場中，商湯絕影與上海儀電、庫帕思等企業(yè)一起合作，基于絕影開悟世界模型的數(shù)據(jù)生成、仿真測試等能力，攜手為上汽集團的智己汽車提供全面的端到端輔助駕駛開發(fā)支持，有效加快了智己汽車的智駕訓練迭代速度和量產(chǎn)落地效率。

絕影開悟算是最強的世界模型嗎？

在全面了解了絕影開悟之后，老狐猜大家可能和自己都有一個一樣的疑問：絕影開悟算是最強的世界模型嗎？

相信認真看完了前文的狐友們，在心里都會有一個明確的判斷，商湯絕影世界模型的產(chǎn)品技術(shù)、應(yīng)用能力和生態(tài)建設(shè)，無論是在第三方智駕供應(yīng)商中，還是在主機廠中的排名均位列第一，結(jié)合前文來看，商湯絕影世界模型的整體優(yōu)勢非常明顯，屬于既穩(wěn)還強的行業(yè)優(yōu)等生。

當然，肯定也會有狐友好奇與國外的世界模型相比，商湯絕影的表現(xiàn)又如何呢？

我們就再用專業(yè)研究機構(gòu)發(fā)布的評測數(shù)據(jù)來回答這個問題，這次的數(shù)據(jù)采用了更為硬核的比較標準，直接用世界模型的 5 個關(guān)鍵技術(shù)指標進行對比，含金量更高：FID（衡量模型生成圖片與真實圖片之間的相似度）、FVD（衡量模型生成視頻與真實視頻之間的相似度）、幀率、時長和一致性。

只看數(shù)據(jù)的話，盡管商湯絕影在一些部分略有落后于谷歌的 Genie3，但是整體來看，仍然處于第二名的水平，如果我們結(jié)合商湯絕影開悟已經(jīng)全面地在智駕 AI 訓練領(lǐng)域中落地的背景，那么商湯絕影的綜合成績絕對算是第一名的水平。

所以老狐在此敢大膽下判斷，商湯的絕影開悟世界模型不僅是中國第一，就算放在全球范圍內(nèi)，其綜合表現(xiàn)也完完全全算得上是行業(yè)領(lǐng)先的水平，這一結(jié)論并不算夸張。

從豪華專屬到科技普惠

絕影開悟讓智駕模型訓練來到了新的拐點，從此智駕模型的訓練有了新范式，出色的生成能力、超低的成本讓實現(xiàn)超越人類司機駕駛水平的 AI 有了可能，從此安全不再僅僅豪華智能汽車的專屬，而是成為了人人能夠享受的科技普惠。

從限定規(guī)則的智駕，到模仿人類的端到端智駕，智駕 AI 始終難以突破人類司機的上限，但是絕影開悟出色的數(shù)據(jù)生成能力和超低的生成成本，讓智駕 AI 高效率、低成本地進化到超越人類頂尖司機駕駛水平不再只是停留在 PPT 上的想象。

AI 配圖

毫無疑問，在智駕 AI 訓練領(lǐng)域的真實訓練數(shù)據(jù)逼近枯竭、獲取成本越來越高的背景下，商湯絕影的絕影開悟世界模型的生成式數(shù)據(jù)路線將會是智駕 AI 訓練領(lǐng)域的新拐點。

老狐再次大膽預測，未來隨著絕影開悟世界模型的進一步發(fā)展，極致的安全智駕不再僅僅是豪華智能汽車的專屬，而是將會成為人人能夠享受的科技普惠。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.