7月29日晚,理想i8正式上市,售價(jià)32.18萬(wàn)元至36.98萬(wàn)元,成為理想首款純電SUV。與以往不同,這次理想沒(méi)有選擇開(kāi)辟新賽道,而是直面純電市場(chǎng)最硬的骨頭補(bǔ)能效率與智能駕駛。在眾多技術(shù)路線中,理想首發(fā)了VLA(Vision-Language-Action)模型,早于所有競(jìng)爭(zhēng)對(duì)手完成車(chē)端部署。這一動(dòng)作,標(biāo)志著理想從“跟隨者”向“領(lǐng)跑者”的轉(zhuǎn)身。
發(fā)布會(huì)上的掌聲還未散去,我已坐在i8的副駕,目睹它在狹窄雙向道上拒絕跨線變道。那一刻我明白,這不再是簡(jiǎn)單升級(jí)的輔助駕駛,而是一套有價(jià)值觀的決策系統(tǒng)。VLA不是模仿人類(lèi)司機(jī),而是試圖成為更安全、更穩(wěn)定的家庭司機(jī)。它不追求極限操作,而是把“安心”刻進(jìn)算法基因。
數(shù)據(jù)筑起的護(hù)城河
五年前,理想在智駕領(lǐng)域還被稱(chēng)作“差生”。那時(shí)我們還在依賴(lài)高精地圖,而行業(yè)早已轉(zhuǎn)向“輕地圖”甚至“去地圖”。轉(zhuǎn)折點(diǎn)出現(xiàn)在2019年,李想面試?yán)上膛髸r(shí)問(wèn):“自動(dòng)駕駛最關(guān)鍵的要素是什么?”對(duì)方答:“數(shù)據(jù)?!睆睦硐隣NE開(kāi)始,理想就構(gòu)建了完整的數(shù)據(jù)閉環(huán)。如今,12億公里的真實(shí)駕駛數(shù)據(jù),構(gòu)成了VLA訓(xùn)練的基石。
同行可以買(mǎi)芯片、挖人才,但拿不走這12億公里的積累。就像川菜師傅炒回鍋肉,火候靠的是日復(fù)一日的灶臺(tái)經(jīng)驗(yàn),不是菜譜。我們做過(guò)仿真對(duì)比測(cè)試,用150多萬(wàn)公里實(shí)測(cè)數(shù)據(jù)反向驗(yàn)證仿真環(huán)境,讓虛擬世界的還原度達(dá)到99.9%以上。世界模型的真實(shí)性,決定了AI司機(jī)能否真正理解現(xiàn)實(shí)世界的復(fù)雜性。
算力榨出每一分潛能
有人問(wèn),Thor芯片并非理想自研,憑什么撐起VLA?答案是“壓榨”。我們從去年就在Orin芯片上魔改CUDA底層,重寫(xiě)PTX指令,把一幀推理從500毫秒壓縮到100毫秒以?xún)?nèi)。這就像在成都窄巷里開(kāi)SUV,方向盤(pán)打半圈還是打七分,差之毫厘,體驗(yàn)天壤。FP16降到FP8,不是簡(jiǎn)單降精度,而是建立在海量數(shù)據(jù)清洗基礎(chǔ)上的系統(tǒng)工程。
英偉達(dá)當(dāng)初覺(jué)得大模型上車(chē)不可能,但我們做到了。現(xiàn)在Thor芯片的有效算力已被榨出近10倍性能提升。未來(lái)FP4不是夢(mèng),前提是訓(xùn)練數(shù)據(jù)足夠干凈、迭代流程足夠高效。芯片是骨骼,算法是神經(jīng),真正讓車(chē)“活”起來(lái)的,是工程團(tuán)隊(duì)對(duì)細(xì)節(jié)的偏執(zhí)。
語(yǔ)言賦予機(jī)器思考力
VLA中的“L”Language,才是真正的分水嶺。傳統(tǒng)端到端模型是“看圖行事”,而VLA能理解“前進(jìn)5米”這樣的指令。這不是特訓(xùn)結(jié)果,而是大模型對(duì)物理空間的泛化理解。就像小孩子學(xué)會(huì)“遠(yuǎn)”和“近”,不需要每次都教他走幾步。語(yǔ)言能力讓自動(dòng)駕駛從“反應(yīng)式”走向“推理式”。
我們訓(xùn)練了一個(gè)32B的云端大模型,再通過(guò)蒸餾壓縮到車(chē)端3.2B的MoE架構(gòu)。Diffusion模型原本需10步推理,我們用flow matching壓縮到2步。這些技術(shù)組合,讓VLA具備了組合泛化能力,能應(yīng)對(duì)從未見(jiàn)過(guò)的復(fù)雜場(chǎng)景。它不再只是識(shí)別車(chē)道線,而是在“思考”如何安全通過(guò)。
通向具身智能的起點(diǎn)
VLA的意義不止于開(kāi)車(chē)。它驗(yàn)證了一條路徑:用視覺(jué)理解世界,用語(yǔ)言組織邏輯,用行動(dòng)執(zhí)行決策。這正是具身智能的核心范式。理想已成立機(jī)器人部門(mén),VLA的技術(shù)框架未來(lái)可能延伸至服務(wù)機(jī)器人、工業(yè)終端等物理AI場(chǎng)景。
當(dāng)前MPA(百萬(wàn)公里事故率)目標(biāo)是人類(lèi)駕駛的10倍安全,這需要VLA持續(xù)進(jìn)化。行業(yè)追逐MPI(人工接管間隔),但我們更關(guān)注每一次接管背后的原因是危險(xiǎn)規(guī)避,還是舒適性不足?真正的領(lǐng)先,不在于誰(shuí)先發(fā)布功能,而在于誰(shuí)能讓用戶(hù)真正敢放手。
未來(lái)的道路不會(huì)平坦,但方向已經(jīng)清晰:讓機(jī)器不僅會(huì)駕駛,更能理解駕駛的意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.