【導(dǎo)語(yǔ):2025年智能駕駛領(lǐng)域迎來(lái)VLA技術(shù)集中爆發(fā),一年前“端到端”還是萬(wàn)能解法,一年后卻被打上“落后技術(shù)”的標(biāo)簽。加之VLA、WA等新詞主要集中在新勢(shì)力圈層內(nèi),這不禁讓我們思考,VLA真的能帶來(lái)領(lǐng)先“端到端”數(shù)倍的使用體驗(yàn)嗎,還是新勢(shì)力們又一個(gè)科技營(yíng)銷故事?】
撰文|蔡家倫、編輯|禾 子
無(wú)論是VLA還是WA都屬于端到端的范疇,兩者是端到端智駕進(jìn)入下一個(gè)階段的技術(shù)分支,并非新鮮玩意。
具體到技術(shù)定義,VLA是由V(Vision視覺(jué))、L(Language語(yǔ)言),A(Action行動(dòng))三個(gè)能力組合而成。理想作為國(guó)內(nèi)少數(shù)已經(jīng)落地VLA的車企,理想對(duì)VLA的定義是:有思維能力,有溝通能力,有記憶能力,有自主學(xué)習(xí)能力。
為何衍生出VLA技術(shù)路線
端到端為什么會(huì)進(jìn)一步衍生出VLA技術(shù)路線。主要原因在于,在VLA之前,行業(yè)普遍追逐和使用技術(shù)模型,主要分為模塊化端到端和一段式端到端,這兩種技術(shù)模型有個(gè)很大的弊端,即為“黑箱特性”,即端到端大模型決策過(guò)程缺乏可解釋性,對(duì)極端場(chǎng)景容易出現(xiàn)不可預(yù)測(cè)行為。
模塊化端到端:保留了人工設(shè)計(jì)的模塊接口,人工能夠單獨(dú)補(bǔ)充和優(yōu)化各個(gè)模塊的數(shù)據(jù)/傳輸性能,然而在信息傳遞中會(huì)有一定損耗,所以實(shí)際是一種“偽端到端”。
一段式端到端:直接將傳感器獲取的數(shù)據(jù)映射為控制指令執(zhí)行,減少信息傳遞的損耗,是真正的端到端,例如特斯拉FSDV12便是典型的一段式端到端。
VLA對(duì)比傳統(tǒng)端到端,核心突破在于引入“思維鏈”,傳統(tǒng)端到端只有“觀察+行動(dòng)”兩個(gè)動(dòng)作,而VLA由于加入Language語(yǔ)言模型,讓決策推理可以被解釋,讓整套智駕邏輯更像人類“觀察+思考+行動(dòng)”的推理過(guò)程。
例如在缺乏紅綠燈的環(huán)島場(chǎng)景,VLA能生成多個(gè)步驟規(guī)劃,而不是簡(jiǎn)單根據(jù)地圖,傳感器進(jìn)行判斷;在潮汐車道,VLA能結(jié)合視覺(jué)信號(hào)與文本指令判斷車道的用通過(guò)性。
相比傳統(tǒng)端到端(VLM)僅能輸出單步控制指令,VLA這種“多模態(tài)深度融合”的能力,在長(zhǎng)尾場(chǎng)景中,能夠展現(xiàn)更強(qiáng)的泛化能力。
因此,我們可以理解為,VLA就是為了解決端到端“黑箱特性+極端場(chǎng)景”而誕生的大模型,是端到端的“智能增強(qiáng)版”,用來(lái)填補(bǔ)端到端難以完成的剩下10%場(chǎng)景。
當(dāng)然,正如上文所訴,傳統(tǒng)端到端的優(yōu)化路徑并不只有VLA,以華為,蔚來(lái)為代表的車企則給出WA(世界模型)的技術(shù)路線。
相較VLA“觀察+思考+行動(dòng)”技術(shù)路線,WA是直接通過(guò)Vision(視覺(jué))信息的輸入實(shí)現(xiàn)控車,無(wú)需將各種信息轉(zhuǎn)為L(zhǎng)anguage(語(yǔ)言),在通過(guò)語(yǔ)言模型來(lái)控制。
華為自研WEWA架構(gòu)之所以能夠跳過(guò)“Language”,關(guān)鍵在于云端WE和車端WA的配合工作。云端WE是在智駕系統(tǒng)的云端大腦里搭建“虛擬沙盤”,負(fù)責(zé)在虛擬世界不斷學(xué)習(xí)和淬煉?cǎi){駛數(shù)據(jù),車端WA則將云端學(xué)到的駕駛數(shù)據(jù)高效落地的真實(shí)道路。
并且在華為車BU CEO靳玉志看來(lái),VLA是在LM(語(yǔ)言模型)相對(duì)成熟的背景下,將視頻轉(zhuǎn)化為語(yǔ)言進(jìn)行訓(xùn)練,再通過(guò)執(zhí)行模塊控制車輛的行為,看似取巧實(shí)則不是自動(dòng)駕駛的終極方案。
當(dāng)然,由于目前VLA和WA尚未完全落地,技術(shù)主要集中在高端車型上優(yōu)先使用,因此我們今天尚且先不討論,這兩種技術(shù)路線到底誰(shuí)能成為最后的贏家。
畢竟無(wú)論是VLA還是WA,本質(zhì)都需要數(shù)據(jù)、算法、算力和工程四個(gè)方面要素的共同配合。
以WA世界模型為例,盡管世界模型對(duì)長(zhǎng)尾數(shù)據(jù)量沒(méi)有太多要求,但既然依靠云端生成數(shù)據(jù)進(jìn)行訓(xùn)練,那么對(duì)云端算力、工程和數(shù)據(jù)質(zhì)量就有很大要求,如果世界模型數(shù)據(jù)描述偏差過(guò)大,那么在執(zhí)行層面同樣會(huì)帶來(lái)糟糕的體驗(yàn)。
因此,與其過(guò)度爭(zhēng)論VLA和WA孰好孰壞,技術(shù)邏輯,我們不妨將角度回到技術(shù)落地和用戶感知層面。
黑貓白貓,抓到老鼠就是好貓
技術(shù)落地層面,目前華為乾崑智駕 ADS 4(參數(shù)丨圖片)已經(jīng)融合WEWA世界模型,蔚來(lái)世界模型 NWM也在今年5月份開(kāi)始陸續(xù)推送。顯然,世界模型作為數(shù)據(jù)驅(qū)動(dòng),云端AI訓(xùn)練為核心邏輯的技術(shù)路線,技術(shù)越早落地,云端“AI駕?!本驮綇?qiáng)大。
值得一提的是,盡管目前華為,蔚來(lái)的世界模型已經(jīng)落地,但想要將世界模型的功能發(fā)揮到極致,一方面取決于數(shù)據(jù)根基,另一方面則來(lái)自云端AI芯片的算力。數(shù)據(jù)驅(qū)動(dòng)和AI芯片算力,但凡一方缺席,AI駕校的學(xué)習(xí)速度和訓(xùn)練精度就會(huì)受到嚴(yán)重的影響。因此,世界模型賽道的高門檻,注定成為少數(shù)企業(yè)的專屬玩法。
至于VLA,在智駕板塊擁有自研能力的車企,諸如吉利、長(zhǎng)城、奇瑞,零跑等均在全力推進(jìn)VLA模型的研究和落地。
盡管,理想和小鵬成為率先實(shí)現(xiàn)技術(shù)落地的頭批玩家,但從行業(yè)發(fā)展時(shí)間點(diǎn)來(lái)看,VLA想要實(shí)現(xiàn)大規(guī)模落地并且發(fā)揮最大效能,仍需要3-5年等待適配大模型的芯片出現(xiàn)。
主要原因在于,VLA想要實(shí)現(xiàn)行車安全以及駕駛高度擬人化,模型不僅要部署在智駕芯片上,而且模型規(guī)模必須要做到7B-10B左右,目前市面上的三方智駕芯片,帶寬相對(duì)較小,幾乎都不是專為大模型計(jì)算而設(shè)計(jì),如果將模型縮水布置在Thor芯片上,刷新頻率則難以保持穩(wěn)定。
在用戶感知層面,以理想i8為例,大部分用戶對(duì)該車的印象更多停留在“碰撞測(cè)試”“強(qiáng)化彩電冰箱大沙發(fā)屬性”,而對(duì)于VLA,用戶反而難以理解價(jià)值和擁有明確的感知,或者是覺(jué)得VLA很強(qiáng)大,但真要掏錢的時(shí)候,反而會(huì)變得猶豫。
因此,當(dāng)硬件和用戶思維跟不上車企節(jié)奏時(shí),對(duì)于現(xiàn)階段想要沖擊VLA的車企而言,更重要是深耕內(nèi)功“強(qiáng)化學(xué)習(xí)+端到端場(chǎng)景”,而非放大營(yíng)銷聲音。Momenta創(chuàng)始人曹旭東也曾表態(tài)“VLA是好方向,但只是錦上添花?!?/p>
點(diǎn)評(píng)
VLA確實(shí)為更高階的智能駕駛輔助“擬人化”提供了可能性,但當(dāng)現(xiàn)有理論架構(gòu)已經(jīng)遠(yuǎn)超實(shí)際大規(guī)模落地的可能性時(shí),用更多精力鞏固、優(yōu)化現(xiàn)階段成功,才是行業(yè)平穩(wěn)發(fā)展的重中之重。
(本文系《禾顏閱車》原創(chuàng),未經(jīng)授權(quán),不得轉(zhuǎn)載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.