VLA 是“唯一能把長尾一口氣吃掉”的可行框架
文/林書
編輯/劉宇翔
2025年 8 月的最后一個星期,中國智能駕駛被驟然按下快進鍵——從算法底座到整車 OTA,行業(yè)在短短幾天內(nèi),呈現(xiàn)出了“VLA齊爆發(fā)”的景觀。
VLA,即Vision-Language-Action,視覺-語言-行動模型。VLA的快速商業(yè)化落地,正在重新定義“高階智駕”的技術(shù)門檻。
首先是理想汽車借純電旗艦 i8 上市窗口,首次向全量用戶推送「VLA 司機大模型」;元戎啟行于 8 月 26 日正式發(fā)布自研 VLA 大模型,推出名為 DeepRoute IO 2.0 的新平臺,確定將在 5 款車型上使用,覆蓋累計約 20 萬臺車。
緊接著,小鵬汽車在 8 月 27 日的新 P7 發(fā)布會上端出新一代 VLA 架構(gòu),宣稱時延 < 100 ms、規(guī)劃幀率 20 Hz,刷新量產(chǎn)天花板。
與此同時,華為代表的另一大路線——WA(世界行為模型),也正在緊密地醞釀中。ADS 4.0 將在 9 月隨問界 M9 年度改款 OTA,試圖重新劃定城區(qū)智駕的體驗基線。
而之所以“VLA 上車潮”發(fā)生在 2025 年,從商業(yè)的角度來看,是因為今年處于城市 NOA 規(guī)?;桓叮↙2++)與 Robotaxi 商業(yè)化(L4)之間的“空檔期”。誰先完成 VLA 量產(chǎn),誰就能在下一階段用戶體驗與融資敘事上占據(jù)先手,錯過 2025,技術(shù)紅利將被稀釋,成本優(yōu)勢也將被供應鏈攤平。
VLA掀起的新一輪競爭,不僅將決定中國車企的未來競爭地位,更可能引發(fā)整個智駕產(chǎn)業(yè)的重新洗牌。
01
新的門檻
如果要對VLA路線的技術(shù)優(yōu)勢,做一個簡單的概述,這樣的優(yōu)勢大致就是:
與傳統(tǒng)端到端路線相比,VLA通過用語言和文字這一中間環(huán)節(jié),將具象化的路況、圖像,進行歸類,并進行“抽象化”,而不只是單純地對看過的數(shù)據(jù)“死記硬背”,從而讓模型能取得更好的泛化能力。
同時,在具備思維鏈(CoT)能力后,VLA模型能分解駕駛決策為邏輯連貫的中間步驟,增強決策邏輯性、系統(tǒng)可解釋性及泛化能力。
當人類駕駛員面對突發(fā)路況時,會本能地完成"觀察→判斷→動作"的連貫認知過程。
VLA(視覺-語言-動作模型)正是通過模擬這一邏輯,構(gòu)建起“視覺感知-語言推理-動作輸出”的閉環(huán)系統(tǒng),實現(xiàn)對幾十秒長時序路況的預判能力,尤其在施工路段等長尾場景中展現(xiàn)出更強的泛化能力。
然而,由于多了“語言”這一層數(shù)據(jù),VLA 對算力與數(shù)據(jù)的胃口,已把“上車”門檻抬高到傳統(tǒng)方案無法企及的高度。算力側(cè),訓練端需吞吐 22 T token 級多模態(tài)數(shù)據(jù),單次訓練即等價于 DeepSeek-V3 1.5 倍規(guī)模;
數(shù)據(jù)側(cè),VLA 需同步采集并標注視覺-語言-動作三元組,理想訓練所用的數(shù)據(jù),90 % 來自 29.3 億 km 實車日志,10 % 由生成式仿真補足,長尾極端場景(雨夜、施工、異形障礙物)需額外 5-10 倍數(shù)據(jù)密度才能收斂,導致單車數(shù)據(jù)成本與端到端時代相比陡然增加。
在算力方面,理想、小鵬分別動用 13 EFLOPS 與 8 EFLOPS 云端集群,僅千卡周級調(diào)度才能滿足 30 B-72 B 參數(shù)模型的收斂窗口。公開數(shù)據(jù)顯示,國內(nèi)中小車企云端訓練集群普遍停留在 0.2–0.6 EFLOPS,僅為理想 5.39 EFLOPS 的十分之一,更遑論特斯拉 Dojo 年底 100 EFLOPS 的量級。
以哪吒為例,其烏蘭察布 GPU 集群峰值 180 PFLOPS,尚不足以在 30 天內(nèi)完成一次 7 B 參數(shù) VLA 模型收斂;若租用公有云,按當前 A100/H100 現(xiàn)貨價折算,單次訓練即需 1.2–1.5 億元人民幣,相當于其 2024 年全年研發(fā)預算的 40 %。
這意味著,VLA 的量產(chǎn)落地是“千卡訓練云+千 TOPS 車端+千億級數(shù)據(jù)”三線并進的極限工程,任何一環(huán)缺口都會把 ROI 拉成負值。
對于年銷量僅十余萬輛的中小車企而言,如此高昂的投入難以通過規(guī)模化攤薄,且失敗風險高企。正如元戎啟行CEO周光指出,一家智駕公司需交付10萬輛級量產(chǎn)車,才具備搭建VLA架構(gòu)的基本數(shù)據(jù)基礎(chǔ)。
更重要的是,從規(guī)則時代到 VLA 的躍遷并不是一次可折疊的跨越,而是一段必須在工程實踐中逐級“淬火”的鏈式反應。
02
行業(yè)洗牌
在VLA路線所需的高昂成本面前,中小車企面臨的生存困境愈發(fā)明顯,除了算力與數(shù)據(jù)方面的差距外,從規(guī)則時代到端到端1.0積累的先發(fā)優(yōu)勢構(gòu)建的技術(shù)護城河,也是多數(shù)二線品牌難以復現(xiàn)的關(guān)鍵環(huán)節(jié)。
最初,規(guī)則算法用顯式代碼與人工先驗,把駕駛?cè)蝿詹鸾鉃榭沈炞C的模塊,給團隊留下可解釋、可追責的體系化思維與場景分類框架;
進入端到端 1.0 后,系統(tǒng)首次用大規(guī)模標注數(shù)據(jù)替代人工規(guī)則,逼迫組織完成數(shù)據(jù)閉環(huán)、工具鏈、DevOps 的原始積累,同時暴露出長尾場景對數(shù)據(jù)密度的極端需求;
最終在邁向 VLA 時,團隊需要把前兩階段沉淀的工程學積累整體遷移到新框架里,才能形成“視覺—語言—行動”的高度統(tǒng)一。
理想汽車李想也曾直言,若企業(yè)連規(guī)則算法都做不好,則根本無從知曉如何訓練VLA模型。
在這樣的差距下,VLA路線的降臨,無疑會讓行業(yè)迎來一次“大洗牌”。中低端車企、品牌,要么難以在新時代生存,要么只能淪為“方案外購者”,或成為車企的富士康”,成為低端代工,利潤被芯片廠和算法公司兩頭吃。
在端到端1.0時代,雖然絕大多數(shù)中低端車在“數(shù)據(jù)-模型-芯片”三件套中,極少能完全自研,本質(zhì)上是“拼積木”式集成。
但過去車企可以掏錢買 Orin、買算法、買標注,大家都能活得不錯。
例如哪吒、零跑、寶駿等普遍采用英偉達 Orin-X 或地平線征程 5 的“公版域控”;數(shù)據(jù)方面,零跑 C10 的 2.1 億公里有效里程中,60 % 標注任務由 Momenta、覺非科技完成;
但是到了端到端2.0時代,“外包式生存”在 2.0 時代被上游供應商自己“關(guān)門”了——由于VLA路線導致的算力、數(shù)據(jù)成本驟增,現(xiàn)在這三樣變成了“限量款”,而且限量權(quán)掌握在極少數(shù)巨頭手里。
例如英偉達今年首批Thor-U的40 萬片產(chǎn)能,早已被理想、蔚來、小鵬在 2024 年就簽完長期鎖價鎖量協(xié)議,拿走 32 萬片,只留 8 萬片現(xiàn)貨需要溢價 30 % 競拍。
原本“誰掏錢誰就能買到”的開放供應鏈,在 2025 年因為芯片缺貨、模型架構(gòu)改變導致的算法改捆綁、被壓縮成“少數(shù)玩家內(nèi)部閉環(huán)”,中小車企連“買方案”這條退路都被截斷。
再此情況下,中小車企面臨的生存困境愈發(fā)明顯,當頭部企業(yè)通過"芯片-數(shù)據(jù)-模型"的閉環(huán)能力構(gòu)建起技術(shù)壁壘時,中小車企便陷入一個死循環(huán):買芯片沒配額,買模型要持續(xù)分成,攢數(shù)據(jù)沒錢也沒人。
中小車企唯一還能做的,就是融入供應鏈,把整車制造、沖壓焊接、總裝測試這些傳統(tǒng)環(huán)節(jié)做到極致良率和極致成本——這正是富士康在手機行業(yè)扮演的角色。
03
頭部之變
盡管現(xiàn)在的VLA模型十分火熱,但在智駕方面,并不是所有車企都認可這一路線。
除了VLA路線,目前華為和蔚來主推的是另一條路線:世界模型(WA)。其核心思路,是“海量使用云端模擬的數(shù)據(jù)、來讓大模型‘理解’世界而學會駕駛”。
例如華為的World Action Model模型(WA),用擴散生成模型批量“造”Corner case,
也就是通過AI生成的大量的視頻案例,來讓模型明白何為物理規(guī)則。
而蔚來的NIO World Model(NWM),則通過將激光雷達+視覺壓縮成 3D token;再通過自回歸模型一次推演 5 秒后的多幀場景,從而“想象”出從未見過的路況。
而WA與VLA兩條路線的區(qū)別,或許可以概述為:世界模型是“理想主義的未來豪賭”,VLA是“實用主義的當下生存”。
但在華為看來,語言模型擅長文本推理,卻缺乏對三維空間的精確感知與運動推演能力。
而車,畢竟是在真實空間中運動的物體,毫厘之差可能就意味著風險。
唯有讓模型真正理解物理規(guī)則,才能從根本上解決端到端模型“只會模仿、不會思考”的瓶頸。
但盡管世界模型看上去更“終極”,但VLA這條更“務實”的路線,對理想、小鵬等車企來說,仍然有著“改命”的意義。
一方面,2024 年理想以 50 萬輛交付量登頂新勢力,但單車毛利率從 21.5% 下滑至 19.8%,增程市場被華為、蔚來、小鵬全面圍剿(如華為問界 M8、蔚來樂道直指 L7/L8)。對理想來說,冰箱彩電大沙發(fā)已不再亮眼,必須用智能化重新定義產(chǎn)品。
而小鵬目前在純電市場追趕比亞迪、特斯拉,其正在推進的機器人也需要通用 AI 基座。小鵬選擇 VLA 混合架構(gòu),本質(zhì)是“一箭雙雕”:其72B 云端基座模型,本質(zhì)是 VLA 的超大型版本,既服務汽車,也為將來的機器人鋪路。
對二者來說,VLA 是“唯一能把長尾一口氣吃掉”的可行框架,并且,理想、小鵬積累的數(shù)據(jù)密度已經(jīng)足夠讓 VLA 越過“冷啟動死亡谷”,這是后來者無法復制的壁壘。
從市場的角度看,雖然華為與 Momenta 已占據(jù) 2025 年智駕市場 90% 份額。這樣的雙寡頭地位難以撼動。且華為現(xiàn)在的智駕地位,靠的不是單模型大小、強弱,而是“數(shù)據(jù) + 軟硬一體 + 車廠”綁定三位一體的護城河。
然而,VLA大模型的普及,會顯著改變競爭格局,形成技術(shù)路線分化、市場份額重組。
傳統(tǒng)智駕模型是:你給多少場景、多少樣本,模型就記住多少,每新增一個少見場景都得補數(shù)據(jù)。華為在這層面確實通過規(guī)模碾壓了競爭對手。
但是 VLA 模型不同。它的魔力在于多模態(tài)學習和推理能力——一方面通過“視覺 + 語言 + 行為”三種輸入,讓模型“理解”得更深刻,不只是記住,而是學會類人推理;這使理想、小鵬等車企,在長尾場景上也能獲得接近華為的表現(xiàn)。
所以,在新一輪的智駕競爭中,現(xiàn)有的格局不會立刻翻盤,但 VLA 已經(jīng)打開了一個新的窗口。
可以說,隨著新一輪技術(shù)升級的到來,中小車企的危局,以及頭部之間差距的縮小,將成為一種愈發(fā)顯著的趨勢。
2025年既可能華為、特斯拉的“巔峰時刻”,也可能是理想、小鵬等VLA實踐者的“逆襲元年”。
在這場智能主權(quán)的爭奪中,只有那些率先突破核心壁壘、構(gòu)建差異化優(yōu)勢的企業(yè),才能最終殺出重圍。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.