網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

不搞AI的，不是好汽車公司

2025-05-10 08:00:03　來源: 豹變

四川舉報

分享至

「核心提示」
押注AI，背后爭奪的是下一代汽車，甚至是產(chǎn)品的定義權(quán)，以及與此相伴的技術(shù)、用戶與商業(yè)模式的全面重構(gòu)。

作者 |張力

邢昀

近期，李想帶著他的VLA 司機(jī)大模型再談AI，距離上一次他開誠布公地談AI 和理想的未來，過去了整整130天。

130天不長，但足以讓自動駕駛和AI領(lǐng)域改天換地。1月下旬，DeepSeek發(fā)布開源推理大模型DeepSeek-R1，持續(xù)破圈，在國內(nèi)引爆新一輪人工智能熱潮。上一次理想AI talk中，李想著重強(qiáng)調(diào)自研基座大模型的重要性，“未來幾年必須得保證，我們大語言模型的基座模型要做行業(yè)前三”。

而隨著DeepSeek- R1橫空出世，理想轉(zhuǎn)而基于DeepSeek的開源去做VLA（視覺語言行動模型）的L（language 語言）部分，也就是語言模型開發(fā)。選擇站在巨人的肩膀上，理想汽車在VLA司機(jī)大模型的語言能力研發(fā)上提速顯著，節(jié)省了近9個月的時間和數(shù)億元成本。

同一時間里，智能駕駛因?yàn)槭鹿暑l發(fā)，遭遇安全可靠性質(zhì)疑，迎來至暗時刻，不過，在李想看來，現(xiàn)階段比較像黎明前的黑暗，正因?yàn)檩o助駕駛行業(yè)遇到了問題，解決問題才更有價值。

AI 的潛力在解決問題的過程中正變得具象化。不止理想，小鵬、蔚來這兩家與理想差不多同期創(chuàng)業(yè)的造車新勢力也在押注AI。

李想稱“AI意味著理想未來的全部”，蔚來創(chuàng)始人李斌斷言“一家成功的智能電動車公司，也一定是一家成功的AI公司”，小鵬汽車創(chuàng)始人何小鵬喊出“All in AI ”，打造面向全球的AI汽車公司。

實(shí)際上，這背后爭奪的是下一代汽車、甚至產(chǎn)品的定義權(quán)，以及與此相伴的技術(shù)、用戶與商業(yè)模式的全面重構(gòu)。

1、造車邁入“AI新戰(zhàn)場”

蔚小理對AI 的決心，要追溯到特斯拉的FSD（Full Self-Driving）V12的突破性進(jìn)展。

2024年初，特斯拉智駕團(tuán)隊(duì)負(fù)責(zé)人在X（前推特）上介紹，F(xiàn)SD V12 僅訓(xùn)練幾個月，就已經(jīng)完全超越經(jīng)過多年積累的FSD V11。FSD 突然變強(qiáng)，是因?yàn)樗麄儾捎昧艘环N新的端到端（end to end）的神經(jīng)網(wǎng)絡(luò)技術(shù)，把傳統(tǒng)的感知、決策、控制融合到一個模型中，通過輸入信息直接產(chǎn)生執(zhí)行動作，就跟人在開車時，根據(jù)路況做出即時反應(yīng)一樣。

這樣突破性的進(jìn)展，屬于自動駕駛領(lǐng)域的“涌現(xiàn)”時刻，與ChatGPT 3.5橫空出世對大語言模型的意義不相上下。即使一直跟特斯拉硬剛的何小鵬，在體驗(yàn)過FSD V12之后，也不得不服，大贊“FSD V12.3.6表現(xiàn)極好，要向其學(xué)習(xí)”。

在端到端大模型流行之前，自動駕駛的主流是模塊化設(shè)計，包含感知、決策、執(zhí)行三大模塊，信息是逐級傳導(dǎo)的，車上的傳感器（如雷達(dá)、攝像頭等），相當(dāng)于人的眼睛和耳朵，把感知到的環(huán)境信息，傳導(dǎo)到?jīng)Q策模塊，類似于人的大腦，這個大腦里寫滿了各式各樣的規(guī)則，決策模塊根據(jù)這些規(guī)則規(guī)劃出最佳的行駛路線，最終告知給執(zhí)行模塊，相當(dāng)于人的手和腳，執(zhí)行轉(zhuǎn)向、加速、剎車等動作。

模塊化設(shè)計的一個最大缺陷是，駕駛場景千變?nèi)f化，決策模塊中的規(guī)則代碼只能越寫越多，F(xiàn)SD 11的代碼就多達(dá)30多萬行，大大影響執(zhí)行效率，更要命的是遇到?jīng)]有被規(guī)則寫入的場景，自動駕駛模塊就會不知所措。

端到端的設(shè)計則完全是另一種思路，外部信息輸入自動駕駛大模型，然后直接輸出執(zhí)行動作，整個決策的過程沒有人為規(guī)則去干預(yù)，純靠模型自己去學(xué)習(xí)摸索如何駕駛才是更好的。所以FSD V12的代碼從30多萬行縮減到只剩3000行，而且一級一級的信息傳輸變成端到端的傳輸，信息傳遞變得更加準(zhǔn)確，且沒有損耗，也可以讓大模型更精確地掌握全局狀況。

特斯拉把大量真實(shí)的駕駛數(shù)據(jù)投喂給端到端大模型，它就像一個有意識會主動學(xué)習(xí)的小學(xué)生一樣，通過模仿觀察人類的駕駛視頻，涌現(xiàn)出跟老司機(jī)一樣的智慧。

在特斯拉影響下，國內(nèi)智駕路線也因此開始技術(shù)轉(zhuǎn)向，2024年端到端大模型開始加速上車。

但這個學(xué)習(xí)過程需要較長的時間，而且有可能會犯錯，就像你需要給小學(xué)生成長的時間和空間，而且它是如何學(xué)習(xí)的，完全是黑箱的狀態(tài)，這種不可解釋性會嚴(yán)重影響研發(fā)和問題解決的進(jìn)度，因?yàn)槌霈F(xiàn)問題，研究人員不知道可以從哪里提升。

所以特斯拉在面對復(fù)雜路況或者極端情況時，表現(xiàn)的并不如意，比如極端大霧、大雨天無法識別障礙物，但短時間內(nèi)又難以解決，目前已知的路徑就是不斷提升數(shù)據(jù)質(zhì)量和數(shù)量，但真實(shí)且有價值的數(shù)據(jù)需要時間來積累。

國內(nèi)的端到端大模型與特斯拉也并非完全一致。小鵬采用了分段式“端到端”，把大模型分別引入感知、規(guī)劃等模塊，中間通過人工編寫的規(guī)則連接。這是一個相對折中的方案。但是連接仍由人工定義，這意味著信息一定程度的損失，也不利于自動化。

理想在2024年的技術(shù)路徑取名為端到端+VLM（Vision-Language Model）雙模型分立，理想解釋為快系統(tǒng)和慢系統(tǒng)。

前者猶如條件反射，可以處理絕大部分常見場景，而后者則是像老司機(jī)的大腦，實(shí)時分析路況，給出最佳的駕駛規(guī)劃，仍然不是真正意義上的端到端。

2、模型：端到端2.0的進(jìn)化

與此同時，在端到端1.0上顯得滯后的蔚來選擇了更激進(jìn)的路線，直接進(jìn)入智駕行業(yè)新方法論——世界模型階段。

2024年7月，蔚來創(chuàng)新科技日上發(fā)布了中國首個智能駕駛世界模型NWM（NIO WorldModel）。世界模型的核心能力是基于信息的理解，進(jìn)行想象推演，從而規(guī)劃軌跡。

實(shí)際上世界模型的概念最早也是在人工智能領(lǐng)域出現(xiàn)。

簡單理解，這是一種生成式框架，通過理解現(xiàn)實(shí)世界的物理動態(tài)（如運(yùn)動、力和空間關(guān)系），來模擬真實(shí)環(huán)境。這種模型利用多模態(tài)輸入（文本、圖像、視頻、傳感器數(shù)據(jù)）預(yù)測未來場景，并為自動駕駛端到端大模型生成合成數(shù)據(jù)，作為訓(xùn)練基礎(chǔ)。

中國的駕駛環(huán)境要比美國復(fù)雜的多，但市場又不可能等自動駕駛大模型慢慢學(xué)習(xí)，達(dá)到一個老司機(jī)的水平再上線。將世界模型引入到自動駕駛領(lǐng)域，有助于解決數(shù)據(jù)數(shù)量和質(zhì)量的問題，更有效的處理無窮無盡的Corner case。

蔚來的世界模型NWM（NIO WorldModel）上車表現(xiàn)如何，尚未可知，原本預(yù)計今年4月推送，但李斌透露，因?yàn)楣ば挪啃乱?guī)改動，需要等公告后才能進(jìn)行推送。

與此同時，理想、小鵬等也在加緊向端到端2.0進(jìn)化，他們將重心放在搭建更為高階的VLA（視覺-語言-動作）端到端大模型。

這一次AI talk中，理想推出司機(jī)VLA（視覺-語言-動作端到端）大模型。李想解釋，他把智能輔助駕駛分為三個階段，分別是昆蟲動物智能、哺乳動物智能以及人類智能。模塊化屬于昆蟲動物智能，端到端屬于昆蟲動物智能，而VLA則屬于人類智能。

李想介紹，在VLA 階段，智能輔助駕駛可以像人一樣觀察世界，世界模型利用3D 視覺和 2D 的組合構(gòu)建更真實(shí)的物理世界，而非 VLM 階段僅能看到一張圖。此外，VLA 擁有自己的腦系統(tǒng)，不僅能看到物理世界，更能進(jìn)一步理解物理世界，具有自己的語言和思維鏈系統(tǒng)，有推理能力，可以像人類一樣去執(zhí)行一些復(fù)雜動作。

小鵬也正在搭建一個LVA基座模型，據(jù)介紹這是720億參數(shù)的超大規(guī)模自動駕駛大模型，以大語言模型為骨架網(wǎng)絡(luò)、使用海量優(yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練的多模態(tài)大模型，具備視覺理解能力、長思維鏈?zhǔn)酵评砟芰Γ–oT）和動作生成能力，從而在充分理解現(xiàn)實(shí)世界的基礎(chǔ)上，能夠像人類一樣進(jìn)行復(fù)雜的常識推理，并將推理結(jié)果轉(zhuǎn)化為行動。

VLA側(cè)重于多模態(tài)輸入到動作的映射，而世界模型側(cè)重于環(huán)境預(yù)測和模擬。兩條路徑也可以相互輔助，比如世界模型可以為VLA提供長期環(huán)境預(yù)測。

李想在對談中表示，理想選擇用大量真實(shí)數(shù)據(jù)配合世界模型生成數(shù)據(jù)，來解決模型的黑盒問題，簡單來說就是給VLA司機(jī)大模型建立了一個考試的模型。

3、算力：芯片競賽

完成VLA大模型的訓(xùn)練，算法、算力和數(shù)據(jù)缺一不可，ChatGPT的成功，引發(fā)全球AI競賽，導(dǎo)致全球算力緊缺，而算力完全仰賴芯片，蔚小理中最先布局芯片的是蔚來。

李斌進(jìn)軍芯片最初的目的是省錢，市場上高階輔助駕駛普遍使用的是英偉達(dá)Orin X，單顆售價在500美元左右，約合3600元人民幣，以蔚來標(biāo)配4顆Orin X的車型計算，光芯片一項(xiàng)的成本就接近1.5萬元。

2024年NIO IN大會上，李斌從兜里掏出已經(jīng)流片成功的神璣NX9031，打出的口號是全球首顆車規(guī)5nm高性能智駕芯片，而且一顆頂Orin X 4顆，在AI算力和ISP等主要指標(biāo)上，至少有4倍以上的性能提升。神璣NX9031集成超過 500 億顆晶體管，采用 32 核心 CPU 架構(gòu)，每秒可處理超過 6 萬億條指令。

目前，這顆神璣NX9031已經(jīng)搭載到蔚來ET9，是蔚小理中最早正式量產(chǎn)上車的自研芯片。

拋棄英偉達(dá)，轉(zhuǎn)戰(zhàn)自研芯片也是特斯拉淌過的路，因?yàn)殡S著算法的不斷演進(jìn)，端到端大模型的進(jìn)化，英偉達(dá)的芯片不能滿足自動駕駛公司個性化的需求，特斯拉第一代的FSD芯片早在2019年就量產(chǎn)了。

小鵬的芯片團(tuán)隊(duì)在FSD芯片量產(chǎn)次年搭建，自研圖靈芯片，業(yè)內(nèi)認(rèn)為小鵬選擇了性價比更高的7nm制程芯片。據(jù)小鵬介紹，圖靈芯片擁有40 核處理器，兩個神經(jīng)網(wǎng)絡(luò)處理單元（NPU），支持運(yùn)行300 億參數(shù)的模型，其 AI 算力接近三顆英偉達(dá)Orin X 芯片，綜合性能上比蔚來的芯片低一些，但造價也會比神璣NX9031低。

蔚小理中芯片還沒露面的是理想，據(jù)說理想內(nèi)部也在推進(jìn)自研芯片項(xiàng)目，代號“舒馬赫”，項(xiàng)目啟動比蔚來、小鵬晚，且流片結(jié)果不及預(yù)期，目前理想還是繼續(xù)在英偉達(dá)的 Thor-U MAX 上做開發(fā)。

4、泛化：從AI 到機(jī)器人

集齊算法、算力再疊加純AI公司難以獲取的真實(shí)行車數(shù)據(jù)，蔚小理在發(fā)展AI上占得一些先機(jī)，而無論芯片，還是AI算法都可以泛化到汽車之外的行業(yè)，李想更是直接預(yù)言，“未來任何一家公司都是AI公司”。

跟智能駕駛汽車最為接近的AI行業(yè)就是人形機(jī)器人，因?yàn)樗麄兌夹枰兄獜?fù)雜的環(huán)境，做復(fù)雜且即時的決策交互，技術(shù)上也相通，都涉及自然語言處理、計算機(jī)視覺、機(jī)器學(xué)習(xí)等。

特斯拉依舊是最先入局人形機(jī)器人的汽車公司，2021年推出Optimus，馬斯克也對人形機(jī)器人寄予厚望，他預(yù)計Optimus將超過特斯拉其他業(yè)務(wù)的總和，這句話有幾分可信度需要時間來驗(yàn)證。

不過，何小鵬顯然是信的。小鵬是蔚小理中最早投入人形機(jī)器人研發(fā)的，2023年推出第一代人形機(jī)器人PX5，2024年又推出人形機(jī)器人Iron，預(yù)計2026年開始工業(yè)化量產(chǎn)，追平特斯拉人形機(jī)器人的量產(chǎn)時間。

據(jù)小鵬介紹，Iron采用1:1仿生設(shè)計，更有高度的人形化特征。擁有178厘米的身高和70公斤的體重，全身配備62個主動自由度，手部則擁有22個可動自由度，而且Iron已經(jīng)進(jìn)入小鵬的汽車工廠打工了。

蔚來到2025年才入局機(jī)器人，已經(jīng)組建了約20人的團(tuán)隊(duì)，準(zhǔn)備開發(fā)機(jī)器狗。

李想則相對謹(jǐn)慎，他覺得未來一定會做人形機(jī)器人，但不是現(xiàn)在，當(dāng)下的任務(wù)是攻克自動駕駛的技術(shù)難題。根據(jù)李想對AI的終極設(shè)想是硅基家人，人形機(jī)器人也只是遲早的事。

站在技術(shù)樂觀主義的角度，AI技術(shù)無論如何泛化都不為過，而且商業(yè)前景比較明朗，但所要面臨的問題也是現(xiàn)實(shí)存在的，拋開人才、技術(shù)難關(guān)等遠(yuǎn)期難關(guān)不談，蔚小理最迫切需要解決的是資金問題。

自動駕駛、AI、芯片、機(jī)器人，每一個都是“噬金獸”，何小鵬曾坦言500億投資僅僅是機(jī)器人的入門，李斌說一顆芯片研發(fā)投入可以布1000個換電站，約等于15億元。而現(xiàn)實(shí)是2024年小鵬還沒盈利，蔚來虧損繼續(xù)擴(kuò)大，理想盈利80億元，但增速下降。

資金掣肘最終會影響資源的分配，而資源決定了以自動駕駛為起點(diǎn)的AI泛化能夠走多遠(yuǎn)或者跌多慘，隨著AI的攤子越鋪越大，可能像馬斯克一樣建立起他的X帝國，也可能如賈躍亭那般被“生態(tài)化反”所吞噬，這其中微妙平衡將持續(xù)考驗(yàn)蔚小理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.