「核心提示」
押注AI,背后爭奪的是下一代汽車,甚至是產(chǎn)品的定義權(quán),以及與此相伴的技術(shù)、用戶與商業(yè)模式的全面重構(gòu)。
作者 |張力
邢昀
近期,李想帶著他的VLA 司機(jī)大模型再談AI,距離上一次他開誠布公地談AI 和理想的未來,過去了整整130天。
130天不長,但足以讓自動駕駛和AI領(lǐng)域改天換地。1月下旬,DeepSeek發(fā)布開源推理大模型DeepSeek-R1,持續(xù)破圈,在國內(nèi)引爆新一輪人工智能熱潮。上一次理想AI talk中,李想著重強(qiáng)調(diào)自研基座大模型的重要性,“未來幾年必須得保證,我們大語言模型的基座模型要做行業(yè)前三”。
而隨著DeepSeek- R1橫空出世,理想轉(zhuǎn)而基于DeepSeek的開源去做VLA(視覺語言行動模型)的L(language 語言)部分,也就是語言模型開發(fā)。選擇站在巨人的肩膀上,理想汽車在VLA司機(jī)大模型的語言能力研發(fā)上提速顯著,節(jié)省了近9個月的時間和數(shù)億元成本。
同一時間里,智能駕駛因?yàn)槭鹿暑l發(fā),遭遇安全可靠性質(zhì)疑,迎來至暗時刻,不過,在李想看來,現(xiàn)階段比較像黎明前的黑暗,正因?yàn)檩o助駕駛行業(yè)遇到了問題,解決問題才更有價值。
AI 的潛力在解決問題的過程中正變得具象化。不止理想,小鵬、蔚來這兩家與理想差不多同期創(chuàng)業(yè)的造車新勢力也在押注AI。
李想稱“AI意味著理想未來的全部”,蔚來創(chuàng)始人李斌斷言“一家成功的智能電動車公司,也一定是一家成功的AI公司”,小鵬汽車創(chuàng)始人何小鵬喊出“All in AI ”,打造面向全球的AI汽車公司。
實(shí)際上,這背后爭奪的是下一代汽車、甚至產(chǎn)品的定義權(quán),以及與此相伴的技術(shù)、用戶與商業(yè)模式的全面重構(gòu)。
1、造車邁入“AI新戰(zhàn)場”
蔚小理對AI 的決心,要追溯到特斯拉的FSD(Full Self-Driving)V12的突破性進(jìn)展。
2024年初,特斯拉智駕團(tuán)隊(duì)負(fù)責(zé)人在X(前推特)上介紹,F(xiàn)SD V12 僅訓(xùn)練幾個月,就已經(jīng)完全超越經(jīng)過多年積累的FSD V11。FSD 突然變強(qiáng),是因?yàn)樗麄儾捎昧艘环N新的端到端(end to end)的神經(jīng)網(wǎng)絡(luò)技術(shù),把傳統(tǒng)的感知、決策、控制融合到一個模型中,通過輸入信息直接產(chǎn)生執(zhí)行動作,就跟人在開車時,根據(jù)路況做出即時反應(yīng)一樣。
這樣突破性的進(jìn)展,屬于自動駕駛領(lǐng)域的“涌現(xiàn)”時刻,與ChatGPT 3.5橫空出世對大語言模型的意義不相上下。 即使一直跟特斯拉硬剛的何小鵬,在體驗(yàn)過FSD V12之后,也不得不服,大贊“FSD V12.3.6表現(xiàn)極好,要向其學(xué)習(xí)”。
在端到端大模型流行之前,自動駕駛的主流是模塊化設(shè)計,包含感知、決策、執(zhí)行三大模塊,信息是逐級傳導(dǎo)的,車上的傳感器(如雷達(dá)、攝像頭等),相當(dāng)于人的眼睛和耳朵,把感知到的環(huán)境信息,傳導(dǎo)到?jīng)Q策模塊,類似于人的大腦,這個大腦里寫滿了各式各樣的規(guī)則,決策模塊根據(jù)這些規(guī)則規(guī)劃出最佳的行駛路線,最終告知給執(zhí)行模塊,相當(dāng)于人的手和腳,執(zhí)行轉(zhuǎn)向、加速、剎車等動作。
模塊化設(shè)計的一個最大缺陷是,駕駛場景千變?nèi)f化,決策模塊中的規(guī)則代碼只能越寫越多,F(xiàn)SD 11的代碼就多達(dá)30多萬行,大大影響執(zhí)行效率,更要命的是遇到?jīng)]有被規(guī)則寫入的場景,自動駕駛模塊就會不知所措。
端到端的設(shè)計則完全是另一種思路,外部信息輸入自動駕駛大模型,然后直接輸出執(zhí)行動作,整個決策的過程沒有人為規(guī)則去干預(yù),純靠模型自己去學(xué)習(xí)摸索如何駕駛才是更好的。所以FSD V12的代碼從30多萬行縮減到只剩3000行,而且一級一級的信息傳輸變成端到端的傳輸,信息傳遞變得更加準(zhǔn)確,且沒有損耗,也可以讓大模型更精確地掌握全局狀況。
特斯拉把大量真實(shí)的駕駛數(shù)據(jù)投喂給端到端大模型,它就像一個有意識會主動學(xué)習(xí)的小學(xué)生一樣,通過模仿觀察人類的駕駛視頻,涌現(xiàn)出跟老司機(jī)一樣的智慧。
在特斯拉影響下,國內(nèi)智駕路線也因此開始技術(shù)轉(zhuǎn)向,2024年端到端大模型開始加速上車。
但這個學(xué)習(xí)過程需要較長的時間,而且有可能會犯錯,就像你需要給小學(xué)生成長的時間和空間,而且它是如何學(xué)習(xí)的,完全是黑箱的狀態(tài),這種不可解釋性會嚴(yán)重影響研發(fā)和問題解決的進(jìn)度,因?yàn)槌霈F(xiàn)問題,研究人員不知道可以從哪里提升。
所以特斯拉在面對復(fù)雜路況或者極端情況時,表現(xiàn)的并不如意,比如極端大霧、大雨天無法識別障礙物,但短時間內(nèi)又難以解決,目前已知的路徑就是不斷提升數(shù)據(jù)質(zhì)量和數(shù)量,但真實(shí)且有價值的數(shù)據(jù)需要時間來積累。
國內(nèi)的端到端大模型與特斯拉也并非完全一致。小鵬采用了分段式“端到端”,把大模型分別引入感知、規(guī)劃等模塊,中間通過人工編寫的規(guī)則連接。這是一個相對折中的方案。但是連接仍由人工定義,這意味著信息一定程度的損失,也不利于自動化。
理想在2024年的技術(shù)路徑取名為端到端+VLM(Vision-Language Model) 雙模型分立,理想解釋為快系統(tǒng)和慢系統(tǒng)。
前者猶如條件反射,可以處理絕大部分常見場景,而后者則是像老司機(jī)的大腦,實(shí)時分析路況,給出最佳的駕駛規(guī)劃,仍然不是真正意義上的端到端。
2、模型:端到端2.0的進(jìn)化
與此同時,在端到端1.0上顯得滯后的蔚來選擇了更激進(jìn)的路線,直接進(jìn)入智駕行業(yè)新方法論——世界模型階段。
2024年7月,蔚來創(chuàng)新科技日上發(fā)布了中國首個智能駕駛世界模型NWM(NIO WorldModel)。世界模型的核心能力是基于信息的理解,進(jìn)行想象推演,從而規(guī)劃軌跡。
實(shí)際上世界模型的概念最早也是在人工智能領(lǐng)域出現(xiàn)。
簡單理解,這是一種生成式框架,通過理解現(xiàn)實(shí)世界的物理動態(tài)(如運(yùn)動、力和空間關(guān)系),來模擬真實(shí)環(huán)境。這種模型利用多模態(tài)輸入(文本、圖像、視頻、傳感器數(shù)據(jù))預(yù)測未來場景,并為自動駕駛端到端大模型生成合成數(shù)據(jù),作為訓(xùn)練基礎(chǔ)。
中國的駕駛環(huán)境要比美國復(fù)雜的多,但市場又不可能等自動駕駛大模型慢慢學(xué)習(xí),達(dá)到一個老司機(jī)的水平再上線。將世界模型引入到自動駕駛領(lǐng)域,有助于解決數(shù)據(jù)數(shù)量和質(zhì)量的問題,更有效的處理無窮無盡的Corner case。
蔚來的世界模型NWM(NIO WorldModel)上車表現(xiàn)如何,尚未可知,原本預(yù)計今年4月推送,但李斌透露,因?yàn)楣ば挪啃乱?guī)改動,需要等公告后才能進(jìn)行推送。
與此同時,理想、小鵬等也在加緊向端到端2.0進(jìn)化,他們將重心放在搭建更為高階的VLA(視覺-語言-動作)端到端大模型。
這一次AI talk中,理想推出司機(jī)VLA(視覺-語言-動作端到端)大模型。李想解釋,他把智能輔助駕駛分為三個階段,分別是昆蟲動物智能、哺乳動物智能以及人類智能。模塊化屬于昆蟲動物智能,端到端屬于昆蟲動物智能,而VLA則屬于人類智能。
李想介紹,在VLA 階段,智能輔助駕駛可以像人一樣觀察世界,世界模型利用3D 視覺和 2D 的組合構(gòu)建更真實(shí)的物理世界,而非 VLM 階段僅能看到一張圖。此外,VLA 擁有自己的腦系統(tǒng),不僅能看到物理世界,更能進(jìn)一步理解物理世界,具有自己的語言和思維鏈系統(tǒng),有推理能力,可以像人類一樣去執(zhí)行一些復(fù)雜動作。
小鵬也正在搭建一個LVA基座模型,據(jù)介紹這是720億參數(shù)的超大規(guī)模自動駕駛大模型,以大語言模型為骨架網(wǎng)絡(luò)、使用海量優(yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練的多模態(tài)大模型,具備視覺理解能力、長思維鏈?zhǔn)酵评砟芰Γ–oT)和動作生成能力,從而在充分理解現(xiàn)實(shí)世界的基礎(chǔ)上,能夠像人類一樣進(jìn)行復(fù)雜的常識推理,并將推理結(jié)果轉(zhuǎn)化為行動。
VLA側(cè)重于多模態(tài)輸入到動作的映射,而世界模型側(cè)重于環(huán)境預(yù)測和模擬。兩條路徑也可以相互輔助,比如世界模型可以為VLA提供長期環(huán)境預(yù)測。
李想在對談中表示,理想選擇用大量真實(shí)數(shù)據(jù)配合世界模型生成數(shù)據(jù),來解決模型的黑盒問題,簡單來說就是給VLA司機(jī)大模型建立了一個考試的模型。
3、算力:芯片競賽
完成VLA大模型的訓(xùn)練,算法、算力和數(shù)據(jù)缺一不可,ChatGPT的成功,引發(fā)全球AI競賽,導(dǎo)致全球算力緊缺,而算力完全仰賴芯片,蔚小理中最先布局芯片的是蔚來。
李斌進(jìn)軍芯片最初的目的是省錢,市場上高階輔助駕駛普遍使用的是英偉達(dá)Orin X,單顆售價在500美元左右,約合3600元人民幣,以蔚來標(biāo)配4顆Orin X的車型計算,光芯片一項(xiàng)的成本就接近1.5萬元。
2024年NIO IN大會上,李斌從兜里掏出已經(jīng)流片成功的神璣NX9031,打出的口號是全球首顆車規(guī)5nm高性能智駕芯片,而且一顆頂Orin X 4顆,在AI算力和ISP等主要指標(biāo)上,至少有4倍以上的性能提升。神璣NX9031集成超過 500 億顆晶體管,采用 32 核心 CPU 架構(gòu),每秒可處理超過 6 萬億條指令。
目前,這顆神璣NX9031已經(jīng)搭載到蔚來ET9,是蔚小理中最早正式量產(chǎn)上車的自研芯片。
拋棄英偉達(dá),轉(zhuǎn)戰(zhàn)自研芯片也是特斯拉淌過的路,因?yàn)殡S著算法的不斷演進(jìn),端到端大模型的進(jìn)化,英偉達(dá)的芯片不能滿足自動駕駛公司個性化的需求,特斯拉第一代的FSD芯片早在2019年就量產(chǎn)了。
小鵬的芯片團(tuán)隊(duì)在FSD芯片量產(chǎn)次年搭建,自研圖靈芯片,業(yè)內(nèi)認(rèn)為小鵬選擇了性價比更高的7nm制程芯片。據(jù)小鵬介紹,圖靈芯片擁有40 核處理器,兩個神經(jīng)網(wǎng)絡(luò)處理單元(NPU),支持運(yùn)行300 億參數(shù)的模型,其 AI 算力接近三顆英偉達(dá)Orin X 芯片,綜合性能上比蔚來的芯片低一些,但造價也會比神璣NX9031低。
蔚小理中芯片還沒露面的是理想,據(jù)說理想內(nèi)部也在推進(jìn)自研芯片項(xiàng)目,代號“舒馬赫”,項(xiàng)目啟動比蔚來、小鵬晚,且流片結(jié)果不及預(yù)期,目前理想還是繼續(xù)在英偉達(dá)的 Thor-U MAX 上做開發(fā)。
4、泛化:從AI 到機(jī)器人
集齊算法、算力再疊加純AI公司難以獲取的真實(shí)行車數(shù)據(jù),蔚小理在發(fā)展AI上占得一些先機(jī),而無論芯片,還是AI算法都可以泛化到汽車之外的行業(yè),李想更是直接預(yù)言,“未來任何一家公司都是AI公司”。
跟智能駕駛汽車最為接近的AI行業(yè)就是人形機(jī)器人,因?yàn)樗麄兌夹枰兄獜?fù)雜的環(huán)境,做復(fù)雜且即時的決策交互,技術(shù)上也相通,都涉及自然語言處理、計算機(jī)視覺、機(jī)器學(xué)習(xí)等。
特斯拉依舊是最先入局人形機(jī)器人的汽車公司,2021年推出Optimus,馬斯克也對人形機(jī)器人寄予厚望,他預(yù)計Optimus將超過特斯拉其他業(yè)務(wù)的總和,這句話有幾分可信度需要時間來驗(yàn)證。
不過,何小鵬顯然是信的。小鵬是蔚小理中最早投入人形機(jī)器人研發(fā)的,2023年推出第一代人形機(jī)器人PX5,2024年又推出人形機(jī)器人Iron,預(yù)計2026年開始工業(yè)化量產(chǎn),追平特斯拉人形機(jī)器人的量產(chǎn)時間。
據(jù)小鵬介紹,Iron采用1:1仿生設(shè)計,更有高度的人形化特征。擁有178厘米的身高和70公斤的體重,全身配備62個主動自由度,手部則擁有22個可動自由度,而且Iron已經(jīng)進(jìn)入小鵬的汽車工廠打工了。
蔚來到2025年才入局機(jī)器人,已經(jīng)組建了約20人的團(tuán)隊(duì),準(zhǔn)備開發(fā)機(jī)器狗。
李想則相對謹(jǐn)慎,他覺得未來一定會做人形機(jī)器人,但不是現(xiàn)在,當(dāng)下的任務(wù)是攻克自動駕駛的技術(shù)難題。根據(jù)李想對AI的終極設(shè)想是硅基家人,人形機(jī)器人也只是遲早的事。
站在技術(shù)樂觀主義的角度,AI技術(shù)無論如何泛化都不為過,而且商業(yè)前景比較明朗,但所要面臨的問題也是現(xiàn)實(shí)存在的,拋開人才、技術(shù)難關(guān)等遠(yuǎn)期難關(guān)不談,蔚小理最迫切需要解決的是資金問題。
自動駕駛、AI、芯片、機(jī)器人,每一個都是“噬金獸”,何小鵬曾坦言500億投資僅僅是機(jī)器人的入門,李斌說一顆芯片研發(fā)投入可以布1000個換電站,約等于15億元。而現(xiàn)實(shí)是2024年小鵬還沒盈利,蔚來虧損繼續(xù)擴(kuò)大,理想盈利80億元,但增速下降。
資金掣肘最終會影響資源的分配,而資源決定了以自動駕駛為起點(diǎn)的AI泛化能夠走多遠(yuǎn)或者跌多慘,隨著AI的攤子越鋪越大,可能像馬斯克一樣建立起他的X帝國,也可能如賈躍亭那般被“生態(tài)化反”所吞噬,這其中微妙平衡將持續(xù)考驗(yàn)蔚小理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.