當理想汽車純電SUV i8亮相時,外界的目光大多還是聚焦在它的造型、內(nèi)飾乃至是價格上——一如往常。但少有人意識到,在這輛車的方向盤背后,搭載著一套足以改寫理想輔助駕駛技術(shù)版圖的核心系統(tǒng):VLA司機大模型。它并非一次簡單的功能升級,而是理想汽車在過去五年里跨越兩個技術(shù)時代——從人工規(guī)則時代,到人工智能時代——所積累的全部心血的結(jié)晶。
這種技術(shù)變革往往比外觀設(shè)計更隱形,卻也更驚險。五年前,理想輔助駕駛團隊還在為一個個Corner Case頭疼——在雨夜、在橋洞、在施工路段,算法像“昆蟲”一樣,依賴既定規(guī)則和地圖。要讓一臺車學會“像人一樣思考”,這條路并不比造出一輛全新電動車容易多少。
更具戲劇性的是,理想每次都沒有選擇更穩(wěn)妥的路線。行業(yè)內(nèi),很多廠商仍在用“規(guī)則+地圖”的傳統(tǒng)架構(gòu)兢兢業(yè)業(yè)完善功能,而理想?yún)s在內(nèi)部掀起了一場自我革命:徹底告別地圖依賴,轉(zhuǎn)向端到端大模型,甚至押注比端到端更激進的VLA司機大模型。其間的風險和質(zhì)疑可想而知——從團隊內(nèi)部的工程挑戰(zhàn),到外部對“舒適度、安全性”的質(zhì)疑,幾乎每一個版本迭代都像一次“無人區(qū)探險”。
也正因為有這樣的背景,理想i8搭載的VLA輔助駕駛系統(tǒng)并不僅僅是一套功能的升級,而是一段技術(shù)路線變革的結(jié)果。為了理解VLA的意義,就必須回望理想這五年在輔助駕駛技術(shù)架構(gòu)上的轉(zhuǎn)變與抉擇:
為什么要一再推翻已有成果,每一次切換解決了什么難題,它又把整個行業(yè)推向了怎樣的未來?
工程師的駕駛手冊:用規(guī)則圈養(yǎng)的智能機器
要理解這場技術(shù)革命的起點,就必須回到2021年。那時的輔助駕駛,本質(zhì)上是工程師為汽車編寫的一本詳盡"駕駛手冊"。每一種路況、每一個交通場景,都需要人為設(shè)定應對規(guī)則:前車剎車時減速多少?變道時保持多大安全距離?紅綠燈倒計時如何響應?
理想汽車的工程師們就像一群嚴謹?shù)慕坦?,試圖為一臺機器制定出涵蓋所有可能情況的行駛規(guī)范。他們選擇了輕圖、無圖的技術(shù)路線,甚至在2022年就做出了一個在當時看來相當激進的決定:用視覺感知取代角毫米波雷達。
這個決定現(xiàn)在看來頗具前瞻性,但在當時卻充滿爭議。畢竟,大多數(shù)車企還在用各種雷達為系統(tǒng)提供"安全感",理想?yún)s選擇了以視覺為主的路線。
然而,規(guī)則時代的美好愿景很快就撞上了現(xiàn)實的墻壁。問題出現(xiàn)在人類認知的局限性上:沒有人能夠預見所有可能的駕駛場景,更無法為每一種變化制定完美的應對策略。
最典型的困境被理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士形象地概括為"按下葫蘆起來瓢"——當工程師解決了一個場景的問題時,往往會在另一個場景中產(chǎn)生新的麻煩。就像給一個機器人設(shè)定"遇到障礙物就停車"的規(guī)則,看似安全,但如果每遇到路邊停車就剎停,在擁堵路段就變成了災難。
更深層的問題在于,決定系統(tǒng)性能的核心因素是"人"——工程師的經(jīng)驗、編程水平和算法能力。即便是最優(yōu)秀的工程師,面對無窮無盡的長尾場景也會感到力不從心。一些復雜的交通情況,根本無法用簡單的規(guī)則來描述和解決。
經(jīng)過三年的拼搏,理想汽車的全場景MPI(平均接管里程)達到了約12公里的水平。
這在規(guī)則時代已經(jīng)是相當不錯的成績,但團隊內(nèi)部很清楚,這條技術(shù)路線正在接近天花板。要想實現(xiàn)真正的突破,必須尋找新的出路。
端到端的覺醒:從規(guī)則到模仿的躍遷
2024年中期,理想汽車做出了一個在當時看來頗為冒險的決定:徹底告別規(guī)則時代,擁抱端到端大模型。這個決策的背后,是對技術(shù)本質(zhì)的深刻反思。
如果說規(guī)則時代是"告訴車輛怎么做",那么端到端就是"讓車輛學會怎么做"。技術(shù)邏輯發(fā)生了根本性轉(zhuǎn)變:不再是工程師預設(shè)各種應對方案,而是讓AI通過學習大量人類駕駛數(shù)據(jù),模仿人類開車的技巧。這就像從"填鴨式教育"轉(zhuǎn)向了"啟發(fā)式學習"。
端到端技術(shù)帶來的效果是立竿見影的。2024年7月,第一個端到端版本的MPI就達到了十幾公里,一舉超越了規(guī)則時代三年的積累。這個結(jié)果讓團隊既興奮又意外——原來AI的學習能力如此強大。
更令人振奮的是數(shù)據(jù)增長帶來的性能飛躍。隨著訓練數(shù)據(jù)從100萬clips增加到200萬、再到1000萬clips,MPI呈現(xiàn)出指數(shù)級增長。到2025年初,當數(shù)據(jù)量達到1000萬clips時,MPI突破了100公里大關(guān)。從12公里到120公里,實現(xiàn)了10倍增長,僅僅用了7個月時間。
這種提升速度在規(guī)則時代是完全無法想象的。就像一個學生從不及格突然躍升到優(yōu)秀,端到端的表現(xiàn)讓整個團隊看到了AI時代的無限可能。
但就在團隊為這個成績感到欣喜時,一個新的問題悄然浮現(xiàn)。
從2025年3月到7月底的數(shù)據(jù)來看,盡管團隊投入了5個月時間進行優(yōu)化,模型性能只提升了兩倍左右。增長速度明顯放緩了。
原因并不復雜——當數(shù)據(jù)量超過1000萬clips后,單純增加數(shù)據(jù)量已經(jīng)無法帶來顯著提升。就像學生考試,從不及格到及格很容易,但從80分提升到90分就需要更多技巧和努力。有價值的駕駛數(shù)據(jù)變得越來越稀缺。
更嚴重的是,團隊發(fā)現(xiàn)無論如何調(diào)整數(shù)據(jù)配比,端到端系統(tǒng)總是會出現(xiàn)一些令人困惑的問題:
比如出現(xiàn)了一些違反常理的行為——車輛可能在需要左轉(zhuǎn)的車道上臨時變道避讓,但隨后發(fā)現(xiàn)無法順利插回原車道,陷入了自己給自己制造的困境。
它的決策不夠聰明——面對前方大貨車阻擋上匝道的情況,車輛會選擇先切換到旁邊車道,但這樣做反而給后續(xù)并線制造了更多麻煩,而不是簡單跟隨前車通過。
這導致了駕乘人員的安全感出現(xiàn)不足,影響體驗。在橋洞等視線受阻的區(qū)域,人類司機會憑經(jīng)驗進行防御性減速,但端到端系統(tǒng)只有"看到"潛在危險才開始反應。
郎咸朋用了一個極其生動的比喻來總結(jié)端到端時代的根本困境:"現(xiàn)在端到端的這套模仿學習并不具備深度的邏輯思考能力,就像猴子開車一樣。喂猴子一些香蕉,它可能會按照你的意圖做一些行為,但并不知道自己為什么要做這些行為,一敲鑼它就過來,一打鼓它就跳舞,但不知道為什么要跳舞。"
這個比喻道出了端到端技術(shù)的本質(zhì)困境:它頂多算是一個高級的"應激反應系統(tǒng)",給定輸入就產(chǎn)生輸出,但背后缺乏真正的邏輯推理能力。
端到端+VLM:給"猴子"配上智囊團
認識到端到端缺乏深度思考能力后,理想汽車嘗試了一個看似合理的解決方案:端到端+VLM(視覺語言大模型)。這就像給一個反應很快但不善思考的司機配了一個智囊團——當遇到需要深度決策的復雜場景時,VLM可以提供更理性的分析和建議。
設(shè)想是很美好的。端到端負責基礎(chǔ)的感知和反應,VLM負責復雜情況下的決策思考,兩者結(jié)合應該能夠取長補短。
但現(xiàn)實很快就給了團隊當頭一棒。VLM的推理速度只有2-3Hz,根本無法滿足實時駕駛的需求。更致命的是,端到端模型完全"聽不懂"VLM在說什么。
郎咸朋的比喻再次一針見血:"就像我們對猴子說人話一樣,你跟猴子說別跳了,或者說讓它往哪走,它很難理解人在說什么,因為它沒有思考能力。"
VLM可能提供了非常合理的決策建議,但端到端模型無法理解這些建議的含義,更無法將其轉(zhuǎn)化為實際的駕駛行為。這種"雞同鴨講"的狀況讓整個方案陷入了死胡同。
團隊面臨一個根本性問題:要么讓VLM變得更快(技術(shù)上極其困難),要么讓端到端變得更聰明(同樣困難)?;蛘?,尋找一個全新的技術(shù)路線。
郎咸朋又用了一個非常形象的比喻來描述端到端時代的困境:“猴子開車”。
在實際的測試中,"猴子開車"的問題在實際駕駛中表現(xiàn)為三種典型癥狀:
違反常理的行為:車輛可能會做出看似合理但實際不當?shù)臎Q策,比如在需要左轉(zhuǎn)的車道上臨時變道,但隨后又無法順利返回。
開車不夠聰明:面對復雜情況時,車輛無法做出最優(yōu)決策,比如在匝道前遇到大貨車時,不會選擇最合理的跟車策略。
安全感不足:缺乏人類司機天然具備的防御性駕駛意識,往往要等看到危險才開始反應,而不是提前預判和準備。
"現(xiàn)在端到端的這套模仿學習并不具備深度的邏輯思考能力,就像猴子開車一樣。喂猴子一些香蕉,它可能會按照你的意圖做一些行為,但并不知道自己為什么要做這些行為。"
一個大膽的VLA設(shè)想:讓機器會思考
面對端到端+VLM的困境,理想汽車團隊開始思考一個根本性問題:既然端到端模型聽不懂VLM的"人話",那為什么不讓它直接學會"說人話"和"想人事"呢?
這個想法催生了VLA(Vision-Language-Action)司機大模型。VLA不是簡單的技術(shù)拼接,而是從架構(gòu)層面的重新設(shè)計,讓視覺、語言和行動三種能力在同一個模型中有機融合。
分開理解這三個字母并不困難,其中Vision(視覺):通過各種傳感器和導航信息,讓模型對空間有精準的感知能力,就像給司機配備了最敏銳的眼睛。
Language(語言):將復雜的空間信息進行高度壓縮和編碼,用語言的形式進行內(nèi)部表達。就像經(jīng)驗豐富的司機能夠用簡潔的話語準確描述復雜的交通狀況。
Action(行動):基于對場景的理解,生成具體的駕駛行為。這里最大的創(chuàng)新是使用了Diffusion技術(shù),能夠生成自然、平滑的行駛軌跡,而不是生硬的軌跡點連接。
此前我們已經(jīng)介紹過一次理想VLA技術(shù)的能力:比如在通過高速收費站時,可以直接說“走人工”,系統(tǒng)就可以從眾多的ETC收費通道中轉(zhuǎn)向人工收費通道。在日常的駕駛環(huán)節(jié),也可以通過“前方掉頭”和“前進10米”的簡單指令,調(diào)整行車路線——就像是我們平時和代駕司機直接溝通的水準。
這也意味著VLA在嘗試理解物理世界。
VLA最大的突破在于解決了端到端時代的"溝通鴻溝"。由于整個模型都具備語言理解能力,人類可以直接用自然語言與VLA交互,這種交互與VLA內(nèi)部的決策邏輯是完全一致的。
當用戶說"開快點"時,這相當于給VLA的內(nèi)部決策系統(tǒng)發(fā)送了一個prompt指令;而VLA在分析路況、做出決策時,內(nèi)部也是通過類似的語言編碼進行推理的。這種一致性讓人機交互變得天然而流暢。
更重要的是,VLA不再依賴于模仿學習,而是轉(zhuǎn)向了強化學習。這意味著系統(tǒng)不僅能夠?qū)W習人類的駕駛行為,還能夠在虛擬環(huán)境中自我訓練,不斷改進和完善。
從技術(shù)上看,VLA的技術(shù)能力最終轉(zhuǎn)化為四個核心產(chǎn)品特性。第一思維能力:VLA具備了思維鏈推理能力,可以實時進行邏輯思考,不再是簡單的應激反應。其次溝通能力:用戶可以直接用語言與VLA交流,"開快點"、"往左轉(zhuǎn)"這樣的指令都能被理解和執(zhí)行。然后記憶能力:VLA能夠記住用戶的駕駛偏好,比如在某條路上習慣的行駛速度,并在下次經(jīng)過時主動調(diào)整。最后是自主學習能力:通過強化學習,VLA可以不斷自我迭代和提升。
也就是說,從這樣的一個技術(shù)邏輯來看,理想汽車能夠率先實現(xiàn)VLA,依托的是強大的技術(shù)基礎(chǔ)設(shè)施。在數(shù)據(jù)方面,從2020年開始,理想汽車就建立了完整的數(shù)據(jù)閉環(huán),截至2025年7月已累計收集了12億公里的有效駕駛數(shù)據(jù)。
這些數(shù)據(jù)不是簡單的里程堆積,而是經(jīng)過精心分類和標注的寶貴資源。包括不同天氣、不同時間、不同道路類型的數(shù)據(jù);各種車道類型如ETC車道、潮汐車道的數(shù)據(jù);各種路口類型和交通狀況的數(shù)據(jù)。更重要的是,理想汽車還通過世界模型技術(shù),將真實數(shù)據(jù)進行重建和生成,創(chuàng)造出更多稀缺場景的合成數(shù)據(jù)。
理想的技術(shù)第一性原理:以解決問題為導向的創(chuàng)新
其實從這里就可以發(fā)現(xiàn)。縱觀理想汽車五年的技術(shù)演進路徑,有一個清晰的內(nèi)在邏輯:每一次技術(shù)架構(gòu)的切換都是為了解決上一代技術(shù)無法克服的根本性問題,而非單純的技術(shù)炫耀或競爭考量。
從規(guī)則算法轉(zhuǎn)向端到端,是因為人工設(shè)計的規(guī)則無法覆蓋無窮無盡的長尾場景;從端到端轉(zhuǎn)向VLA,是因為模仿學習缺乏深度思考能力;從模仿學習轉(zhuǎn)向強化學習,是因為真實數(shù)據(jù)分布不均勻,有價值的數(shù)據(jù)稀缺。
這種"問題導向"的創(chuàng)新思維,讓理想汽車始終能夠抓住技術(shù)發(fā)展的核心矛盾,實現(xiàn)真正有意義的技術(shù)突破。
例如強化學習也讓VLA具備了自我迭代的能力。在仿真環(huán)境中,模型可以反復練習同一個困難場景,從最初的撞車到逐漸掌握安全通過的技巧,整個過程就像一個虛擬的駕校教練在24小時不間斷地指導練習。
傳統(tǒng)的實車測試存在無法復現(xiàn)、測試周期長、成本高昂的問題。理想汽車通過世界模型構(gòu)建了精確的仿真環(huán)境,可以做到場景的完全復現(xiàn)和快速迭代。2023年實車測試每公里成本約18元,而2025年上半年通過仿真測試,成本降到了5毛錢一公里,測試質(zhì)量還更高。
VLA時代,推理算力變得比訓練算力更加重要。理想汽車目前擁有13EFLOPS的算力規(guī)模,其中3EFLOPS用于推理,10EFLOPS用于訓練。這種配置反映了VLA技術(shù)的特點:需要大量的推理算力來運行世界模型,生成各種仿真場景供模型學習。
再好的模型如果不能部署到車輛上也毫無意義。理想汽車在工程化方面展現(xiàn)了強大的能力,成功將4B參數(shù)的MoE模型部署到Thor-U芯片上,并實現(xiàn)了FP8和INT8的推理優(yōu)化。
更令人印象深刻的是,VLA甚至可以部署到上一代的Orin-X芯片上。郎咸朋透露,他自己的2022款理想L9就搭載著VLA系統(tǒng)在日常使用。這種跨平臺的部署能力,體現(xiàn)了理想汽車在工程優(yōu)化方面的深厚功力。
理想汽車為VLA設(shè)定了一個雄心勃勃的目標:將MPI提升到1000公里。如果這個目標能夠?qū)崿F(xiàn),意味著用戶可能兩三個月才需要接管一次,這將標志著輔助駕駛技術(shù)邁入了一個全新的時代。
規(guī)則時代耗費三年才達到的10公里MPI,成為了端到端時代的起點;端到端時代達到的200公里MPI,又將成為VLA時代的基礎(chǔ)。每一次技術(shù)跨越都不是推倒重來,而是站在巨人的肩膀上繼續(xù)攀登。
郎咸朋認為"上一代技術(shù)能力的上限,是下一代技術(shù)能力的起點。"這句話深刻地揭示了技術(shù)進步的本質(zhì)。
VLA大模型的出現(xiàn),似乎也標志著我們正在從"機器輔助人類駕駛"的時代,邁向"機器理解人類需求并主動服務(wù)"的新紀元。當汽車不再只是一個交通工具,而是一個能夠思考、溝通、記憶和學習的智能伙伴時,出行的意義也將被重新定義。
最近,我們也實地體驗了一下理想汽車園區(qū)的“VLA巴士”:它的外形其實是一輛MEGA Home,但可以使用手機呼車,在坐上這輛MEGA Home后,前排并沒有司機,你完全可以使用語音告訴“理想同學”你想去的地點,它就能安全地把你送到目的地。
技術(shù)的進步永無止境,但方向和速度都同樣重要。理想汽車用五年時間證明了一個道理:只有真正以解決用戶問題為導向,以技術(shù)創(chuàng)新為驅(qū)動,才能在激烈的市場競爭中走出一條屬于自己的道路。
隨著技術(shù)的不斷迭代和完善,我們也有理由相信,真正意義上的"移動空間"和"智能出行"時代即將到來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.