網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

對話理想智駕負責(zé)人：撕掉「奶爸車」標(biāo)簽，智駛是理想的「新引擎」

2025-08-07 21:35:40　來源: 極客公園

北京舉報

分享至

2025 年，輔助駕駛競爭的主線就是 VLA。

作者｜周永亮

編輯｜靖宇

當(dāng)輔助駕駛的浪潮席卷而來，我們似乎都感受到了一個瓶頸：在高速公路上，它像個老手，穩(wěn)健可靠；可一回到復(fù)雜的城市街道，它就變回了需要時時看管的「新手」。為什么會這樣？

本質(zhì)上，之前以「端到端」為代表的 AI 駕駛模型，其核心是模仿學(xué)習(xí)，像「猴子開車」。你讓一只猴子看 1000 萬段人類開車的視頻，它能學(xué)會模仿人的動作——在什么情況下打方向盤，什么時候踩剎車?？恐@種「模仿」，理想汽車在短短 7 個月內(nèi)，就將輔助駕駛的平均接管里程從 12 公里提升到了 120 公里。

然而，模仿終究是模仿?！负镒印共⒉粫嬲伎?，它只是在應(yīng)激反應(yīng)。當(dāng)遇到一個從未見過的街角，一個突然竄出的行人，一個復(fù)雜的、充滿不確定性的路口時，這只「猴子」的大腦就宕機了。因為它只會「怎么做」，卻不懂「為什么」。

整個行業(yè)，都走到了這個模仿的瓶頸前。下一步，路在何方？

答案，藏在一個全新的概念里——VLA（視覺-語言-行為）大模型。

2025 年 7 月底，在北京理想汽車的研發(fā)總部，極客公園在理想 i8 正式發(fā)布前，深度體驗了理想第一版 VLA 模型，這也是國內(nèi)第一個量產(chǎn)上車的 VLA 模型。同時還訪談了理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士及核心研發(fā)成員團隊，在與他們的深度訪談中，我們得以一窺這場變革的核心。

如果說過去的端到端是兩步式：「看見，然后行動」。那么 VLA 的核心，就是在「看見」（Vision）和「行動」（Action）之間，植入了一個至關(guān)重要的環(huán)節(jié)——語言（Language）。它就如同一個會思考、能推理的大腦，它不僅能看懂「前方有障礙物」，更能結(jié)合上下文理解「這是一條狹窄的雙向車道，對向有來車，我應(yīng)該減速避讓，而不是冒險超車」。

這種「內(nèi)心戲」的思考過程，讓汽車的行為決策不再是一個冰冷的黑箱，而是變得可以理解，也更接近人類的思維。我們終于有機會窺見，那只「猴子」的腦子里，在想些什么。

那么，擁有了「大腦」的 VLA 司機，想成為一個什么樣的角色？

理想的答案出人意料，卻又在情理之中：不做「老司機」，要做「私人司機」。

這二者有什么區(qū)別？老司機關(guān)注的是「我怎么把車開好」，核心是駕駛者本身；私人司機關(guān)注的是「怎么讓乘客坐得舒服、安心」，核心是乘坐者。

因此，在首個 VLA 版本中，「安全」被放在了「效率」之前。當(dāng)遇到復(fù)雜的路況，它寧愿慢一點、穩(wěn)一點，也絕不做任何讓家人感到不安的激進冒險。它的每一次決策，都以你和家人的安心為優(yōu)先準則。

當(dāng)然，要實現(xiàn)這一切，絕非易事。理想汽車的路徑，并非是跳過模仿學(xué)習(xí)直接進入 VLA，而是建立在數(shù)據(jù)、算力、算法和工程能力上的長期積累。

特別值得一提的是，理想汽車 VLA 的訓(xùn)練場是「世界模型仿真系統(tǒng)」。你可以把它理解成一個為 AI 司機量身打造的、無限逼真的「元宇宙」駕駛模擬器。在這個虛擬世界里，AI 不再是單純模仿，而是通過一次次「試錯」去探索和學(xué)習(xí)。

它每天可以在這里「行駛」超過 30 萬公里，經(jīng)歷現(xiàn)實中普通人一生都難遇到的極端、危險場景（Corner Case）。它會經(jīng)歷無數(shù)次失敗，并從失敗中總結(jié)經(jīng)驗，以驚人的速度進化。

今天，第一版的 VLA 系統(tǒng)相比過去，也許只是在舒適性上邁出了一小步。但真正的變革在于，它的進化將不再是線性的，而是指數(shù)級的。當(dāng)它的平均接管里程從 100 公里躍升至 1000 公里時，一個新的時代就將開啟。

這場深刻的變革才剛剛拉開序幕。也許在不久的將來，當(dāng)我們再次坐進駕駛座，會發(fā)現(xiàn)那個曾經(jīng)需要我們時時警惕的系統(tǒng)，已經(jīng)成為了一個值得托付的「人」。

自動駕駛的「ChatGPT 時刻」，或許比我們想象中來得更快。

理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士 | 圖片來源：理想汽車

以下為訪談內(nèi)容，部分有刪減：

訪談嘉賓：

理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士

理想汽車自動駕駛高級算法專家詹錕

理想汽車自動駕駛高級算法專家湛逸飛

VLA：通往更高階自動駕駛的「必經(jīng)之路」？

Q：去年，「端到端」成為輔助駕駛主流方案，但也很快遇到瓶頸，VLA 是當(dāng)時唯一考慮的技術(shù)路線嗎？還是有其它備選方案？

郎咸朋：我們一直保持對前沿算法的探索，做端到端時也在考慮下一代技術(shù)。當(dāng)時業(yè)內(nèi)最有前途的就是 VLA，它不僅用于輔助駕駛，更是具身智能和未來機器人領(lǐng)域的通用技術(shù)框架。經(jīng)過長時間的調(diào)研和探索，我們制定了 VLA 的技術(shù)方向。

Q：VLA 看似并未顛覆「端到端」，這是否意味著它更多是工程能力的創(chuàng)新，而非革命性的技術(shù)路線革新？

詹錕：VLA 不只是工程方面的創(chuàng)新。VLA 也是一種端到端（場景輸入，軌跡輸出），但算法的創(chuàng)新是多了「思考」。端到端可以理解為 VA（視覺-動作），VLA 加入了 Language（語言），對應(yīng)思考和理解，把機器人范式統(tǒng)一。但 VLA 作為大模型，部署在邊緣端算力上極具挑戰(zhàn)，需要工程創(chuàng)新，必須有大算力芯片才能部署。

Q：行業(yè)有觀點認為，VLA 和「好的模型」是兩回事，后者更多取決于數(shù)據(jù)和強化學(xué)習(xí)。您如何看待這個觀點？

詹錕：我贊同 VLA 是一種模型架構(gòu)，不一定代表是好模型。任何模型的設(shè)計思路只代表想法，不代表能落地。要訓(xùn)練出好的 VLA 模型，需要更好的數(shù)據(jù)、算力、算法、工程部署。我們認為，輔助駕駛想往 L4 或更高能力前進，L（語言）是必經(jīng)之路。

從 2021 年到 2025 年，理想已經(jīng)經(jīng)歷了 5 次技術(shù)路線的切換 | 圖片來源：視覺中國

Q：多模態(tài)大模型尚未迎來真正的「ChatGPT 時刻」，理想此時量產(chǎn) VLA，這是一個足夠好的解法了嗎？它距離那個引爆點還有多遠？

詹錕：多模態(tài)沒達到 GPT 時刻。VLA 在機器人領(lǐng)域泛化能力不強，但在輔助駕駛這個相對統(tǒng)一的范式里，有機會做到一個 GPT 時刻。

我們承認，現(xiàn)在的 VLA 是業(yè)界第一個要推向量產(chǎn)的版本，肯定會存在缺陷。這次嘗試是想用 VLA 探索一條新路徑，不一定非要達到 GPT 時刻才能量產(chǎn)落地。只要能通過評測、仿真驗證它能給用戶帶來「更好、更舒適、更安全」的體驗，就可以交付。

GPT 時刻更多指的是很強的通用性和泛化性。我們會在落地以后，隨著用戶數(shù)據(jù)迭代、場景和交互的豐富，逐漸往 ChatGPT 時刻遷移。到明年我們?nèi)绻搅?1000MPI，可能會給用戶一種真的到了 VLA 的 ChatGPT 時刻的感覺。

Q：從「司機 Agent」到「更好的家庭司機」，理想對 VLA 的終極價值思考，發(fā)生了哪些變化？未來它將如何重塑我們的出行空間？

郎咸朋：我們之前的「司機 Agent」說法迭代了，現(xiàn)在我們認為 VLA 應(yīng)先專注于成為一個好的「私人司機」。

我們認為 VLA 是一個底層能力，對用戶最大的價值就是把車開好。如果車都開不好，做其他事沒有意義。而且，我們分析后認為，目前的 AI Agent 產(chǎn)品還處于比較初級的階段。

所以我們重新審視 VLA 的能力，核心還是把車開好，為用戶提供一個安全、舒適、安心且越開越好的司機體驗。這是我們今年 VLA 上車后想實現(xiàn)的目標(biāo)。

未來，在 VLA 模型的基礎(chǔ)上，輔助駕駛會向「移動空間」的思路發(fā)展。當(dāng)車輛能做到足夠安心、安全后，它就能幫你去做其他事情，我相信那一天會很快到來。

解構(gòu)大腦——VLA 的「七十二變」與「數(shù)據(jù)煉金術(shù)」

Q：理想自研的 MindGPT 基座模型，究竟比行業(yè)開源模型「好用」在何處？

詹錕：我們自研的基座模型對部署 VLA 有很大作用，我們 VLA 是 4B 模型，比以前更大了，但推理速度更快了。核心原因是我們自研的基座架構(gòu)，專門對嵌入式芯片做了定制的 MoE 混合專家架構(gòu)，并不是業(yè)界任何一個開源模型都能達到這個效率。VLA 的推理幀率在 10Hz 左右，我們做了很多優(yōu)化，把思考過程盡可能地能夠在車端推理出來。

Q：云端大模型參數(shù)量是越大越好嗎？面對友商的 72B 模型，理想的 32B 模型如何應(yīng)戰(zhàn)？車企判斷模型大小的標(biāo)準是什么？

郎咸朋：關(guān)于云端模型 72B 好還是 32B 好，我覺得各有各的好。關(guān)鍵看你是否能把模型訓(xùn)練到的能力，蒸餾好了之后，能落到自己的芯片上，做好優(yōu)化、量化的部署，并且轉(zhuǎn)換成用戶的實際價值。能做到這點，都是好的應(yīng)用。

當(dāng)然，模型的參數(shù)量越大，訓(xùn)練消耗的資源就會越多，效率也可能低一點。把大模型蒸餾成小模型，能力損失也可能存在，這很考驗各家工程師的能力。最終，我們還是要看最終的產(chǎn)品體驗以及給用戶帶來的價值。

湛逸飛：其實也不完全只看參數(shù)量，你給它什么數(shù)據(jù)也是非常重要的。現(xiàn)在很多大模型都是基于互聯(lián)網(wǎng)通用數(shù)據(jù)，而數(shù)據(jù)污染已越來越嚴重。我們理想汽車的云端大模型，是基于自己的數(shù)據(jù)去做訓(xùn)練，它在駕駛場景的理解上，比那些通用大模型的能力要強很多。我們需要的正是它對駕駛場景的理解能力。

Q：在 VLA 的訓(xùn)練中，在語言模型上是怎么避免大模型由于跟人類理解不同從而產(chǎn)生的反常識或者反人類習(xí)慣的生成指令，我們是如何解決的？

詹錕：首先以現(xiàn)在的技術(shù)而言大模型已經(jīng)有了一些初步的共識方法和思路。

第一，我們需要對不好的數(shù)據(jù)做精細的清洗，清洗的越多，質(zhì)量就越好。

第二，生成數(shù)據(jù)。之前會有很多大語言模型會有幻覺，本質(zhì)上因為「大模型」對這個東西是不理解的或者沒見過的，在它這個領(lǐng)域之外回答問題。所以我們需要構(gòu)建很多數(shù)據(jù)，甚至生成數(shù)據(jù)，去讓它把這個領(lǐng)域理解到位，能把所有的知識能夠知道，甚至知道它什么不知道，這是它很重要的一個能力。

通過這兩個思路，其實大幅能降低語言模型的幻覺能力，甚至反常識的東西。

第三，超級對齊，讓它去更做到符合人類價值觀，比如剛剛那個例子，不能跨對向車道，就是類似的思路，這是第一個問題。

相比端到端，VLA 的不同之處是在「看見」（Vision）和「行動」（Action）之間，加入了語言（Language）| 圖片來源：視覺中國

Q：在浩如煙海的數(shù)據(jù)中，理想如何像煉金術(shù)士一樣，定義并篩選出能訓(xùn)練出「老司機」的「黃金數(shù)據(jù)」？

湛逸飛：我們需要的數(shù)據(jù)，一個詞總結(jié)就是「老司機數(shù)據(jù)」。我們會在云端用大模型對數(shù)據(jù)進行檢查，看它是否符合我們定義的「老司機」標(biāo)準。比如，在望京有些右轉(zhuǎn)車道上有違停車，我們到底需不需要車輛壓實線繞行？如果不繞，在望京就沒法右轉(zhuǎn)。我們對這些數(shù)據(jù)理解花費了很大功夫，并做了很多清洗。

郎咸朋：對于 corner case 和困難場景，我們會通過生成數(shù)據(jù)來提供。在強化學(xué)習(xí)階段，數(shù)據(jù)更大的作用是訓(xùn)練世界模型，讓它更符合真實世界，所以我們更多的訓(xùn)練數(shù)據(jù)來自合成。

我們從理想 ONE 就開始做數(shù)據(jù)閉環(huán)。2020 年，我們就積累了 1500 萬左右的有效回傳數(shù)據(jù)。這 5 年做下來，從去年端到端開始，對手才真正把理想輔助駕駛當(dāng)回事，但為時已晚，因為這些能力建設(shè)不是一天兩天就能完成的。

如果還沿著端到端的思路做 VLA，速度一定會變慢。我們的最終目標(biāo)，是在云端建立一個模擬真實物理世界的世界模型，讓算法在里面跑，就像在《SimCity》里一樣。到那時，算法在模擬世界里跑一天，等于在真實世界跑好幾年的訓(xùn)練速度。一年之后，當(dāng)一個 1000MPI 的產(chǎn)品放在你面前時，大家會覺得輔助駕駛真的來了。我相信理想肯定是第一個走出來的。

Q：VLA 如何憑空理解「前進 10 米」這類物理概念？我們真的能完全信任一個大模型做出的判斷嗎？

詹錕：我們不會單純地讓模型學(xué)習(xí)向前走 10 米、12 米這樣生硬的數(shù)據(jù)。但在海量的通識數(shù)據(jù)中，有很多對物理空間的理解，比如前方白車距離多少米?，F(xiàn)在的大模型也已加入很多物理空間的知識。

我們分享的五步訓(xùn)練法，第一步就是加入通識能力和物理世界的知識，第二步進行微調(diào)，將能力和 action 結(jié)合。當(dāng)我們把海量數(shù)據(jù)喂給它以后，數(shù)據(jù)具備組合泛化能力，并不是教什么學(xué)什么。當(dāng)量級達到一定規(guī)模時，會涌現(xiàn)出一些能力。它懂了數(shù)字，懂了米數(shù)，當(dāng)給它一個新的東西，就存在組合泛化的機制。我們也非常關(guān)注現(xiàn)在大模型的進展，隨時可以向輔助駕駛上遷移。

Q：VLA 的「大腦」再聰明，也需要敏銳的「眼睛」。在感知層面，我們?nèi)绾纬掷m(xù)進化，解決類似「懂車帝測試」中暴露出的問題？

郎咸朋：還是要繼續(xù)提升技術(shù)能力。在 VLA 中，我們對感知有一個比較大的升級，能看得更遠、更精細。

比較典型的兩個例子是：我們動態(tài)物體純視覺的檢測范圍從原來的 150 米擴到了 200 米，OCC 通用物體檢測從原來的 80 米擴到了 125 米。這都是目前在 VLA 上做的技術(shù)能力提升，包括數(shù)據(jù)、包括推理性能的提升才能做到。目前我們確實會在基礎(chǔ)能力上做更多提升。

理想如何將 VLA 大腦塞進車里？

Q：從規(guī)則到端到端，再到 VLA，理想的智駕算力經(jīng)歷了怎樣的指數(shù)級增長？未來的算力規(guī)劃藍圖是怎樣的？

郎咸朋：算力增長過程與技術(shù)方案相關(guān)。在規(guī)則算法時代，訓(xùn)練卡只用于訓(xùn)練 BEV 模型和感知模型，數(shù)量較少。但在端到端時代，模型訓(xùn)練需要大量算力，我們的訓(xùn)練卡從不到 1EFLOPS 增長到去年的 10EFLOPS，增長了 10 倍左右。我們認為訓(xùn)練算力是一方面，同時要增加推理算力。

Q：理想是如何在 Thor 芯片上壓榨出翻倍算力的？將精度從 FP16 降至 FP8 甚至 FP4，如何做到性能不降反升？

詹錕：我們從去年開始用 Orin 芯片做大模型部署，通過魔改 CUDA 底層、重寫 PTX 底層指令等方式實現(xiàn)。理想汽車輔助駕駛團隊的工程部署能力是一以貫之的，從早期地平線 J3，到 Orin，再到 Thor 芯片，很多技巧、分析方法和工具鏈都繼承下來了。

關(guān)鍵是我們打磨細節(jié)的能力，通過做底層分析解決瓶頸。VLA 從最初推理一幀需要 500-600 毫秒到最后實現(xiàn) 10Hz，提升了近 10 倍的效率。這其中有非常多的細節(jié)，比如調(diào)整算子，讓它和芯片能力更匹配。大家常用的推理模型會用 FP16，我們把它降到 FP8，性能做了非常大的提升，未來還會用 FP4 進一步把芯片算力壓榨出來。

郎咸朋：自研芯片的核心原因是能針對自己的算法進行特定優(yōu)化，性價比和效率都會很高?，F(xiàn)在依然使用 Thor 芯片，是因為英偉達對新算子支持較好，算力也比較充足，在 VLA 迭代過程中依然有變化的可能性。如果未來算法鎖定，為了更好的效率和成本，大家都會考慮自研芯片。

Q：在車端部署 VLA 大模型時，理想是否會有一些輕量化的版本？如何在這場「性能」與「效率」的博弈中取得平衡的？

詹錕：在部署時的效率和蒸餾上我們做了非常多平衡。架構(gòu)上，我們的基座模型是自研的 8x0.4B 的 MOE 模型，這個架構(gòu)非常適合英偉達芯片，推理速度快的同時模型容量大。

優(yōu)化上，我們最早訓(xùn)練了一個 32B 的云端大模型，把它做出的思考和推理流程蒸餾到 3.2B 的 MoE 模型上。我們也針對 Diffusion 做了工程優(yōu)化，并不是直接使用標(biāo)準 Diffusion，而是進行了推理的壓縮。以前 Diffusion 可能要推理 10 步，我們使用了 flow matching 流匹配只需要推理 2 步就可以了，這方面的壓縮也是導(dǎo)致我們真正能夠部署 VLA 的本質(zhì)原因。

Q：面對未來，理想會走上自研智駕芯片的道路嗎？

郎咸朋：自研芯片的核心原因是能針對自己的算法進行特定地優(yōu)化處理，性價比和效率都會很高。現(xiàn)在我們依然使用 Thor 芯片，是因為英偉達對一些新的算子支持比較好，算力也比較充足，在整體 VLA 迭代過程中依然有變化的可能性。如果未來算法鎖定，為了更好的效率和成本，大家都會考慮自研芯片的。

Q：在 Orin 與 Thor 兩個平臺，理想后續(xù)的 VLA 推送會「一視同仁」嗎？兩個平臺的能力差距何時會顯現(xiàn)？

郎咸朋：我們 Orin X 或 Thor 平臺都會同步推送。目前測試來看在能力上沒有任何差異，幀率上也沒有差異，都是 10 幀。唯一的差異可能是底盤不同導(dǎo)致的舒適度體驗差異。

后續(xù)的推送節(jié)奏也是同步的。我們現(xiàn)在肯定不會做這種差異化。但隨著下一步的迭代，如果我們在 INT4 的量化上有一些突破，那時可能會有一定差異，但現(xiàn)在談這個還為時尚早。

仿真，何以成為理想的「殺手锏」？

Q：面對「安全、舒適、效率」的「不可能三角」，現(xiàn)階段的 VLA，做出了怎樣的取舍？

郎咸朋：我們的數(shù)據(jù)顯示，理想車主的人駕數(shù)據(jù)是約 60 萬公里出一次事故，而使用輔助駕駛功能是 350 到 400 萬公里發(fā)生一次事故。我們的目標(biāo)是將輔助駕駛的 MPA（每兩次事故間的平均里程）提升到人類駕駛的 10 倍。

在不可能三角中，我們的排序是安全、舒適，最后是效率。安全由 MPA 指標(biāo)衡量，是最高優(yōu)先級；舒適是在保障安全的基礎(chǔ)上，我們通過優(yōu)化 MPI（每兩次人工干預(yù)間的平均里程）來重點提升舒適度，減少因急剎、重剎等不佳體驗導(dǎo)致的接管；效率排在安全和舒適之后。例如，即便走錯路，我們也不會通過危險的動作立刻糾正，而是在保證安全和舒適的基礎(chǔ)上去追求效率。

Q：理想為何敢大幅減少實車測試，并斷言仿真測試效果更好？這背后的底氣是什么？

郎咸朋：我們認為實車測試有很多問題，成本是其中一方面，最主要的是我們在測試驗證一些場景時不可能完全復(fù)現(xiàn)發(fā)生問題時的場景。同時，實車測試的效率太低了，在實車測試過程中要開過去之后再復(fù)測回來，我們現(xiàn)在的仿真效果完全可以媲美實車測試，現(xiàn)在的超級版本和理想 i8 的 VLA 版本中 90% 以上的測試都是仿真測試。

從去年端到端版本我們就已經(jīng)開始進行仿真測試的驗證，目前我們認為它的可靠性和有效性都很高，所以我們以此替代了實車測試。但仍有一些測試是無法替代的，比如硬件耐久測試，但和性能相關(guān)的測試我們基本上會使用仿真測試替代，效果也非常好。

Q：仿真世界如何做到復(fù)刻真實物理世界？理想的「殺手锏」是什么？

湛逸飛：我們在 2024 年進行了 150 多萬公里實車測試，來驗證仿真環(huán)境的可靠性。

最初世界模型仿真的真實性確實存在問題，但我們通過與實車測試數(shù)據(jù)對比，在過去一年里針對仿真測試中的漏洞或缺陷進行了大量工程和算法優(yōu)化，讓仿真一致性達到了非常高的程度。雖然沒有達到 100%，但準確率也可以在 99.9% 以上。

例如，我們針對仿真環(huán)境中「200 米外看不清紅綠燈」的問題，對紅綠燈的視野模型和相機分辨率仿真進行了大量優(yōu)化。正是用過去一年的時間將仿真系統(tǒng)的可靠性提升到了很好的程度，我們才會放心地去使用這套系統(tǒng)。

Q：在仿真訓(xùn)練中，如何判定一個場景的訓(xùn)練已經(jīng)「畢業(yè)」？從「實習(xí)司機」到「老司機」的進化需要多久？

湛逸飛：強化學(xué)習(xí)是一個循環(huán)交替的過程。每一輪仿真，我們會給它一個打分（reward），這個 reward 會反向改變模型參數(shù)，然后我們再拿它去仿真，產(chǎn)生新行為。這個過程不是瞬間完成的，也沒有固定時長，主要和場景的難度相關(guān)。直到它通過了我們在仿真環(huán)境里的所有 metrics，我們才判斷這個場景的訓(xùn)練完成了。

Q：如果滿分是 100 分，您會給今天我們體驗的 VLA 版本打多少分？要達到怎樣的標(biāo)準才能讓您安心地將它推向市場？

郎咸朋：我們內(nèi)部有自己的評分機制。大家試駕的這版 VLA，內(nèi)部打分已經(jīng)全面超越了我們最后一個端到端版本 OTA7.5，但在一些小的分數(shù)上可能還有波動。

在真正推送給用戶之前，我們會做到一個明顯的效果提升。大家體驗的主要是我們在舒適度上的一些提升。接下來，我們會在「安全、合規(guī)、導(dǎo)航、效率」等維度上都會有較大幅度的提升。

我們的目標(biāo)是，讓熟悉我們車的用戶一上車就會有非常大的體驗提升；讓沒用過輔助駕駛的人，在使用時也會有很強的安全感、安心感和舒適度。

友商都宣傳輔助駕駛是「老司機」，理想汽車整了點不同的，想成為「私人司機」| 圖片來源：視覺中國

Scaling Law 信仰，讓理想成為理想

Q：您如何判斷輔助駕駛的商業(yè)化落地時間表？理想的變現(xiàn)之路將如何鋪開？

郎咸朋：從技術(shù)層面看，我們認為 VLA 模型可以走向更高級別的輔助駕駛，但它現(xiàn)在處于起步階段，約等于端到端的上限。我相信 VLA 的迭代速度也會非?？欤@需要完備的算法、算力和數(shù)據(jù)等基礎(chǔ)能力，以及工程能力的支撐。VLA 的訓(xùn)練需要和成熟的仿真環(huán)境來進行強化學(xué)習(xí)，和之前單純依靠實車數(shù)據(jù)模仿學(xué)習(xí)是完全不同的。

商業(yè)變現(xiàn)最核心的影響因素是國家的法律政策。從技術(shù)上看 L4 級別的輔助駕駛落地會非?？?，但從商業(yè)角度看，還有很多問題需要考慮，比如保險和事故賠償?shù)取?/p>

Q：如果一個新玩家想入局 VLA，會面臨哪些難以逾越的挑戰(zhàn)？理想的核心技術(shù)壁壘是什么？

郎咸朋：新玩家想做 VLA 模型，沒法跳過規(guī)則算法和端到端階段。VLA 要建立在之前的基礎(chǔ)上，如果沒有完整的通過實車采集的數(shù)據(jù)閉環(huán)，是沒有數(shù)據(jù)能夠去訓(xùn)練世界模型的。

理想汽車之所以能夠落地 VLA 模型，是因為我們有 12 億公里的數(shù)據(jù)。只有在充分了解這些數(shù)據(jù)的基礎(chǔ)上，才能夠更好地生成數(shù)據(jù)。如果沒有這些數(shù)據(jù)基礎(chǔ)，首先不能訓(xùn)練世界模型，其次也不清楚要生成什么樣的數(shù)據(jù)。同時，基礎(chǔ)訓(xùn)練和推理算力的支撐也需要大量資金和技術(shù)能力。

Q：在研發(fā) VLA 過程中最大的挑戰(zhàn)是什么？理想在組織架構(gòu)上進行了怎樣的調(diào)整？

郎咸朋：我覺得挑戰(zhàn)最大的是要把整個研發(fā)流程進行迭代。每一個技術(shù)革新都伴隨著研發(fā)流程的迭代。去年端到端需要數(shù)據(jù)驅(qū)動流程，今年做 VLA 就必須要做強化學(xué)習(xí)的流程，需要快速驗證我們世界模型的可靠性，也需要快速搭建高效的仿真環(huán)境。

組織層面，我們是 IPD（項目制）組織。不管是去年做端到端，還是今年做 VLA，都是成立內(nèi)部項目組來做。這反而成為我們的一種優(yōu)勢。去年端到端是 180 個人，今年 VLA 是 200 多個人，我們覺得不需要幾千人去做。我覺得做得最好的是特斯拉，永遠都是那一兩百人，做的還都挺好的。

Q：作為國內(nèi) VLA 的「探路者」，理想在「摸著石頭過河」時，踩過最大的「坑」是什么？組織架構(gòu)為此做出了怎樣的變革？

郎咸朋：我有個最大的體驗，就是對整個行業(yè)和輔助駕駛的判斷與認知，決定了我們是否會踩坑。

我們很早就理解輔助駕駛是個人工智能問題，必須做好算法、數(shù)據(jù)和算力。我們從 2021 年開始搭建數(shù)據(jù)閉環(huán)，這是我們能做端到端的基礎(chǔ)。

同時，去年在做端到端時我們就在反思，它是不是就夠了。我們對人工智能的理解不是模仿學(xué)習(xí)，而是要像人類一樣有思維和推理能力，去解決沒有見過的事情。所以我們很快從端到端切換到了 VLA 方案。

小的工程細節(jié)、優(yōu)化等小坑肯定有，但我們沒有遇到大的判斷失誤。

詹錕：我補充一下，可能也不叫坑，是個經(jīng)驗。就是要相信 AI 的力量，相信 Scaling Law（規(guī)模法則）。我們之前相信 data Scaling Law（數(shù)據(jù)規(guī)模法則），看到了很好的效果；下一步就是堅信，當(dāng)我們能給更多的數(shù)據(jù)、更大的訓(xùn)練時長，它總能出更好的效果。這是 AI 界的「the bitter lesson（苦澀的教訓(xùn)）」，我們要堅信這一點。

Q：最新的調(diào)研中，智能駕駛在消費者購車決策中的權(quán)重有多高？

郎咸朋：我們市場部的同學(xué)是做過調(diào)研的，并且給到我的反饋肯定是需要，都是排在首選 top3 里的。

現(xiàn)在新購車的人對智駕的要求，我覺得一年前可能問這個問題大家還有點質(zhì)疑，但現(xiàn)在我相信特別是新購車的用戶智駕一定是排在它的首先選要素里的，像去年麥肯錫的調(diào)研基本上都是第一或第二的購車要素。

Q：未來，理想是否會將 VLA 這項核心能力，向行業(yè)開放、賦能嗎？

郎咸朋：我認為是可以的，我們希望為行業(yè)做貢獻。但前提是，第一，我們是不是能夠很好地驗證這套系統(tǒng)，因為整個 VLA 的發(fā)展還是在技術(shù)周期的初期階段，需要繼續(xù)提升；第二，是否其他人有能力和我們一起去做這件事，因為他也需要有自己的評測方式、仿真環(huán)境，以及強化學(xué)習(xí)訓(xùn)練能力。

從公司或我個人的態(tài)度上，是希望能夠促進行業(yè)發(fā)展，但從目前 VLA 技術(shù)發(fā)展階段來看，依然是比較初級的，它的發(fā)展速度可能會比較快，像端到端一樣，用一年的時間將效果提升 10 倍。行業(yè)發(fā)展速度會非?？欤蚁嘈琶髂隃贤ǖ臅r候可能會討論一下開源的問題。

*頭圖來源：理想汽車

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你如何看待理想智駕 VLA 模型？

蔚來高管：反對向理想用戶潑臟水，有人把禍水往蔚來身上引。

點贊關(guān)注極客公園視頻號，

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.