網易首頁 > 網易號 > 正文申請入駐

元戎率先供應VLA方案！打掉車企數億自研預算，下探至10萬級車型

2025-08-27 17:22:21　來源: 智能車參考

廣東舉報

分享至

一凡發(fā)自深圳
智能車參考 | 公眾號 AI4Auto

“VLA的下限，就是端到端的上限”。

這是元戎啟行CEO周光在VLA（視覺語言動作）模型發(fā)布會上，對VLA能力的概括。

在周光看來，此前的智能輔助駕駛系統(tǒng)都可以歸為端到端1.0階段，上限已至，就像尼安德特人(智力不行的人種，已滅絕)

VLA則是端到端2.0階段，目前還處于及格水平，但下限已超越1.0時期的上限，就像智人（現代人類）。

“智人版端到端”采用了全新架構，標志著輔助駕駛步入大模型時代。

因此具備了全新的能力，融入了思維鏈，AI司機會“害怕”了，就像生物進化出了保護機制，還能給你分析當前場景，輸出文字解釋自己的決策。

這也是業(yè)內第一家推出VLA方案的輔助駕駛供應商。在此之前，VLA基本處于車企自研狀態(tài)，而且據其中上市公司透露，其研發(fā)預算在數億元甚至數十億元級別

元戎第一槍，打掉了上億自研預算。在此之后，車企VLA立項或許都要面臨拷問：是不是比元戎方案更好？有沒有必要投入如此規(guī)模預算重復造輪子？？

而且元戎也并沒有把VLA的應用限定在輔助駕駛。

在發(fā)布會上元戎明確，要用特斯拉的方式做Robotaxi，不走依賴高精地圖Waymo路線。未來機器人也會和車端基于同一套系統(tǒng)。

在發(fā)布會后，關于VLA的現狀和未來，元戎分享了很多共識和非共識。

比如大算力，具體要多大？

在元戎看來起碼要基于英偉達Thor-U，也就是700TOPS，Orin平臺無法落地VLA

端到端1.0的瓶頸

元戎啟行推出VLA，是端到端1.0方案進入瓶頸期的必然。

元戎透露，目前其端到端方案量產數量已接近10萬臺，均可實現城區(qū)NOA。隨著量產規(guī)模擴大，獲取到的數據增多，元戎感知到了技術瓶頸。

在元戎看來，當前的技術方案主要有三大限制：

首先是BEV（鳥瞰）視角先天就存在局限性，就像咱們日常玩“吃雞”或者其他射擊游戲，輔助駕駛系統(tǒng)遇到一面墻，因為看不到墻后的場景，會下意識的認為墻后不存在物體。

但有經驗的玩家，遇到視野盲區(qū)，會下意識地思考，墻后是不是藏著什么東西，從而采取謹慎的策略往前走。

這種對空間關系的理解和思考，是端到端1.0時代基于CNN（卷積神經網絡）的范式無法實現的。

其次，當前的輔助駕駛系統(tǒng)很多都是“文盲”，理解不了咱們日常開車會遇到的文字信息標識，比方說交通標志、臨時路牌和地面上印刷的文字。

典型代表就是限制時段的公交車道，這也是今年年初馬斯克坦承FSD入華面臨的挑戰(zhàn)之一。

最后，目前的端到端方案可解釋性比較差，像一個黑盒子，用戶不知道系統(tǒng)為什么此時剎車或者變道，想了解背后的邏輯。

如果系統(tǒng)具備語言理解能力，就能向用戶做出解釋，讓用戶用起來更有安全感。

總之，輔助駕駛需要具備語言和空間理解能力，以及更強的可解釋性，但現在的范式滿足不了新的需求。

元戎認為，基于傳統(tǒng)CNN（卷積神經網絡）打造的模型，無論再上多少手段和額外訓練手段，提升手段都比較有限。

是時候重塑底層架構，突破技術瓶頸了。

轉向基于GPT的架構

元戎選擇轉向基于GPT（Generative Pre-trained Transformer）的架構，打造VLA模型。

一方面，VLA從互聯(lián)網進行了海量數據蒸餾和訓練，模型積累了豐富的常識，這是過去CNN或者BEV端到端系統(tǒng)沒有的。

另一方面，VLA還具備了思維鏈（CoT）能力，能夠理解長時序的數據并進行推理，短期記憶依靠視頻類型的數據，長期記憶就依靠關鍵幀語言描述

這一點就像咱們人類的記憶系統(tǒng)，如果我問你今天開車上班都遇到了什么，你可能會想起從出門到目的地一路上的各種情況。

但是如果問你當年考駕照的情況，那你腦子就只記得幾個關鍵圖片或者瞬間了，比如說“扣100分，考試不通過”諸如此類。

新范式培養(yǎng)出新能力，會帶來什么新體驗？

元戎提出「防御性駕駛」，讓AI學會害怕，讓用戶用的安心。

比如遇到前無信號燈、左有橋洞的岔路，系統(tǒng)會主動識別，減速慢行，并在右下角給出解釋。

再比如雨天轉向前，遇到臨停車制造了盲區(qū)，系統(tǒng)也會降低車速，緩緩轉向。

雨天遇到積水也會主動減速，避免水濺到行人。

至于語音控車，比如給車子下指令靠邊停車、變道，在元戎看來是比較基礎的功能，只是撥桿變道換了一種形式。

隨著VLA的推出，元戎認為智能輔助駕駛也來到了新的階段。

規(guī)則驅動和基于CNN的端到端1.0方案，屬于弱專家系統(tǒng)，相當于人類智慧中的「小學生水平」，現在的VLA屬于通才系統(tǒng)。這套系統(tǒng)同時支持融合感知和視覺方案，可以基于多芯片平臺開發(fā)。

據了解，目前已經有5款車型確定將在今年搭載元戎的VLA模型，搭載元戎方案的車輛累計將達20萬臺。

在發(fā)布會最后，元戎總結認為，輔助駕駛和自動駕駛注定與大模型共生，行業(yè)會全面走向GPT架構的端到端模型

當然受限于車端的條件，比如芯片算力和能耗要求，車端模型相比動輒數千億甚至萬億參數規(guī)模的大語言模型還是一個“嬰兒”，未來的方向是讓模型自主學習、持續(xù)進化

在發(fā)布會后，元戎啟行創(chuàng)始人、CEO周光隨即接受了訪談，圍繞行業(yè)現狀和未來，分享了一系列共識和非共識。

VLA背后的共識和非共識

談現狀：VLA剛及格，但下限已是端到端上限

Q：能否通過思維鏈的表現來評價VLA的能力？

周光：沒有CoT，就不算是VLA。目前行業(yè)還沒有像NLP那樣統(tǒng)一的評測基準，但未來可能會建立基于物理場景的專用Benchmark。

Q：滿分10分你給當前版本的VLA打幾分？

周光：我個人打6分，剛及格。VLA模型仍處于早期，相當于“幼年期”，但上限遠高于端到端方案。新一代架構需要新一代芯片支持，這不是CNN時代可比的。

Q：從6分到8分需克服哪些困難？

周光：目前技術仍無法實現全無人駕駛。缺乏推理能力，僅靠高精地圖無法根本解決泛化問題。VLA是當前最優(yōu)路徑，但徹底解決問題需技術持續(xù)突破。

Q：你認為語音控車屬于基礎功能。那么對VLA來說，真正難的是什么？

周光：最難的是思維鏈（Chain of Thought, CoT）和長時序推理。這才是VLA真正的核心能力。

Q：非VLA架構也可實現防御性駕駛，VLA是必須的嗎？

周光：統(tǒng)計方法能部分實現防御策略，但復雜場景需真正推理能力。VLA因具備思維鏈和語言推理，能更徹底解決這些問題。BEV在空間理解上存在天然局限。

Q：元戎怎么看待世界模型和仿真數據用于訓練？

周光：VLA與第一代端到端最根本的區(qū)別是模型架構變了——從CNN轉向GPT。訓練方法比如是否引入RL（強化學習），只是策略問題。CNN架構本身無法實現類似人類的推理和泛化能力。

Q：元戎訓練數據源自哪里？

周光：數據來源多方面：包括自有測試車隊、量產車數據，以及生成數據。要實現GPT架構的預訓練，必須依賴大規(guī)模、多樣化數據集，這是CNN模型無法勝任的。

Q：VLA模型是否也會出現“幻覺”？如何減少？

周光：預訓練階段確實可能產生幻覺，但通過后訓練對齊技術，已經能極大抑制這一現象?，F在主流大模型（如豆包、千問）幻覺現象已經很少，這方面已有較好的解決方案。

Q：VLA模型相比端到端方案會貴多少？成本差距大嗎？

周光：主要成本差異在芯片，其余部分基本一致。芯片成本取決于制程工藝，千T級芯片算力時代已經到來，例如特斯拉2500TOPS芯片，雙芯片即可實現5000TOPS。

Q：LLM強于文本推理而非空間感知，你如何看待？

周光：更準確地說，VLA本質是“基于GPT的端到端模型”。目前堅持投入大算力的公司，比如特斯拉和小鵬，其實都在朝這個方向走。

比如特斯拉AI5芯片算力達2500TOPS，CNN模型參數量有限，顯然不需要如此大規(guī)模的算力，只有GPT架構天然適合擴展，才需要大參數和大算力支持，這才是未來方向。

Q：VLA模型幀率目前低于某些端到端方案（10~20幀），這是現階段的限制嗎？有沒有彌補方式？

周光幀率影響本質是延遲問題。從100毫秒降至50毫秒已有明顯收益，VLA初期幀率稍低是正常現象。幀率并非越高越好，預判能力增強也能彌補幀率限制。

談未來：激光雷達仍有價值，但長期看大模型能力

Q：馬斯克說“激光雷達讓自動駕駛更不安全”，你如何看待？

周光：短期來看，激光雷達受限于技術發(fā)展和數據集的成熟度，仍有其價值，對通用障礙物識別仍有重要作用。

長期來看，大模型有望逐步解決現在依賴激光雷達的部分任務。

Q：如果持續(xù)提升VLA的推理能力，未來可能帶來哪些突破？

周光：VLA目前還未完全實現思維鏈，這是關鍵差距。長遠來看，語言和推理能力是實現完全無人化自動駕駛的核心。

比如遇到“左轉不受燈控”這種臨時標識，依賴地圖更新是不夠的，需要實時理解。

VLA在這條路上任重道遠，需要更多技術沉淀。特斯拉之所以投入十倍算力和參數，正是因為GPT架構是明確方向，CNN無法支撐這種擴展。

Q：車端和（未來）機器人用的VLA模型是同一套架構嗎？

周光：是的，VLA本身是通用架構，不再為特定場景定制。正如我們年初發(fā)布的RoadAGI策略所說，未來這一技術可泛化至多種移動場景——包括小區(qū)、電梯、辦公室等室內外環(huán)境。

現在的機器人很多還依賴遙控，你看最近的那個“機器人馬拉松”比賽，一堆機器人跟在后面，比較不高端。還有的用“巡線”，我高中做機器人的時候就在用這種技術了。

我們希望能實現真正自主、通用的移動能力

Q：元戎的VLA支持多種芯片平臺，具體都有哪些？廠商可以指定芯片嗎？

周光：芯片適配有一定要求，比如基礎算力、帶寬等。模型訓練完成后會經過蒸餾和量化，適配需要滿足基本條件。

合作中車廠可以提出芯片需求，適配成本（時間、資金、數據）都是可協(xié)商的。我們目前以英偉達Thor為起點，未來會支持更多芯片，并不局限于一家。

Q：VLA會加速元戎出海嗎？

周光：出海的關鍵在于合規(guī)。如果特斯拉能進入中國訓練，體驗會完全不同。AI模型正越來越通用化，互聯(lián)網數據訓練的基礎模型已具備較強泛化能力，不存在“中國模型只懂中國”的說法。AI發(fā)展的大趨勢是走向通用。

Q：長期看仿真數據在訓練中的占比會達到多少？仿真數據生成能力會成為壁壘嗎？

周光：仿真需基于真實數據，否則無法有效模擬。現實數據仍是主體，仿真作為補充。從預訓練到后訓練階段，仿真比例會逐漸提升。行業(yè)應關注大模型整體發(fā)展，避免局限在自動駕駛領域。技術本質是相通的，就像人腦神經元結構并無太大差異。

Q：元戎是否會參與L4競爭？

周光傳統(tǒng)自動駕駛等級劃分已過時，真正的無人駕駛需推理能力，純規(guī)則系統(tǒng)無法應對“紅燈可否左轉”這類問題。

談行業(yè)：VLA 15萬級也可用，是實現CoT的必由之路

Q：有廠商大幅減少實車測試、增加仿真里程，這是行業(yè)趨勢嗎？

周光：我們更專注于自身技術路線。仿真是數據來源的一種，關鍵不在于是真實還是仿真，而在于數據質量。高質量數據集才是模型優(yōu)化的核心。

Q：輔助駕駛研發(fā)能跳過端到端，直接從規(guī)則轉向VLA嗎？

周光：每個階段都無法跳過，從有圖、無圖、端到端到VLA，整個發(fā)展過程必不可少，最多只能壓縮某些階段的時間，但不可能完全繞過。目前VLA的下限已經超過端到端方案的上限。

Q：以后各家廠商在研發(fā)高階智能輔助駕駛芯片時，除了做到數千TOPS算力，還必須對Transformer的原生、高效支持作為核心設計指標？

周光：確實如此。早期芯片主要針對CNN設計，未來一定會加強對Transformer的支持，尤其是在FP4、FP6等精度的優(yōu)化上。

Q：為什么行業(yè)當下都在強調強化學習？

周光：強化學習只是模型訓練的一種手段，屬于“后訓練”階段的一部分。如今行業(yè)已進入后訓練時代，但這本身并不值得過度強調——就像GPT或Waymo也不會單獨強調強化學習。

Q：有廠商表示訓練VLA需要數萬張卡，元戎啟行如何看待這種巨大的資源消耗？

周光：元戎在技術選型上一直較為精準，VLA是一個全新領域，方向選擇很多，如果有清晰的技術判斷，資源消耗完全可以更高效。事實上，輔助駕駛場景的GPT模型規(guī)模相對可控，比如7B模型并不需要極端龐大的算力。

Q：華為不走VLA路線，你怎么看？

周光若車端算力不足，確實可能選擇其他路徑。但真正要實現思維鏈仍需VLA方向。

Q：VLA能上車什么價位的車型？

周光：目前15萬元以上的車型都可以適配，10萬級車型通過優(yōu)化也有機會搭載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

智駕路線暗戰(zhàn)升級：元戎啟行理想向左，華為博世向右

汽車公社 2025-09-01 14:46:44
1 跟貼 1
馬斯克吹牛了嗎？Grok 4第一波實測(2)

機器之心Pro 2025-07-11 17:29:24
99 跟貼 99

馬斯克語出驚人：日本若不改變遲早消失，人形機器人將超人類數倍

小朱笑笑 2025-09-02 14:53:19
1 跟貼 1

想找到21歲的喬布斯，跟他說：Hi

虎嗅APP 2025-09-03 00:00:11
1 跟貼 1
馬斯克將前員工告上法庭，指其竊密后跳槽OpenAI：“他上傳了xAI整個代碼庫！”

界面新聞 2025-09-01 22:49:00
3 跟貼 3

原來雷軍也是馬斯克的門徒

雷科技 2025-06-24 20:49:04
0 跟貼 0

傳特斯拉 Model Y L 日均訂單過萬；蘋果聯(lián)手谷歌，Siri 整合 Gemini；優(yōu)必選獲 2.5 億，全球最大人形機器人訂單

極客公園 2025-09-04 08:29:31
0 跟貼 0
馬斯克稱不習慣政治環(huán)境，能回到科技圈很開心

財聯(lián)社 2025-06-20 21:25:26
0 跟貼 0

BMW智能座艙再進化：DeepSeek大模型“上車”讓車機學會共情

林林Go 2025-09-03 23:29:11
0 跟貼 0
一汽紅旗銷售架構調整節(jié)能車與新能源車事業(yè)部相對獨立運營

梨視頻 2025-09-03 10:41:33
23 跟貼 23
特斯拉Semi的巨型壓鑄機來了！馬斯克：10分鐘生產一輛!

極客小冷 2025-09-03 08:00:00
198 跟貼 198
標配激光雷達+英偉達Thor芯片領克08EM-P激光雷達版開啟新體驗-

財經商業(yè) 2025-09-02 21:33:27
0 跟貼 0
高階配置普惠大眾，領克08 EM-P激光雷達版真的要來了？

科技泛觀察 2025-09-02 21:34:28
0 跟貼 0
車頂雷達“消失”，華為Limera艙內激光雷達來襲

月滿樓熊安全 2025-09-02 00:48:24
0 跟貼 0
全身遍布攝像頭雷達，駕駛員戴VR眼鏡，100坦克顛覆了所有人認知

軍武吐槽君 2025-09-04 01:52:24
1 跟貼 1
隱形飛機不會被雷達發(fā)現？當然不是，飛機隱形到底有多難？

科學信仰 2025-09-04 08:53:49
0 跟貼 0
支持率曝光！馬斯克的“美國黨”崛起，特朗普反擊，贏譽格局大

春天來了啊 2025-09-04 02:02:48
0 跟貼 0
這個需要精準測距，沒有雷達單純視覺，這種路況沒法走！

幽默狂歡營 2025-08-31 09:29:31
28 跟貼 28
馬斯克為什么獨寵小兒子，原來大兒子變成了大女兒，這誰接受的了

幽默制造機 2025-09-03 16:40:42
1 跟貼 1
烏軍星鏈被俄軍反用？馬斯克急斷網，戰(zhàn)場最大BUG是他？

熱點一網打盡 2025-09-03 06:00:25
0 跟貼 0
新款航母的隱身能力太強了，雷達根本探測不到

大叔探世界 2025-09-02 16:31:17
0 跟貼 0
白澤獎 | 第二期“白澤獎”輔助駕駛評測車型出爐

Autolab 2025-09-03 23:39:26
0 跟貼 0
被馬斯克稱贊“頭腦清醒”的黑人博主：關于奴隸制的真相

Nee看 2025-09-03 23:59:21
3 跟貼 3
【特斯拉降價真相】靠直覺的天才少年被中國智駕軍團圍剿！

映璇auto工作室 2025-09-02 01:36:27
3 跟貼 3
馬斯克飛行汽車開啟試運營！

看財經show 2025-09-02 21:15:32
0 跟貼 0
冠軍都是玩出來的，玩著玩著就玩出來個馬斯克，第一個太絲滑！

杰森聊生活 2025-09-02 08:53:37
0 跟貼 0
中國雷達三重突破！隱身戰(zhàn)機無處遁形，戰(zhàn)場規(guī)則即將改寫？

蕭嚉影視解說 2025-09-04 02:03:03
0 跟貼 0
杭州一面館一碗面賣2188元，食材含黃鱔、紅蝦、鮑魚等，老板：半月內賣出十多碗

極目新聞 2025-09-02 12:36:58
16908 跟貼 16908
卷瘋了！字節(jié)、阿里等大廠發(fā)力AI智能體，全球96%企業(yè)正部署AI模型

鈦媒體APP 2025-09-03 16:15:22
15 跟貼 15
家用也合適？吉利雷達地平線PHEV：36千瓦放電功率，想象力很足

車壹圈 2025-09-02 12:48:04
0 跟貼 0
波士頓伊瑪目侮辱美國建國史，馬斯克：把他踢出美國！

Nee看 2025-09-02 23:21:36
156 跟貼 156
特朗普身體出大問題？萬斯暗示上位，背后資本按捺不住了

霹靂炮 2025-09-03 22:15:56
0 跟貼 0
2025成都車展｜探館吉利雷達：電混皮卡一哥，能否降維打擊？

商用車公社 2025-09-02 11:04:34
4 跟貼 4
索羅斯的回旋鏢，擊中特朗普

大國觀察眼 2025-09-04 06:05:05
0 跟貼 0
致敬中國彈道導彈，美國招標南向預警雷達

施濤說 2025-09-03 17:48:46
0 跟貼 0
打贏戰(zhàn)爭千里眼！新一代高機動雷達可探測隱身飛機

國際在線 2025-09-03 15:43:35
0 跟貼 0
抖音首發(fā)！空警-600-旋轉雙波段相控陣雷達究竟有多猛

娛界新視野 2025-09-04 06:58:41
0 跟貼 0
中國重磅空間裝備亮相

君笙拂兮啊 2025-09-04 08:02:13
0 跟貼 0
俄羅斯回應31國三大方案：歸還遠東、退出外蒙、圖瓦回歸

軍武時間線 2025-09-02 11:27:08
0 跟貼 0
追隨楊千嬅的腳步，解鎖“嬅”麗人生，從擁有一輛領克10EM-P開始

暖陽座駕 2025-09-03 19:05:30
1 跟貼 1

智能車參考

在這里看懂智能車產業(yè)變革

1728文章數 3585關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

時尚

本地

軍事航空

手機 / 數碼

房產 / 家居

元戎率先供應VLA方案！打掉車企數億自研預算，下探至10萬級車型

端到端1.0的瓶頸

轉向基于GPT的架構

VLA背后的共識和非共識

一天一個樣 方程豹鈦3玩轉“面部重組”

19歲姑娘在九三閱兵儀式上擔任長號手 暑假結束上大二

19歲姑娘在九三閱兵儀式上擔任長號手 暑假結束上大二

排面!德國大使館盛贊樊振東:世界級巨星

劉尚嫻 最幸運的事 就是嫁給初戀丈夫

美國8月份關稅突破310億美元 創(chuàng)歷史新高

傳蘋果自研AI搜索，明年iPhone將大升級

態(tài)度原創(chuàng)

寶媽必學，告訴孩子這種畫不能看！

學校把處分拍到臉上，劉迪連開口機會都沒有，教育部文件成了廢紙

鄭合惠子，好容易出cp的一款“雜草系”女演員

換個城市過夏天 | “中式美學”打開夏日濰坊

九三盛大閱兵全程回顧

元戎率先供應VLA方案！打掉車企數億自研預算，下探至10萬級車型

一天一個樣方程豹鈦3玩轉“面部重組”

19歲姑娘在九三閱兵儀式上擔任長號手暑假結束上大二

19歲姑娘在九三閱兵儀式上擔任長號手暑假結束上大二

劉尚嫻最幸運的事就是嫁給初戀丈夫

美國8月份關稅突破310億美元創(chuàng)歷史新高

寶媽必學，告訴孩子這種畫不能看！

學校把處分拍到臉上，劉迪連開口機會都沒有，教育部文件成了廢紙

鄭合惠子，好容易出cp的一款“雜草系”女演員