一凡 發(fā)自 深圳
智能車參考 | 公眾號 AI4Auto
“VLA的下限,就是端到端的上限”。
這是元戎啟行CEO周光在VLA(視覺語言動作)模型發(fā)布會上,對VLA能力的概括。
在周光看來,此前的智能輔助駕駛系統(tǒng)都可以歸為端到端1.0階段,上限已至,就像尼安德特人(智力不行的人種,已滅絕)
VLA則是端到端2.0階段,目前還處于及格水平,但下限已超越1.0時期的上限,就像智人(現代人類)。
“智人版端到端”采用了全新架構,標志著輔助駕駛步入大模型時代。
因此具備了全新的能力,融入了思維鏈,AI司機會“害怕”了,就像生物進化出了保護機制,還能給你分析當前場景,輸出文字解釋自己的決策。
這也是業(yè)內第一家推出VLA方案的輔助駕駛供應商。在此之前,VLA基本處于車企自研狀態(tài),而且據其中上市公司透露,其研發(fā)預算在數億元甚至數十億元級別
元戎第一槍,打掉了上億自研預算。在此之后,車企VLA立項或許都要面臨拷問:是不是比元戎方案更好?有沒有必要投入如此規(guī)模預算重復造輪子??
而且元戎也并沒有把VLA的應用限定在輔助駕駛。
在發(fā)布會上元戎明確,要用特斯拉的方式做Robotaxi,不走依賴高精地圖Waymo路線。未來機器人也會和車端基于同一套系統(tǒng)。
在發(fā)布會后,關于VLA的現狀和未來,元戎分享了很多共識和非共識。
比如大算力,具體要多大?
在元戎看來起碼要基于英偉達Thor-U,也就是700TOPS,Orin平臺無法落地VLA
端到端1.0的瓶頸
元戎啟行推出VLA,是端到端1.0方案進入瓶頸期的必然。
元戎透露,目前其端到端方案量產數量已接近10萬臺,均可實現城區(qū)NOA。隨著量產規(guī)模擴大,獲取到的數據增多,元戎感知到了技術瓶頸。
在元戎看來,當前的技術方案主要有三大限制:
首先是BEV(鳥瞰)視角先天就存在局限性,就像咱們日常玩“吃雞”或者其他射擊游戲,輔助駕駛系統(tǒng)遇到一面墻,因為看不到墻后的場景,會下意識的認為墻后不存在物體。
但有經驗的玩家,遇到視野盲區(qū),會下意識地思考,墻后是不是藏著什么東西,從而采取謹慎的策略往前走。
這種對空間關系的理解和思考,是端到端1.0時代基于CNN(卷積神經網絡)的范式無法實現的。
其次,當前的輔助駕駛系統(tǒng)很多都是“文盲”,理解不了咱們日常開車會遇到的文字信息標識,比方說交通標志、臨時路牌和地面上印刷的文字。
典型代表就是限制時段的公交車道,這也是今年年初馬斯克坦承FSD入華面臨的挑戰(zhàn)之一。
最后,目前的端到端方案可解釋性比較差,像一個黑盒子,用戶不知道系統(tǒng)為什么此時剎車或者變道,想了解背后的邏輯。
如果系統(tǒng)具備語言理解能力,就能向用戶做出解釋,讓用戶用起來更有安全感。
總之,輔助駕駛需要具備語言和空間理解能力,以及更強的可解釋性,但現在的范式滿足不了新的需求。
元戎認為,基于傳統(tǒng)CNN(卷積神經網絡)打造的模型,無論再上多少手段和額外訓練手段,提升手段都比較有限。
是時候重塑底層架構,突破技術瓶頸了。
轉向基于GPT的架構
元戎選擇轉向基于GPT(Generative Pre-trained Transformer)的架構,打造VLA模型。
一方面,VLA從互聯(lián)網進行了海量數據蒸餾和訓練,模型積累了豐富的常識,這是過去CNN或者BEV端到端系統(tǒng)沒有的。
另一方面,VLA還具備了思維鏈(CoT)能力,能夠理解長時序的數據并進行推理,短期記憶依靠視頻類型的數據,長期記憶就依靠關鍵幀語言描述
這一點就像咱們人類的記憶系統(tǒng),如果我問你今天開車上班都遇到了什么,你可能會想起從出門到目的地一路上的各種情況。
但是如果問你當年考駕照的情況,那你腦子就只記得幾個關鍵圖片或者瞬間了,比如說“扣100分,考試不通過”諸如此類。
新范式培養(yǎng)出新能力,會帶來什么新體驗?
元戎提出「防御性駕駛」,讓AI學會害怕,讓用戶用的安心。
比如遇到前無信號燈、左有橋洞的岔路,系統(tǒng)會主動識別,減速慢行,并在右下角給出解釋。
再比如雨天轉向前,遇到臨停車制造了盲區(qū),系統(tǒng)也會降低車速,緩緩轉向。
雨天遇到積水也會主動減速,避免水濺到行人。
至于語音控車,比如給車子下指令靠邊停車、變道,在元戎看來是比較基礎的功能,只是撥桿變道換了一種形式。
隨著VLA的推出,元戎認為智能輔助駕駛也來到了新的階段。
規(guī)則驅動和基于CNN的端到端1.0方案,屬于弱專家系統(tǒng),相當于人類智慧中的「小學生水平」,現在的VLA屬于通才系統(tǒng)。這套系統(tǒng)同時支持融合感知和視覺方案,可以基于多芯片平臺開發(fā)。
據了解,目前已經有5款車型確定將在今年搭載元戎的VLA模型,搭載元戎方案的車輛累計將達20萬臺。
在發(fā)布會最后,元戎總結認為,輔助駕駛和自動駕駛注定與大模型共生,行業(yè)會全面走向GPT架構的端到端模型
當然受限于車端的條件,比如芯片算力和能耗要求,車端模型相比動輒數千億甚至萬億參數規(guī)模的大語言模型還是一個“嬰兒”,未來的方向是讓模型自主學習、持續(xù)進化
在發(fā)布會后,元戎啟行創(chuàng)始人、CEO周光隨即接受了訪談,圍繞行業(yè)現狀和未來,分享了一系列共識和非共識。
VLA背后的共識和非共識
談現狀:VLA剛及格,但下限已是端到端上限
Q:能否通過思維鏈的表現來評價VLA的能力?
周光:沒有CoT,就不算是VLA。目前行業(yè)還沒有像NLP那樣統(tǒng)一的評測基準,但未來可能會建立基于物理場景的專用Benchmark。
Q:滿分10分你給當前版本的VLA打幾分?
周光:我個人打6分,剛及格。VLA模型仍處于早期,相當于“幼年期”,但上限遠高于端到端方案。新一代架構需要新一代芯片支持,這不是CNN時代可比的。
Q:從6分到8分需克服哪些困難?
周光:目前技術仍無法實現全無人駕駛。缺乏推理能力,僅靠高精地圖無法根本解決泛化問題。VLA是當前最優(yōu)路徑,但徹底解決問題需技術持續(xù)突破。
Q:你認為語音控車屬于基礎功能。那么對VLA來說,真正難的是什么?
周光:最難的是思維鏈(Chain of Thought, CoT)和長時序推理。這才是VLA真正的核心能力。
Q:非VLA架構也可實現防御性駕駛,VLA是必須的嗎?
周光:統(tǒng)計方法能部分實現防御策略,但復雜場景需真正推理能力。VLA因具備思維鏈和語言推理,能更徹底解決這些問題。BEV在空間理解上存在天然局限。
Q:元戎怎么看待世界模型和仿真數據用于訓練?
周光:VLA與第一代端到端最根本的區(qū)別是模型架構變了——從CNN轉向GPT。訓練方法比如是否引入RL(強化學習),只是策略問題。CNN架構本身無法實現類似人類的推理和泛化能力。
Q:元戎訓練數據源自哪里?
周光:數據來源多方面:包括自有測試車隊、量產車數據,以及生成數據。要實現GPT架構的預訓練,必須依賴大規(guī)模、多樣化數據集,這是CNN模型無法勝任的。
Q:VLA模型是否也會出現“幻覺”?如何減少?
周光:預訓練階段確實可能產生幻覺,但通過后訓練對齊技術,已經能極大抑制這一現象?,F在主流大模型(如豆包、千問)幻覺現象已經很少,這方面已有較好的解決方案。
Q:VLA模型相比端到端方案會貴多少?成本差距大嗎?
周光:主要成本差異在芯片,其余部分基本一致。芯片成本取決于制程工藝,千T級芯片算力時代已經到來,例如特斯拉2500TOPS芯片,雙芯片即可實現5000TOPS。
Q:LLM強于文本推理而非空間感知,你如何看待?
周光:更準確地說,VLA本質是“基于GPT的端到端模型”。目前堅持投入大算力的公司,比如特斯拉和小鵬,其實都在朝這個方向走。
比如特斯拉AI5芯片算力達2500TOPS,CNN模型參數量有限,顯然不需要如此大規(guī)模的算力,只有GPT架構天然適合擴展,才需要大參數和大算力支持,這才是未來方向。
Q:VLA模型幀率目前低于某些端到端方案(10~20幀),這是現階段的限制嗎?有沒有彌補方式?
周光幀率影響本質是延遲問題。從100毫秒降至50毫秒已有明顯收益,VLA初期幀率稍低是正常現象。幀率并非越高越好,預判能力增強也能彌補幀率限制。
談未來:激光雷達仍有價值,但長期看大模型能力
Q:馬斯克說“激光雷達讓自動駕駛更不安全”,你如何看待?
周光:短期來看,激光雷達受限于技術發(fā)展和數據集的成熟度,仍有其價值,對通用障礙物識別仍有重要作用。
長期來看,大模型有望逐步解決現在依賴激光雷達的部分任務。
Q:如果持續(xù)提升VLA的推理能力,未來可能帶來哪些突破?
周光:VLA目前還未完全實現思維鏈,這是關鍵差距。長遠來看,語言和推理能力是實現完全無人化自動駕駛的核心。
比如遇到“左轉不受燈控”這種臨時標識,依賴地圖更新是不夠的,需要實時理解。
VLA在這條路上任重道遠,需要更多技術沉淀。特斯拉之所以投入十倍算力和參數,正是因為GPT架構是明確方向,CNN無法支撐這種擴展。
Q:車端和(未來)機器人用的VLA模型是同一套架構嗎?
周光:是的,VLA本身是通用架構,不再為特定場景定制。正如我們年初發(fā)布的RoadAGI策略所說,未來這一技術可泛化至多種移動場景——包括小區(qū)、電梯、辦公室等室內外環(huán)境。
現在的機器人很多還依賴遙控,你看最近的那個“機器人馬拉松”比賽,一堆機器人跟在后面,比較不高端。還有的用“巡線”,我高中做機器人的時候就在用這種技術了。
我們希望能實現真正自主、通用的移動能力
Q:元戎的VLA支持多種芯片平臺,具體都有哪些?廠商可以指定芯片嗎?
周光:芯片適配有一定要求,比如基礎算力、帶寬等。模型訓練完成后會經過蒸餾和量化,適配需要滿足基本條件。
合作中車廠可以提出芯片需求,適配成本(時間、資金、數據)都是可協(xié)商的。我們目前以英偉達Thor為起點,未來會支持更多芯片,并不局限于一家。
Q:VLA會加速元戎出海嗎?
周光:出海的關鍵在于合規(guī)。如果特斯拉能進入中國訓練,體驗會完全不同。AI模型正越來越通用化,互聯(lián)網數據訓練的基礎模型已具備較強泛化能力,不存在“中國模型只懂中國”的說法。AI發(fā)展的大趨勢是走向通用。
Q:長期看仿真數據在訓練中的占比會達到多少?仿真數據生成能力會成為壁壘嗎?
周光:仿真需基于真實數據,否則無法有效模擬。現實數據仍是主體,仿真作為補充。從預訓練到后訓練階段,仿真比例會逐漸提升。行業(yè)應關注大模型整體發(fā)展,避免局限在自動駕駛領域。技術本質是相通的,就像人腦神經元結構并無太大差異。
Q:元戎是否會參與L4競爭?
周光傳統(tǒng)自動駕駛等級劃分已過時,真正的無人駕駛需推理能力,純規(guī)則系統(tǒng)無法應對“紅燈可否左轉”這類問題。
談行業(yè):VLA 15萬級也可用,是實現CoT的必由之路
Q:有廠商大幅減少實車測試、增加仿真里程,這是行業(yè)趨勢嗎?
周光:我們更專注于自身技術路線。仿真是數據來源的一種,關鍵不在于是真實還是仿真,而在于數據質量。高質量數據集才是模型優(yōu)化的核心。
Q:輔助駕駛研發(fā)能跳過端到端,直接從規(guī)則轉向VLA嗎?
周光:每個階段都無法跳過,從有圖、無圖、端到端到VLA,整個發(fā)展過程必不可少,最多只能壓縮某些階段的時間,但不可能完全繞過。目前VLA的下限已經超過端到端方案的上限。
Q:以后各家廠商在研發(fā)高階智能輔助駕駛芯片時,除了做到數千TOPS算力,還必須對Transformer的原生、高效支持作為核心設計指標?
周光:確實如此。早期芯片主要針對CNN設計,未來一定會加強對Transformer的支持,尤其是在FP4、FP6等精度的優(yōu)化上。
Q:為什么行業(yè)當下都在強調強化學習?
周光:強化學習只是模型訓練的一種手段,屬于“后訓練”階段的一部分。如今行業(yè)已進入后訓練時代,但這本身并不值得過度強調——就像GPT或Waymo也不會單獨強調強化學習。
Q:有廠商表示訓練VLA需要數萬張卡,元戎啟行如何看待這種巨大的資源消耗?
周光:元戎在技術選型上一直較為精準,VLA是一個全新領域,方向選擇很多,如果有清晰的技術判斷,資源消耗完全可以更高效。事實上,輔助駕駛場景的GPT模型規(guī)模相對可控,比如7B模型并不需要極端龐大的算力。
Q:華為不走VLA路線,你怎么看?
周光若車端算力不足,確實可能選擇其他路徑。但真正要實現思維鏈仍需VLA方向。
Q:VLA能上車什么價位的車型?
周光:目前15萬元以上的車型都可以適配,10萬級車型通過優(yōu)化也有機會搭載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.