出品丨虎嗅汽車組
作者丨李賡
頭圖丨AI生成
如果不是年初官方按下智駕宣傳的“急停鍵”,近期“智駕”或許早已再次被炒上了天。
原因無他,只因中國(guó)最頭部的一批智駕勢(shì)力,幾乎都選擇了在近期落地自己最新的智駕能力:
理想汽車借i8上市,推送 “VLA 司機(jī)大模型”;
Momenta攜手智己,完成R6飛輪大模型上車;
元戎昨天(8月26日)發(fā)布了自己的VLA大模型;
小鵬今天(8月27日)的新P7發(fā)布會(huì)上發(fā)布自己全新的VLA大模型;
華為透露9月即將推送的ADS 4。
如此整齊劃一的步調(diào),不禁讓人想起上一次“端到端”模型引領(lǐng)的行業(yè)浪潮。但這一次,變革的深度與廣度,已有過之而無不及。這輪競(jìng)賽為何集中爆發(fā)?各家命名不同的模型背后,隱藏著怎樣的技術(shù)分野?新一代智駕,究竟“聰明”在了哪里?
本期《智駕雷達(dá)》VOL.5,我們就來提前“縱覽”一下智駕圈即將發(fā)生的這一輪競(jìng)賽,并嘗試為你先講清楚其中的脈絡(luò)。
新一輪智駕競(jìng)賽,時(shí)候到了
首先是第一個(gè)問題:為什么行業(yè)內(nèi)的動(dòng)作如此集中?虎嗅汽車綜合多家智駕勢(shì)力的信息,總結(jié)出了四大關(guān)鍵驅(qū)動(dòng)力:
監(jiān)管加強(qiáng)和輿情時(shí)間拖后了部分公司的既定節(jié)奏;
各家公司智駕技術(shù)和產(chǎn)品,最底層是AI最底層的創(chuàng)新突破,時(shí)間起點(diǎn)相近;
將AI底層技術(shù)套用到智駕上,需要相當(dāng)多的訓(xùn)練和調(diào)整投入,需要的時(shí)間周期相對(duì)固定;
各家公司都看到了這一輪智駕能力提升的潛力,對(duì)其他家優(yōu)先發(fā)布技術(shù)和產(chǎn)品擔(dān)心,基本都選擇了先發(fā)布“基礎(chǔ)版”再優(yōu)化的思路。
其中最重要的必然是第4點(diǎn)。元戎啟行CEO周光在昨天的發(fā)布會(huì)上就專門表示:VLA模型(當(dāng)前版本)的下限已超過端到端(可以簡(jiǎn)單理解為2024年中的大模型技術(shù)水平)的上限,未來會(huì)越來越好。
注:E2E 1.0模型可以看到中間的模型部分存在“分塊”,對(duì)應(yīng)E2E 2.0的VLA模型則為一體
周光也在現(xiàn)場(chǎng)通過PPT解釋出了這個(gè)趨勢(shì)的底層原因:相比第一代“端到端”,VLA大模型實(shí)際上去掉了規(guī)控時(shí)代留下的“環(huán)節(jié)”(不再在大模型中劃分感知、定位導(dǎo)航、預(yù)測(cè)、規(guī)劃等環(huán)節(jié)),不再是單個(gè)環(huán)節(jié)內(nèi)一個(gè)CNN模型,最后再將多個(gè)模型拉通形成一個(gè)“大模型”。而是從傳感器到控制端只有一個(gè)完整的模型。
其次是模型本身從CNN(早期AI圍棋、人臉識(shí)別等應(yīng)用的底層技術(shù))為底層核心升級(jí)為Transformer(就是GPT等大語言模型崛起的核心底層技術(shù))為核心,大幅提升了智駕大模型對(duì)人類大腦的模仿學(xué)習(xí)能力。
相比智駕行業(yè)上一輪普及的VLM大模型,VLA大模型在架構(gòu)和能力上更貼近智駕能力的需求
這種技術(shù)深層次的改變,讓VLA具備了思維鏈(CoT)能力,模型本身不再是一個(gè)從感知輸入(視覺)到控制輸出(行為)的 “黑箱”,而是通過引入語言作為媒介,模仿人類駕駛員的思考模式,將復(fù)雜的駕駛決策分解為一系列連貫、有邏輯的中間推理步驟。
同是端到端模型,VLA也獲得了能力上的大幅提升:
增強(qiáng)決策的邏輯性和可靠性:面對(duì)復(fù)雜或罕見的(長(zhǎng)尾)路況,具備Cot能力的VLA模型能夠一步步分析:“識(shí)別校車,需減速慢行”>“檢測(cè)到路邊兒童,存在突然橫穿馬路的風(fēng)險(xiǎn)”>“綜合判斷。這種分步推理遠(yuǎn)比單一的、直覺式的端到端輸出更為可靠和安全;
提升系統(tǒng)的可解釋性和透明度:Cot將模型的決策依據(jù)以人類可以理解的語言形式展現(xiàn)出來。極大地幫助了研發(fā)人員進(jìn)行模型的調(diào)試和優(yōu)化,也為事故追溯、責(zé)任界定提供了清晰的依據(jù),從而增強(qiáng)了用戶和監(jiān)管機(jī)構(gòu)對(duì)自動(dòng)駕駛系統(tǒng)的信任;
提升模型的泛化能力和處理復(fù)雜場(chǎng)景的能力:通過在海量數(shù)據(jù)中學(xué)習(xí)推理邏輯,Cot使得VLA模型能夠舉一反三,將學(xué)到的駕駛知識(shí)和常識(shí)應(yīng)用到從未見過的新場(chǎng)景中。它不再是單純地記憶駕駛行為,而是學(xué)會(huì)了“如何思考”,讓應(yīng)對(duì)現(xiàn)實(shí)世界中層出不窮的復(fù)雜交通狀況成為了可能。
除了VLA路線,目前華為和蔚來主推的是另一條路線:世界模型。后者雖然更強(qiáng)調(diào)“海量使用云端模擬的數(shù)據(jù)、來讓大模型‘理解’世界而學(xué)會(huì)駕駛”,但其最底層的世界模型仍需要Transformer技術(shù)驅(qū)動(dòng)。華為此前在和和浙大、港科大的相關(guān)科研成果中,多次提到這一點(diǎn)。
新一代模型,讓AI“學(xué)會(huì)害怕”?
理論上的強(qiáng)大,最終要靠體驗(yàn)說話。在對(duì)元戎啟行VLA模型的實(shí)際測(cè)試中,最令人印象深刻的,是其“防御性駕駛”能力的提升。
周光用了一個(gè)非常人性化的詞來形容這種能力——“讓AI學(xué)會(huì)害怕”。這種“害怕”并非遲疑,而是一種高級(jí)的智能表現(xiàn):像人類駕駛員一樣,對(duì)潛在風(fēng)險(xiǎn)保持先驗(yàn)性的警覺。
右下角為VLA模型的CoT運(yùn)行界面,包含對(duì)環(huán)境的文字定義、推理和決策(下同)
在深圳常見的立交橋下輔道,人車混行,視野狹窄,VLA模型會(huì)持續(xù)進(jìn)行自我推理,主動(dòng)將車速降至絕對(duì)安全的范圍。
在被花壇遮擋視線的路口,當(dāng)感知到對(duì)向車道有電瓶車高速駛來,它的駕駛決策會(huì)立刻從“控速”升級(jí)為“主動(dòng)降速”,預(yù)留出足夠的反應(yīng)空間。
在丁字路口的匯入場(chǎng)景,VLA也能在沒有駛?cè)肼房谥埃崆胺治鲎R(shí)別,降低車速再進(jìn)行匯入車流的動(dòng)作,避免因?yàn)檐囁龠^快導(dǎo)致車輛被迫拐入其他車道。
在老城區(qū)復(fù)雜的十字路口,它能綜合天氣、路邊違停、行人動(dòng)態(tài)等信息,推理出潛在風(fēng)險(xiǎn),以一種近乎“敬畏”的姿態(tài),緩慢而安全地通過。
總而言之,新模型的體驗(yàn)提升并非體現(xiàn)在某個(gè)單一功能上,而是一種綜合性的飛躍——更順滑的控車、更果斷的反應(yīng)和貫穿全程的“安全感”。盡管在極端場(chǎng)景(全程共兩次,一次是在盲區(qū)狀況下低速變道遇到了施工路段,另一次是路口臨停車多導(dǎo)致轉(zhuǎn)向過晚)下仍需人類接管,但那種駕駛時(shí)“心里有底”的信任感,是此前任何系統(tǒng)都難以給予的。
值得一提的是,因?yàn)槲淖种噶畹年P(guān)系,這套智駕系統(tǒng)已經(jīng)可以用語音進(jìn)行基礎(chǔ)性的操作,例如“請(qǐng)開快、開慢一點(diǎn)”等指令能夠被系統(tǒng)接收,并以決策的形式給到操縱端。VLA也已經(jīng)可以直接讀取交通標(biāo)識(shí)上的文字說明,并且按照指示優(yōu)化駕駛(例如有些路口左轉(zhuǎn)紅燈可以進(jìn)待行區(qū))。
接下來的智駕競(jìng)賽,將會(huì)如何展開?
在昨天的發(fā)布會(huì)交流環(huán)節(jié)上,周光自己表示:VLA目前還沒有完全實(shí)現(xiàn)思維鏈(CoT),目前這一技術(shù)路線的得分也只是到6而已(滿分10分),還有大量的優(yōu)化要做。
接下來的主要任務(wù)主要是兩項(xiàng),一是持續(xù)收集和豐富自有測(cè)試車隊(duì)、量產(chǎn)車數(shù)據(jù),以及生成數(shù)據(jù);另一個(gè)是看清技術(shù)趨勢(shì),持續(xù)完善VLA的后訓(xùn)練,不斷優(yōu)化大模型的表現(xiàn)。
對(duì)于行業(yè)接下來的發(fā)展,周光也提了一些觀點(diǎn),其中最重要的三點(diǎn)是:
VLA的成本差異主要在芯片,具體的成本差異不確定,但目前來看15萬元以上的車型都可以適配,10萬元級(jí)別的車型通過優(yōu)化也有機(jī)會(huì)搭載;
早期的智駕芯片主要針對(duì)CNN設(shè)計(jì)優(yōu)化,VLA模型應(yīng)用之后,芯片一定會(huì)加強(qiáng)對(duì)Transformer的支持,尤其是在FP4、FP6等精度的算力優(yōu)化上;
如果車企或供應(yīng)商想自研輔助駕駛系統(tǒng),也很難跳過從規(guī)則算法、端到端1.0到VLA模型的過程,每個(gè)發(fā)展過程有自己的Know-How。頂多可以壓縮某些階段的時(shí)間,但不可能完全繞過。
如何讓AI真正地“理解”并“敬畏”真實(shí)世界,從“會(huì)開車”到“會(huì)思考”,智駕技術(shù)和產(chǎn)品正悄然邁入一個(gè)新的實(shí)戰(zhàn)時(shí)刻。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4742364.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.