隨著自動(dòng)駕駛技術(shù)不斷發(fā)展,智駕輔助系統(tǒng)正在從高端車(chē)型普及到更多消費(fèi)者可及的主流市場(chǎng)。從城市NOA到高速自動(dòng)變道,背后的技術(shù)路線卻并不統(tǒng)一。當(dāng)前智駕圈內(nèi)部也存在分歧,不同的工程師、不同的公司,選擇了截然不同的造車(chē)思維。比如主流的端到端模型和VLA路線到底有什么不同?還有哪些技術(shù)路線?下面我們來(lái)詳細(xì)科普。
什么是“端到端”模型?
端到端,在英文中的表述是End-to-End,這是一種簡(jiǎn)單又復(fù)雜的技術(shù)路線,它試圖用一個(gè)超大模型接管整套自動(dòng)駕駛決策流程:從攝像頭、雷達(dá)獲取的數(shù)據(jù),直接輸入給模型,由模型輸出控制信號(hào),比如打方向盤(pán)、踩剎車(chē)這類(lèi)動(dòng)作。
端到端不再像傳統(tǒng)架構(gòu)那樣分成感知、預(yù)測(cè)、規(guī)劃、控制四大模塊,而是希望一步到位學(xué)會(huì)駕駛行為。得到車(chē)企青睞的原因是架構(gòu)很簡(jiǎn)單,越少的模塊意味著出錯(cuò)的地方也更少;模型可以從真實(shí)人類(lèi)駕駛數(shù)據(jù)中自我學(xué)習(xí),理論上學(xué)得越久越聰明,模仿人類(lèi)駕駛的邏輯,而不是像傳統(tǒng)那樣一板一眼。
但另一方面,也存在問(wèn)題,模型采用黑箱決策,難追溯原因,比如為何突然剎車(chē),一旦出問(wèn)題,很難知道是哪一步出錯(cuò)。其次訓(xùn)練成本高,需要成千上萬(wàn)小時(shí)的駕駛數(shù)據(jù),還有昂貴的算力。當(dāng)然,工程落地也難。簡(jiǎn)單來(lái)說(shuō),端到端就像讓AI從頭學(xué)會(huì)開(kāi)車(chē),但學(xué)得又慢又貴,還容易犯錯(cuò),是未來(lái)派的路線,比如特斯拉的FSD V12就是端到端,國(guó)內(nèi)有華為的ADS3.0。
VLA路線,更穩(wěn)的中間派
VLA,Vision-Language-Action,直譯就是視覺(jué)語(yǔ)言動(dòng)作,是一種介于傳統(tǒng)模塊化和端到端之間的技術(shù)架構(gòu)。它不直接控制車(chē)輛,而是先把路況轉(zhuǎn)化為“語(yǔ)義信息”,比如把感知硬件看到的車(chē)道、障礙物、紅綠燈等信息做成語(yǔ)義標(biāo)注,包括文本描述+視覺(jué)關(guān)聯(lián),動(dòng)作生成器綜合視覺(jué)+語(yǔ)義信息輸出決策。
簡(jiǎn)單來(lái)說(shuō),它不像端到端那樣盲目,而是先理解場(chǎng)景,再?zèng)Q定行動(dòng)。優(yōu)點(diǎn)在于更容易理解和調(diào)試,一旦出錯(cuò)可以發(fā)現(xiàn)錯(cuò)誤在哪里。同時(shí)可以和現(xiàn)有的感知系統(tǒng)搭配,不需要徹底推倒重建,安全性更好,容易通過(guò)工程驗(yàn)證。
缺點(diǎn)則是仍然比傳統(tǒng)架構(gòu)復(fù)雜,尤其語(yǔ)義信息的設(shè)計(jì),算力和數(shù)據(jù)成本仍高,也有人認(rèn)為,VLA模型是端到端的2.0版本。VLA就像是先看清楚再開(kāi)車(chē),比起端到端更靠譜一點(diǎn),適合現(xiàn)在這個(gè)想開(kāi)快車(chē)但不敢全交給AI的階段。小鵬和理想等品牌采用VLA方案。
VLA還有一些缺點(diǎn),比如需同時(shí)處理視覺(jué)、語(yǔ)言和動(dòng)作的多模態(tài)數(shù)據(jù),對(duì)車(chē)端芯片算力要求高?,F(xiàn)有主流芯片難以高效運(yùn)行,需依賴下一代芯片,如Thor 的1000 TOPS,為滿足算力,部分車(chē)企采用多芯片方案,導(dǎo)致算力浪費(fèi)和整車(chē)成本上升,成本轉(zhuǎn)嫁到消費(fèi)者身上。
模塊化路線,老派穩(wěn)妥之選
除了這兩種主流的方案,還有更傳統(tǒng)的模塊化架構(gòu),這是自動(dòng)駕駛早期常見(jiàn)的做法,把整個(gè)流程拆分成幾個(gè)明確的部分,包括感知、越策、規(guī)劃和控制四步,先識(shí)別物體、再預(yù)測(cè)行為、規(guī)劃路線,最后再控制車(chē)輛。
這種架構(gòu)在L2級(jí)別的輔助駕駛中被廣泛使用,比如ACC自適應(yīng)巡航、LKA車(chē)道保持等。優(yōu)點(diǎn)是結(jié)構(gòu)清晰、可控,每個(gè)模塊都能單獨(dú)優(yōu)化,此外,歷經(jīng)多年發(fā)展,工具鏈、數(shù)據(jù)體系都很完整。
缺點(diǎn)則是模塊之間協(xié)作不夠聰明,有點(diǎn)像流水線作業(yè),這意味著缺乏變變通能力,場(chǎng)景適應(yīng)性差,復(fù)雜的城市工況會(huì)讓系統(tǒng)懵圈,當(dāng)然用戶體驗(yàn)往往比較僵硬,和真人駕駛有明顯區(qū)別。換句話說(shuō),模塊化的思路是“別出錯(cuò)就行”,不靈活,但靠得住,目前被廣泛采用。
除了上述三種主流路線,行業(yè)里還有一些新奇但潛力巨大的思路,比如BEV+Transformer,把車(chē)周?chē)畔⑥D(zhuǎn)成鳥(niǎo)瞰圖BEV,然后用Transformer模型去理解和預(yù)測(cè)。另一個(gè)方案是圖神經(jīng)網(wǎng)絡(luò)GNN,把路況建模成一個(gè)動(dòng)態(tài)圖,每個(gè)車(chē)輛、行人都是圖中的節(jié)點(diǎn),這種方法在城市擁堵路段表現(xiàn)更好。此外,還有智能體對(duì)智能體概念,每輛車(chē)都像一個(gè)思考的機(jī)器人,和其他車(chē)輛一起談判怎么走。
選車(chē)偵探觀點(diǎn):總體來(lái)說(shuō),端到端未來(lái)感強(qiáng),但落地慢、風(fēng)險(xiǎn)高。VLA更快見(jiàn)效,技術(shù)先進(jìn),但不激進(jìn),同時(shí)缺點(diǎn)是成本高。更主流的模塊化更穩(wěn)定、量產(chǎn)無(wú)憂,但可能錯(cuò)過(guò)變革。也有車(chē)企結(jié)合了端到端模型+VLM視覺(jué)語(yǔ)言模型,提升復(fù)雜交通中的判斷能力。在智駕領(lǐng)域,不同公司根據(jù)自己資金實(shí)力、人才結(jié)構(gòu)、市場(chǎng)目標(biāo)選擇不同策略。大家覺(jué)得哪一種才是更適合智駕的方案?歡迎討論。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.