夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視覺、語言、動(dòng)作模型(VLA)產(chǎn)業(yè):通往L3智能駕駛與具身智能之鑰

0
分享至

來源:市場(chǎng)資訊

(來源:未來智庫(kù))

(報(bào)告出品方/作者:國(guó)泰海通證券,朱峰、鮑雁辛、汪玥)

1. 智能駕駛向高階 L3 邁進(jìn),進(jìn)一步貼合消費(fèi)者需求

1.1. L2 級(jí)智能駕駛滲透過半,智駕全面進(jìn)入城區(qū) NOA 時(shí)代

智能駕駛正迎來加速增長(zhǎng)期,L2 級(jí)智能駕駛滲透率已達(dá) 50%。前瞻產(chǎn)業(yè)研究院 數(shù)據(jù)顯示,2024 年我國(guó)智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)規(guī)模達(dá) 11082 億元,同比增長(zhǎng) 34%,并 預(yù)計(jì)到 2030 年市場(chǎng)規(guī)模有望實(shí)破5 萬億;截至 2024H1,新源汽車市場(chǎng) L2 級(jí)智 能駕駛滲透率已從 2019 年的 7.3%迅速上升至 50%。智能駕駛功能亦不斷豐富, 據(jù)汽車之家調(diào)研顯示,360 全景影像、主動(dòng)安全系統(tǒng)、ACC 自適應(yīng)巡航系統(tǒng)、車 道保持輔助系統(tǒng)等 L2級(jí)基礎(chǔ)配置功能滲透率均已達(dá) 40%以上。


高速 NOA 功能逐漸成熟,城區(qū) NOA 時(shí)代正加速來臨。2024 年中國(guó)高速 NOA 已 成為中高端智能電動(dòng)汽車標(biāo)配,大部分主機(jī)廠開始布局城市 NOA。根據(jù)億歐智庫(kù)數(shù)據(jù),截至 2024 年中國(guó)已有超過 57 款車型實(shí)現(xiàn)高速 NOA 功能的量產(chǎn)。高速 NOA 的成熟落地也反映在消費(fèi)者智駕使用場(chǎng)景上,根據(jù)汽車之家調(diào)研顯示,在路況較 好或較為封閉的高速/國(guó)道/環(huán)路路段,有 56%的用戶顯示會(huì)高頻使用智駕功能,駕 駛者使用智駕的頻率較高。隨著汽車產(chǎn)業(yè)智能化的發(fā)展,高速 NOA 功能逐漸成 為大部分車型的標(biāo)配,并且中國(guó)大部分主機(jī)廠已經(jīng)布局城區(qū) NOA 功能。根據(jù)佐 思汽研數(shù)據(jù)顯示,自 2023 年起城市 NOA 預(yù)埋裝配率穩(wěn)步提高,自 2023 年 2.6% 預(yù)埋裝配率已增長(zhǎng)至 2024 年 9 月的 8.3%,城市 NOA 硬件基礎(chǔ)亦在同步滲透。截 至 2024 年底,小鵬、理想、華為、小米、蔚來等車企已推出“全國(guó)都能開”的智 駕系統(tǒng),智己、昊鉑、阿維塔、魏牌藍(lán)山等搭載第三方方案的車型也已實(shí)現(xiàn)“全 國(guó)都能開”。

2024 年高速 NOA 車型價(jià)格已大規(guī)模滲透至 15 萬以下,城區(qū) NOA 也呈現(xiàn)下探趨 勢(shì)。由于高速 NOA 的復(fù)雜度較低,目前已經(jīng)逐漸由技術(shù)驅(qū)動(dòng)向成本驅(qū)動(dòng)發(fā)展。2024 年隨著大疆純視覺方案在寶駿云朵車型上的量產(chǎn),搭載高速 NOA 功能的車 型價(jià)格已下探至 15 萬以下。2024年城市 NOA 也開始出現(xiàn)在 15-20 萬車型,2024 年 8 月廣汽埃安霸王龍激光雷達(dá)版、小鵬汽車 MONA M03 兩款車型已實(shí)現(xiàn) 15-20 萬價(jià)格段城市 NOA 規(guī)模化量產(chǎn)上車,同年 10 月該價(jià)格區(qū)間搭載城市 NOA 功能 的車型從 2 款增加到了 5 款,包含深藍(lán) L07、小鵬 P7+、埃安 RT。


2025 年有望成為 L3 落地元年。根據(jù)美國(guó)國(guó)際汽車工程學(xué)會(huì)的標(biāo)準(zhǔn),L3 級(jí)智能駕 駛被定義為“有條件自動(dòng)駕駛”,是車輛運(yùn)行控制權(quán)由人類駕駛員向自動(dòng)駕駛系統(tǒng) 轉(zhuǎn)移的過渡階段,可在特定交通場(chǎng)景下實(shí)現(xiàn)自動(dòng)駕駛,但仍要求駕駛員時(shí)刻保持 警惕并在需要的時(shí)候?qū)囕v進(jìn)行及時(shí)接管。2024 年 6 月工信部等四部門確定九家 車企進(jìn)入首批 L3 智能駕駛上路通行試點(diǎn)名單,并共有十家車企獲得了 L3 級(jí)智能 駕駛測(cè)試牌照,包括智己、奔馳、寶馬、比亞迪、深藍(lán)、阿維塔、極狐、問界、 極越和廣汽埃安。在 2024 年智能駕駛技術(shù)不斷突破以及城區(qū) NOA 功能滲透落地 的趨勢(shì)下,2025 年有望成為 L3 落地元年。2025 年 4 月 2 日,國(guó)家發(fā)改委、工信 部等四部門聯(lián)合發(fā)布《首批車網(wǎng)互動(dòng)規(guī)?;瘧?yīng)用試點(diǎn)通知》,正式開放 L3 級(jí)智能 駕駛車輛準(zhǔn)入,并選定上海、北京、深圳等 9 個(gè)城市作為首批試點(diǎn)。政策發(fā)布一 方面體現(xiàn)了對(duì)車企技術(shù)成熟的認(rèn)可,另一方面也預(yù)示著 L3 商業(yè)化的鋪開。

1.2. 消費(fèi)者對(duì)智能駕駛大多持積極態(tài)度,但仍有需求尚待滿足

智能化已經(jīng)成為消費(fèi)者購(gòu)買汽車的重要因素。根據(jù)汽車之家用戶調(diào)研數(shù)據(jù),2024 年已有超過 50%的新能源汽車用戶在購(gòu)車時(shí)關(guān)注智能化水平,在所有的購(gòu)車因素 中排名第四。從人群代際上看,90 后用戶對(duì)新能源汽車智能化的關(guān)注度更高,而 這一部分群體也正成為汽車購(gòu)買的主要客戶群體;購(gòu)車價(jià)位上看,20 萬以上中高 端區(qū)間各價(jià)格段均有 55%以上的用戶關(guān)注智能化。且 66%的用戶已不滿足于基礎(chǔ) L2 級(jí)輔助駕駛,希望配備 L2+(高速輔助)和 L2++(城市 NOA)的高階輔助駕 駛能力。

現(xiàn)有輔助駕駛功能中,消費(fèi)者偏好于 ACC 全速自適應(yīng)巡航以及高速路段智能駕 駛輔助。根據(jù)汽車之家 2024 年用戶調(diào)研數(shù)據(jù)顯示,在輔助駕駛類配置中,有 52% 的用戶偏好具有 ACC 全速自適應(yīng)巡航的車輛,幫助駕駛員控制車輛以設(shè)定的目 標(biāo)車速行駛或跟隨前車行駛,實(shí)現(xiàn)跟隨前車啟動(dòng)、停車和加速的功能,減輕駕駛 員的疲勞并提高駕駛舒適性。在智能駕駛配置偏好中,65%的用戶關(guān)注高速路段 智能駕駛輔助,而對(duì)于自動(dòng)泊車、城市路段智能駕駛輔助等功能偏好較低,說明 當(dāng)前消費(fèi)者對(duì)智能駕駛的訴求還停留在較為安全、單一的高速場(chǎng)景中,對(duì)復(fù)雜場(chǎng) 景下智能汽車的表現(xiàn)信任度較差。

大多數(shù)消費(fèi)者對(duì)當(dāng)前智能駕駛體驗(yàn)持正面態(tài)度,但也有部分消費(fèi)者認(rèn)為智能駕駛 存在夸大宣傳的成分。根據(jù)百分點(diǎn)輿情洞察系統(tǒng)的調(diào)研數(shù)據(jù),有 71%的用戶對(duì)全 場(chǎng)景智能駕駛持積極態(tài)度,對(duì)其科技感和智能化水平表示認(rèn)可,認(rèn)為智能駕駛功 能展現(xiàn)了車企品牌的技術(shù)實(shí)力,并期待技術(shù)迭代帶來的新體驗(yàn)。但也有 15%的用 戶保持中立,14%的用戶對(duì)智能駕駛持負(fù)面態(tài)度。其中主要是對(duì)技術(shù)成熟度的擔(dān) 憂,認(rèn)為車企對(duì)智能駕駛普遍存在夸大宣傳,在復(fù)雜路況中無法做到準(zhǔn)確判斷, 其穩(wěn)定性和可靠性較差。當(dāng)前智能駕駛技術(shù)不成熟帶來的安全性問題會(huì)降低用戶 信任程度。

2. 智能駕駛技術(shù)不斷演進(jìn),VLA 成為實(shí)現(xiàn)全局端到端的重要 突破

2.1. 智駕技術(shù)經(jīng)歷“模塊化端到端”向“全局端到端”的進(jìn)化演變

2.1.1. “端到端”直接由感知數(shù)據(jù)輸出控制指令,無需傳統(tǒng)分模塊處理

智能駕駛技術(shù)的核心架構(gòu)由感知、決策規(guī)劃、控制三個(gè)主要模塊構(gòu)成,形成從環(huán) 境感知到車輛控制的完整閉環(huán)?!案兄K”用于環(huán)境信息采集與目標(biāo)檢測(cè),利用 多個(gè)傳感器(如激光雷達(dá)、攝像頭)收集原始傳感器數(shù)據(jù),以這些原始傳感器數(shù) 據(jù)為輸入,識(shí)別和定位感興趣的物體,包括物體檢測(cè)、跟蹤、三維地圖生成和映 射等。“決策規(guī)劃模塊”基于感知結(jié)果對(duì)車周物體進(jìn)行行為預(yù)測(cè),評(píng)估障礙物下一 時(shí)刻可能的動(dòng)作,輸出物體運(yùn)動(dòng)軌跡的預(yù)測(cè),并進(jìn)行車輛行動(dòng)策略制定,相當(dāng)于 “大腦的推理層”?!翱刂颇K”將規(guī)劃結(jié)果轉(zhuǎn)化為車輛執(zhí)行指令,驅(qū)動(dòng)轉(zhuǎn)向、制 動(dòng)、懸架等系統(tǒng),確保精準(zhǔn)操控。

端到端(End-to-End)指通過單一神經(jīng)網(wǎng)絡(luò)模型,直接由傳感器原始數(shù)據(jù)輸出車 輛控制指令,無需傳統(tǒng)分模塊處理。端到端并不專屬于智能駕駛領(lǐng)域,這種技術(shù) 范式指的是從輸入端到輸出端,中間不經(jīng)過任何其他處理環(huán)節(jié),由一個(gè)模型完整 實(shí)現(xiàn)輸入到輸出的全過程。相比于傳統(tǒng)分模塊智駕方案,端到端架構(gòu)具有以下優(yōu) 勢(shì):(1)通過單一神經(jīng)網(wǎng)絡(luò)直接處理原始數(shù)據(jù),避免了傳統(tǒng)分階段模型中模塊間 人為設(shè)計(jì)接口導(dǎo)致的信息損耗與延遲,能夠提高計(jì)算效率;(2)利用深度神經(jīng)網(wǎng) 絡(luò)從大量駕駛數(shù)據(jù)中自動(dòng)學(xué)習(xí)復(fù)雜的駕駛模式和場(chǎng)景特征,在面對(duì)未知場(chǎng)景時(shí)表 現(xiàn)出更強(qiáng)的泛化性和適應(yīng)性;(3)端到端模型依賴數(shù)據(jù)而非人工規(guī)則,因此可通 過持續(xù)注入新數(shù)據(jù)實(shí)現(xiàn)性能迭代,提高智駕性能天花板。

當(dāng)前端到端可分為兩類:“模塊化端到端”與“一段式端到端”。模塊化端到端可 看作實(shí)現(xiàn)最終端到端技術(shù)的過渡方案,其保留了部分模塊化結(jié)構(gòu),模塊之間仍有 人工設(shè)計(jì)的數(shù)據(jù)接口等方式,但使用神經(jīng)網(wǎng)絡(luò)進(jìn)行串聯(lián)訓(xùn)練。一段式端到端僅包 含一個(gè)深度神經(jīng)網(wǎng)絡(luò),直接處理原始傳感器輸入信息,輸出方向盤、油門、剎車 等執(zhí)行器的控制信號(hào),無感知、決策、控制的模塊劃分,是真正端到端的技術(shù)范 式。


2.1.2. 模塊化端到端可拆分為“感知層端到端”和“決策層端到端”

感知層端到端經(jīng)歷了從“BEV+Transformer”到“BEV+Transformer+OCC 占用 網(wǎng)絡(luò)”的技術(shù)升級(jí): 由于不同傳感器數(shù)據(jù)的異構(gòu)性,多傳感器融合是感知層需要解決的重要問題,通 常多采用“后融合”和“前融合”兩種方式。

“后融合”也稱為目標(biāo)級(jí)融合,不同傳感器獲得的數(shù)據(jù)首先通過各自不同算 法獨(dú)立處理,得到各自關(guān)于目標(biāo)的數(shù)據(jù),再將這些數(shù)據(jù)在決策模塊前由主處 理器進(jìn)行融合。后融合中各傳感器經(jīng)過目標(biāo)識(shí)別再進(jìn)行融合時(shí),中間會(huì)損失 很多有效信息,將影響感知精度,并且后融合通常基于預(yù)設(shè)規(guī)則加權(quán)各傳感 器輸出,但人為定義的輸出特征并不能代表傳感器捕捉和提取到的全部特征。

“前融合”也稱為數(shù)據(jù)級(jí)融合,是指在原始數(shù)據(jù)層直接融合多傳感器信息, 統(tǒng)一成一整組數(shù)據(jù)后再進(jìn)行目標(biāo)感知。前融合可以保留原始數(shù)據(jù)或底層特征 間的時(shí)空關(guān)聯(lián)性,減少信息損失,但需處理原始數(shù)據(jù)的多模態(tài)異構(gòu)性,涉及 大量矩陣運(yùn)算和神經(jīng)網(wǎng)絡(luò)推理,對(duì)算力要求更高。

“BEV+Transformer”采用特征級(jí)融合,實(shí)現(xiàn)感知測(cè)傳感器數(shù)據(jù)端到端。特征級(jí) 融合介于前融合和后融合之間,它對(duì)各傳感器數(shù)據(jù)提取代表性特征后再進(jìn)行融合, 經(jīng)過特征級(jí)融合的特征空間數(shù)據(jù)量相比于原來的圖像數(shù)據(jù)大為減少,因而特征級(jí) 融合需要算力較前融合更少。該處理方法極大地提高了數(shù)據(jù)處理和傳輸效率,有 助于數(shù)據(jù)自動(dòng)實(shí)時(shí)處理。2021 年特斯拉首次引入 BEV(鳥瞰圖),并首次將 Transformer 引入智能駕駛的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)特征級(jí)融合,此后迅速被車企大 規(guī)模應(yīng)用。 “BEV+Transformer”架構(gòu)通過神經(jīng)網(wǎng)絡(luò)將多傳感器數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的 3D 俯視 空間表示。主要流程為: (1)傳感器數(shù)據(jù)特征輸入:傳感器提供原始數(shù)據(jù),由圖像編碼器提取數(shù)據(jù)特征; (2)合并為 BEV 空間,實(shí)現(xiàn)特征級(jí)融合:接收到特征數(shù)據(jù)后,Transformer 可以 通過計(jì)算特征與其他特征之間的關(guān)系,利用注意力機(jī)制在圖像上捕捉全局信息并 分析不同位置特征之間的關(guān)系,幫助系統(tǒng)建立物體之間的空間關(guān)系,從而將多傳 感器特征映射到統(tǒng)一的 BEV 空間,形成全局一致的感知表示; (3)引入時(shí)序信息進(jìn)行預(yù)測(cè):Transformer 可以融合處理時(shí)間數(shù)據(jù)并加入記憶模 塊,利用歷史幀信息預(yù)測(cè)被遮擋物體的運(yùn)動(dòng)軌跡,并捕捉交通參與者的運(yùn)動(dòng)模式 和相互影響,對(duì)其動(dòng)態(tài)進(jìn)行預(yù)測(cè)。 BEV+Transformer 重新定義感知模塊,識(shí)別、預(yù)測(cè)都在同一 BEV 空間內(nèi)基于 Transformer 神經(jīng)網(wǎng)絡(luò)完成,實(shí)現(xiàn)感知層所有傳感器數(shù)據(jù)的端到端融合,能夠?qū)?現(xiàn)更準(zhǔn)確的環(huán)境感知、更長(zhǎng)遠(yuǎn)的運(yùn)動(dòng)規(guī)劃,提供更為全局化的決策能力。

BEV+Transformer 架構(gòu)仍具有 3D 信息缺失、泛化能力受限的問題。鳥瞰圖基于 2D 信息合成,缺少高度信息,無法真實(shí)反映出目標(biāo)物在 3D 空間的實(shí)際占用體積。 并且基于預(yù)訓(xùn)練的 BEV+Transformer 架構(gòu)如果看到不屬于數(shù)據(jù)集的物體,或者不 規(guī)則的長(zhǎng)尾數(shù)據(jù)時(shí),攝像頭無法識(shí)別特征,那系統(tǒng)就無法感知,使得該架構(gòu)在訓(xùn) 練數(shù)據(jù)分布外的極端情況下可能表現(xiàn)不穩(wěn)定,需依賴持續(xù)數(shù)據(jù)閉環(huán)迭代。 “BEV+Transformer+OCC 占用網(wǎng)絡(luò)”架構(gòu)將智駕帶入真正的 3D 感知,提高系 統(tǒng)感知的泛化能力?!罢加镁W(wǎng)絡(luò) OCC”將世界劃分為多個(gè)大小一致的立方體,每 個(gè)立方體也被稱為體素(voxel),通過預(yù)測(cè)每個(gè)體素是否被占用,實(shí)現(xiàn)細(xì)粒度的 3D 場(chǎng)景建模。此外,OCC 還利用光流法識(shí)別車周物體的動(dòng)態(tài)信息,假設(shè)構(gòu)成物體的 像素亮度恒定且時(shí)間連續(xù),通過對(duì)比連續(xù)兩幀圖像中的像素位置變化估計(jì)出物體 或場(chǎng)景的運(yùn)動(dòng)。OCC 具有如下優(yōu)勢(shì):(1)通過體素化網(wǎng)格預(yù)測(cè)占用概率,可精準(zhǔn) 描述不規(guī)則物體(如土堆、樹枝)的幾何形狀,提高識(shí)別精度;(2)OCC 不以是 否認(rèn)識(shí)物體或識(shí)別分類為目標(biāo),而是以空間是否被占用為檢測(cè)目標(biāo),因此可大幅 提 高 對(duì) 異 形 障 礙 物 的 通 用 化 識(shí) 別 , 降 低 對(duì) 標(biāo) 注 數(shù) 據(jù) 的 依 賴 。 BEV+Transformer+OCC 占用網(wǎng)絡(luò)在原有 BEV+Transformer 架構(gòu)的基礎(chǔ)上增加了 去卷積層(Deconvolution),從較低維度的特征中恢復(fù)更高分辨率的空間信息,進(jìn) 而解碼出 3D 體素占用網(wǎng)絡(luò)。將 OCC 應(yīng)用于 BEV+Transformer 架構(gòu),實(shí)現(xiàn)了感知 層面真正的全場(chǎng)景 3D 建模以及動(dòng)態(tài)預(yù)測(cè)。

決策層端到端經(jīng)歷從“規(guī)則驅(qū)動(dòng)”轉(zhuǎn)為“數(shù)據(jù)驅(qū)動(dòng)”的轉(zhuǎn)變: 智能駕駛決策系統(tǒng)初期由規(guī)則驅(qū)動(dòng),解釋性高但較為死板。規(guī)則驅(qū)動(dòng)的決策系統(tǒng) 是一種基于預(yù)定義規(guī)則和邏輯的決策方法,其核心思想是通過人為設(shè)計(jì)規(guī)則庫(kù)來 解析駕駛場(chǎng)景并生成相應(yīng)的駕駛行為。通過預(yù)先對(duì)特定路況或交通情境下的行為 規(guī)則進(jìn)行編碼,智能駕駛汽車能夠按照這些規(guī)則做出相應(yīng)的方向決策,常見的規(guī) 則包括車道保持、轉(zhuǎn)向控制、障礙物規(guī)避、停車標(biāo)志響應(yīng)等。例如,車輛遇到前 方障礙物時(shí),算法根據(jù)編碼規(guī)則決定是否減速或轉(zhuǎn)向繞過障礙物?;谝?guī)則的系統(tǒng)具有高度透明性和可解釋性,因?yàn)槠錄Q策過程完全基于規(guī)則,易于理解和追溯。 但也由于完全依賴固定的規(guī)則庫(kù),導(dǎo)致系統(tǒng)無法覆蓋所有場(chǎng)景,只能應(yīng)用于簡(jiǎn)單 的常見場(chǎng)景中,泛化能力較差。并且在動(dòng)態(tài)交通環(huán)境中,復(fù)雜場(chǎng)景需多條規(guī)則交 叉判斷,規(guī)則難以適應(yīng)復(fù)雜的突發(fā)情況,導(dǎo)致決策過程缺乏靈活性。 本輪大語言模型發(fā)展啟發(fā)了將大模型技術(shù)應(yīng)用于智能駕駛,實(shí)現(xiàn)決策模塊端到端。 2022 年 11 月 ChatGPT 以來,大語言模型的成功為智能駕駛帶來極大的啟發(fā)。特 斯拉首先將大語言模型新范式遷移至智能駕駛領(lǐng)域,認(rèn)為智能駕駛可以效仿這種 神經(jīng)網(wǎng)絡(luò)的模式,拋掉手寫的規(guī)則,讓模型大量觀看人類司機(jī)的駕駛視頻,要求 其輸出正確的行駛軌跡。在反復(fù)訓(xùn)練中,使得神經(jīng)網(wǎng)絡(luò)習(xí)得與人類相仿的駕駛知 識(shí),接收到感知層數(shù)據(jù)后能直接根據(jù)所學(xué)輸出駕駛決策。 目前訓(xùn)練端到端的決策模塊主要運(yùn)用“模仿學(xué)習(xí)”和“強(qiáng)化學(xué)習(xí)”兩種方法?!澳?仿學(xué)習(xí)”主要通過逆最優(yōu)控制(Inverse Optimal Control)和行為克?。˙ehavior Cloning)來實(shí)現(xiàn),其核心理念是讓智能體通過模仿專家的行為來學(xué)習(xí)最優(yōu)策略。 “強(qiáng)化學(xué)習(xí)”讓模型通過試錯(cuò)來學(xué)習(xí),借助獎(jiǎng)勵(lì)函數(shù)對(duì)正確行為予以獎(jiǎng)勵(lì)、對(duì)錯(cuò) 誤行為進(jìn)行懲罰,不斷優(yōu)化決策效果。

規(guī)則驅(qū)動(dòng)轉(zhuǎn)為數(shù)據(jù)驅(qū)動(dòng)帶來決策效率與靈活性極大提高。模型訓(xùn)練需要從海量駕 駛場(chǎng)景數(shù)據(jù)中學(xué)習(xí)如何識(shí)別環(huán)境特征、理解駕駛意圖,馬斯克曾表示至少需要訓(xùn) 練 100 萬個(gè)視頻片段,才基本能將一個(gè)智能駕駛端到端大模型訓(xùn)練到可用水平, 并且這 100 萬個(gè)視頻片段需要質(zhì)量高且種類多樣。根據(jù) Scaling Law,增加模型規(guī) 模和數(shù)據(jù)量能夠提升模型性能,在數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練模式下,智能駕駛決策更加人 性化,模型通過學(xué)習(xí)能力能夠?qū)ξ匆娺^的情況做出合理推斷,處理復(fù)雜場(chǎng)景的能 力提升。

2.1.3. “一段式端到端”由一個(gè)神經(jīng)網(wǎng)絡(luò)模型直接完成

特斯拉于2023 年 11 月推出 FSD V12,實(shí)現(xiàn)首次一段式端到端架構(gòu)上車。FSD V12 將傳統(tǒng)智能駕駛的感知、定位、決策規(guī)劃、控制等模塊整合為一個(gè)統(tǒng)一的神經(jīng)網(wǎng) 絡(luò)模型,直接由攝像頭輸入的原始圖像數(shù)據(jù)生成轉(zhuǎn)向、加速和制動(dòng)指令。相較此 前 FSD V11 的 30 萬行 C++代碼,V12 僅需約 2000 行代碼,減少了對(duì)人工規(guī)則編程的依賴。新的模型采用海量視頻數(shù)據(jù)進(jìn)行訓(xùn)練,模型通過模擬人類駕駛行為學(xué) 習(xí)駕駛策略、轉(zhuǎn)向完全依賴數(shù)據(jù)驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)決策。根據(jù) FSD community Tracker 的調(diào)研數(shù)據(jù),F(xiàn)SD V12 在智駕功能與駕駛效果上遠(yuǎn)超 V11,用戶在各個(gè)維度的反 響明顯提高。


由于端到端具有黑盒特征,“端到端+VLM”雙系統(tǒng)功能互補(bǔ)將提高整體可靠性。 端到端模型中,傳感器信號(hào)通過神經(jīng)網(wǎng)絡(luò)架構(gòu)直接生成車輛運(yùn)動(dòng)控制信號(hào),其中 神經(jīng)網(wǎng)絡(luò)權(quán)重調(diào)整、特征提取以及決策制定過程均通過數(shù)據(jù)驅(qū)動(dòng)的自主學(xué)習(xí)完成, 整個(gè)信息處理鏈中不存在顯式的邏輯規(guī)則或可分解的推理環(huán)節(jié)。因此當(dāng)遇到異常 情況或罕見場(chǎng)景時(shí),模型的決策可能會(huì)變得不可預(yù)測(cè),導(dǎo)致車輛做出危險(xiǎn)的行為。 例如將路邊的陰影或反光物體誤判為道路邊界,從而導(dǎo)致車輛偏離正常行駛軌跡。 針對(duì)端到端模型的黑箱特性,部分車企采用雙系統(tǒng)降低安全隱患。理想于 2024 年 7 月首次推出端到端+VLM 雙系統(tǒng),此后地平線、極氪、小米、元戎啟行也在各自 端到端系統(tǒng)中加入了 VLM。雙系統(tǒng)架構(gòu)中:

“系統(tǒng) 1”為端到端快系統(tǒng),依賴海量駕駛數(shù)據(jù)訓(xùn)練形成的直覺反應(yīng),處理 95%的常規(guī)場(chǎng)景,具備高效性和低延遲特性;

“系統(tǒng) 2”為 VLM(視覺語言模型)慢系統(tǒng),理想使用的是基于通義千問 70 億參數(shù)模型 Qwen-7B 為基座語言模型研發(fā)的 Qwen-VL 多模態(tài)模型,參數(shù)量 達(dá) 22 億,采用思維鏈(CoT)進(jìn)行多步邏輯分析,同時(shí)接收視頻和來自系統(tǒng) 1 的語言(理想為其編寫了智駕系統(tǒng)的 Prompt 庫(kù))輸入,輔助系統(tǒng) 1 處理 5% 的復(fù)雜場(chǎng)景(如突發(fā)障礙、未知路況),通過深度推理輸出對(duì)環(huán)境的理解、駕 駛的決策建議和駕駛的參考軌跡。

端到端+VLM 雙系統(tǒng)增加智能駕駛可信度,但兩系統(tǒng)融合仍有提升空間。VLM 模 型通過思維鏈拆解復(fù)雜情景下的推理流程,提供可交互的語義解析,增加智能駕 駛決策透明度。VLM 還能夠?qū)Χ说蕉四P偷妮敵鲞M(jìn)行邏輯驗(yàn)證與修正。VLM 可 想象為一個(gè)新手司機(jī)在開車,旁邊有個(gè)教練通過語言不斷指導(dǎo)他如何駕駛,如“左 轉(zhuǎn)”、“減速”等。除此之外,與數(shù)據(jù)驅(qū)動(dòng)的端到端模型不同,VLM 大語言模型的 理解能力使其能夠解析交通標(biāo)識(shí)、施工改道、交警手勢(shì)等需語義推理的場(chǎng)景,提 高了系統(tǒng)在智駕長(zhǎng)尾場(chǎng)景中的解決能力。但兩個(gè)系統(tǒng)方案仍不完美:一方面,VLM 模型參數(shù)達(dá) 22 億,在現(xiàn)有計(jì)算條件下最終 VLM 在車端能實(shí)現(xiàn)的頻率只有 5Hz 左 右,導(dǎo)致 VLM 的決策軌跡只能作為決策建議,無法直接輸出車輛控制信號(hào);另一 方面,端到端與 VLM 是兩個(gè)獨(dú)立的模型,使用的訓(xùn)練數(shù)據(jù)以及運(yùn)行頻率存在差 異,聯(lián)合訓(xùn)練還較為困難,難以直接融合,且 Orin 芯片并不支持直接運(yùn)行語言模 型,算力支持也成為一大問題。

2.2. 視覺-語言-行動(dòng)模型(VLA)是實(shí)現(xiàn)全局端到端的重要技術(shù)路線

2.2.1. 需求升級(jí)與技術(shù)成熟催化 VLA 在智駕領(lǐng)域的應(yīng)用

隨著智駕普及,用戶對(duì)智駕的需求從能用到好用,要求智駕向類人化轉(zhuǎn)變。根據(jù) 乘聯(lián)會(huì)的數(shù)據(jù),2024 年上半年中國(guó)新能源汽車市場(chǎng)各價(jià)格段 L2 級(jí)智能駕駛滲透 率均有大幅上漲。隨著 L2 智駕產(chǎn)品的快速普及,購(gòu)車用戶對(duì)高階智駕抱有更大期 待,根據(jù)汽車之家的對(duì)用戶智駕偏好度的調(diào)研數(shù)據(jù),66%的用戶已不滿足于基礎(chǔ) L2 級(jí)別輔助駕駛,希望配備 L2+(高速輔助)和 L2++(城市 NOA)的高階智駕 能力。在用戶體驗(yàn)上,雖然現(xiàn)有智駕已能覆蓋變道、轉(zhuǎn)彎、泊車、超車等多類常 見場(chǎng)景,但用戶對(duì)安全性方面也普遍存在擔(dān)憂。根據(jù)百分點(diǎn)輿情洞察系統(tǒng)的調(diào)研 數(shù)據(jù),在“車位到車位”全場(chǎng)景智能駕駛體驗(yàn)中,用戶反饋的問題主要集中在泊 車效果與效率、變道邏輯、避障能力、轉(zhuǎn)彎與并道表現(xiàn)、車速控制以及系統(tǒng)穩(wěn)定 性等方面。用戶希望提升系統(tǒng)對(duì)復(fù)雜場(chǎng)景的識(shí)別和處理能力,提高駕駛體驗(yàn)的穩(wěn) 定性和安全性。要實(shí)現(xiàn)智能駕駛系統(tǒng)對(duì)普遍道路場(chǎng)景中動(dòng)態(tài)復(fù)雜狀況的準(zhǔn)確應(yīng)對(duì), 關(guān)鍵在于突破固定場(chǎng)景庫(kù)的機(jī)械響應(yīng)模式,構(gòu)建類似人類駕駛員的整體認(rèn)知框架。

多模態(tài)大模型賦能端到端,大模型進(jìn)一步融合智能駕駛成為共識(shí)。目前已有多篇 論文研究證實(shí)了多模態(tài)大模型在智能駕駛領(lǐng)域的應(yīng)用潛力。2023 年 10 月一篇關(guān) 于 DriveGPT4 的文章研究了多模態(tài)大模型在智能駕駛中的應(yīng)用,文中提出對(duì)視頻 和自然語言進(jìn)行編碼后輸入到大模型(文中選取的是 LLaMA2)中進(jìn)行處理,最 后通過 Text De-Tokenizer 解碼文本,能夠生成行為解釋以及未來的控制序列。同 時(shí)間來自美國(guó) USC 和清華大學(xué)的文章“GPT-Driver: Learning to Drive with GPT” 說明理論上可以將 OpenAI GPT-3.5 模型轉(zhuǎn)化為智能駕駛汽車的可靠運(yùn)動(dòng)規(guī)劃器。 2024 年 2 月理想與清華大學(xué)聯(lián)合推出 DriveVLM 這一基于大模型的高階智能駕駛 創(chuàng)新方案,以視覺語言大模型為核心,并結(jié)合端到端模型構(gòu)建了雙系統(tǒng)架構(gòu),成 為首個(gè)成功部署于車輛的智能駕駛大模型。2024 年 10 月華科與地平線發(fā)表關(guān)于 Senna 的論文,同樣采用端到端和 VLM 大模型分層規(guī)劃結(jié)構(gòu)。2024 年 10 月 Waymo 提出 EMMA 端到端多模態(tài)大模型,以谷歌的大語言模型 Gemini 框架為算法核心 構(gòu)建,能夠同時(shí)處理視覺輸入(如攝像頭圖像)和非視覺輸入(如基于文本的駕 駛指令和歷史上下文),將駕駛?cè)蝿?wù)重新表述為視覺問答(VQA)問題,進(jìn)一步證 實(shí)了大模型在智能駕駛領(lǐng)域的發(fā)展空間。

Thor 芯片算力支持為大模型高參數(shù)運(yùn)行提供落地可能性。人工智能大模型的快速 發(fā)展推動(dòng)智能駕駛對(duì)算力的需求激增。以理想為例,其端到端+VLM 雙系統(tǒng)需要 消耗兩顆 Orin-X 芯片總共 508TOPS 算力。而 VLM22 億參數(shù)在 Orin 上部署已是 極限,下一代端到端大模型需要更高算力支持。2022 年英偉達(dá)推出 Thor 芯片,頂 級(jí)型號(hào) Thor-Super 算力達(dá)到 2000TOPS,為 Orin 的 8 倍,并搭載了英偉達(dá)專為 Transformer、大語言模型(LLM)和生成式 AI 工作負(fù)載而打造的 Blackwell 架構(gòu), 包括用于 AI 推理的 Tensor Core、用于圖形處理的 CUDA 核心,以及用于神經(jīng)網(wǎng) 絡(luò)訓(xùn)練和優(yōu)化的專用加速器,可以實(shí)時(shí)運(yùn)行端到端智能駕駛模型。2025 年 Thor 芯 片即將迎來量產(chǎn),將為大模型高參數(shù)運(yùn)行提供更好的落地可能性。


2.2.2. VLA 一體化模型直接端到端輸出行為,復(fù)雜環(huán)境適應(yīng)能力提高

在上述需求、大模型技術(shù)、芯片算力的共同催化下,一體化大模型呼聲愈增,VLA 應(yīng)運(yùn)而生?!耙曈X-語言-動(dòng)作模型(VLA)”最早于 2023 年 7 月由 Google DeepMind 提出用于機(jī)器人領(lǐng)域,在 VLM 的基礎(chǔ)上發(fā)展而來,被視為端到端大模型 2.0。VLA 大模型以大語言模型為基礎(chǔ),在接收攝像頭的原始數(shù)據(jù)和語言指令后,可直接輸 出控制信號(hào),完成各種復(fù)雜的操作。VLA相當(dāng)于端到端+VLM雙系統(tǒng)的集合版本: 在雙系統(tǒng)中,VLM 著重于圖像和場(chǎng)景的理解,為智駕決策規(guī)劃提供輸入,最終依 然需要依靠端到端模型輸出對(duì)車輛的控制,而 VLA 則將端到端與多模態(tài)大模型 更徹底地融合,能夠根據(jù)感知直接生成車輛的運(yùn)動(dòng)規(guī)劃和決策,更接近“圖像輸 入、控制輸出”的端到端最終狀態(tài)。

以理想于 2025 年 3 月提出的 MindVLA 智駕方案為例,VLA 架構(gòu)包含:空間數(shù) 據(jù)建構(gòu)、基座模型推理、動(dòng)作生成三個(gè)主要部分。 V(Spatial-Intelligence)實(shí)現(xiàn) 3D 空間建構(gòu),理想在 BEV+OCC 的基礎(chǔ)上采用 3D Gaussian 作為中間表征技術(shù),進(jìn)行 3D 高斯場(chǎng)景重建,能夠提供多粒度、多尺度、 更豐富的 3D 幾何尺度表達(dá)能力并通過圖片 RGB 進(jìn)行自監(jiān)督訓(xùn)練,更好的輸出未 來幀高斯建模場(chǎng)景。 L(Lingustic Intelligence)重新設(shè)計(jì)和訓(xùn)練 LLM 基座模型,模型架構(gòu)上受到 DeepSeek 啟發(fā)采用 MoE 架構(gòu)實(shí)現(xiàn)多任務(wù)并行處理,結(jié)合稀疏注意力(Sparse Attention)優(yōu)化計(jì)算效率,在實(shí)現(xiàn)模型容量擴(kuò)容的同時(shí)不會(huì)大幅度增加推理負(fù)擔(dān)。 推理能力上,鍛煉模型學(xué)習(xí)人類的快思考+慢思考過程,快思考采用并行解碼方式 直接輸出 Action Token,慢思考則同時(shí)輸出思維鏈 CoT+Action Token。 A(Action Policy)輸出 Action,利用擴(kuò)散模型(Diffusion Model)進(jìn)行預(yù)測(cè),接 入上游輸出的 Action Token 解碼成優(yōu)化的軌跡,預(yù)測(cè)未來特定時(shí)長(zhǎng)下的場(chǎng)景發(fā)生 情況,生成駕駛動(dòng)作。

理想 VLA 模型在工程實(shí)現(xiàn)上,共有:VL 基座預(yù)訓(xùn)練、模仿學(xué)習(xí)后訓(xùn)練、強(qiáng)化訓(xùn) 練、人機(jī)交互智能體四個(gè)階段。 第一階段:VL 基座預(yù)訓(xùn)練?;P蛥?shù)量約為 32B(320 億),其訓(xùn)練數(shù)據(jù)包 括 Vision(視覺)、Language(語言)以及 VL(視覺和語言)聯(lián)合數(shù)據(jù),Vision 指 的是 3D 和 2D 的物理世界視覺信息,language 指的是跟交通、駕駛相關(guān)的語料, VL 就是把三維圖像和對(duì)世界的理解語義放在一起進(jìn)行聯(lián)合。形成 VL 基座模型 后,將其蒸餾為 3.6B MoE 模型,使得能在兩個(gè) Orin-X 或 Thor-U 上流暢運(yùn)行。 第二階段:模仿學(xué)習(xí)后訓(xùn)練。第一階段能夠使模型理解環(huán)境,這一階段生成車輛 action,利用模仿學(xué)習(xí)訓(xùn)練模型,打通從感知到規(guī)控的鏈路,確保輸入感知信息然 后輸出轉(zhuǎn)向、剎車等車控。此時(shí)車端 VLA 模型參數(shù)上升至 4B(40 億)。 第三階段:強(qiáng)化訓(xùn)練。這一階段訓(xùn)練 VLA 模型更加熟練。一方面使用 RLHF(基 于人類反饋的強(qiáng)化學(xué)習(xí)),通過人類偏好數(shù)據(jù)集微調(diào)模型的采樣過程,對(duì)齊人類駕 駛員的行為,提高安全駕駛的下限;一方面做純粹 RL(強(qiáng)化學(xué)習(xí)),使用世界模 型做訓(xùn)練,不給人類反饋,而給出舒適性、交通規(guī)則、碰撞事故三方面結(jié)果的反 饋,以達(dá)到比人類開得更好的效果。 第四階段:人機(jī)交互。最后要完成人和車的實(shí)時(shí)交互,需要搭建司機(jī) Agent,識(shí)別 人類語言指令,做出車輛行為反應(yīng)。

VLA 模型的主要優(yōu)勢(shì)在于模型一體化以及更強(qiáng)的泛化性。相較于以往智駕方案, VLA 從感知輸入到汽車動(dòng)作控制信號(hào)輸出由一個(gè)模型完成,使用同一套數(shù)據(jù)訓(xùn)練 和推理,減少了信息傳遞過程中的損耗以及模塊化架構(gòu)中多環(huán)節(jié)串聯(lián)的延遲。根 據(jù)元戎啟行以及地平線的實(shí)測(cè)數(shù)據(jù)顯示,VLA 模型在復(fù)雜路段的決策響應(yīng)速度較 傳統(tǒng)方案提升 20%-40%。VLA 還展現(xiàn)出更強(qiáng)的復(fù)雜場(chǎng)景推理能力和泛化性。在智 能駕駛領(lǐng)域的應(yīng)用上,根據(jù)地平線實(shí)測(cè)數(shù)據(jù)顯示,現(xiàn)階段的端到端可以推理未來7 秒鐘可能發(fā)生的情況,而 VLA 通過 CoT 技術(shù)將可將風(fēng)險(xiǎn)預(yù)判覆蓋 20 秒級(jí)推演。 2023 年 7 月谷歌發(fā)表基于 VLM 大模型微調(diào)而成的 VLA 模型 RT-2,驗(yàn)證了 VLA 模型通過大量訓(xùn)練能夠獲得一系列涌現(xiàn)能力,包括顯著提高對(duì)新物體的泛化能力、 解釋機(jī)器人訓(xùn)練數(shù)據(jù)中未出現(xiàn)的命令。在面對(duì)復(fù)雜的交通規(guī)則、潮汐車道、極端 天氣等特殊場(chǎng)景時(shí),VLA 模型能夠比以往的系統(tǒng)更好地理解和應(yīng)對(duì)。 VLA 模型相當(dāng)于人類司機(jī),更大程度逼近人類開車的行為模式。理想汽車在理想 第二季 AI Day 上用三個(gè)比喻劃分智能輔助駕駛發(fā)展階段。第一階段,昆蟲動(dòng)物智 能:需要有既定的規(guī)則,同時(shí)依賴高精地圖,類似螞蟻的行動(dòng)和完成任務(wù)的方式, 通過機(jī)器學(xué)習(xí)感知配合規(guī)則算法的分段式輔助駕駛解決方案。第二階段,哺乳動(dòng) 物智能:類似馬戲團(tuán)的動(dòng)物學(xué)習(xí)人類行為,端到端階段通過大模型學(xué)習(xí)人類駕駛 行為,但對(duì)物理世界的理解并不充分,雖然足以應(yīng)對(duì)大部分泛化場(chǎng)景,但很難解 決從未遇到過或復(fù)雜問題。即使配合視覺語言 VLM 模型,在應(yīng)對(duì)復(fù)雜交通環(huán)境 時(shí)也只能起到輔助作用。第三階段,人類智能:VLA 階段可以實(shí)現(xiàn)類似人類觀察 世界的方式,利用 3D 視覺和 2D 的組合構(gòu)建更真實(shí)的物理世界,并通過思維鏈推 理進(jìn)一步理解物理世界,從而做到像人類一樣理解、思考、行動(dòng)。


當(dāng)前全球智駕產(chǎn)業(yè)越來越多車企布局開始 VLA 技術(shù)。2024 年 10 月英國(guó)初創(chuàng)公司 Waymo 發(fā)布了用于智能駕駛的多模態(tài)大語言模型 EMMA,從結(jié)構(gòu)上看類似于 VLA 模型,且其已在 VLM 方案上積累經(jīng)驗(yàn),未來很可能擴(kuò)展至 VLA。2025 年 1 月第 17 屆日本國(guó)際汽車工業(yè)技術(shù)展上,元戎啟行發(fā)布 VLA 模型并宣布已與某頭 部車企達(dá)成量產(chǎn)合作,將于年內(nèi)投入消費(fèi)者市場(chǎng)。2025 年 3 月理想汽車業(yè)績(jī)發(fā)布 會(huì)上,董事長(zhǎng)李想宣布下一代 VLA 智駕模型將搭載于純電動(dòng) SUV i8,計(jì)劃于 7 月首發(fā)。奇瑞在 2025 年 3 月的發(fā)布會(huì)上提出 2026 年要實(shí)現(xiàn) VLA+世界模型 L3 技 術(shù)量產(chǎn)上車。吉利目前也表示已經(jīng)投入到 VLA 技術(shù)的研發(fā)當(dāng)中。

2.3. 數(shù)據(jù)規(guī)模、推理效率、算力需求仍為智駕的主要挑戰(zhàn)

端到端模型一定程度上也存在 Scaling Law,數(shù)據(jù)規(guī)模的擴(kuò)大將提高模型性能。 2024 年 12 月中科院與理想合作發(fā)表有關(guān)數(shù)據(jù)規(guī)模對(duì)端到端智駕模型影響的論文, 文章顯示在閉環(huán)測(cè)評(píng)中,隨著數(shù)據(jù)規(guī)模的增加,模型在五個(gè)維度的性能先快速增 長(zhǎng),在達(dá)到 200 萬數(shù)據(jù)量后增長(zhǎng)放緩;長(zhǎng)尾數(shù)據(jù)量的少量增加可以顯著提高相應(yīng) 場(chǎng)景的性能;適當(dāng)?shù)臄?shù)據(jù)規(guī)?;梢詾槟P蛶硇聢?chǎng)景組合泛化的能力。因此擴(kuò) 大訓(xùn)練數(shù)據(jù)規(guī)模成為提高端到端大模型的重要方式。根據(jù)馬斯克的觀點(diǎn),數(shù)據(jù)量 級(jí)達(dá)到 100 萬 clips 是模型“及格線”,300 萬 clips 可達(dá)到商用水平,1000 萬 clips 則表現(xiàn)亮眼。

目前仿真數(shù)據(jù)精度不足,VLA 大模型仍需要大規(guī)模高質(zhì)量真實(shí)數(shù)據(jù)。在模型訓(xùn)練 階段,車企通常使用真實(shí)場(chǎng)景數(shù)據(jù)與仿真場(chǎng)景數(shù)據(jù),真實(shí)場(chǎng)景數(shù)據(jù)涉及 2D 至 4D 標(biāo)注、車道線標(biāo)注、語義分割等,效率較低且具有較高的標(biāo)注成本,仿真場(chǎng)景數(shù)據(jù)由虛擬引擎構(gòu)建,成本低,無需標(biāo)注,且可構(gòu)建邊緣場(chǎng)景(如極端天氣、長(zhǎng)尾 場(chǎng)景等)。但仿真數(shù)據(jù)效果目前無法比擬真實(shí)數(shù)據(jù),真實(shí)世界數(shù)據(jù)涵蓋了大量的環(huán) 境變化如閃電、天氣等,但合成數(shù)據(jù)難以完整覆蓋這些變化。更重要的是合成數(shù) 據(jù)缺乏關(guān)鍵狀態(tài),如行人違規(guī)橫穿馬路等場(chǎng)景是在模擬中是難以得到的。根據(jù)中 國(guó)法規(guī)規(guī)定,特斯拉無法將境內(nèi)車輛采集的數(shù)據(jù)傳輸至境外導(dǎo)致中國(guó)真實(shí)路況數(shù) 據(jù)不足,成為導(dǎo)致特斯拉 FSD 在中國(guó)表現(xiàn)不及預(yù)期的原因之一。如廣州“BRT 公 交專用道+電動(dòng)車混行”的交通流,在仿真訓(xùn)練中常常被簡(jiǎn)化為普通車道,導(dǎo)致實(shí) 際路測(cè)時(shí)系統(tǒng)的誤判率大幅飆升。 出于實(shí)時(shí)響應(yīng)的安全性要求,模型推理效率及反應(yīng)速度仍需進(jìn)一步提高。實(shí)時(shí)性 要求模型在 100 毫秒內(nèi)響應(yīng),VLA 模型通常基于大型視覺語言模型構(gòu)建,參數(shù)量 龐大,導(dǎo)致推理速度緩慢。以上痛點(diǎn)要求車企在模型輕量化的基礎(chǔ)上進(jìn)行算法優(yōu) 化提高推理效率。2025 年初 DeepSeek 通過多頭潛在注意力(MLA)、混合專家模 型(MoE)等多項(xiàng)模型架構(gòu)創(chuàng)新,大幅提高推理效率,加速大模型行業(yè)從“硬件 堆砌”向“算法優(yōu)化”轉(zhuǎn)型。一定程度上為智能駕駛企業(yè)提供了提升推理效率的 多維啟發(fā),啟示車企在重視硬件與數(shù)據(jù)的同時(shí),關(guān)注算法優(yōu)化。

VLA 模型參數(shù)擴(kuò)大導(dǎo)致車端算力需求更高,算力仍為 VLA 大模型落地瓶頸。理 想端到端+VLM 雙系統(tǒng)需要消耗兩顆 Orin-X 芯片,總共 508TOPS 算力。將端到 端技術(shù)與 VLM 二合一成為 VLA 后,車端模型參數(shù)變得更大,既要有高效實(shí)時(shí)推 理能力,同時(shí)還要有認(rèn)識(shí)復(fù)雜世界并給出建議的能力,部署 VLA 模型對(duì)車端芯片 硬件會(huì)有相當(dāng)高的要求。雖然 2022 年英偉達(dá)推出 Thor 系列芯片最高可提供 2000TOPS 算力,但原定于 2024 年中期的量產(chǎn)計(jì)劃可能延后到 2026 年,高性能 算力芯片的推遲量產(chǎn)可能影響各大車企 VLA 部署節(jié)奏。 智駕政策約束更加嚴(yán)格,對(duì)智能駕駛宣傳、功能和技術(shù)部署提出全面規(guī)范要求。 2025 年 2 月 25 日,工業(yè)和信息化部、市場(chǎng)監(jiān)管總局聯(lián)合發(fā)布了《關(guān)于進(jìn)一步加 強(qiáng)智能網(wǎng)聯(lián)汽車產(chǎn)品準(zhǔn)入、召回及軟件在線升級(jí)管理的通知》,加強(qiáng)智能網(wǎng)聯(lián)汽車 產(chǎn)品準(zhǔn)入與召回管理,強(qiáng)化汽車軟件在線升級(jí)活動(dòng)協(xié)同管理,提升智能網(wǎng)聯(lián)汽車 產(chǎn)品安全水平。2025 年 4 月 16 日,工信部裝備工業(yè)一司組織召開智能網(wǎng)聯(lián)汽車 產(chǎn)品準(zhǔn)入及軟件在線升級(jí)管理工作推進(jìn)會(huì),部裝備工業(yè)發(fā)展中心、主要汽車生產(chǎn) 企業(yè)近 60 名代表參加會(huì)議。會(huì)議明確要求各車企必須承擔(dān)起生產(chǎn)一致性和質(zhì)量安 全的主體責(zé)任,并嚴(yán)格執(zhí)行產(chǎn)品準(zhǔn)入和軟件在線升級(jí)的備案制度,要明確系統(tǒng)功 能邊界和安全響應(yīng)措施,不得進(jìn)行夸大和虛假宣傳,嚴(yán)格履行告知義務(wù)。此次會(huì) 議對(duì)智能駕駛的規(guī)范要求細(xì)化到具體的執(zhí)行細(xì)節(jié),智能駕駛進(jìn)入強(qiáng)監(jiān)管時(shí)代。

3. 技術(shù)升級(jí)推動(dòng)產(chǎn)業(yè)格局變化,VLA 打開具身智能廣闊想象 空間

3.1. “向下智駕平權(quán)”+“向上高階突破”雙線并行,拉動(dòng)產(chǎn)業(yè)鏈格局變 化

3.1.1. 智駕平權(quán)加速自研與第三方合作市場(chǎng)格局分化,整體市場(chǎng)中的智駕技術(shù)差 距或?qū)⒗?/p>

智駕平權(quán)帷幕拉開,智駕車型價(jià)格下探至 10 萬元以下。2025 年 2 月 10 日比亞迪 正式發(fā)布“天神之眼”高階智能駕駛系統(tǒng),宣布首批 21 款車型全系搭載天神之眼, 覆蓋比亞迪旗下 7 萬-20 萬全價(jià)格段車型,推動(dòng)全民智駕。天神之眼分為 A、B、 C 三個(gè)版本,A、B 版本對(duì)城市高速 NOA 全域支持,C 為低階版本使用前視三目 攝像頭方案,能夠支持高速 NOA、代客泊車、城區(qū)記憶路線等基礎(chǔ)功能,C 版本 應(yīng)用在「海洋」、「王朝」部分車型上,價(jià)格最低可下探至 7.88 萬元。2025 年 3 月 吉利推出銀河星耀 8 EM,以 15 萬元價(jià)格標(biāo)配“車位到車位”無圖城市 NOA。奇 瑞也在同一時(shí)間推出小螞蟻智駕版,支持高速領(lǐng)航 NOA、自動(dòng)泊車等智駕功能, 售價(jià)僅為 6.59 萬元。2025 年伊始,各家車企推動(dòng)智駕平權(quán),將以往最低 20 萬元 才能享受的高速 NOA、城市 NOA 等智駕功能首次下探至 10 萬元,使得智駕從高 端體驗(yàn)開始變成日常出行標(biāo)配。

智駕平權(quán)壓縮中低端車企成本空間,低成本的第三方方案供應(yīng)商迎來機(jī)會(huì)。與第 三方智駕方案相比,自研具有成本高、見效慢、研發(fā)難的挑戰(zhàn)。一項(xiàng)高階智駕系 統(tǒng)的自研周期平均需 2-3 年,涉及數(shù)千人級(jí)團(tuán)隊(duì)的投入,涵蓋算法開發(fā)、硬件適 配、數(shù)據(jù)閉環(huán)等眾多環(huán)節(jié),研發(fā)成本極其高昂。對(duì)比第三方智駕方案,宏景智駕 基于地平線征程 3 的行泊一體方案,成本控制在 3000 元級(jí)別;東軟睿馳采用內(nèi)嵌 兩段式端到端智駕算法的地平線 J6E 計(jì)算芯片,加上傳感器的方案價(jià)格在 5000 元 左右;大疆“7V+100TOPS”整個(gè)智駕系統(tǒng)的硬件成本在 7000 元左右;Momenta 當(dāng)前實(shí)現(xiàn)城市 NOA 的 BOM 成本已降至 1 萬元左右,預(yù)計(jì) 2025 年底將進(jìn)一步下 降至 5000 元,屆時(shí) 20 萬元以上車型可能標(biāo)配城市 NOA,15 萬元以上車型則標(biāo) 配或選配該功能。比亞迪將高階智駕技術(shù)下放至 7 萬元級(jí)車型,對(duì)于自研尚未取 得明顯成效的中低端車企來說,自主研發(fā)智駕系統(tǒng)的成本遠(yuǎn)超第三方成熟方案, 在競(jìng)爭(zhēng)激烈、對(duì)成本極為敏感的低端市場(chǎng)中,成本劣勢(shì)將直接拖累定價(jià)空間。在 智駕平權(quán)帶來的智能駕駛需求窗口期和成本縮減壓力下,對(duì)于自研尚未呈現(xiàn)巨大 突破的中低端主機(jī)廠來講,第三方智能駕駛解決方案正展現(xiàn)出更有吸引力的性價(jià) 比,有望使第三方方案將成為中低端車企跟緊智駕平權(quán)浪潮的更優(yōu)選擇。 長(zhǎng)期布局高階智駕的頭部車企受智駕平權(quán)影響相對(duì)較小,或堅(jiān)持自研方案。相對(duì) 于中低端車企品牌,理想、小鵬、華為等第一梯隊(duì)車企布局智能駕駛時(shí)間較長(zhǎng), 多已實(shí)現(xiàn)從多傳感器融合定位、超視距感知、BEV+Transfomer、多模態(tài)數(shù)據(jù)融合、 端到端大模型等完整技術(shù)路徑的突破和技術(shù)積累,其主流車型覆蓋 20-60 萬的高 階智駕并配備城市 NOA 等高端智駕功能,已形成技術(shù)領(lǐng)先的消費(fèi)者心智。本階 段智駕平權(quán)主要影響 10-30 萬價(jià)位的中低端智駕,因此對(duì)第一梯隊(duì)自研車企影響 較小。自比亞迪發(fā)動(dòng)智駕平權(quán)以來,智駕頭部車企繼續(xù)穩(wěn)步推進(jìn)自研進(jìn)程。2025 年 3 月 18 日,理想汽車在 NVIDIA GTC 2025 大會(huì)上推出了新一代智能駕駛技術(shù) ——MindVLA 大模型,已于 2025 年 7 月份和理想 i8 同時(shí)首發(fā);2025 年 4 月 15 日,小鵬在 X9 發(fā)布會(huì)上提出計(jì)劃在 2025 年底在中國(guó)實(shí)現(xiàn) L3 級(jí)智能駕駛能力的 量產(chǎn)落地,預(yù)計(jì)將于第二季度實(shí)現(xiàn)自研圖靈 AI 智駕芯片在中國(guó)內(nèi)地量產(chǎn)上車。 2025 年 4 月 22 日華為發(fā)布采用面向未來智能駕駛時(shí)代的世界引擎+世界行為模型 架構(gòu)(WEWA 架構(gòu))的乾崑智駕 ADS 4,其端到端時(shí)延可降低 50%,通行效率提 升 20%,重剎率降低 30%,其中華為乾崑智駕 ADS 4 共有四個(gè)版本,其中 ADS Ultra 旗艦版搭載高速 L3 專屬方案。

3.1.2. 未來 VLA 的滲透將帶動(dòng)汽車企業(yè)向科技企業(yè)轉(zhuǎn)變,積累深、投入久的企業(yè) 將具備在高端市場(chǎng)競(jìng)爭(zhēng)力

VLA 展現(xiàn)出以大模型為基座的智駕方案加速應(yīng)用,更加考驗(yàn)車企 AI 技術(shù)能力。 學(xué)術(shù)上已有多篇論文研究證實(shí)了多模態(tài)大模型在智能駕駛領(lǐng)域的應(yīng)用潛力,實(shí)踐 層面上車企也正加快在 AI 領(lǐng)域的布局。理想在 2023 年公開宣布轉(zhuǎn)型,并推出自 研大模型 Mind GPT,目前已迭代升級(jí)為 Mind GPT-3o。近兩年來公司研發(fā)投入近 50%聚焦 AI,目標(biāo)通過 AI 技術(shù)重構(gòu)汽車產(chǎn)品形態(tài),從“交通工具”升級(jí)為“空間 機(jī)器人”。小鵬正在研發(fā) 720 億參數(shù)規(guī)模智能駕駛大模型,即小鵬世界基座模型。 華為在大模型領(lǐng)域的積累幫助其在智駕領(lǐng)域深耕擴(kuò)展,其智能駕駛解決方案覆蓋 了從傳感器、AI 芯片、操作系統(tǒng)到 AI 云服務(wù)的全棧式解決方案。智能駕駛領(lǐng)域 車企正在向 AI 科技公司轉(zhuǎn)型。

從 L2 到 L4 的躍遷是長(zhǎng)期資金、算力、技術(shù)、數(shù)據(jù)等資源積累的過程: 一方面,引領(lǐng)智能駕駛技術(shù)升級(jí)的第一梯隊(duì)車企均有長(zhǎng)時(shí)間技術(shù)積累并穩(wěn)步迭代。 特斯拉于2013 年便宣布開發(fā)輔助駕駛系統(tǒng),2016 年開始組建自身的硬件工程團(tuán) 隊(duì),啟動(dòng)自研計(jì)算平臺(tái) FSD,開始全棧自研計(jì)劃。小鵬自 2014年成立以來便聚焦 智能駕駛領(lǐng)域,初期使用供應(yīng)商的成品方案,2017 年開始自研智能駕駛軟件,2018 年發(fā)布國(guó)內(nèi)首款具備 L2 級(jí)輔助駕駛功能的量產(chǎn)車型 G3。理想于 2015 年創(chuàng)立, 2018 年正式發(fā)布首款智能電動(dòng)車?yán)硐胫窃?ONE,2020 年底停止了和 Mobileye 的 合作,開始使用地平線 J3 芯片開展智能駕駛的全棧自研。華為 2013 年正式推出 車載信息娛樂系統(tǒng)和通信模組,并啟動(dòng)智能駕駛相關(guān)技術(shù)預(yù)研,2016 年開始加大 對(duì)智能駕駛領(lǐng)域的投入幅度,加速智能駕駛技術(shù)整合,2020 年華為正式推出了自 己的智能駕駛解決方案 HiCar,并與多家車企開展了深度合作。第一梯隊(duì)車企均已 在智駕領(lǐng)域具有近 10 年的深耕經(jīng)歷,在此期間不斷更新迭代產(chǎn)品技術(shù),帶領(lǐng)智能駕駛從 L1 邁入 L2+。


另一方面,從 L2-L4 升級(jí)過程中模型參數(shù)將倍數(shù)級(jí)擴(kuò)大,安全性與復(fù)雜性的平衡 需要海量訓(xùn)練數(shù)據(jù)支撐,要求車企訓(xùn)練算力儲(chǔ)備持續(xù)擴(kuò)容。根據(jù)地平線數(shù)據(jù),L2 級(jí)智能駕駛的車端算力需求為 100+TOPS,L3 級(jí)智能駕駛為 500-1000+TOPS,L4 級(jí)智能駕駛為 2000+TOPS 以上,L5 級(jí)則需要 5000TOPS 以上。車端算力最直觀 體現(xiàn)大模型上車的計(jì)算資源需求,其 10 倍數(shù)級(jí)的提升側(cè)面反映智能駕駛大模型參 數(shù)的迅速增長(zhǎng)。數(shù)據(jù)方面,L2 為輔助駕駛,L4 為全自動(dòng)駕駛,要求對(duì)于現(xiàn)實(shí)世界 中的復(fù)雜場(chǎng)景具有自主解決的能力,因此更高的可靠性意味著需要更多數(shù)據(jù)來驗(yàn) 證和優(yōu)化系統(tǒng),減少出錯(cuò)的可能性。根據(jù)德勤數(shù)據(jù)報(bào)告顯示,預(yù)計(jì) 2025 年 L3 智 能駕駛商業(yè)落地,單個(gè) L3 算法模型具有十億級(jí)數(shù)據(jù)標(biāo)注需求,智能駕駛數(shù)據(jù)服務(wù) 市場(chǎng)規(guī)模將達(dá)到 51.6 億元。2030 后 L4 智能駕駛或逐步落地,單個(gè) L4 模型標(biāo)注 需求將增長(zhǎng)至百億至千億級(jí),數(shù)據(jù)需求或于 2027 年后逐步釋放,數(shù)據(jù)服務(wù)市場(chǎng)規(guī) 模將增長(zhǎng)至 74.9 億元。訓(xùn)練算力方面,根據(jù) OpenAI 的經(jīng)驗(yàn)公式 C≈6*N*D(C 為 訓(xùn)練一個(gè) Transformer 模型所需的算力,N 為模型參數(shù),D 為訓(xùn)練數(shù)據(jù)集的大?。?, 可以理解為訓(xùn)練算力需求=模型參數(shù)量*數(shù)據(jù)集 token 數(shù)*系數(shù) k。因此在模型參數(shù) 與數(shù)據(jù)同時(shí)顯著增長(zhǎng)的情況下,對(duì)車企訓(xùn)練算力的儲(chǔ)備需求越來越高,模型訓(xùn)練 的資金投入也倍數(shù)級(jí)增長(zhǎng)。

最后,真實(shí)車輛數(shù)據(jù)的積累以及算力硬件的儲(chǔ)備需要提早的戰(zhàn)略布局和長(zhǎng)期大量 資金投入。數(shù)據(jù)采集方面,特斯拉自 2015 年 10 月開始開通 AP 系統(tǒng),開始在車 端收集數(shù)據(jù)進(jìn)行數(shù)據(jù)回傳機(jī)制,并逐步構(gòu)建起數(shù)據(jù)閉環(huán)體系。截至 2022 年末數(shù) 據(jù),每天有近 200 萬輛車隊(duì)為特斯拉提供 1600 億幀視頻。2024 年初特斯拉的視 頻片段已接近 3000 萬個(gè),轉(zhuǎn)換為圖片超 220 億張。國(guó)內(nèi)造車新勢(shì)力也同樣對(duì)回傳 數(shù)據(jù)高度重視,截至 2024 年底,小鵬汽車用于訓(xùn)練基座模型的視頻數(shù)據(jù)量高達(dá) 2000 萬 clips,具有超過 10 億公里的視頻訓(xùn)練、646 萬累計(jì)公里數(shù)的實(shí)車測(cè)試,理 想汽車的智能駕駛訓(xùn)練里程也已達(dá)到約 30 億公里,智駕訓(xùn)練量達(dá)到 800 萬 Clips。 算力儲(chǔ)備方面,特斯拉自 2023 年以來算力儲(chǔ)備急速上漲,2024 年第三季度的訓(xùn) 練算力達(dá)到 6.75 萬張 H100 GPU 等效算力,算力規(guī)模已接近 100EFlops。截至 2024 年底,理想汽車計(jì)劃智駕訓(xùn)練算力儲(chǔ)備達(dá)到 8.1EFlops,小鵬 AI 算力儲(chǔ)備已達(dá) 2.51EFlops,計(jì)劃到 2025 年達(dá)到 10EFlops。這也伴隨著巨大的資金投入,2023 年 特斯拉斥資 20 億美元擴(kuò)大算力規(guī)模,2024 年馬斯克計(jì)劃投入 100 億美元用于算 力。小鵬在 2024 年宣布每年在算力訓(xùn)練上的投入將超過 7 億元。理想表示理想每 年在訓(xùn)練算力的投入超過 10 億元,2024 年要消耗 20 億元。綜合來看,各家車企 在在研發(fā)費(fèi)用和資本開支上不斷擴(kuò)大支出,以支撐智能駕駛技術(shù)的升級(jí)躍遷。

預(yù)計(jì)未來僅有少數(shù)主機(jī)廠堅(jiān)守高級(jí)智駕全棧自研。首先,全棧自研車企多具有布 局早、投入大、積累深的特征,其在技術(shù)上與中低端車企具有 1-2 年代際差異, 這期間的資源累積將成為競(jìng)爭(zhēng)壁壘。在前期技術(shù)、算力、數(shù)據(jù)投入的基礎(chǔ)上,自 研車企可保證技術(shù)迭代部署自主可控,迅速反應(yīng)市場(chǎng)變化。理想自端到端+VLM 雙系統(tǒng)方案發(fā)布以來,兩個(gè)月一共迭代 25 版模型,平均 2-3 天一個(gè)模型;華為的 ADS 3.0 系統(tǒng)借助自研的數(shù)據(jù)閉環(huán)實(shí)現(xiàn)了快速迭代,其平均 5 天更新一次模型; 小鵬端到端每 2 天迭代一個(gè)新版本,每?jī)芍苓M(jìn)行體驗(yàn)升級(jí)。與第三方合作的車企 可能受制于第三方技術(shù)升級(jí)的不穩(wěn)定性,如極氪2021-2024年采用Mobileye EyeQ5 的車型因第三方 Mobileye EyeQ5 芯片的穩(wěn)定時(shí)間晚于預(yù)期,導(dǎo)致軟件測(cè)試時(shí)間不 足,最終 ADAS 功能研發(fā)進(jìn)度出現(xiàn)滯后。其次,技術(shù)差異使得后入車企難以樹立 高階的品牌形象,而自研主機(jī)廠有機(jī)會(huì)升維至具身智能科技公司,打開估值空間。 智駕平權(quán)帶來市場(chǎng)格局的加速分化,智能駕駛升級(jí)需要大量資源的長(zhǎng)期投入,兩 者共同催化下將篩選出少數(shù)自研車企成為智能駕駛領(lǐng)域高端與前沿的代表。 預(yù)計(jì)第一梯隊(duì)的第三方智駕供應(yīng)商所長(zhǎng)期累積的技術(shù)與高性價(jià)比優(yōu)勢(shì)將不斷成 為其核心競(jìng)爭(zhēng)力,并全面覆蓋高中低階智駕市場(chǎng)。頭部第三方供應(yīng)商專攻于標(biāo)準(zhǔn) 化智駕方案,擁有成熟的算法架構(gòu)和工程化能力,并積累了規(guī)?;慨a(chǎn)落地的成 功經(jīng)驗(yàn),主機(jī)廠選擇與智駕方案第三方合作能夠大幅縮短產(chǎn)品開發(fā)周期,節(jié)省研 發(fā)時(shí)間和成本。對(duì)于自研尚未呈現(xiàn)巨大突破的中低端主機(jī)廠來講,周期長(zhǎng)、成本 高、技術(shù)競(jìng)爭(zhēng)迭代加速等困境倒逼車企轉(zhuǎn)向與供應(yīng)商合作,第三方市場(chǎng)規(guī)模正逐 步擴(kuò)大,萬創(chuàng)研究院數(shù)據(jù)顯示,預(yù)計(jì) 2030 年第三方智駕方案供應(yīng)商市場(chǎng)規(guī)模達(dá)到 1612 億元,年復(fù)合增長(zhǎng)率達(dá)到 52.47%,市場(chǎng)占有率將達(dá)到 52%。根據(jù)佐思汽研報(bào) 告顯示,截至 2024 年 10 月,國(guó)內(nèi)推出有 27 家品牌推出城市 NOA,大多數(shù)車企 主要選擇第三方之家來實(shí)現(xiàn)城市 NOA 的快速落地。


(一)地平線:軟硬一體化的厚積薄發(fā)。地平線成立于 2015 年 7 月,創(chuàng)立之初以 人工智能芯片為核心業(yè)務(wù),后期滲透至智能駕駛(ADAS/AD)解決方案,涵蓋芯 片設(shè)計(jì)、算法開發(fā)、工具鏈支持及系統(tǒng)集成。地平線是中國(guó)智駕行業(yè)首個(gè)踐行軟 硬結(jié)合技術(shù)路徑的企業(yè),通過“征程芯片+天工開物工具鏈”構(gòu)建軟硬一體生態(tài), 旨在實(shí)現(xiàn)從底層硬件到上層算法的全棧協(xié)同優(yōu)化,為智能駕駛提供高效、靈活且 安全的解決方案。2024 年 4 月地平線發(fā)布征程 6 系列芯片,覆蓋 10-560TOPS 的 算力范圍,適配不同價(jià)位車型。天工開物為地平線自主研發(fā)的算法工具鏈,包含 模型后量化、量化訓(xùn)練、編譯優(yōu)化和部署三大核心能力,提供從模型獲得至應(yīng)用 部署的全流程支持,天工開物工具鏈能將開發(fā)者模型部署周期縮短 60%,降低了 合作伙伴的研發(fā)成本。

地平線已與大眾、上汽、嵐圖等超 40 家車企合作超 310 款車型、為 27 家 OEM 供給產(chǎn)品解決方案,其中囊括中汽協(xié)公布的銷量排名前十的中國(guó)車企、主流新勢(shì) 力車企等。在獨(dú)特的戰(zhàn)略卡點(diǎn)和十年如一日的研發(fā)突破下,2024 年地平線營(yíng)收 23.84 億元,同比增長(zhǎng) 53.6%;毛利 18.41 億元,同比增長(zhǎng) 68.3%,其中,以征程 系列芯片為主的產(chǎn)品解決方案(硬件)收入 6.64 億元,同比增長(zhǎng) 31.2%;算法授 權(quán)及技術(shù)服務(wù)收入飆升 70.9%至 16.47 億元,毛利率高達(dá) 92%,體現(xiàn)軟硬一體化 模式的廣闊前景。大規(guī)模的市場(chǎng)滲透和車企合作直接體現(xiàn)在地平線的市場(chǎng)占有率 上,2024 年地平線產(chǎn)品解決方案年交付量 290 萬套,同比增長(zhǎng) 38%,累計(jì)出貨量 已達(dá) 770 萬套,在國(guó)內(nèi)車企高級(jí)輔助駕駛(ADAS)解決方案市場(chǎng)份額已突破 40%, 穩(wěn)居行業(yè)第一;在中國(guó)獨(dú)立第三方智能駕駛(AD)方案市場(chǎng)占據(jù) 30%以上份額, 位列行業(yè)第二。地平線強(qiáng)大的軟硬件結(jié)合能力獨(dú)樹一幟,在智駕市場(chǎng)擴(kuò)張的關(guān)節(jié) 節(jié)點(diǎn)為其打下堅(jiān)實(shí)的市場(chǎng)基礎(chǔ)。

地平線定位智駕計(jì)算平臺(tái)公司,未來有望全面撬動(dòng)智駕市場(chǎng)。圍繞軟硬一體化的 獨(dú)特優(yōu)勢(shì),地平線在 2025 年 4 月 18日發(fā)布會(huì)上推出了 Horizon Cell「彈夾系統(tǒng)」, 硬件部分可以插拔不同型號(hào)的征程 6 系列芯片,軟件可配備不同的輔助駕駛系統(tǒng) 方案(HSD),以滿足多種車型對(duì)各類輔助駕駛性能需求以及升級(jí)迭代需求。普惠 級(jí)城區(qū)輔助駕駛 HSD 300 基于兩顆征程 6M(256TOPS)打造,主要面向 10 萬級(jí) 別車型標(biāo)配市場(chǎng)。高性能 L2 城區(qū)輔助駕駛 HSD 600 基于一顆征程 6P(560TOPS) 打造,主要面向 15 萬級(jí)別車型標(biāo)配市場(chǎng)。全場(chǎng)景輔助駕駛 HSD 1200 基于兩顆征 程 6P(1120TOPS)打造,主要面向 20 萬級(jí)別車型標(biāo)配市場(chǎng)。地平線軟硬結(jié)合的 最大優(yōu)勢(shì)是性價(jià)比的極致優(yōu)化,與其他同等算力芯片相比,征程 6P 性能提升近 17 倍,但單位成本提高幅度較小,特斯拉自研的低成本 FSD 芯片也證實(shí)了軟硬結(jié)合 的成本優(yōu)勢(shì)。地平線軟硬結(jié)合的獨(dú)特優(yōu)勢(shì)已初步顯現(xiàn),截至 2025 年一季度,地平 線已經(jīng)累計(jì)交付了 800 萬顆芯片,累計(jì)上車 200 多個(gè)量產(chǎn)車型,4 月 18 日發(fā)布會(huì) 上宣布與奇瑞集團(tuán)就 HSD 量產(chǎn)展開全面合作,將于 2025 年 9 月正式量產(chǎn)。地平 行提前鉚釘軟硬結(jié)合賽道,其深厚積淀和獨(dú)特戰(zhàn)略優(yōu)勢(shì)將逐步顯現(xiàn)。

(二)Momenta:堅(jiān)持“一個(gè)飛輪兩條腿”戰(zhàn)略,贏取技術(shù)與市場(chǎng)雙豐收。Momenta 成立于 2016 年,創(chuàng)始團(tuán)隊(duì)由計(jì)算機(jī)視覺與深度學(xué)習(xí)領(lǐng)域的頂尖專家組成,成立初 期專注于無人駕駛領(lǐng)域。2019 年 Momenta 將戰(zhàn)略轉(zhuǎn)向做量產(chǎn)交付,2020 年上汽 集團(tuán)將旗下高端電動(dòng)車品牌智己項(xiàng)目交予 Momenta。公司在長(zhǎng)達(dá)兩年的時(shí)間里攻堅(jiān)克難,大力發(fā)展仿真評(píng)測(cè)、自動(dòng)化工具鏈、基礎(chǔ)組件和數(shù)據(jù)等周期長(zhǎng)、成果反 饋慢的模塊,為技術(shù)量產(chǎn)產(chǎn)品化打牢根基。2021 年形成了“L2+L4 兩條腿走路” 和“數(shù)據(jù)飛輪”的戰(zhàn)略:通過乘用車量產(chǎn)項(xiàng)目獲取大量數(shù)據(jù),反哺高階智駕開發(fā); 同時(shí)研發(fā) L4 無人駕駛技術(shù)能力構(gòu)建量產(chǎn)算法壁壘。2022 年 6 月,首款搭載 Momenta 技術(shù)方案的智己 L7 正式交付,Momenta 開始迎來項(xiàng)目收獲期。在技術(shù) 方面,Momenta 在第三方智駕供應(yīng)商中始終處于領(lǐng)先地位,2024 年 10 月成為國(guó) 內(nèi)首個(gè)基于一段式端到端大模型實(shí)現(xiàn)規(guī)?;慨a(chǎn)的智能駕駛供應(yīng)商。在量產(chǎn)方面, Momenta 憑借踏實(shí)積累和豐富經(jīng)驗(yàn)構(gòu)建了一套平臺(tái)化解決方案,專為實(shí)現(xiàn)高效、 迅速適配眾多量產(chǎn)車型而設(shè)計(jì),只需 3-6 個(gè)時(shí)間其智駕方案就可以在一個(gè)新車型 上完成適配。靈活的方案部署、成熟的量產(chǎn)方案、前沿的技術(shù)突破使得 Momenta 成為主車廠的心動(dòng)之選。截至 2024 年末,Momenta 已與全球超 15 家車企或 Tier1 建立合作關(guān)系,智駕方案已定點(diǎn)超 100 款車型。佐思汽研數(shù)據(jù)研究顯示,在 2023 年 1 月至 2024 年 10 月期間,Momenta 憑借顯著優(yōu)勢(shì)穩(wěn)居市場(chǎng)領(lǐng)先,市場(chǎng)份額達(dá) 到 60%,從實(shí)際上險(xiǎn)數(shù)據(jù)來看,配備 Momenta 城市 NOA 技術(shù)的量產(chǎn)車型累計(jì)銷 量高達(dá) 11.4 萬輛,位居市場(chǎng)首位。


3.2. VLA 技術(shù)領(lǐng)先的車企和供應(yīng)商未來或在具身智能領(lǐng)域存在更大想 象空間

具身智能是指智能體(如機(jī)器人、無人機(jī)、智能汽車等)通過物理實(shí)體與環(huán)境實(shí) 時(shí)交互,實(shí)現(xiàn)感知、認(rèn)知、決策和行動(dòng)一體化。具身智能技術(shù)體系可分為“感知 —決策—行動(dòng)—反饋”四個(gè)模塊?!案兄K”進(jìn)行信息采集和處理,使用多模態(tài) 模型來處理和融合多維傳感數(shù)據(jù)?!皼Q策模塊”接受環(huán)境感知信息后,完成級(jí)任務(wù) 規(guī)劃和推理分析,并生成逐步?jīng)Q策指令來控制行動(dòng),當(dāng)前具體實(shí)現(xiàn)主要依靠以大 模型為核心的智能決策,模擬人類思維完成復(fù)雜任務(wù)決策?!靶袆?dòng)模塊”接受決策 指令后執(zhí)行具體動(dòng)作,目前主要有三種具體實(shí)現(xiàn)路徑,一是強(qiáng)化學(xué)習(xí)與主流 Transformer 架構(gòu)結(jié)合,二是大模型作為強(qiáng)化學(xué)習(xí)輔助工具,突破強(qiáng)化學(xué)習(xí)低樣本 效率問題,三是 VLA 視覺語言動(dòng)作大模型實(shí)現(xiàn)從自然語言到可執(zhí)行動(dòng)作指令的 直接轉(zhuǎn)換?!胺答伳K”通過多層交互不斷接收來自環(huán)境的反饋經(jīng)驗(yàn)并進(jìn)行調(diào)整和 優(yōu)化,以提高對(duì)環(huán)境的適應(yīng)性和智能化水平,主要利用大模型加速信息處理,學(xué) 習(xí)反饋經(jīng)驗(yàn),形成閉環(huán)優(yōu)化。智能駕駛汽車作為具身智能分支,其技術(shù)架構(gòu)與機(jī) 器人等一脈相承,在硬件傳感器與零部件、軟件算法技術(shù)方面均有極大共通性。

自研 VLA 車企和智駕 VLA 供應(yīng)商所積累的供應(yīng)鏈硬件協(xié)同能力能夠幫助車企迅 速入局機(jī)器人產(chǎn)業(yè)。硬件層面,電機(jī)、傳感器、減速/轉(zhuǎn)換機(jī)構(gòu)、電池、軸承、結(jié) 構(gòu)件、冷卻系統(tǒng)、控制器、芯片等硬件,在機(jī)器人以及汽車產(chǎn)業(yè)中都有著廣泛的 應(yīng)用。2022 年 10月特斯拉在 AI Day 上推出人形機(jī)器人 Optimus,其在設(shè)計(jì)中大 量借鑒智能汽車硬件技術(shù),如采用和特斯拉汽車上一樣的中央處理器,配上網(wǎng)聯(lián) 設(shè)備、聲音系統(tǒng)、電子安全等組成機(jī)器人大腦;利用汽車仿真進(jìn)行機(jī)器人結(jié)構(gòu)開 發(fā);電機(jī)設(shè)計(jì)利用汽車設(shè)計(jì)的理論和經(jīng)驗(yàn)。與汽車相似,機(jī)器人也主要利用攝像 頭來作為環(huán)境感知傳感器,并同樣使用 OCC 占用網(wǎng)絡(luò)算法進(jìn)行識(shí)別等。除此之 外,汽車硬件供應(yīng)商也在向具身智能領(lǐng)域拓展布局,如傳感器廠商將車載感知方案適配至機(jī)器人,電機(jī)企業(yè)技術(shù)服用開發(fā)關(guān)節(jié)驅(qū)動(dòng)模塊等。主機(jī)廠未來可利用在 供應(yīng)鏈上的成熟經(jīng)驗(yàn)和客戶網(wǎng)絡(luò),快速遷移機(jī)器人領(lǐng)域,并利用具備大規(guī)模自動(dòng) 化生產(chǎn)能力幫助未來量產(chǎn)降本。

智駕 VLA 技術(shù)根源于機(jī)器人領(lǐng)域,兩者結(jié)構(gòu)上具有極大共通性,自研 VLA 車企 和智駕 VLA 供應(yīng)商在具身智能擴(kuò)展具有天然的技術(shù)可能性。2023 年 Google DeepMind 在機(jī)器人領(lǐng)域發(fā)布了 RT-2 模型,基于 RT-1 的 VLM 模型進(jìn)行改進(jìn),首 次將視覺、語言與動(dòng)作控制端到端融合,正式提出 VLA 概念。隨后,VLA 模型 在機(jī)器人領(lǐng)域得到了熱切關(guān)注和廣泛應(yīng)用。2024 年 6 月豐田、谷歌、斯坦福、UC 巴克利合作推出 OpenVLA,為第一個(gè)開源的 VLA 模型。2024 年 10 月韓國(guó) ETRI 發(fā)表關(guān)于 Dual Process VLA 的論文,提出快慢雙系統(tǒng)的分層框架。2025 年 2 月, 美國(guó)人形機(jī)器人獨(dú)角獸 Figure AI 發(fā)布首個(gè)通用 VLA 模型 Helix,是最接近量產(chǎn)的 機(jī)器人 VLA 系統(tǒng)。目前機(jī)器人領(lǐng)域的發(fā)展方向也和智能駕駛一樣,加入強(qiáng)化學(xué) 習(xí),包括強(qiáng)化學(xué)習(xí)微調(diào)和世界模型仿真。自研 VLA 車企和智駕 VLA 供應(yīng)商掌握 的 VLA 技術(shù)能夠以低遷移成本復(fù)用至機(jī)器人領(lǐng)域,算法上的技術(shù)優(yōu)勢(shì)可幫助自 研 VLA 車企和智駕 VLA 供應(yīng)商取得在新興具身智能產(chǎn)業(yè)的布局優(yōu)勢(shì)。

頭部車企已在具身智能領(lǐng)域積極布局。目前國(guó)內(nèi)外車企與頭部供應(yīng)商已通過自研、 對(duì)外投資、合作等各種方式加速進(jìn)入具身智能其他產(chǎn)業(yè),進(jìn)行生態(tài)拓展。在供應(yīng) 鏈協(xié)同、算法復(fù)用的軟硬件優(yōu)勢(shì)下,車企可以將智能駕駛的技術(shù)經(jīng)驗(yàn)遷移至具身 智能其他板塊,成為智能駕駛車企第二增長(zhǎng)曲線,拔高增值空間。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關(guān)信息,請(qǐng)參閱報(bào)告原文。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
前掘金主帥馬龍:我絕對(duì)沒有結(jié)束執(zhí)教生涯,期待能再次執(zhí)教

前掘金主帥馬龍:我絕對(duì)沒有結(jié)束執(zhí)教生涯,期待能再次執(zhí)教

雷速體育
2025-10-24 08:26:11
大洗牌!美智庫(kù)最新空軍實(shí)力排名,中國(guó)第7,印度人民黨高調(diào)轉(zhuǎn)發(fā)

大洗牌!美智庫(kù)最新空軍實(shí)力排名,中國(guó)第7,印度人民黨高調(diào)轉(zhuǎn)發(fā)

劍道萬古似長(zhǎng)夜
2025-10-24 09:19:52
為什么胰腺炎越來越多?醫(yī)生提醒:冰箱久置的3物,或是兇手

為什么胰腺炎越來越多?醫(yī)生提醒:冰箱久置的3物,或是兇手

袁醫(yī)生課堂
2025-10-23 19:41:09
西班牙媒體提到一個(gè)有趣的細(xì)節(jié):亞馬爾對(duì)踢球幾乎到了癡迷的程度

西班牙媒體提到一個(gè)有趣的細(xì)節(jié):亞馬爾對(duì)踢球幾乎到了癡迷的程度

星耀國(guó)際足壇
2025-10-23 23:16:03
網(wǎng)友們說出了伊朗50年來發(fā)展核武器的歷史,屢屢被以色列打斷

網(wǎng)友們說出了伊朗50年來發(fā)展核武器的歷史,屢屢被以色列打斷

清暉有墨
2025-09-30 09:26:45
扣面事件后續(xù)!白衣女真容肥頭大耳,雙方對(duì)話流出嘴欠挨二次追打

扣面事件后續(xù)!白衣女真容肥頭大耳,雙方對(duì)話流出嘴欠挨二次追打

史行途
2025-10-24 08:05:23
李兆會(huì)的18年復(fù)仇路

李兆會(huì)的18年復(fù)仇路

詩(shī)意世界
2025-10-10 14:09:20
吳石犧牲后,偉人很后悔:最大錯(cuò)誤就是沒集中兩個(gè)野戰(zhàn)軍攻打臺(tái)灣

吳石犧牲后,偉人很后悔:最大錯(cuò)誤就是沒集中兩個(gè)野戰(zhàn)軍攻打臺(tái)灣

知鑒明史
2025-10-22 18:58:14
中越戰(zhàn)爭(zhēng)第三天,蘇聯(lián)大將找到黎筍:馬上調(diào)回一個(gè)軍加強(qiáng)河內(nèi)防線

中越戰(zhàn)爭(zhēng)第三天,蘇聯(lián)大將找到黎筍:馬上調(diào)回一個(gè)軍加強(qiáng)河內(nèi)防線

正觀歷史
2025-10-23 11:53:27
郭碧婷爸爸夜市批發(fā)玩具,改口風(fēng),替向太說話,稱自己占向家便宜

郭碧婷爸爸夜市批發(fā)玩具,改口風(fēng),替向太說話,稱自己占向家便宜

好賢觀史記
2025-10-22 16:41:12
遠(yuǎn)華集團(tuán)總裁賴昌星,在獄中對(duì)董文華的回憶,讓無數(shù)人咋舌

遠(yuǎn)華集團(tuán)總裁賴昌星,在獄中對(duì)董文華的回憶,讓無數(shù)人咋舌

曉艾故事匯
2025-08-11 17:19:44
烏鎮(zhèn)數(shù)十位明星素顏出行,楊爍斷崖式衰老,譚松韻歐豪失去星味

烏鎮(zhèn)數(shù)十位明星素顏出行,楊爍斷崖式衰老,譚松韻歐豪失去星味

小撇說事
2025-10-23 09:09:55
這4個(gè)日本羽絨服:幾乎不打廣告,實(shí)力卻不輸波司登、始祖鳥

這4個(gè)日本羽絨服:幾乎不打廣告,實(shí)力卻不輸波司登、始祖鳥

時(shí)尚搭配師Nicole
2025-10-16 16:49:54
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

南書房
2025-09-28 23:01:03
罕見一幕出現(xiàn),國(guó)臺(tái)辦直接回應(yīng)鄭麗文來北京,賴清德退路全斷

罕見一幕出現(xiàn),國(guó)臺(tái)辦直接回應(yīng)鄭麗文來北京,賴清德退路全斷

一個(gè)有靈魂的作者
2025-10-23 16:09:33
湖人揭幕戰(zhàn)鏡頭帶到詹姆斯身后美女,身份曝光引熱議:葵老師好!

湖人揭幕戰(zhàn)鏡頭帶到詹姆斯身后美女,身份曝光引熱議:葵老師好!

體育妞世界
2025-10-23 08:56:38
沒有想到,巴基斯坦的俾路支人,與中國(guó)之間竟還有著千年恩怨

沒有想到,巴基斯坦的俾路支人,與中國(guó)之間竟還有著千年恩怨

知鑒明史
2025-09-13 17:20:05
歐盟多國(guó)要求匈牙利,俄羅斯總統(tǒng)專機(jī)落地,馬上“逮捕普京”?

歐盟多國(guó)要求匈牙利,俄羅斯總統(tǒng)專機(jī)落地,馬上“逮捕普京”?

快看張同學(xué)
2025-10-24 09:11:55
ASML公司CEO:中國(guó)正在嘗試開發(fā)自主設(shè)備,準(zhǔn)備拋棄掉我們的光刻機(jī),并且還有可能拿稀土卡我們脖子

ASML公司CEO:中國(guó)正在嘗試開發(fā)自主設(shè)備,準(zhǔn)備拋棄掉我們的光刻機(jī),并且還有可能拿稀土卡我們脖子

逍遙漠
2025-10-23 08:36:39
2025-10-24 10:40:49
新浪財(cái)經(jīng) incentive-icons
新浪財(cái)經(jīng)
新浪財(cái)經(jīng)是一家創(chuàng)建于1999年8月的財(cái)經(jīng)平臺(tái)
1150857文章數(shù) 4179關(guān)注度
往期回顧 全部

汽車要聞

比亞迪2026款秦L DM-i上市 限時(shí)補(bǔ)貼價(jià)9.28萬起

頭條要聞

苑舉正:本次國(guó)民黨主席選舉 趙少康干了三件壞事

頭條要聞

苑舉正:本次國(guó)民黨主席選舉 趙少康干了三件壞事

體育要聞

NBA反賭掃黑!楊翰森一覺起來主教練沒了

娛樂要聞

竇驍發(fā)文辟謠婚變傳聞

財(cái)經(jīng)要聞

中共中央介紹和解讀四中全會(huì)精神

科技要聞

馬斯克“加倍下注”,再次挑戰(zhàn)特朗普手下

態(tài)度原創(chuàng)

本地
房產(chǎn)
旅游
教育
手機(jī)

本地新聞

這個(gè)秋天,一起來粉上漓渚!所有風(fēng)景只為等你

房產(chǎn)要聞

海南,正處在一場(chǎng)真實(shí)的時(shí)代紅利之中

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

家長(zhǎng)輔導(dǎo)作業(yè)會(huì)剝奪孩子的3種能力!

手機(jī)要聞

9月及Q3中端排名:vivo、OPPO兄弟難分難解

無障礙瀏覽 進(jìn)入關(guān)懷版 79国产美女久久久| 极品少妇一区二区三区精品视频| 老司机午夜免费精品视频| 亚洲激情5月| 亚洲第一国产综合| 国产精品熟女| 日韩AV无码一区二区| 99精品久久99久久久久| 俄罗斯毛片短视频| 亚洲精品冒白浆| 熟女丝袜潮喷内裤视频网站| 在线视频福利人妻| 欧美大屁股少妇人妻肥臀一区二区三区| www.爽上天con| 18禁看片网站| 亚V日日夜夜| 人人艹夜夜爽| 欧美另类视频一区二区三区| 日韩一区二区三区射精| 中文字幕亚洲综合第一页| 亚洲无码久久久久| 丝袜无码专区人妻视频| 亚洲国产成人久久综合三区| 一区二区三区影院| 国产在线线精品宅男网址| 五月婷婷色色丁香| 久久综合国产一区二区三区| 久久久久无码精品国产699| 日韩在线永久免费播放| 国产一区二区三区无码精品久久| 亚洲中文久久精品无码1| 精品精品国产理论在线观看| 人人爽人人人爽| xxxxxx欧美啪啪| 亚洲精品国产精品乱码视色| 精品视频不卡免费观看| 亚洲 制服 丝袜 无码| 亚洲国产中文字幕| 白嫩少妇激情无码| 97色视频在线| 久久ee热这里只有精品|