特斯拉“自動交付”，國內(nèi)為什么沒人學

2025-08-09 20:31:28　來源: 新浪汽車出品

北京舉報

分享至

6月28日，馬斯克在自家社交媒體發(fā)文稱，“汽車第一次自動交付給主人”，并斷言“這一壯舉不僅提前一天完成，還標志著自動駕駛技術(shù)邁出了歷史性的一步” 。同一天，特斯拉公布一段視頻，這兩Model Y（參數(shù)丨圖片）從特斯拉奧斯汀工廠出發(fā)，全程無駕駛員/安全員，自稱無遠程操作員。完全自主地駛出停車場，經(jīng)過城市路段、上下告訴，歷經(jīng)30分鐘車程，來到用戶家門口，把自己交付給客戶。

客戶也在幾個小時后發(fā)表了感言。這通操作具備以上所有要素，但在國內(nèi)輿論圈幾乎沒激起什么水花（除了雷軍發(fā)了一條微博），討論度很低。

孤證不立

有人認為，原因在于國內(nèi)法規(guī)不允許，導致該操作無法效仿。兩國在自動駕駛/輔助駕駛上法規(guī)的思路上的確存在差異。在探索技術(shù)商業(yè)化這方面，中國是典型的“法律后置”思路，即監(jiān)管發(fā)現(xiàn)技術(shù)可能性之后，頒發(fā)多個試點牌照，成熟了逐步放開商業(yè)運營。這意味著只要主機廠在中等樣本規(guī)模上證實了能力之后，法規(guī)是會開綠燈的。反之，法規(guī)不允許的話無須假裝抱怨，歸根結(jié)底是沒能力。這個能力要求成功概率相當高（譬如高于99.99%），相差的0.01%，就是廠家應該承擔責任的那部分。

最容易想到的是，如果是一個孤例，那的確沒太大意義（多年前就能做到類似的事情，但一直未能證明商業(yè)上的可靠性）。這輛車盡管最高時速116公里，但24公里的路程，花費30分鐘，意味著大部分時間為低速行駛（考慮到奧斯汀郊區(qū)白天路況相當寬松）。

盡管該視頻聲稱一刀未剪（有加速），但還是太容易作弊了。就算無遠程操作員，想提高成功率的話，可以提前采好這個路段的高精度地圖數(shù)據(jù)，做一個特供版。用高精圖匹配+博弈算法，處理特殊路況；如果還想繼續(xù)提升成功率，就影子駕駛跑熟這段路，本車采用熟路通勤模式，零接管還是很容易做到的，大不了就多次嘗試。

如果樣本大到一定程度（比如上千個交付案例，用戶一定距離內(nèi)隨機選定），還是能說明特斯拉具備了“自動交付”能力，焦點就變成工程可靠性的問題。

學習路線占優(yōu)

特斯拉HW5.0的配置，業(yè)內(nèi)已經(jīng)耳熟能詳：感知硬件由12顆攝像頭、4顆毫米4D波雷達、12顆超聲波雷達組成。GPU+IMU（慣性測量單元）用于精確定位和姿態(tài)感知。FSD算力芯片由Dojo架構(gòu)雙芯片組成（液冷），總算力1.1EFLOPS。順便說一句，Dojo超算中心也用的是同一類芯片，只不過是25基本tile（瓦片）組成一個訓練模組，120個模組組成一個計算集群。

而其軟件（FSD V14.x）為典型的“一段式”端到端神經(jīng)網(wǎng)絡，即從感知（實際上是攝像頭和毫米波雷達的融合數(shù)據(jù)）直接映射到駕駛決策。

該系統(tǒng)基于訓練，模仿人類的駕駛行為，生成駕駛軌跡。理論上，F(xiàn)SDV14.x有能力規(guī)劃包含高速、城市道路、住宅區(qū)在內(nèi)最優(yōu)路徑。

自2022年起（國內(nèi)要到2023年）直到今天，這種端到端神經(jīng)網(wǎng)絡，成為智駕的首選路線。而在此之前，以及最近，邏輯驅(qū)動路徑成為AI演化的另一條路。

走這條路的開發(fā)人員認為，人類智能的精髓在于推理。核心是符號表征知識，依據(jù)規(guī)則操作符號表達式。而端到端為代表的神經(jīng)網(wǎng)絡路線，則認為智能的本質(zhì)在于神經(jīng)網(wǎng)絡的學習。雖然人類擁有真正的神經(jīng)網(wǎng)絡，而計算機只有模擬的神經(jīng)網(wǎng)絡（本質(zhì)都一樣：多個輸入信號經(jīng)過神經(jīng)節(jié)形成輸出，而輸入信號則來自其他神經(jīng)，神經(jīng)節(jié)在計算機里相當于一組函數(shù)）。這條路線的精髓在于，理解學習是如何發(fā)生的。

學習的瓶頸在于“黑箱”

端到端訓練無非是調(diào)整多個輸入信號的權(quán)重，觀察輸出的變化。這種方式更像是生物進化中的突變。隨機調(diào)整一個權(quán)重，看看神經(jīng)系統(tǒng)表現(xiàn)，是變好了還是變差了。如果變好，就保留這個改動。問題是，神經(jīng)系統(tǒng)的權(quán)重數(shù)量可能高達萬億級別，如果每一次突變都用海量樣本驗證效果，效率簡直令人發(fā)指。

如果改變一下思路，將數(shù)據(jù)直接給到神經(jīng)網(wǎng)絡底層（也就是初始輸入端），信息經(jīng)過多層多節(jié)點一直傳遞到輸出層，得到一個預測結(jié)果。將這一結(jié)果與已知答案比較。然后就將誤差從輸出層反向傳回網(wǎng)絡。網(wǎng)絡可以計算出，對每一個輸入權(quán)重進行微小調(diào)整，降低結(jié)果產(chǎn)生正面還是負面的影響（此時仍然是定性分析）。然后更新權(quán)重，重新微調(diào)并計算。只要重復這個過程，預測表現(xiàn)會越來越好。事實證明，結(jié)果收斂很快。

這個過程，就是訓練。神經(jīng)網(wǎng)絡占住業(yè)內(nèi)主流地位已經(jīng)多年。而神經(jīng)網(wǎng)絡用于智駕，基本上依賴算力和經(jīng)驗，簡單說就是實證主導。就連陶哲軒也吐槽說，這個過程中，學界幾乎毫無貢獻。

以上過程，揭示了模型能工作，但為什么如此，人類不知道。對我們來說，端到端是黑箱。AI元老杰弗里·辛頓甚至預言，AI將發(fā)展出人類無法理解的內(nèi)部語言。

現(xiàn)在問題還沒有那么嚴重。但是，端到端智駕在多數(shù)時候的對策看上去都是合理的，但少數(shù)時候莫名其妙，明明是相似場景相似任務，卻莫名其妙地失敗了。深度學習和訓練本身不可解釋。系統(tǒng)越強大（模型參數(shù)越多、算力越強），就越不透明。

推理與理解

和毫米波雷達只接收到物理信號不同，視覺圖像也是一種語義理解，而語義理解是一種高緯度的理解。雷達再先進（包括激光雷達），也不會看出一個小孩在橫穿馬路，它頂多會告訴你，前方150米有個移動小目標，大小未知、橫向移動速度5m/s。重要的并非識別障礙物，而是理解人類規(guī)則。

既然視覺可以真正理解，推理就重新變得受重視。有學者強烈懷疑神經(jīng)網(wǎng)絡處理語言的能力（這也是為什么端到端要用規(guī)則兜底）。語言的核心是符號表達，大語言本身就是強大的建模媒介。GPT和DeepSeek為代表的大語言模型，都是如此。

句法并非重要，語言的真正功能是提供詞語。這些詞語“如同積木”（也是辛頓說的），構(gòu)建了人類對世界的理解。

而大語言模型，實際上將詞義視為一大堆特征的集合。比如，“白色貨柜車”與“白色大車”，在語義上接近，因為它們激活的特征集高度重合。從智駕的角度，可以將其視為同一類東西，進一步區(qū)分的必要性不大。

智駕系統(tǒng)理解交通規(guī)則、場景和相關(guān)視覺語言，在某種程度上都可以被視為基于推理的預測。即讓一個語義特征，去預測下一個語義特征，和聊天機器人的原理極為相似。用在道路上，能描繪一個交通參與者的連續(xù)運動軌跡，預測其在下一秒出現(xiàn)的地方。幸好，它們不會飛，也不會原地旋轉(zhuǎn)，自由度相當有限，很容易預測。

這些預測，最終學到了能夠捕捉交通場景結(jié)構(gòu)的規(guī)則，即讀懂交通。這和人類開車時的大腦活動已經(jīng)很相似。不用說，谷歌發(fā)明的Transformer架構(gòu)，提升了模型預測的能力。即便場景再復雜、參數(shù)再多，更多的參與者，并且需要處理不少模糊和歧義支出，但都可以根據(jù)預測誤差回饋來矯正系統(tǒng)。而所有要素“握手”的過程，就構(gòu)成了場景理解。

從這個意義上講，特斯拉和其他公司的端到端，都非學會規(guī)則，只是學會如何模仿人類開車?，F(xiàn)在的結(jié)果不可控、過程黑盒子，似乎成為通向L3的障礙。

而邏輯推理，則可能規(guī)避這一點。關(guān)鍵是如何讓一個系統(tǒng)，同時容納學習與推理兩種方式。

回到開端，結(jié)論呼之欲出，假定場景再復雜一點，特斯拉很難在上千次自動交付中均成功，而一例失敗就可能造成嚴重后果。特斯拉的車載Soc和云的算力更強、訓練和轉(zhuǎn)移效率更高，可能領(lǐng)先于中國廠商，但大家彼此沒有本質(zhì)區(qū)別，都沒有實現(xiàn)場景泛化能力。

真正的自動交付，和“無人車組成車隊服務于城市人群，夜晚到郊區(qū)充電”這樣智慧城市幻想，實際上是一回事?，F(xiàn)在并無希望做到這一點，新的支撐理論尚未誕生。

頗具諷刺意味的是，8月8日，據(jù)說馬斯克已經(jīng)下令關(guān)閉Dojo超算項目，團隊正在集散。負責人彼得·班農(nóng)即將離開公司。而Dojo對于訓練特斯拉的FSD至關(guān)重要。

特斯拉不大可能放棄FSD路線，可能依賴其他公司（英偉達、AMD）提供算力。這對于試圖放“交付大新聞”未果的特斯拉來說，打擊更大一點。也許是時候探索AI在自動駕駛領(lǐng)域的新路線了。

注：圖片部分來源網(wǎng)絡，如有侵權(quán)，聯(lián)系刪除。

AI Agent顛覆了端到端了嗎？

“消失的前車”透露了智駕哪方面缺陷？

克服AI幻覺？也許在開智駕倒車

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.