6月28日,馬斯克在自家社交媒體發(fā)文稱,“汽車第一次自動交付給主人”,并斷言“這一壯舉不僅提前一天完成,還標志著自動駕駛技術(shù)邁出了歷史性的一步” 。同一天,特斯拉公布一段視頻,這兩Model Y(參數(shù)丨圖片)從特斯拉奧斯汀工廠出發(fā),全程無駕駛員/安全員,自稱無遠程操作員。完全自主地駛出停車場,經(jīng)過城市路段、上下告訴,歷經(jīng)30分鐘車程,來到用戶家門口,把自己交付給客戶。
客戶也在幾個小時后發(fā)表了感言。這通操作具備以上所有要素,但在國內(nèi)輿論圈幾乎沒激起什么水花(除了雷軍發(fā)了一條微博),討論度很低。
孤證不立
有人認為,原因在于國內(nèi)法規(guī)不允許,導致該操作無法效仿。兩國在自動駕駛/輔助駕駛上法規(guī)的思路上的確存在差異。在探索技術(shù)商業(yè)化這方面,中國是典型的“法律后置”思路,即監(jiān)管發(fā)現(xiàn)技術(shù)可能性之后,頒發(fā)多個試點牌照,成熟了逐步放開商業(yè)運營。這意味著只要主機廠在中等樣本規(guī)模上證實了能力之后,法規(guī)是會開綠燈的。反之,法規(guī)不允許的話無須假裝抱怨,歸根結(jié)底是沒能力。這個能力要求成功概率相當高(譬如高于99.99%),相差的0.01%,就是廠家應該承擔責任的那部分。
最容易想到的是,如果是一個孤例,那的確沒太大意義(多年前就能做到類似的事情,但一直未能證明商業(yè)上的可靠性)。這輛車盡管最高時速116公里,但24公里的路程,花費30分鐘,意味著大部分時間為低速行駛(考慮到奧斯汀郊區(qū)白天路況相當寬松)。
盡管該視頻聲稱一刀未剪(有加速),但還是太容易作弊了。就算無遠程操作員,想提高成功率的話,可以提前采好這個路段的高精度地圖數(shù)據(jù),做一個特供版。用高精圖匹配+博弈算法,處理特殊路況;如果還想繼續(xù)提升成功率,就影子駕駛跑熟這段路,本車采用熟路通勤模式,零接管還是很容易做到的,大不了就多次嘗試。
如果樣本大到一定程度(比如上千個交付案例,用戶一定距離內(nèi)隨機選定),還是能說明特斯拉具備了“自動交付”能力,焦點就變成工程可靠性的問題。
學習路線占優(yōu)
特斯拉HW5.0的配置,業(yè)內(nèi)已經(jīng)耳熟能詳:感知硬件由12顆攝像頭、4顆毫米4D波雷達、12顆超聲波雷達組成。GPU+IMU(慣性測量單元)用于精確定位和姿態(tài)感知。FSD算力芯片由Dojo架構(gòu)雙芯片組成(液冷),總算力1.1EFLOPS。順便說一句,Dojo超算中心也用的是同一類芯片,只不過是25基本tile(瓦片)組成一個訓練模組,120個模組組成一個計算集群。
而其軟件(FSD V14.x)為典型的“一段式”端到端神經(jīng)網(wǎng)絡,即從感知(實際上是攝像頭和毫米波雷達的融合數(shù)據(jù))直接映射到駕駛決策。
該系統(tǒng)基于訓練,模仿人類的駕駛行為,生成駕駛軌跡。理論上,F(xiàn)SDV14.x有能力規(guī)劃包含高速、城市道路、住宅區(qū)在內(nèi)最優(yōu)路徑。
自2022年起(國內(nèi)要到2023年)直到今天,這種端到端神經(jīng)網(wǎng)絡,成為智駕的首選路線。而在此之前,以及最近,邏輯驅(qū)動路徑成為AI演化的另一條路。
走這條路的開發(fā)人員認為,人類智能的精髓在于推理。核心是符號表征知識,依據(jù)規(guī)則操作符號表達式。而端到端為代表的神經(jīng)網(wǎng)絡路線,則認為智能的本質(zhì)在于神經(jīng)網(wǎng)絡的學習。雖然人類擁有真正的神經(jīng)網(wǎng)絡,而計算機只有模擬的神經(jīng)網(wǎng)絡(本質(zhì)都一樣:多個輸入信號經(jīng)過神經(jīng)節(jié)形成輸出, 而輸入信號則來自其他神經(jīng),神經(jīng)節(jié)在計算機里相當于一組函數(shù))。這條路線的精髓在于,理解學習是如何發(fā)生的。
學習的瓶頸在于“黑箱”
端到端訓練無非是調(diào)整多個輸入信號的權(quán)重,觀察輸出的變化。這種方式更像是生物進化中的突變。隨機調(diào)整一個權(quán)重,看看神經(jīng)系統(tǒng)表現(xiàn),是變好了還是變差了。如果變好,就保留這個改動。問題是,神經(jīng)系統(tǒng)的權(quán)重數(shù)量可能高達萬億級別,如果每一次突變都用海量樣本驗證效果,效率簡直令人發(fā)指。
如果改變一下思路,將數(shù)據(jù)直接給到神經(jīng)網(wǎng)絡底層(也就是初始輸入端),信息經(jīng)過多層多節(jié)點一直傳遞到輸出層,得到一個預測結(jié)果。將這一結(jié)果與已知答案比較。然后就將誤差從輸出層反向傳回網(wǎng)絡。網(wǎng)絡可以計算出,對每一個輸入權(quán)重進行微小調(diào)整,降低結(jié)果產(chǎn)生正面還是負面的影響(此時仍然是定性分析)。然后更新權(quán)重,重新微調(diào)并計算。只要重復這個過程,預測表現(xiàn)會越來越好。事實證明,結(jié)果收斂很快。
這個過程,就是訓練。神經(jīng)網(wǎng)絡占住業(yè)內(nèi)主流地位已經(jīng)多年。而神經(jīng)網(wǎng)絡用于智駕,基本上依賴算力和經(jīng)驗,簡單說就是實證主導。就連陶哲軒也吐槽說,這個過程中,學界幾乎毫無貢獻。
以上過程,揭示了模型能工作,但為什么如此,人類不知道。對我們來說,端到端是黑箱。AI元老杰弗里·辛頓甚至預言,AI將發(fā)展出人類無法理解的內(nèi)部語言。
現(xiàn)在問題還沒有那么嚴重。但是,端到端智駕在多數(shù)時候的對策看上去都是合理的,但少數(shù)時候莫名其妙,明明是相似場景相似任務,卻莫名其妙地失敗了。深度學習和訓練本身不可解釋。系統(tǒng)越強大(模型參數(shù)越多、算力越強),就越不透明。
推理與理解
和毫米波雷達只接收到物理信號不同,視覺圖像也是一種語義理解,而語義理解是一種高緯度的理解。雷達再先進(包括激光雷達),也不會看出一個小孩在橫穿馬路,它頂多會告訴你,前方150米有個移動小目標,大小未知、橫向移動速度5m/s。重要的并非識別障礙物,而是理解人類規(guī)則。
既然視覺可以真正理解,推理就重新變得受重視。有學者強烈懷疑神經(jīng)網(wǎng)絡處理語言的能力(這也是為什么端到端要用規(guī)則兜底)。語言的核心是符號表達,大語言本身就是強大的建模媒介。GPT和DeepSeek為代表的大語言模型,都是如此。
句法并非重要,語言的真正功能是提供詞語。這些詞語“如同積木”(也是辛頓說的),構(gòu)建了人類對世界的理解。
而大語言模型,實際上將詞義視為一大堆特征的集合。比如,“白色貨柜車”與“白色大車”,在語義上接近,因為它們激活的特征集高度重合。從智駕的角度,可以將其視為同一類東西,進一步區(qū)分的必要性不大。
智駕系統(tǒng)理解交通規(guī)則、場景和相關(guān)視覺語言,在某種程度上都可以被視為基于推理的預測。即讓一個語義特征,去預測下一個語義特征,和聊天機器人的原理極為相似。用在道路上,能描繪一個交通參與者的連續(xù)運動軌跡,預測其在下一秒出現(xiàn)的地方。幸好,它們不會飛,也不會原地旋轉(zhuǎn),自由度相當有限,很容易預測。
這些預測,最終學到了能夠捕捉交通場景結(jié)構(gòu)的規(guī)則,即讀懂交通。這和人類開車時的大腦活動已經(jīng)很相似。不用說,谷歌發(fā)明的Transformer架構(gòu),提升了模型預測的能力。即便場景再復雜、參數(shù)再多,更多的參與者,并且需要處理不少模糊和歧義支出,但都可以根據(jù)預測誤差回饋來矯正系統(tǒng)。而所有要素“握手”的過程,就構(gòu)成了場景理解。
從這個意義上講,特斯拉和其他公司的端到端,都非學會規(guī)則,只是學會如何模仿人類開車?,F(xiàn)在的結(jié)果不可控、過程黑盒子,似乎成為通向L3的障礙。
而邏輯推理,則可能規(guī)避這一點。關(guān)鍵是如何讓一個系統(tǒng),同時容納學習與推理兩種方式。
回到開端,結(jié)論呼之欲出,假定場景再復雜一點,特斯拉很難在上千次自動交付中均成功,而一例失敗就可能造成嚴重后果。特斯拉的車載Soc和云的算力更強、訓練和轉(zhuǎn)移效率更高,可能領(lǐng)先于中國廠商,但大家彼此沒有本質(zhì)區(qū)別,都沒有實現(xiàn)場景泛化能力。
真正的自動交付,和“無人車組成車隊服務于城市人群,夜晚到郊區(qū)充電”這樣智慧城市幻想,實際上是一回事?,F(xiàn)在并無希望做到這一點,新的支撐理論尚未誕生。
頗具諷刺意味的是,8月8日,據(jù)說馬斯克已經(jīng)下令關(guān)閉Dojo超算項目,團隊正在集散。負責人彼得·班農(nóng)即將離開公司。而Dojo對于訓練特斯拉的FSD至關(guān)重要。
特斯拉不大可能放棄FSD路線,可能依賴其他公司(英偉達、AMD)提供算力。這對于試圖放“交付大新聞”未果的特斯拉來說,打擊更大一點。也許是時候探索AI在自動駕駛領(lǐng)域的新路線了。
注:圖片部分來源網(wǎng)絡,如有侵權(quán),聯(lián)系刪除。
AI Agent顛覆了端到端了嗎?
“消失的前車”透露了智駕哪方面缺陷?
克服AI幻覺?也許在開智駕倒車
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.