會思考,懂決策”
作者|王磊
編輯|秦章勇
很多人沒注意到的是,憑借增程搶占市場心智的理想,品牌底色已經(jīng)開始變化。
理想i8前不久正式上市,這款車是理想向主流純電市場的戰(zhàn)略產(chǎn)品,競爭對手都是各企業(yè)的拳頭產(chǎn)品,這意味著理想開始走向純電深水區(qū)。
i8所依仗的,除了理想L系列帶來的產(chǎn)品經(jīng)驗以及關于純電方面的創(chuàng)新,有個關鍵技術突破,那就是VLA(視覺-語言-行為)司機大模型。
相比于智能座艙,輔助駕駛技術迭代發(fā)展更快,方向調轉的也更頻繁,稍不注意就有押錯寶的風險,去年由特斯拉引領的端到端大模型變革,讓智能駕駛進入AI大模型時代。
但隨著時間推移,端到端AI大模型的弊端也逐漸顯露出來,比如其本質屬于模仿學習,對于一個駕駛行為,知其然而不知其所以然,也就是說,它解決不了沒有學習過的場景。
VLA司機大模型的本質,則是強化學習,具備自主思考的能力,就像一個會思考、能推理的大腦。
在理想i8上市前夕,超電實驗室在理想汽車總部深度體驗了理想VLA司機大模型,從整體邏輯來看,可以完成很多端到端大模型做不到的動作,安全性和流暢性也提高了不少。
我們還和理想汽車自動駕駛研發(fā)高級副總裁郎咸朋博士進行了深入交流,包括VLA司機大模型的核心研發(fā)成員,聊了聊關于VLA的難點和突破。
一個明顯的感受是,理想對于輔助駕駛的思考,可能是行業(yè)中最深并且落地最快的品牌了。
01
解決“猴子開車” 的困局
首先需要知道的是,什么是理想VLA司機大模型?
現(xiàn)在大家熟知的,也目前市面上最主流,應該是端到端大模型,它可以從一端輸入,從另一端輸出,你給的“數(shù)據(jù)”越多,這時候訓練模型的性能就會非常好。
“但是到了1000萬Clips之后,我們發(fā)現(xiàn)一個問題:只增長數(shù)據(jù)量是沒有用的,有價值的數(shù)據(jù)越來越少?!崩硐胼o助駕駛負責人郎咸朋說。
其實不難理解,端到端+VLM就像“猴子開車”一樣,它會按照你的意圖做一些行為,當一只猴子看 1000萬段人類開車的視頻,它能學會模仿人的動作,比如在什么情況下打方向盤,什么時候踩剎車等等。
也正是靠著這種“模仿”,理想汽車在 7 個月內,就將輔助駕駛的平均接管里程從12公里提升到了 120公里。
但問題是,“猴子”并不知道自己為什么要做這些行為,一敲鑼它就過來,一打鼓它就跳舞,但不知道為什么要跳舞,這樣就導致有價值的數(shù)據(jù)量少了之后,性能提升就會慢下來。
究其原因,是現(xiàn)在端到端的這套模仿學習并不具備深度的邏輯思考能力,“猴子”只知道刻板的固定行為,比如當遇到一個從未見過的拐角,黑暗橋洞下竄出的行人等,當其處于一個違反常理的行駛行為下,這只“猴子”的大腦就宕機了。
VLA司機大模型應運而生。
從端到端+VLM轉變到VLA,本質上從模仿學習變成強化學習,用生成數(shù)據(jù),結合仿真環(huán)境來訓練模型,通過各類傳感器或者導航信息的輸入,讓模型對個空間有一個具體的感知,這也是“V”所代表的含義。
然后把感知到的空間理解,像人一樣總結、翻譯、壓縮、編碼成一種大模型能”聽懂“的語言,是VLA中的“L”。
而“A”則是根據(jù)“L”對場景的編碼,生成行為策略,就是模型該怎么開這個車。其中的關鍵就是,語言(Language),像是一個會思考、能推理的大腦。
這樣鏈路下的結果,一個顯著的效果就莫過于“言出法隨”的指令,用語言可以直接跟它交流,比如開快點,左轉右轉等等。
02
VLA實際體驗怎么樣?
這一點,超電實驗室在體驗理想i8 VLA司機模型就有非常直觀的感受。
體驗時長雖然不長,但場景已經(jīng)相對豐富,你可以用語音來操控理想汽車的駕駛行為。
當你在車內正常行駛時,你可以對它說“理想同學,開快點”,然后車內的理想同學會回應你“收到,我將調快速度?!?/p>
你可以明顯到車輛有加速的感覺,從中控臺上能看到時速從63km/h推到了70km/h。
你甚至不用說具體的加減速幅度,它可以根據(jù)周圍的路況來選擇合適的加減速幅度,比如讓理想同學慢一點時,也會根據(jù)當時正處于施工的路段,將速度從40km/h減到了35km/h。
除此以外,你還可以通過語音控制完成靠邊停車、指揮行駛,左右轉向等操作。
當你需要臨時停車時,同樣是呼叫理想同學,發(fā)出靠邊停車的指令,然后它就會馬上回應,“好的,靠邊停車”,然后會選擇慢慢減速,并不會因為突發(fā)的指令而急剎車,從中控屏上能看到,當時是29km/h的速度,大概是經(jīng)過了30米的距離,將速度降到了0,并完成靠邊停車。
而且是一邊減速,一邊慢慢向路邊靠近,這就很符合我們人類駕駛的習慣,在停好后,理想同學會說,“完成??俊!比缓笞屇憬庸苘囕v。
如果你覺得這個地方臨時停車不方便,你還可以跟理想同學說,“往前行駛20米”,它同樣可以執(zhí)行,而且確實是只往前走20米,在停下后,同樣會提示完成???,請接管車輛的提醒。
即便是靠邊停車接管車輛了,你想再繼續(xù)走時,仍可以0幀起手說出“繼續(xù)行駛”的指令,然后它就會觀察路況,并快速并入主道。
不光是臨時??浚部梢远c停車,比如你可以描述一個前方的標志物,它就可以理解然后停在那個標志物的旁邊,比如現(xiàn)在發(fā)出了一個指令——“停在前面紅色三輪車的旁邊”,它就可以完全能理解,同理,如果你是臨時接人,你就完全可以將要接的那個人當做標志物。
道路上的變道操作也可以直接用語音控制,直接跟理想同學說,向左向右的變道,理想同學可以快速識別并執(zhí)行。
深度思維能力的加持下,不光是賦予了VLA司機“言出法隨”的能力,還有深度記憶的能力,比如在開到某條熟悉的路上時,理想同學會說這條路以前你是按照多少時速開的,現(xiàn)在給你調到這個速度。
它會記住你的偏好和選擇,這點和別的車企只會刻板地根據(jù)地圖里的限速調整不同,比如這條路限速可能開60km/h,但你每次都是以開75km/h的速度行駛,VLA大模型就自主記憶下來,即使已經(jīng)超越了這條路的限速。
如果你覺得之前在這條路上開的有點慢了,你還可以接著給他下達新的指令。
在到達路口時,可以看到,這個路口的行人相當多,而且不是按照斑馬線上的標識行走,理想同學會把車平穩(wěn)停在斑馬線前,等待行人通過,甚至中間還和行人博弈了一下,然后選擇禮讓行人。
在經(jīng)過路口時,可以看到還會繞開行人,保持一個安全距離,而且停下和起步的狀態(tài)也相當絲滑,等行人過去后,再快速通過路口。
在和對向來車博弈時,也是處理的相當?shù)轿?,先判斷,然后迅速調整方向通過,經(jīng)過博弈車輛后,會快速并入自己的車道,相當?shù)娜诵曰?/p>
在掉頭的處理上,也相當絲滑,用了三點式掉頭,給駕駛者更穩(wěn)的安全感,而且在大幅度方向的調整上,不拖泥帶水,幾秒鐘的時間就可以完成掉頭。
理想VLA能做的還不僅這些,在理想總部的園區(qū)里,無人駕駛的理想i8VLA“穿梭巴士”能接收到“從A區(qū)到星巴克,再去充電站,最后到C區(qū)地庫”的復雜指令,全程自主穿梭,遇到窄路會把后視鏡貼墻通過,在地庫里能跟著文字導航走,甚至會自己停進5C超充站等待充電等。
03
為什么理想能快速落地VLA?
在郎咸朋看來,這不是運氣使然的結果,是四個維度下厚積薄發(fā)的成就,分別是數(shù)據(jù)、算法、算力和工程。
其表示,雖然 VLA 的數(shù)據(jù)、算法等可能跟之前不太一樣,但是這些仍然是要建立在之前的基礎上的。
如果沒有完整的通過實車采集的數(shù)據(jù)閉環(huán),是沒有數(shù)據(jù)能夠去訓練世界模型的?!袄硐肫囍阅軌蚵涞?VLA 模型,是因為我們有 12 億公里數(shù)據(jù),只有在充分了解這些數(shù)據(jù)的基礎上,才能夠更好的生成數(shù)據(jù)”郎咸朋表示。
而且當傳統(tǒng)實車數(shù)據(jù)無法再提供更多的提升,理想又大規(guī)模引入仿真數(shù)據(jù),你可以把它理解成一個為 AI 司機量身打造的、無限逼真的駕駛模擬器。在這個虛擬世界里,AI 不再是單純模仿,而是通過一次次試錯,去探索和學習。
而郎咸朋在采訪中對仿真數(shù)據(jù)的效果表示非常自信,“我們現(xiàn)在的仿真效果完全可以媲美實車測試?!?/p>
另外就是算法和算力,郎咸朋表示,當前理想擁有總計13 EFLOPS的訓練平臺,其中 10 EFLOPS 分配給訓練,3 EFLOPS 用于推理。據(jù)理想內部估算,其目前所擁有的推理資源等效于 3 萬張英偉達 L20 的推理卡。
算力也是支撐海量數(shù)據(jù)的基礎,在VLA的強化訓練當中,如果沒有推理卡,不能生成仿真的訓練環(huán)境,海量的訓練自然無法進行。
如果說數(shù)據(jù)、算力、算法都是軟實力,那么能將這些軟實力量化的就是其工程能力,畢竟沒有良好的工程能力,模型訓練再好,部署不到芯片和車上,毫無價值。
要知道,如今的VLA大模型還只是初代,隨著時間的迭代,或許要不了多久,輔助駕駛真的要摘掉帽子了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.