理想 i8 掀起智駕革命! 首發(fā) VLA,郎咸朋放話:對(duì)手現(xiàn)在想追,已經(jīng)來不及了!
昨晚,理想汽車干了一件讓行業(yè)睡不著覺的大事。 他們憋了五年的大招,全球首發(fā)VLA(視覺-語言-行動(dòng))模型,就裝在新車?yán)硐雐8身上。 理想自動(dòng)駕駛老大郎咸朋博士直接放話:對(duì)手再想追趕? 抱歉,為時(shí)已晚!
i8售價(jià)32.18萬起,作為理想進(jìn)軍純電的首款SUV,它在補(bǔ)能和智駕上下了血本。 而VLA,就是它敢叫板市場、定義未來的終極武器。 過去五年,理想在智駕領(lǐng)域一直扮演追趕者角色,被貼著“技術(shù)差生”的標(biāo)簽,如今靠VLA,竟上演了一出驚天逆轉(zhuǎn)。
這VLA有多猛? 說出來你可能不信。 它像個(gè)“神預(yù)測帝”,能結(jié)合看到的畫面(Vision)、理解的指令(Language),瞬間做出安全合理的駕駛動(dòng)作(Action)。 理想車主開車,大約60萬公里會(huì)出一次事故;用了VLA智駕,變成400萬公里才出一次。 他們的目標(biāo)更狠,要干到600萬公里出一次事故,比人開車安全整整十倍! 郎咸朋自信表態(tài),這個(gè)目標(biāo)靠VLA就能實(shí)現(xiàn)。
安全只是底線,舒服才是大招。 VLA被定位成“完美家庭司機(jī)”。 試駕時(shí)發(fā)現(xiàn),在窄得嚇人的雙向道上,右邊有輛三輪車擋路。 你想讓它向左變道? 不好意思,得壓過逆行車道。 以前的智駕敢冒險(xiǎn)試試,現(xiàn)在VLA根本不動(dòng)! 為啥? 郎咸朋團(tuán)隊(duì)說了:安全安心排第一,這種危險(xiǎn)操作,咱不做。 急剎? 重剎? 坐著暈車? 更是不存在的。 這車開得像開了十年專車的老司機(jī)一樣絲滑。
有人問,這不就是“端到端大模型”的升級(jí)版嘛? 郎咸朋笑了:VLA可不止這點(diǎn)本事。 端到端是基礎(chǔ),上限就在這兒了。 VLA剛起步,未來空間大得多。 他用成績說話:去年我們搞端到端,MPI(人工接管里程)從10公里干到了100公里,只用一年。 VLA? 明年我們坐這兒再聊,它能給你干到1000公里去! 你就說狠不狠?
友商肯定不服:不就是發(fā)個(gè)VLA嘛,你能首發(fā),我們也能跟著做?。?郎咸朋淡定回答:晚了。 真不是瞧不起誰,VLA這東西,不是你想追就能追。 跳過前面的規(guī)則算法? 放棄端到端的基礎(chǔ)? 門兒都沒有!
做VLA沒數(shù)據(jù)等于空談。 理想汽車的數(shù)據(jù)墻厚到什么程度? 他們攢了整整12億條駕駛數(shù)據(jù)! 從2020年開始,靠理想ONE一輛一輛跑,一年就攢了1500多萬條有效信息。 正是這些數(shù)據(jù),讓他們懂得世界模型該怎么“活”,知道怎么訓(xùn)練模型學(xué)習(xí)駕駛邏輯。 郎咸朋直指核心:沒有這些數(shù)據(jù)沉淀,別說訓(xùn)練世界模型,你連該造什么樣的數(shù)據(jù)都搞不清!
對(duì)手開始急了:那學(xué)唄! 搞大規(guī)模路測,砸錢收數(shù)據(jù)唄? 郎咸朋又笑了,笑得有點(diǎn)無奈:你們還在用老一套搞啊? 他給理想整了個(gè)“超級(jí)外掛”,仿真測試。
理想團(tuán)隊(duì)的猛料就在這里。 今年,他們90%的測試是在電腦里完成的,完全模擬真實(shí)世界,復(fù)刻率超過99.9%! 過去一年他們還實(shí)打?qū)嵟芰?50多萬公里路測,這不是為了測試功能,而是為了校準(zhǔn)這個(gè)超級(jí)仿真系統(tǒng)有多準(zhǔn)! 為啥不用實(shí)車測試? 郎咸朋反問:效率低、成本高、場景還難復(fù)現(xiàn)。 仿真不僅準(zhǔn),還便宜得不像話,每公里成本只要0.5元,你試試真實(shí)路測,18.4元/公里! 靠這個(gè)系統(tǒng),半年時(shí)間,他們就完成了4000萬公里的測試! 1800倍的效率提升,你怎么追?
最震撼的,還不是測試快慢。 VLA的訓(xùn)練是搞強(qiáng)化學(xué)習(xí),得有成熟真實(shí)的仿真環(huán)境當(dāng)“陪練”。 同行們搞的是端到端那套老方法,依賴模仿學(xué)習(xí)。 郎咸朋說,這兩者從根上就不一樣! 你想按老路抄捷徑? 越抄離得越遠(yuǎn)! 他拋出一句金句:“如果還是沿著端到端思路去做所謂的VLA,你的速度一定會(huì)變慢。 ”這個(gè)技術(shù)代差,成了他信心爆棚的底氣:“世界模型仿真的壁壘非常高,別人很難短時(shí)間復(fù)制出來! ”
VLA模型辣么大、辣么牛,車?yán)锏男酒傅米幔?理想研發(fā)團(tuán)隊(duì)還有個(gè)隱藏技能:算力壓榨大法!
別人還在討論英偉達(dá)Thor芯片強(qiáng)不強(qiáng)時(shí),理想工程師們說:要發(fā)揮Thor的真正實(shí)力? 得改底層! 理想自動(dòng)駕駛團(tuán)隊(duì)向來以“工程能力極強(qiáng)”著稱,他們從拿到Orin芯片做大模型部署那會(huì)兒,就在魔改了,連英偉達(dá)都說“不可能”。 他們愣是從零起步,重寫了PTX底層指令,自己改CUDA,把芯片算力摳到極致。
原本VLA跑一幀需要500-600毫秒,慢得沒法用。 最終,他們硬是把它做到了10Hz響應(yīng)! 10倍提升! 怎么做到的? 答案叫量化精度。 別人搞FP16精度(浮點(diǎn)數(shù)精度16位),他們直接砍到FP8! 精度降了會(huì)影響效果? 研發(fā)專家詹錕解釋了:不會(huì)。 大模型在發(fā)展到一定程度后,其實(shí)對(duì)數(shù)值精度的容忍度變高了,容錯(cuò)能力更強(qiáng)。 加上理想做了海量的數(shù)據(jù)清洗工作,把臟數(shù)據(jù)、噪聲數(shù)據(jù)清掉,模型照樣穩(wěn)定輸出。 詹錕還透露,F(xiàn)P4也在規(guī)劃里呢! 做到這一步,Thor的算力等于又翻一倍。 你就說理想團(tuán)隊(duì)是不是一群技術(shù)老法師?
有人說,這VLA部署起來太費(fèi)勁了,為啥不搞個(gè)精簡版? 詹錕也說了:搞了呀! 我們用了模型蒸餾神技。 理想在云端用海量知識(shí)訓(xùn)練了個(gè)32B的巨型“老師傅”,然后把老師傅的思考邏輯、推理能力,提煉(蒸餾)到3.2B的“學(xué)生小模型”上。 這個(gè)小模型用了行業(yè)首創(chuàng)的8×0.4B MoE架構(gòu),既省算力又能裝下復(fù)雜邏輯。https://www.zhihu.com/pin/1935325023259829650/
https://www.zhihu.com/pin/1935325004855247764/
https://www.zhihu.com/pin/1935324987998306332/
https://www.zhihu.com/pin/1935324971560858798/
https://www.zhihu.com/pin/1935324954674591662/
https://www.zhihu.com/pin/1935324936555168205/
https://www.zhihu.com/pin/1935324918624544063/
https://www.zhihu.com/pin/1935324898156314859/
https://www.zhihu.com/pin/1935324880846426301/
https://www.zhihu.com/pin/1935324861644923153/
https://www.zhihu.com/pin/1935324844347590443/
https://www.zhihu.com/pin/1935324826731550346/
https://www.zhihu.com/pin/1935324808431768637/
https://www.zhihu.com/pin/1935324790475974585/
https://www.zhihu.com/pin/1935324773736493067/
https://www.zhihu.com/pin/1935324750588130398/
https://www.zhihu.com/pin/1935324734188413794/
https://www.zhihu.com/pin/1935324716404565472/
https://www.zhihu.com/pin/1935324699597968703/
https://www.zhihu.com/pin/1935324682736865497/
https://www.zhihu.com/pin/1935324666274247799/
https://www.zhihu.com/pin/1935324649702528526/
https://www.zhihu.com/pin/1935324632560439766/
https://www.zhihu.com/pin/1935324614092891443/
https://www.zhihu.com/pin/1935326238462949177/
https://www.zhihu.com/pin/1935326219349493631/
https://zhuanlan.zhihu.com/p/1935314779456644886
https://zhuanlan.zhihu.com/p/1935284860261466189
https://zhuanlan.zhihu.com/p/1935314935593804621
https://zhuanlan.zhihu.com/p/1935334629696571303
https://zhuanlan.zhihu.com/p/1935334538101372153
https://zhuanlan.zhihu.com/p/1935334446661369936
https://zhuanlan.zhihu.com/p/1935335789107081518
https://zhuanlan.zhihu.com/p/1935335718269478663
https://zhuanlan.zhihu.com/p/1935335536358330636
https://zhuanlan.zhihu.com/p/1935337321319896938
https://zhuanlan.zhihu.com/p/1935337168080961798
https://zhuanlan.zhihu.com/p/1935337011331436616
https://zhuanlan.zhihu.com/p/1935339349127455448
https://zhuanlan.zhihu.com/p/1935340739883143395
https://zhuanlan.zhihu.com/p/1935340669888624076
https://zhuanlan.zhihu.com/p/1935340601039122656
https://zhuanlan.zhihu.com/p/1935340538606892454
https://zhuanlan.zhihu.com/p/1935340473200903077
路徑規(guī)劃環(huán)節(jié)。 過去Diffusion(一種復(fù)雜計(jì)算過程)要推演10步,太慢了! 他們用Flow Matching流匹配技術(shù)一步壓縮成兩步搞定。 詹錕打了個(gè)比方:VLA理解物理空間的距離感超強(qiáng),靠的是大量通識(shí)數(shù)據(jù)訓(xùn)練積累的涌現(xiàn)能力。 你跟i8說“往前挪5米”,它就真的精準(zhǔn)往前挪5米,這不是硬記住的指令,是它真正理解了空間!
當(dāng)被問到VLA的價(jià)值和地位時(shí),詹錕一語點(diǎn)透:VLA不只是智駕的革命。 它其實(shí)是“具身智能”落地物理世界的核心技術(shù)框架。 具身智能啥意思? 就是給機(jī)器一個(gè)身體,像人一樣在物理世界感知、思考和行動(dòng)。 這個(gè)突破不只讓i8更像一位“體貼入微的家庭司機(jī)”,更是未來所有物理AI的基石。 機(jī)器人、智慧空間,都可能靠著VLA技術(shù)框架起飛! 郎咸朋也補(bǔ)充,理想其實(shí)也在機(jī)器人方向上發(fā)力。 短期,他們還不想搞得太花哨:“先把車開好最重要”。
最讓對(duì)手背后發(fā)涼的一幕出現(xiàn)了。 當(dāng)問起競爭對(duì)手也搞VLA會(huì)怎么樣? 郎咸朋直接甩出兩個(gè)結(jié)論:第一,對(duì)手去年才真正把理想當(dāng)回事,“他們?yōu)闀r(shí)已晚”。 第二,“技術(shù)壁壘肯定有”,短期內(nèi)無法超越。 他底氣十足:“他們現(xiàn)在還停留在嘴上說,或者在用端到端方式去做所謂VLA。 ”
為啥他這么有把握? 理想的200人精干團(tuán)隊(duì),是以項(xiàng)目制研發(fā)模式快速突擊的。 從去年的端到端(180人),到今年的VLA(200多人),干出來的效率遠(yuǎn)超幾千人大團(tuán)隊(duì)。 他們不迷戀堆人,追求的是像特斯拉那樣的精品小團(tuán)隊(duì)攻堅(jiān)。
理想i8這次首發(fā)VLA,其實(shí)不只是推出一款新車。 郎咸朋一句話給整個(gè)智駕戰(zhàn)場定了調(diào)子:“對(duì)手追趕已經(jīng)晚了! ”這個(gè)當(dāng)年被稱為“技術(shù)差生”的品牌,這一次站在了規(guī)則的制定者位置上。 所有關(guān)于智能駕駛的話語權(quán)爭奪,從昨天那一刻起,格局徹底變了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.