新智元報(bào)道
編輯:傾傾
【新智元導(dǎo)讀】五年倒計(jì)時(shí)已經(jīng)開(kāi)始。UC伯克利大牛Sergey Levine直言:機(jī)器人很快就會(huì)進(jìn)入真實(shí)世界,接手的不只是廚房與客廳,還可能是工廠、倉(cāng)儲(chǔ),甚至數(shù)據(jù)中心建設(shè)。真正的革命,是「自我進(jìn)化飛輪」一旦啟動(dòng),就不會(huì)停下。
折衣、做飯、拖地,五年后可能都不用你親自動(dòng)手!
UC伯克利教授、機(jī)器人頂級(jí)專家Sergey Levine預(yù)言:2030年前,機(jī)器人就能像家政阿姨一樣,獨(dú)立打理整個(gè)家庭。
這不是炫技演示,而是「自我進(jìn)化飛輪」即將啟動(dòng)的信號(hào)。
家務(wù)只是開(kāi)始,更大的震蕩是——藍(lán)領(lǐng)經(jīng)濟(jì)、制造業(yè)、甚至數(shù)據(jù)中心建設(shè),都將在機(jī)器人潮水中被改寫。
五年倒計(jì)時(shí):飛輪何時(shí)真正啟動(dòng)
當(dāng)Sergey Levine在播客中說(shuō)出「中位數(shù)5年」這個(gè)預(yù)測(cè)片時(shí),很多人會(huì)覺(jué)得這是科幻。
但這并非信口開(kāi)河,而是建立在近年Robot Foundation Models+真實(shí)部署+實(shí)操反饋不斷累積的基礎(chǔ)上。
與此同時(shí),Physical Intelligence的π0.5模型已經(jīng)在未見(jiàn)過(guò)的家居環(huán)境中,讓機(jī)器人完成「清理廚房或臥室」這樣復(fù)雜且延展性的家務(wù)。
π (0.5) 配方中協(xié)同訓(xùn)練任務(wù)的插圖,包括來(lái)自多種不同機(jī)器人類型的各種機(jī)器人數(shù)據(jù)源,以及包含高級(jí)子任務(wù)指令、指令和來(lái)自網(wǎng)絡(luò)的多模態(tài)數(shù)據(jù)。
這些進(jìn)展與演示型視頻不同,它們是清晰可見(jiàn)的實(shí)戰(zhàn)能力——比如機(jī)器人從洗衣籃里取衣、收拾滿是杯盤的餐桌、疊衣服、搭箱子這些動(dòng)作,都是由模組模型+視覺(jué)語(yǔ)言-動(dòng)作網(wǎng)絡(luò)實(shí)現(xiàn)的。
Levine也強(qiáng)調(diào):
真正標(biāo)志這個(gè)飛輪啟動(dòng)的,不在于你造出一臺(tái)看起來(lái)厲害的機(jī)器人,而是機(jī)器人在真實(shí)家庭中 能把一項(xiàng)被人愿意付費(fèi)做的任務(wù)做好。
一旦這個(gè)跨過(guò)這個(gè)門檻,每次實(shí)操都會(huì)帶來(lái)數(shù)據(jù),每次反饋都推動(dòng)改進(jìn),飛輪才真正開(kāi)始轉(zhuǎn)動(dòng)。
而且這并非遙遠(yuǎn)的想象。
UC Berkeley的研究團(tuán)隊(duì)近期展示,機(jī)器人能在一兩個(gè)小時(shí)的真實(shí)操作中學(xué)會(huì)組裝主板、甚至完成IKEA家具拼裝。
雖然效率仍需提升,但這意味著「學(xué)會(huì)做事」的機(jī)制已經(jīng)在現(xiàn)實(shí)里運(yùn)作。
自動(dòng)駕駛難產(chǎn),機(jī)器人卻要加速落地
很多人一聽(tīng)「家務(wù)機(jī)器人」,第一反應(yīng)是:連自動(dòng)駕駛都還沒(méi)普及,機(jī)器人怎么可能更快?但Sergey Levine卻認(rèn)為——機(jī)器人可能落地更快。
原因在于「出錯(cuò)-糾正-學(xué)習(xí)」的循環(huán)。
在家里疊衣服、收拾碗筷、做飯時(shí),機(jī)器人即使出錯(cuò)了,大多也能被迅速糾正,并從中學(xué)到經(jīng)驗(yàn);
而在道路上開(kāi)車則完全不同,一次錯(cuò)誤可能就是災(zāi)難。
這意味著家庭場(chǎng)景里的機(jī)器人能夠更頻繁、更安全地積累數(shù)據(jù)和反饋,學(xué)習(xí)速度自然更快。
另一個(gè)優(yōu)勢(shì)是常識(shí)與直覺(jué)感知。
在家務(wù)環(huán)境中,機(jī)器人面對(duì)的雖然是雜亂、遮擋和各種物品,但整體還是可控的。
相比之下,自動(dòng)駕駛要處理高速運(yùn)動(dòng)、復(fù)雜交通、突發(fā)狀況,且每個(gè)決策都關(guān)乎公共安全,門檻更高。
麻省理工學(xué)院研究者在今年的評(píng)論中所說(shuō):
如果在機(jī)器人感知中加入推理與常識(shí),它們能在現(xiàn)實(shí)世界發(fā)揮的作用會(huì)遠(yuǎn)超我們的想象。
Levine特別強(qiáng)調(diào),真正的關(guān)鍵不是造出萬(wàn)能機(jī)器人,而是讓它在現(xiàn)實(shí)中把某件人們?cè)敢飧顿M(fèi)的事做得足夠好。
一旦跨過(guò)這個(gè)門檻,它就能開(kāi)始上崗,在上崗中不斷改進(jìn),進(jìn)而擴(kuò)展到更多任務(wù)。
這也是他認(rèn)為「機(jī)器人飛輪」可能比自動(dòng)駕駛更早啟動(dòng)的根本原因。
技術(shù)突破并不只體現(xiàn)在更快的落地節(jié)奏,還來(lái)自底層模型的重構(gòu)。
技術(shù)底座:VLA模型與涌現(xiàn)能力
讓機(jī)器人從演示走向真實(shí)家庭任務(wù),靠的不是一兩條硬編碼指令,而是新的底層架構(gòu)——VLA模型。
Sergey Levine在播客里提出了VLA——視覺(jué)(Vision)、語(yǔ)言(Language)、動(dòng)作(Action)模型的概念。
視覺(jué)模塊像眼睛一樣捕捉環(huán)境,語(yǔ)言模塊理解指令并規(guī)劃步驟,而動(dòng)作解碼器則像「運(yùn)動(dòng)皮層」,把抽象計(jì)劃轉(zhuǎn)化為連續(xù)、精準(zhǔn)的操作。
與大語(yǔ)言模型只需生成離散文字不同,機(jī)器人需要處理連續(xù)動(dòng)作。
Levine透露,他們采用了流匹配和擴(kuò)散等方法來(lái)實(shí)現(xiàn)高頻率的精細(xì)控制。
這些技術(shù)讓機(jī)器人不僅能執(zhí)行「疊一件衣服」這樣的單次任務(wù),更能連續(xù)完成復(fù)雜動(dòng)作序列。
更令人驚訝的是,隨著規(guī)模擴(kuò)大,機(jī)器人展現(xiàn)出涌現(xiàn)能力。
在一次實(shí)驗(yàn)中,它誤拿起兩件衣服,先嘗試折疊第一件,發(fā)現(xiàn)另一件礙事,就會(huì)主動(dòng)把多余的衣物放回籃子,再繼續(xù)折疊手里的那件。
當(dāng)購(gòu)物袋意外倒下時(shí),它也會(huì)「自發(fā)」地把袋子扶正。這些細(xì)節(jié)并沒(méi)有寫進(jìn)訓(xùn)練數(shù)據(jù),卻在真實(shí)操作中自然出現(xiàn)。
類似的現(xiàn)象在斯坦福的Vocal Sandbox項(xiàng)目中也出現(xiàn)過(guò)。
研究人員發(fā)現(xiàn),機(jī)器人在打包禮物袋的任務(wù)中,可以把「拿起玩具車」「移動(dòng)到禮物袋」「放下」這些低層動(dòng)作拼接起來(lái),完成一個(gè)全新的復(fù)合任務(wù)。
這說(shuō)明當(dāng)視覺(jué)、語(yǔ)言、動(dòng)作三者真正協(xié)同時(shí),機(jī)器人能把已有的技能像樂(lè)高一樣組合,去應(yīng)對(duì)復(fù)雜場(chǎng)景。
這就是VLA的意義:它不僅是一種架構(gòu),更是一條通向「具身智能」的大道。
機(jī)器人因此不再是機(jī)械臂,而是能逐步積累經(jīng)驗(yàn)、學(xué)會(huì)適應(yīng)的「學(xué)習(xí)型助手」。
從家務(wù)到產(chǎn)業(yè):擴(kuò)張與經(jīng)濟(jì)沖擊
家務(wù)只是起點(diǎn),接下來(lái)是倉(cāng)儲(chǔ)、工廠、數(shù)據(jù)中心等場(chǎng)景。
Levine在播客里提到過(guò)一個(gè)邏輯:
能做好一杯咖啡,就能朝著開(kāi)一家咖啡店邁進(jìn)。
這不只是比喻,而是他的能力擴(kuò)張路徑:先能把某件真實(shí)任務(wù)做得讓人滿意,之后步驟會(huì)越來(lái)越多、越來(lái)越復(fù)雜,而部署也越來(lái)越大。
經(jīng)濟(jì)路徑也很清晰。機(jī)器人先「與人搭檔」,在重復(fù)性體力活、常規(guī)操作中替代人工,這樣人類可以把更多精力放在應(yīng)急判斷和創(chuàng)造性任務(wù)上。
在過(guò)去30年里,機(jī)器人的成本降低了50%以上
McKinsey在「自動(dòng)化與美國(guó)制造業(yè)的人才挑戰(zhàn)」報(bào)告里就指出,那些例行性、重復(fù)性活動(dòng)最容易被自動(dòng)化,而一旦這類環(huán)節(jié)被自動(dòng)化替代,效率和良品率往往會(huì)出現(xiàn)顯著提升。
多個(gè)行業(yè)被改造,機(jī)器人進(jìn)「制造 / 倉(cāng)儲(chǔ) /裝配」等領(lǐng)域。
硬件成本在下降,算法也越來(lái)越精準(zhǔn)。
過(guò)去一臺(tái)研究級(jí)機(jī)器人可能成本極高,而當(dāng)硬件批量生產(chǎn)、材料和組件標(biāo)準(zhǔn)化后,再配合視覺(jué)-語(yǔ)言-動(dòng)作模型的算法,機(jī)器人的「可用性」成本被拉低。
家用場(chǎng)景的門檻變低,也讓更多初創(chuàng)團(tuán)隊(duì)或中小企業(yè)能夠參與部署,進(jìn)而形成規(guī)模效應(yīng)。
當(dāng)這些因素疊加,經(jīng)濟(jì)沖擊將會(huì)是顯著的。
一方面是對(duì)企業(yè)成本和生產(chǎn)率的釋放;另一方面,是對(duì)勞動(dòng)市場(chǎng)、價(jià)值鏈乃至社會(huì)結(jié)構(gòu)的重新塑造。
倉(cāng)儲(chǔ)、包裝、設(shè)備巡檢這些原本需要大量人工的崗位,最有可能成為第一批被機(jī)器人廣泛取代的場(chǎng)景。
當(dāng)機(jī)器人真正走進(jìn)家庭、工廠、工地,我們面臨的不只是效率提升,更是社會(huì)結(jié)構(gòu)的深度調(diào)整。
短期內(nèi),人與機(jī)器的搭檔模式會(huì)帶來(lái)巨大紅利;長(zhǎng)期看,全面自動(dòng)化可能重塑勞動(dòng)、教育與財(cái)富分配的格局。
正如Sergey Levine所說(shuō),
真正重要的不是某個(gè)年份的終點(diǎn),而是飛輪何時(shí)開(kāi)始轉(zhuǎn)動(dòng)。
一旦起步,速度將遠(yuǎn)超我們的直覺(jué)。
接下來(lái)的五年,可能就是決定未來(lái)幾十年格局的窗口期。
參考資料:
https://www.dwarkesh.com/p/sergey-levine
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.