在電影《黑客帝國》中,有一個(gè)令人印象深刻的場景:主角尼奧躺在椅子上,各種格斗技能程序通過數(shù)據(jù)線被直接“上傳”到他的大腦中。幾分鐘后,他睜開眼睛,自信地說出那句經(jīng)典臺詞:“I know Kung Fu?!?/p>
8 月 14 日,智元機(jī)器人發(fā)布首個(gè)機(jī)器人世界模型開源平臺——Genie Envisioner(GE),讓電影“黑客帝國”中的場景照進(jìn)了現(xiàn)實(shí)。
訓(xùn)練機(jī)器人掌握一項(xiàng)技能是一件復(fù)雜、漫長且昂貴的事情。當(dāng)前機(jī)器人學(xué)習(xí)系統(tǒng)普遍采用分階段的開發(fā)模式,數(shù)據(jù)收集、模型訓(xùn)練和策略評估,每個(gè)環(huán)節(jié)都相互獨(dú)立,并需要專門的基礎(chǔ)設(shè)施和任務(wù)特定調(diào)優(yōu)。碎片化的架構(gòu)大幅增加了開發(fā)復(fù)雜度和迭代周期,同時(shí)還限制了系統(tǒng)的可擴(kuò)展性。
不同于傳統(tǒng)訓(xùn)練模式,智元的GE平臺將將策略學(xué)習(xí)、仿真和評估這三大核心環(huán)節(jié),全部統(tǒng)一到一個(gè)視頻生成模型框架中 。讓機(jī)器人在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行,不極大提高了訓(xùn)練效率,還顯著加強(qiáng)了泛化能力。
GE平臺由三大核心組件和一個(gè)套件構(gòu)成
為了能夠便于理解GE平臺的功能,這里借用“黑客帝國”的場景來做類比
GE-Base (世界基礎(chǔ)模型):虛擬世界架構(gòu)師
電影中:Morpheus團(tuán)隊(duì)能構(gòu)建出一個(gè)名為“The Construct”的純白虛擬空間,并在其中加載任何需要的訓(xùn)練場景。
Genie中:GE-Base就是機(jī)器人的“虛擬世界架構(gòu)師”。它通過深度學(xué)習(xí)超過100萬個(gè)真實(shí)機(jī)器人工作視頻,掌握了我們世界的“物理規(guī)律”。當(dāng)接到一個(gè)訓(xùn)練任務(wù),例如“學(xué)會擦桌子”——GE-Base能夠立刻構(gòu)建出一個(gè)高清、逼真的視頻訓(xùn)練場景,完整地展示機(jī)器人如何一步步完成這個(gè)任務(wù)。這個(gè)場景是自洽且符合物理邏輯的。
GE-Act (動作模型):動作控制
電影中:當(dāng)技能上傳完畢,尼奧的身體就能在虛擬或現(xiàn)實(shí)世界中,將腦海中的格斗知識轉(zhuǎn)化為精確的拳腳。
Genie中:GE-Act能瞬間理解“架構(gòu)師”構(gòu)建的宏大藍(lán)圖(那段預(yù)測視頻),并將其翻譯成機(jī)器人身體可以理解的、精確到毫秒的動作指令。最神奇的是,這個(gè)過程效率極高,它無需真的把整個(gè)訓(xùn)練視頻播放一遍,而是直接從場景的潛在結(jié)構(gòu)中提取出關(guān)鍵動作,實(shí)現(xiàn)了“知識”到“行動”的無縫銜接。
GE-Sim (仿真器):虛擬訓(xùn)練空間
電影中:“The Construct”是進(jìn)行技能訓(xùn)練和實(shí)戰(zhàn)模擬的核心場所。
Genie中:GE-Sim就是那臺強(qiáng)大的“虛擬訓(xùn)練空間”。它是一個(gè)可控的神經(jīng)模擬器,允許工程師設(shè)定不同的初始條件和動作腳本,然后生成無數(shù)個(gè)平行的“訓(xùn)練場景”來進(jìn)行測試和演練。這使得機(jī)器人的訓(xùn)練成本大大降低,迭代速度呈指數(shù)級提升,一小時(shí)內(nèi)就能完成數(shù)千次“虛擬排練”。
EWMBench (評估套件):現(xiàn)實(shí)檢驗(yàn)程序
電影中:虛擬訓(xùn)練必須盡可能模擬現(xiàn)實(shí),否則學(xué)到的技能在實(shí)戰(zhàn)中就會失效。
Genie中:EWMBench就是“現(xiàn)實(shí)檢驗(yàn)程序”。它是一套專業(yè)的評估標(biāo)準(zhǔn),用來檢驗(yàn)“訓(xùn)練場景”的質(zhì)量。它會嚴(yán)格審視:這個(gè)場景里的物理規(guī)則對嗎?機(jī)器人的行為和訓(xùn)練目標(biāo)一致嗎?場景穩(wěn)定、沒有出現(xiàn)Bug嗎?這個(gè)程序確保了機(jī)器人的學(xué)習(xí)是在一個(gè)高質(zhì)量、貼近現(xiàn)實(shí)的虛擬環(huán)境中進(jìn)行的。
Genie的驚人之處
超強(qiáng)的“跨平臺”上傳能力
GE 平臺不僅能為熟悉的“大腦”上傳技能,還能快速適配新的“身體”。實(shí)驗(yàn)中,一個(gè)主要在智元自家機(jī)器人上訓(xùn)練的Genie模型,僅需1小時(shí)的新數(shù)據(jù)進(jìn)行微調(diào),就能成功地為一款全新的機(jī)器人“上傳”技能,并指導(dǎo)它完成折疊衣物、打包紙箱等高難度任務(wù)。相比之下,其他頂尖模型在這些任務(wù)上幾乎完全失敗。
長時(shí)序任務(wù)的精確執(zhí)行能力
由于GE 平臺的訓(xùn)練場景是連貫且符合邏輯的,它能夠指導(dǎo)機(jī)器人完成需要長時(shí)記憶和精細(xì)操作的復(fù)雜任務(wù)。比如,機(jī)器人需要先看到盒子里糖果的顏色,蓋上蓋子后,再根據(jù)記憶選擇正確的印章來蓋章。這種能力是傳統(tǒng)“死記硬背”式模型難以企及的。
高效、低成本的“訓(xùn)練”
整個(gè)“技能上傳”流程的統(tǒng)一和自動化,使得教會機(jī)器人一項(xiàng)新技能的成本和時(shí)間都大大降低,為通用機(jī)器人的大規(guī)模應(yīng)用掃清了關(guān)鍵障礙。
GE 平臺的能力邊界
目前,GE-Base主要學(xué)習(xí)的是單一平臺的數(shù)據(jù),未來需要讓它“周游世界”,學(xué)習(xí)更多類型機(jī)器人和場景的數(shù)據(jù)。
技能的類型單一:當(dāng)前的訓(xùn)練主要集中于桌面級的雙臂操作,對于更精細(xì)的靈巧手交互或全身移動(如奔跑、跳躍)等“高級技能”尚未涉足。
雖然EWMBench已經(jīng)非常先進(jìn),但一個(gè)能夠全自動、完美區(qū)分“有效訓(xùn)練”與“無效訓(xùn)練”的終極程序,仍是整個(gè)行業(yè)追求的目標(biāo)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.