新智元報(bào)道
編輯:定慧
【新智元導(dǎo)讀】谷歌最新發(fā)布的Gemini Robotics 1.5系列模型,讓機(jī)器人真正學(xué)會(huì)了「思考」,還能跨不同具身形態(tài)學(xué)習(xí)技能。這意味著,未來(lái)的機(jī)器人將成為和人類協(xié)作、主動(dòng)完成復(fù)雜任務(wù)的智能伙伴。
谷歌又給機(jī)器人「換大腦」了!
剛剛,DeepMind發(fā)布了針對(duì)機(jī)器人和具身智能的Gemini Robotics 1.5系列家族模型,專為機(jī)器人和具身智能打造的新一代「大腦」。
Gemini Robotics 1.5系列包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5。
Gemini Robotics 1.5,最先進(jìn)的視覺(jué)-語(yǔ)言-行動(dòng)模型,能將視覺(jué)信息和指令轉(zhuǎn)化為機(jī)器人的運(yùn)動(dòng)指令以執(zhí)行任務(wù)。
Gemini Robotics-ER 1.5,最強(qiáng)大的視覺(jué)-語(yǔ)言模型,能夠?qū)ξ锢硎澜邕M(jìn)行推理,直接調(diào)用數(shù)字工具,并創(chuàng)建詳細(xì)的多步驟計(jì)劃來(lái)完成任務(wù)。
它們結(jié)合在一起,就構(gòu)建出一個(gè)強(qiáng)大的智能體框架。
在下面這個(gè)1分40秒的視頻,谷歌的研究科學(xué)家讓兩個(gè)機(jī)器人完成了兩個(gè)不同任務(wù)。
第一個(gè)任務(wù)是垃圾分類。
請(qǐng)Aloha根據(jù)舊金山的垃圾分類標(biāo)準(zhǔn),把物品分到堆肥(綠桶)、回收(藍(lán)桶)和垃圾(黑桶)里。
Aloha通過(guò)查閱規(guī)則并觀察物品,完成了分類任務(wù)。
第二個(gè)任務(wù)是打包行李。
請(qǐng)Apollo幫忙打包去倫敦旅行的行李,并放入針織帽。
Apollo還主動(dòng)查詢天氣,提醒倫敦多天會(huì)下雨,并貼心地把雨傘也放進(jìn)包里。
整體看下來(lái),在最新系列模型的加持下,現(xiàn)在機(jī)器人已經(jīng)越來(lái)越有科幻電影里的那味了!
為實(shí)體任務(wù)開(kāi)啟智能體體驗(yàn)
想象一下,一個(gè)機(jī)器人不僅能看懂你家客廳的雜物,還能規(guī)劃、思考并親手收拾干凈。
Gemini Robotics 1.5正是朝這個(gè)目標(biāo)邁出的關(guān)鍵一步。
它讓機(jī)器人具備「思考后行動(dòng)」的能力,能在復(fù)雜環(huán)境中像人類一樣理解、推理并完成多步驟任務(wù)。
這一突破,有望打開(kāi)通用機(jī)器人的新時(shí)代。
Gemini Robotics-ER 1.5擅長(zhǎng)在物理環(huán)境中進(jìn)行規(guī)劃與邏輯決策,擁有頂尖的空間理解能力,支持自然語(yǔ)言交互,可評(píng)估任務(wù)成功率與進(jìn)度,并能直接調(diào)用谷歌搜索等工具獲取信息或使用任何第三方用戶自定義功能。
隨后,Gemini Robotics-ER 1.5會(huì)為Gemini Robotics 1.5提供每一步的自然語(yǔ)言指令,后者則運(yùn)用其視覺(jué)與語(yǔ)言理解能力直接執(zhí)行具體動(dòng)作。
Gemini Robotics 1.5還能協(xié)助機(jī)器人反思自身行為,以更好地解決語(yǔ)義復(fù)雜的任務(wù),甚至能用自然語(yǔ)言解釋其思考過(guò)程——這讓它的決策更加透明。
這兩款模型均基于核心Gemini模型家族構(gòu)建,并通過(guò)不同數(shù)據(jù)集進(jìn)行微調(diào)以專精于各自職能。
當(dāng)它們協(xié)同工作時(shí),可顯著提升機(jī)器人對(duì)長(zhǎng)周期任務(wù)和多樣化環(huán)境的泛化能力。
先理解「環(huán)境」再「行動(dòng)」
Gemini Robotics-ER 1.5是首個(gè)為具身推理優(yōu)化的思維模型。
它在學(xué)術(shù)和內(nèi)部基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了最先進(jìn)的性能表現(xiàn)。
下面展示了Gemini Robotics-ER 1.5的部分能力,包括物體檢測(cè)與狀態(tài)估計(jì)、分割掩碼、指向識(shí)別、軌跡預(yù)測(cè)以及任務(wù)進(jìn)度評(píng)估與成功檢測(cè)。
三「思」而后「行」
傳統(tǒng)上,視覺(jué)-語(yǔ)言-動(dòng)作模型直接將指令或語(yǔ)言規(guī)劃轉(zhuǎn)化為機(jī)器人的運(yùn)動(dòng)。
但Gemini Robotics 1.5不僅能翻譯指令或規(guī)劃,如今還能在行動(dòng)前進(jìn)行思考。
這意味著它能以自然語(yǔ)言生成內(nèi)部推理與分析序列,從而執(zhí)行需要多步驟或更深層語(yǔ)義理解的任務(wù)。
在下面這段3分40秒的視頻,谷歌的科學(xué)家展示了機(jī)器人如何去完成更復(fù)雜的任務(wù)。
比如第一段將不同顏色的水果分類放到對(duì)應(yīng)的盤(pán)子里。機(jī)器人需要能感知環(huán)境、分析顏色并逐步完成動(dòng)作。
第二段Apollo被要求幫助分類洗衣物和打包物品。它能自主思考并在執(zhí)行中展現(xiàn)出鏈?zhǔn)饺蝿?wù)規(guī)劃與反應(yīng)能力,例如調(diào)整籃子來(lái)更好地?fù)炱鹨挛?,或?qū)εR時(shí)變化作出即時(shí)反應(yīng)。
跨越不同形態(tài)的具身機(jī)器人學(xué)習(xí)
機(jī)器人形態(tài)各異、大小不一,具備不同的感知能力和自由度,這使得將從一個(gè)機(jī)器人學(xué)到的動(dòng)作遷移到另一個(gè)機(jī)器人變得困難。
Gemini Robotics 1.5展現(xiàn)出卓越的跨具身學(xué)習(xí)能力。
它能將從一個(gè)機(jī)器人學(xué)到的動(dòng)作遷移到另一個(gè)機(jī)器人,無(wú)需針對(duì)每種新形態(tài)專門調(diào)整模型。
這一突破加速了新行為的學(xué)習(xí)進(jìn)程,助力機(jī)器人變得更智能、更實(shí)用。
在下面這段2分鐘的視頻里,谷歌科學(xué)家展示了不同「物種」機(jī)器人之間如何泛化學(xué)習(xí)。
在Gemini Robotics 1.5中,一個(gè)模型可以跨多個(gè)機(jī)器人使用。
比如Aloha在衣柜場(chǎng)景中已有經(jīng)驗(yàn),而Apollo從未見(jiàn)過(guò),卻能通過(guò)遷移學(xué)習(xí)完成開(kāi)門、拿衣服等全新動(dòng)作。
這展示了「跨具身學(xué)習(xí)」的潛力。
未來(lái),不同場(chǎng)景中的機(jī)器人(如物流、零售)可互相學(xué)習(xí),從而大大加快通用機(jī)器人研發(fā)的進(jìn)程。
參考資料:
https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.