網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，谷歌發(fā)布機(jī)器人最新「大腦」模型！思考能力SOTA，還能「跨物種」學(xué)習(xí)

2025-09-26 09:24:16　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧

【新智元導(dǎo)讀】谷歌最新發(fā)布的Gemini Robotics 1.5系列模型，讓機(jī)器人真正學(xué)會(huì)了「思考」，還能跨不同具身形態(tài)學(xué)習(xí)技能。這意味著，未來(lái)的機(jī)器人將成為和人類協(xié)作、主動(dòng)完成復(fù)雜任務(wù)的智能伙伴。

谷歌又給機(jī)器人「換大腦」了！

剛剛，DeepMind發(fā)布了針對(duì)機(jī)器人和具身智能的Gemini Robotics 1.5系列家族模型，專為機(jī)器人和具身智能打造的新一代「大腦」。

Gemini Robotics 1.5系列包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5。

Gemini Robotics 1.5，最先進(jìn)的視覺(jué)-語(yǔ)言-行動(dòng)模型，能將視覺(jué)信息和指令轉(zhuǎn)化為機(jī)器人的運(yùn)動(dòng)指令以執(zhí)行任務(wù)。
Gemini Robotics-ER 1.5，最強(qiáng)大的視覺(jué)-語(yǔ)言模型，能夠?qū)ξ锢硎澜邕M(jìn)行推理，直接調(diào)用數(shù)字工具，并創(chuàng)建詳細(xì)的多步驟計(jì)劃來(lái)完成任務(wù)。

它們結(jié)合在一起，就構(gòu)建出一個(gè)強(qiáng)大的智能體框架。

在下面這個(gè)1分40秒的視頻，谷歌的研究科學(xué)家讓兩個(gè)機(jī)器人完成了兩個(gè)不同任務(wù)。

第一個(gè)任務(wù)是垃圾分類。

請(qǐng)Aloha根據(jù)舊金山的垃圾分類標(biāo)準(zhǔn)，把物品分到堆肥（綠桶）、回收（藍(lán)桶）和垃圾（黑桶）里。

Aloha通過(guò)查閱規(guī)則并觀察物品，完成了分類任務(wù)。

第二個(gè)任務(wù)是打包行李。

請(qǐng)Apollo幫忙打包去倫敦旅行的行李，并放入針織帽。

Apollo還主動(dòng)查詢天氣，提醒倫敦多天會(huì)下雨，并貼心地把雨傘也放進(jìn)包里。

整體看下來(lái)，在最新系列模型的加持下，現(xiàn)在機(jī)器人已經(jīng)越來(lái)越有科幻電影里的那味了！

為實(shí)體任務(wù)開(kāi)啟智能體體驗(yàn)

想象一下，一個(gè)機(jī)器人不僅能看懂你家客廳的雜物，還能規(guī)劃、思考并親手收拾干凈。

Gemini Robotics 1.5正是朝這個(gè)目標(biāo)邁出的關(guān)鍵一步。

它讓機(jī)器人具備「思考后行動(dòng)」的能力，能在復(fù)雜環(huán)境中像人類一樣理解、推理并完成多步驟任務(wù)。

這一突破，有望打開(kāi)通用機(jī)器人的新時(shí)代。

Gemini Robotics-ER 1.5擅長(zhǎng)在物理環(huán)境中進(jìn)行規(guī)劃與邏輯決策，擁有頂尖的空間理解能力，支持自然語(yǔ)言交互，可評(píng)估任務(wù)成功率與進(jìn)度，并能直接調(diào)用谷歌搜索等工具獲取信息或使用任何第三方用戶自定義功能。

隨后，Gemini Robotics-ER 1.5會(huì)為Gemini Robotics 1.5提供每一步的自然語(yǔ)言指令，后者則運(yùn)用其視覺(jué)與語(yǔ)言理解能力直接執(zhí)行具體動(dòng)作。

Gemini Robotics 1.5還能協(xié)助機(jī)器人反思自身行為，以更好地解決語(yǔ)義復(fù)雜的任務(wù)，甚至能用自然語(yǔ)言解釋其思考過(guò)程——這讓它的決策更加透明。

這兩款模型均基于核心Gemini模型家族構(gòu)建，并通過(guò)不同數(shù)據(jù)集進(jìn)行微調(diào)以專精于各自職能。

當(dāng)它們協(xié)同工作時(shí)，可顯著提升機(jī)器人對(duì)長(zhǎng)周期任務(wù)和多樣化環(huán)境的泛化能力。

先理解「環(huán)境」再「行動(dòng)」

Gemini Robotics-ER 1.5是首個(gè)為具身推理優(yōu)化的思維模型。

它在學(xué)術(shù)和內(nèi)部基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了最先進(jìn)的性能表現(xiàn)。

下面展示了Gemini Robotics-ER 1.5的部分能力，包括物體檢測(cè)與狀態(tài)估計(jì)、分割掩碼、指向識(shí)別、軌跡預(yù)測(cè)以及任務(wù)進(jìn)度評(píng)估與成功檢測(cè)。

三「思」而后「行」

傳統(tǒng)上，視覺(jué)-語(yǔ)言-動(dòng)作模型直接將指令或語(yǔ)言規(guī)劃轉(zhuǎn)化為機(jī)器人的運(yùn)動(dòng)。

但Gemini Robotics 1.5不僅能翻譯指令或規(guī)劃，如今還能在行動(dòng)前進(jìn)行思考。

這意味著它能以自然語(yǔ)言生成內(nèi)部推理與分析序列，從而執(zhí)行需要多步驟或更深層語(yǔ)義理解的任務(wù)。

在下面這段3分40秒的視頻，谷歌的科學(xué)家展示了機(jī)器人如何去完成更復(fù)雜的任務(wù)。

比如第一段將不同顏色的水果分類放到對(duì)應(yīng)的盤(pán)子里。機(jī)器人需要能感知環(huán)境、分析顏色并逐步完成動(dòng)作。

第二段Apollo被要求幫助分類洗衣物和打包物品。它能自主思考并在執(zhí)行中展現(xiàn)出鏈?zhǔn)饺蝿?wù)規(guī)劃與反應(yīng)能力，例如調(diào)整籃子來(lái)更好地?fù)炱鹨挛?，或?qū)εR時(shí)變化作出即時(shí)反應(yīng)。

跨越不同形態(tài)的具身機(jī)器人學(xué)習(xí)

機(jī)器人形態(tài)各異、大小不一，具備不同的感知能力和自由度，這使得將從一個(gè)機(jī)器人學(xué)到的動(dòng)作遷移到另一個(gè)機(jī)器人變得困難。

Gemini Robotics 1.5展現(xiàn)出卓越的跨具身學(xué)習(xí)能力。

它能將從一個(gè)機(jī)器人學(xué)到的動(dòng)作遷移到另一個(gè)機(jī)器人，無(wú)需針對(duì)每種新形態(tài)專門調(diào)整模型。

這一突破加速了新行為的學(xué)習(xí)進(jìn)程，助力機(jī)器人變得更智能、更實(shí)用。

在下面這段2分鐘的視頻里，谷歌科學(xué)家展示了不同「物種」機(jī)器人之間如何泛化學(xué)習(xí)。

在Gemini Robotics 1.5中，一個(gè)模型可以跨多個(gè)機(jī)器人使用。

比如Aloha在衣柜場(chǎng)景中已有經(jīng)驗(yàn)，而Apollo從未見(jiàn)過(guò)，卻能通過(guò)遷移學(xué)習(xí)完成開(kāi)門、拿衣服等全新動(dòng)作。

這展示了「跨具身學(xué)習(xí)」的潛力。

未來(lái)，不同場(chǎng)景中的機(jī)器人（如物流、零售）可互相學(xué)習(xí)，從而大大加快通用機(jī)器人研發(fā)的進(jìn)程。

參考資料：

https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.