衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
全球首個(gè)具備模擬推理能力的具身模型來(lái)了!
谷歌DeepMind正式發(fā)布新一代通用機(jī)器人基座模型——Gemini Robotics 1.5系列。
它不止于對(duì)語(yǔ)言、圖像進(jìn)行理解,還結(jié)合了視覺(jué)、語(yǔ)言與動(dòng)作(VLA),并通過(guò)具身推理(Embodied Reasoning)來(lái)實(shí)現(xiàn)“先思考,再行動(dòng)”。
這一系列由兩大模型組成:
- Gemini Robotics 1.5(GR 1.5):負(fù)責(zé)動(dòng)作執(zhí)行的多模態(tài)大模型;
- Gemini Robotics-ER 1.5(GR-ER 1.5):強(qiáng)化推理能力,提供規(guī)劃與理解支持。
其中,ER代表“具身推理”。
這意味著GR-ER 1.5是全球首個(gè)具備模擬推理能力的具身模型。
不過(guò),GR-ER 1.5并不執(zhí)行任何實(shí)際操作,GR 1.5正是為執(zhí)行層而生。
兩者結(jié)合,能讓機(jī)器人不僅完成“折紙、解袋子”這樣的單一動(dòng)作,還能解決“分揀深淺色衣物”甚至“根據(jù)某地天氣自動(dòng)打包行李”這種需要理解外部信息、分解復(fù)雜流程的多步任務(wù)。
甚至,它能根據(jù)特定地點(diǎn)的特定要求(比如北京和上海的不同垃圾分類(lèi)標(biāo)準(zhǔn)),自己上網(wǎng)搜索,以幫助人們完成垃圾分類(lèi)。
而且用上GR 1.5系列的模型,還能夠在多種不同的機(jī)器人之間進(jìn)行能力的零樣本跨平臺(tái)遷移。
Unbelivable~
毫不夸張地說(shuō),這是谷歌繼Gemini 2.5之后,又一個(gè)將通用AI推向現(xiàn)實(shí)世界的重要里程碑。
哈斯比斯也激動(dòng)表示:
- GR 1.5以多模態(tài)Gemini為基礎(chǔ),展示了其能夠理解并推理物理世界的強(qiáng)大功能。
未來(lái)機(jī)器人將變得至關(guān)重要——我們對(duì)這項(xiàng)開(kāi)創(chuàng)性工作感到非常興奮!
GR 1.5系列五大能力展示
先來(lái)看一段視頻——
我們來(lái)把GR 1.5系列在發(fā)布中展示的能力,總結(jié)為五個(gè)關(guān)鍵詞:
執(zhí)行復(fù)雜長(zhǎng)程任務(wù),中間還能自我檢測(cè)并修正
不僅限于一次抓取、一次搬運(yùn),GR 1.5能執(zhí)行包含多步子任務(wù)的長(zhǎng)流程。
比如:
- 把不同顏色的衣服分類(lèi);
- 從衣柜取出雨衣,再打包進(jìn)行李箱;
- 在廚房完成配料準(zhǔn)備,甚至嘗試烹飪流程。
在GR 1.5這里,任務(wù)被分解成多個(gè)階段,機(jī)器人逐一完成。
更重要的是,在執(zhí)行任務(wù)的過(guò)程中,GR 1.5能檢測(cè)成功與否,并自動(dòng)修正。
適配多種機(jī)器人硬件
同一個(gè)模型,既可以驅(qū)動(dòng)低成本雙臂機(jī)器人ALOHA,還可以驅(qū)動(dòng)工業(yè)級(jí)Franka,還可以驅(qū)動(dòng)人形機(jī)器人Apollo。
一整個(gè)絲滑無(wú)縫遷移使用。
這意味著,不需要針對(duì)每個(gè)平臺(tái)單獨(dú)訓(xùn)練,一個(gè)通用模型就能上手不同團(tuán)隊(duì)、不同形態(tài)的多種硬件。
跨機(jī)器人遷移
谷歌DeepMind機(jī)器人部門(mén)負(fù)責(zé)人Carolina Parada表示:
- 如今的機(jī)器人高度定制化,部署困難,往往需要數(shù)月時(shí)間來(lái)安裝一個(gè)只能執(zhí)行單一任務(wù)的單元。
轉(zhuǎn)觀GR 1.5系列,這個(gè)模型在ALOHA上學(xué)會(huì)的技能,可以直接遷移到Franka;在Franka上訓(xùn)練的操作,能零樣本轉(zhuǎn)移到Apollo。
這背后的關(guān)鍵在于Motion Transfer技術(shù)(詳細(xì)介紹見(jiàn)后文),使機(jī)器人不再局限于“誰(shuí)教誰(shuí)用”,而是真正形成跨平臺(tái)的通用動(dòng)作理解。
推理型具身模型
如前文介紹,GR-ER 1.5是一個(gè)具身推理模型。
這使得GR 1.5系列加持下的機(jī)器人在行動(dòng)前,會(huì)在內(nèi)心生成一段內(nèi)心獨(dú)白。
它會(huì)先用自然語(yǔ)言把復(fù)雜任務(wù)拆解為小步驟,再逐一執(zhí)行。
這種顯性思考不僅讓機(jī)器人更穩(wěn)健,也讓人類(lèi)可以清晰看到它的思考過(guò)程,提升了可解釋性。
GR 1.5系列的兩款模型協(xié)同工作,共同推理思考如何完成任務(wù)。
如下圖展示:
安全可解釋
在演示中,研究人員展示了GR 1.5系列加持下的機(jī)器人,在操作中如何自我修正:
比如抓起水瓶失敗后,立刻轉(zhuǎn)換方案,用另一只手完成任務(wù)。
同時(shí),模型還能識(shí)別潛在風(fēng)險(xiǎn),避免危險(xiǎn)動(dòng)作,確保在人類(lèi)環(huán)境中運(yùn)行時(shí)的安全性。
提出全新“Motion Transfer”機(jī)制
Gemini Robotics 1.5最大的突破,在于實(shí)現(xiàn)了“規(guī)劃+執(zhí)行”的完整閉環(huán)。
前面我們已經(jīng)提到過(guò),這一系列由兩大模型組成:
- GR 1.5:VLA模型,專(zhuān)注將語(yǔ)言/視覺(jué)輸入轉(zhuǎn)化為動(dòng)作輸出。
- GR-ER 1.5:強(qiáng)化推理的Vision-Language模型,負(fù)責(zé)高層規(guī)劃、工具使用與進(jìn)度監(jiān)控。
兩款模型都基于Gemini基礎(chǔ)模型構(gòu)建而來(lái),但已使用適應(yīng)物理空間操作的數(shù)據(jù)進(jìn)行微調(diào)。
其中,前者是執(zhí)行者,能夠直接把自然語(yǔ)言和視覺(jué)輸入轉(zhuǎn)化為低層級(jí)的機(jī)器人動(dòng)作。
后者是大腦指揮官,負(fù)責(zé)理解復(fù)雜任務(wù)、做出高層規(guī)劃,并在必要時(shí)調(diào)用外部工具、監(jiān)控任務(wù)進(jìn)度。
二者組合成一個(gè)Agentic Framework,讓機(jī)器人不僅能聽(tīng)懂指令,還能思考如何完成并執(zhí)行到底,以此實(shí)現(xiàn)“規(guī)劃+執(zhí)行”的閉環(huán)。
支撐這一體系的,是GR 1.5系列龐大而多樣化的數(shù)據(jù)來(lái)源。
一方面,團(tuán)隊(duì)采集了大量真實(shí)機(jī)器人在ALOHA、Franka、Apollo等平臺(tái)上完成的成千上萬(wàn)種操作數(shù)據(jù)。
另一方面,數(shù)據(jù)集中還引入了互聯(lián)網(wǎng)中的文本、圖像與視頻信息,確保模型既擁有來(lái)自現(xiàn)實(shí)的動(dòng)作經(jīng)驗(yàn),具備廣泛的語(yǔ)義與世界知識(shí)。
要真正讓不同形態(tài)的機(jī)器人共享技能,單靠數(shù)據(jù)還不夠。
為此,研究團(tuán)隊(duì)提出了全新的Motion Transfer機(jī)制。
Motion Transfer的核心思路,是把不同機(jī)器人平臺(tái)的運(yùn)動(dòng)軌跡和操作經(jīng)驗(yàn),映射到一個(gè)統(tǒng)一的動(dòng)作語(yǔ)義空間中。
這樣一來(lái),看似完全不同的硬件——比如機(jī)械臂與人形機(jī)器人——在模型眼中就有了共通語(yǔ)言,于是能把不同機(jī)器人平臺(tái)的動(dòng)作映射到一個(gè)統(tǒng)一的表示空間,使得GR 1.5系列具備操作經(jīng)驗(yàn)跨機(jī)器人遷移的能力。
更重要的是,Motion Transfer不只是做簡(jiǎn)單的對(duì)齊,它還結(jié)合了跨平臺(tái)的大規(guī)模數(shù)據(jù)。
它“提煉”出了物理世界的通用規(guī)律:
物體怎么被抓住、怎樣保持平衡、不同環(huán)境下動(dòng)作要如何調(diào)整……以此增強(qiáng)任務(wù)泛化和跨機(jī)器人遷移測(cè)試的能力和水平。
同時(shí),在訓(xùn)練過(guò)程中,大約九成以上的迭代都在MuJoCo仿真環(huán)境中完成,模型先在虛擬世界里快速試錯(cuò)、迭代,再遷移到真實(shí)機(jī)器人進(jìn)行驗(yàn)證。
這樣一來(lái),不僅顯著提升了研發(fā)效率,也保證了在現(xiàn)實(shí)硬件上執(zhí)行時(shí)的穩(wěn)定性與安全性。
三大核心創(chuàng)新,還不犧牲安全性
研究團(tuán)隊(duì)提出,GR 1.5系列的核心價(jià)值,在于同時(shí)實(shí)現(xiàn)了三個(gè)方面的創(chuàng)新與突破。
最引人注目的,是它讓機(jī)器人具備了思考推理的能力。
在傳統(tǒng)的模型中,動(dòng)作往往是對(duì)指令的直接映射,而 GR 1.5 在行動(dòng)前會(huì)先生成一段思考軌跡,把復(fù)雜任務(wù)拆解成小步驟,再逐一執(zhí)行。
這種顯性推理不僅讓機(jī)器人在多步任務(wù)中更穩(wěn)健,還讓研究人員和用戶(hù)能夠直接看到它的思考過(guò)程,增強(qiáng)了可解釋性和信任感。
另一項(xiàng)突破是跨平臺(tái)的技能遷移。
過(guò)去,機(jī)器人學(xué)習(xí)往往被局限在某一特定平臺(tái)上,數(shù)據(jù)難以復(fù)用。
但GR 1.5系列在引入Motion Transfer機(jī)制后,把不同機(jī)器人之間的動(dòng)作經(jīng)驗(yàn)抽象到統(tǒng)一空間,使得在機(jī)器人甲身上學(xué)到的技能,可以直接遷移到機(jī)器人乙身上——甚至在未見(jiàn)過(guò)的新環(huán)境中也能順利執(zhí)行。
這意味著機(jī)器人不再被硬件形態(tài)束縛,而是能夠共享整個(gè)生態(tài)的知識(shí)與經(jīng)驗(yàn)。
與此同時(shí),具身推理模型GR-ER 1.5把“理解物理世界”的能力推向了新高度。
它不僅能進(jìn)行空間理解和任務(wù)規(guī)劃,還能實(shí)時(shí)評(píng)估任務(wù)進(jìn)度,識(shí)別潛在風(fēng)險(xiǎn),甚至在復(fù)雜場(chǎng)景中做出類(lèi)似人類(lèi)的推斷與修正。
在學(xué)術(shù)基準(zhǔn)測(cè)試中,GR-ER 1.5在空間推理、復(fù)雜指點(diǎn)、進(jìn)度檢測(cè)等任務(wù)上全面超越了GPT-5和Gemini 2.5 Flash,刷新了業(yè)界的表現(xiàn)上限。
研究團(tuán)隊(duì)還對(duì)GR 1.5系列做了更多評(píng)測(cè):
在230項(xiàng)任務(wù)的基準(zhǔn)測(cè)試中,GR 1.5在指令泛化、動(dòng)作泛化、視覺(jué)泛化和任務(wù)泛化四個(gè)維度上都表現(xiàn)出色,明顯優(yōu)于前代模型。
在長(zhǎng)時(shí)序任務(wù)上,結(jié)合GR-ER 1.5的系統(tǒng),任務(wù)完成進(jìn)度分?jǐn)?shù)最高接近80%,幾乎是單一VLA模型的兩倍。
尤其值得注意的是,在跨機(jī)器人遷移測(cè)試中,模型展現(xiàn)出了前所未有的零樣本遷移能力。
更關(guān)鍵的是,這種強(qiáng)大性能并沒(méi)有以犧牲安全為代價(jià)。
如下圖數(shù)據(jù)顯示,GR 1.5 在ASIMOV-2.0安全基準(zhǔn)中表現(xiàn)出更高的風(fēng)險(xiǎn)識(shí)別與干預(yù)能力,能夠理解動(dòng)作背后的物理風(fēng)險(xiǎn),并在必要時(shí)觸發(fā)保護(hù)機(jī)制。
配合自動(dòng)紅隊(duì)測(cè)試的持續(xù)打磨,模型在抵御對(duì)抗攻擊、避免幻覺(jué)響應(yīng)等方面也展現(xiàn)出更強(qiáng)魯棒性。
One More Thing
讓我們簡(jiǎn)單回溯一下——
今年3月,谷歌首次推出了讓機(jī)器人擁有多模態(tài)理解能力的Gemini Robotics系列;6月,又推出了Gemini Robotics On-Device,這是一個(gè)針對(duì)快速適配和機(jī)器人硬件上穩(wěn)健靈巧性進(jìn)行優(yōu)化的本地版本。
Parada表示,隨著這次更新,GR系列正從執(zhí)行單一指令轉(zhuǎn)向?qū)ξ锢砣蝿?wù)進(jìn)行真正的理解和解決問(wèn)題。
But!
噔噔噔,最后敲個(gè)黑板:
目前,開(kāi)發(fā)者已經(jīng)可以通過(guò)Google AI Studio中的Gemini API使用GR-ER 1.5,而GR 1.5只供少數(shù)谷歌DeepMind的合作伙伴使用。
等等黨們,看來(lái)還要再等等等等等一會(huì)了……
參考鏈接:
[1]https://x.com/demishassabis/status/1971292365592854602?s=46&t=fzKJptGJMpr-yj3MUXd6HA
[2]https://arstechnica.com/google/2025/09/google-deepmind-unveils-its-first-thinking-robotics-ai/
[3]https://www.theverge.com/news/785193/google-deepmind-gemini-ai-robotics-web-search
[4]https://the-decoder.com/google-deepmind-brings-agentic-ai-capabilities-into-robots-with-two-new-gemini-models/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.