智東西
作者 陳駿達
編輯 云鵬
智東西9月26日報道,今天,谷歌DeepMind推出Gemini Robotics 1.5系列機器人模型,通過思維鏈機制和模型協(xié)作,進一步提升機器人的自主性,使其能夠感知、計劃、思考、使用工具和行動,以更好地解決復雜的多步驟任務。谷歌將其稱之為把AI agents帶入物理世界的重要一步。
谷歌DeepMind本次發(fā)布的兩款模型分別為Gemini Robotics 1.5和Gemini Robotics-ER 1.5。前者是谷歌目前最強大的VLA(視覺-語言-動作)模型,能將視覺信息和文本指令轉化為機器人的控制命令,主要充當機器人的小腦。這一模型在采取行動前會思考,并展示思考過程,還能在不同的機器人本體上進行學習,提升學習效率。
Gemini Robotics-ER 1.5則是谷歌迄今為止最強大的VLM模型(視覺語言模型),能對物理世界進行推理,更像是機器人的大腦。它原生具備調用數(shù)字工具并創(chuàng)建詳細的多步驟計劃,進而完成任務的能力。該模型在空間理解基準測試中實現(xiàn)了最先進的性能,具身推理能力遠超GPT-5、Gemini 2.5 Flash等模型。
搭載上述兩款新模型的機器人,也因此解鎖了完成復雜長鏈路任務的能力。比如,你可以讓機器人查詢當?shù)乩诸愐螅瑢⒆烂嫔系奈锲贩诺秸_的垃圾桶中。模型能準確理解這一復雜需求,并驅動機器人完成任務。
開發(fā)者可以通過Google AI Studio中的Gemini API使用Gemini Robotics-ER 1.5模型,而Gemini Robotics 1.5目前可供部分合作伙伴使用。谷歌還發(fā)布了Gemini Robotics 1.5系列模型的技術報告。
技術報告:
https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
模型鏈接:
https://deepmind.google/models/gemini-robotics/gemini-robotics/
一、基于Gemini基礎模型打造,訓練數(shù)據(jù)來自3款機器人
對機器人而言,大多數(shù)日常任務都需要上下文信息和多個步驟才能完成,這對目前的機器人而言頗具挑戰(zhàn)。為了幫助機器人完成復雜、多步驟的任務,谷歌DeepMind讓Gemini Robotics 1.5和Gemini Robotics-ER 1.5兩款模型在同一個Agent框架中協(xié)同工作。
具身推理模型Gemini Robotics-ER 1.5像大腦一樣協(xié)調機器人的活動。該模型擅長在物理環(huán)境中進行規(guī)劃和做出邏輯決策,也具有先進的空間理解能力,能以自然語言與用戶進行交互,對任務是否成功和任務進展進行評判,并且可以調用谷歌搜索等工具來查找信息,或使用任何第三方用戶定義的函數(shù)。
Gemini Robotics-ER 1.5為每個步驟提供自然語言指令,而Gemini Robotics 1.5利用其視覺和語言理解直接執(zhí)行特定動作。Gemini Robotics 1.5還幫助機器人思考其行動,以更好地解決語義復雜的任務,甚至可以用自然語言解釋其思維過程,使其決策更加透明。
這兩個模型都建立在Gemini系列模型之上,這使得它們能夠繼承Gemini的多模態(tài)世界知識、先進推理以及工具使用的通用能力。之后,兩款模型使用不同的數(shù)據(jù)集進行了微調,以專注于各自的角色。當它們結合起來時,可以提高機器人泛化到長任務和多樣化的環(huán)境的能力。
Gemini Robotics 1.5系列模型共同使用的訓練數(shù)據(jù)集由三種模態(tài)組成:圖像、文本,以及機器人傳感器與動作數(shù)據(jù)。
訓練所用的機器人數(shù)據(jù)集是多本體(multi-embodiment)的,涵蓋了數(shù)千個多樣化任務,從抓取與操控,到雙臂協(xié)作,再到人形機器人執(zhí)行日常復雜任務。這些數(shù)據(jù)采集自多個異構機器人平臺,包括ALOHA、Bi-arm Franka和Apollo人形機器人。
▲Gemini Robotics 1.5系列模型能開箱即用地完成跨本體任務
除了機器人專屬數(shù)據(jù)集,訓練數(shù)據(jù)中還包括來自互聯(lián)網(wǎng)的公開文本、圖像和視頻數(shù)據(jù)集,使得模型不僅具備機器人相關技能,還能借助大規(guī)模世界知識提升泛化能力。
為了確保訓練的高質量與安全性,所有數(shù)據(jù)在使用前必須經過嚴格處理。谷歌DeepMind通過多階段篩選,確保數(shù)據(jù)遵循相關政策,去除低質量樣本與不符合規(guī)范的內容。
數(shù)據(jù)集中每張圖像都配備了原始描述與合成描述,這些合成描述由Gemini和FlexCap模型生成,幫助模型捕捉圖像中的細節(jié)與上下文語義。
訓練過程中使用了最新一代硬件,包括TPU v4、v5p與v6e,并結合JAX與ML Pathways框架,以實現(xiàn)高效并行訓練與跨平臺擴展。
二、靠動作遷移機制實現(xiàn)跨本體,讓機器人學會“三思而后行”
作為一款VLA模型,Gemini Robotics 1.5的使命是“理解指令并將其轉化為動作”。為了實現(xiàn)這一目標,研究者在訓練中引入了一個關鍵機制——動作遷移(Motion Transfer, MT)。
MT的作用是打破不同機器人之間的“壁壘”。在傳統(tǒng)方法中,如果一個機器人學會了某項技能,往往需要額外訓練才能遷移到另一個機器人。
而在MT的加持下,Gemini Robotics 1.5能夠在不同實體之間直接實現(xiàn)零樣本遷移(Zero-shot Transfer)。也就是說,即便模型只在ALOHA機器人平臺上學過“打開抽屜”,它也能在Apollo人形機器人上完成同樣的任務。
這一能力來自于MT機制對動作與物理的統(tǒng)一建模,它能對齊不同平臺的數(shù)據(jù)并提取其中的共性。
除此之外,Gemini Robotics 1.5還具備了具身思考(Embodied Thinking)的能力。它在執(zhí)行動作之前,會生成一條以自然語言形式呈現(xiàn)的“思考軌跡”。這條軌跡幫助模型將復雜任務拆解為更細致的步驟。
例如,當接到“幫我收拾桌子”的指令時,模型可能會先在思考中分解為“拿起杯子”、“移動到水槽”、“放下杯子”等小步驟。這種方式不僅降低了從語言到動作的直接映射難度,也讓模型在執(zhí)行過程中更具魯棒性。
如果杯子在移動過程中掉落,它會立刻調整思考軌跡,改為“重新拾起杯子”,而不是簡單判定任務失敗。
與Gemini Robotics 1.5不同,Gemini Robotics-ER 1.5并不直接操控機器人執(zhí)行具體動作,而是專注于具身推理(Embodied Reasoning),負責高層次的任務規(guī)劃與決策。
在訓練中,Gemini Robotics-ER 1.5針對機器人任務所需的關鍵能力進行了特別優(yōu)化。首先,它能夠完成復雜的任務規(guī)劃,把長遠目標拆解成一系列合理的子任務。
其次,它具備較強的空間推理能力,可以結合視覺與時間信息,理解物體的相對位置與運動軌跡。最后,它還能夠進行任務進度估計,實時判斷任務是否成功、完成度如何,并據(jù)此調整后續(xù)動作。
▲Gemini Robotics-ER 1.5能完成的部分任務
Gemini Robotics-ER 1.5在15個學術具身推理基準測試中實現(xiàn)了最高的綜合性能,超過Gemini Robotics-ER 1.0和GPT-5等模型。
它能夠將語言描述準確地映射到視覺目標上,比如“指向桌子左下角的藍色杯子”,或是基于多視角信息實時判斷機器人動作是否達成目標,這對長序列任務的穩(wěn)定執(zhí)行至關重要。
在整個體系中,Gemini Robotics-ER 1.5的定位是編排器(Orchestrator)。它接收人類指令與環(huán)境反饋,制定總體計劃,再將這些計劃轉化為Gemini Robotics 1.5能執(zhí)行的具體動作指令。它還具備調用外部工具(如網(wǎng)絡搜索)的能力,確保機器人在面對復雜場景時依舊能夠靈活應對。
不過,具備更高自主性和執(zhí)行能力的機器人,也可能帶來安全風險。為此,谷歌DeepMind已經開發(fā)了新型的安全和對齊方法,包括頂層的安全判斷機制和更為底層的安全子系統(tǒng)(如用于避免碰撞的系統(tǒng))。
谷歌DeepMind還發(fā)布了機器人安全基準測試ASIMOV的升級版,這是一個用于評估和改進語義安全性的綜合數(shù)據(jù)集,具有更好的邊緣場景覆蓋率、改進的注釋、新的安全問題類型和新的視頻模式。
在ASIMOV基準測試中,Gemini Robotics-ER 1.5顯示出最先進的性能,其思維能力極大地有助于提高對語義安全的理解,更好地遵守物理安全約束。
結語:機器人模型跨本體化共識逐漸形成
與傳統(tǒng)依賴單一數(shù)據(jù)和特定平臺的訓練方式不同,Gemini Robotics 1.5系列模型通過多本體數(shù)據(jù)、動作遷移機制,以及具身思考與推理范式,讓機器人能夠跨平臺遷移技能,并在復雜環(huán)境中展現(xiàn)出類似人類的適應能力,擴展了機器人模型的通用性。
而這也成為不少廠商打造機器人模型的目標之一。日前,宇樹開源的機器人世界大模型UnifoLM-WMA-0,雖采取了不同的架構,但也同樣具備適配多種機器人本體的能力??绫倔w化,或許已經逐漸成為行業(yè)的共識與新賽道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.