機(jī)器之心報道
編輯:Panda
谷歌的 Computer Use 模型來了!
今天凌晨,谷歌 DeepMind 重磅發(fā)布了基于 Gemini 2.5 的計(jì)算機(jī)使用模型Gemini 2.5 Computer Use。
考慮到前些天谷歌才剛剛發(fā)布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的誕生倒不是特別讓人驚訝。簡單來說,與 OpenAI 的 Computer-Using Agent (CUA) 類似,DeepMind 的這個模型可讓 AI 直接控制用戶的瀏覽器 —— 在視覺理解和推理能力的基礎(chǔ)上,該模型可以幫助用戶在瀏覽器中執(zhí)行點(diǎn)擊、滾動和輸入等操作。
先來看兩個官方演示。
提示詞:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.
提示詞:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.
可以看到,不管是收集網(wǎng)絡(luò)信息與執(zhí)行動作,還是整理雜亂筆記,Gemini 2.5 Computer Use 都非常準(zhǔn)確地完成了任務(wù),同時速度也相當(dāng)快。
在相關(guān)基準(zhǔn)上,Gemini 2.5 Computer Use 的性能表現(xiàn)也達(dá)到了 SOTA 水平:
同時,其速度表現(xiàn)也優(yōu)于其它幾個相比較的模型:
目前,開發(fā)者已可以通過 Google AI Studio 和 Vertex AI 的 Gemini API 獲取這些能力。用戶也可以在 Browserbase 托管的演示環(huán)境中試用(最多僅支持 5 分鐘的流程,且不支持用戶中途接管):https://gemini.browserbase.com/
機(jī)器之心使用該演示環(huán)境做了幾次嘗試。整體來看,Gemini 2.5 Computer Use 在完成簡單任務(wù)時準(zhǔn)確度較高,但稍微復(fù)雜一點(diǎn)的任務(wù)就容易失敗。
比如在執(zhí)行「在維基百科上找到 John Wick 頁面」這樣的簡單任務(wù)時,該模型的表現(xiàn)非常成功。
但只要稍微復(fù)雜一點(diǎn),該模型就失敗了,比如「在維基百科上找到 John Wick 頁面,并總結(jié)其信息,給出中文版?!沽硗?,我們讓其「打開諾貝爾獎官方網(wǎng)站,給出今年諾貝爾將宣布的時間表」的任務(wù)以及以下任務(wù)均未能成功完成。
提示詞:瀏覽 jiqizhixin.com,找到近半年關(guān)于 Gemini 的報道,并整理成一份 Markdown 文件,并進(jìn)行總結(jié)。
此外,DeepMind 也已經(jīng)發(fā)布了 Gemini 2.5 Computer Use 系統(tǒng)卡:
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
Gemini 2.5 Computer Use 的工作原理
該模型的核心能力是通過 Gemini API 中新增的computer_use工具實(shí)現(xiàn)的,開發(fā)者使用時需在一個循環(huán)流程(loop)中運(yùn)行。
其輸入應(yīng)包括:
- 用戶請求;
- 當(dāng)前環(huán)境的截圖;
- 最近執(zhí)行動作的歷史記錄。
另外,輸入中還可以指定是否從默認(rèn)支持的 UI 動作中排除特定功能以及添加自定義函數(shù)。
Gemini 2.5 Computer Use 模型工作流程
模型分析這些輸入后,會生成響應(yīng),通常是一個代表 UI 動作的函數(shù)調(diào)用(如點(diǎn)擊或輸入)。在某些操作(如購買行為)中,模型還會請求用戶確認(rèn)??蛻舳穗S后會執(zhí)行這些動作。
動作執(zhí)行完成后,系統(tǒng)會將最新截圖與當(dāng)前 URL 作為函數(shù)響應(yīng)返回給模型,重新啟動循環(huán)。
這一迭代過程會持續(xù)進(jìn)行,直到任務(wù)完成、出現(xiàn)錯誤,或因安全機(jī)制或用戶決定而終止。
谷歌表示,當(dāng)前 Gemini 2.5 Computer Use 模型主要針對網(wǎng)頁瀏覽器優(yōu)化,但在移動端 UI 控制方面也展現(xiàn)出強(qiáng)勁潛力。不過它暫未針對桌面操作系統(tǒng)級控制進(jìn)行優(yōu)化。
安全機(jī)制設(shè)計(jì)
谷歌還在博客中分享了他們對該模型的安全機(jī)制設(shè)計(jì)。
谷歌表示:「負(fù)責(zé)任地構(gòu)建智能體是讓 AI 造福所有人的唯一途徑。能夠直接操作電腦的 AI 智能體帶來了特有的風(fēng)險,包括用戶惡意使用、模型意外行為、以及網(wǎng)頁環(huán)境下的提示詞注入與詐騙。因此,我們在設(shè)計(jì)中高度重視安全防護(hù)?!?/p>
在 Gemini 2.5 Computer Use 模型中,谷歌直接在訓(xùn)練階段融入安全機(jī)制,以應(yīng)對三類主要風(fēng)險(詳見系統(tǒng)卡)。
此外,谷歌還為開發(fā)者提供安全控制選項(xiàng),防止模型自動執(zhí)行潛在高風(fēng)險或有害操作,例如:
- 損害系統(tǒng)完整性;
- 危及安全;
- 繞過驗(yàn)證碼;
- 控制醫(yī)療設(shè)備。
谷歌實(shí)施的控制手段包括:
- 逐步安全服務(wù)(Per-step Safety Service):在推理階段,由獨(dú)立安全服務(wù)評估每個模型擬執(zhí)行的動作。
- 系統(tǒng)指令(System Instructions):開發(fā)者可設(shè)定在特定高風(fēng)險操作前,智能體必須拒絕或請求用戶確認(rèn)。
結(jié)語
谷歌 DeepMind 攜 Gemini 2.5 Computer Use 高調(diào)入場,不僅在多個基準(zhǔn)測試上展示了領(lǐng)先的性能,也讓 AI 智能體領(lǐng)域的競爭正式進(jìn)入了白熱化階段。
從 OpenAI 到 Anthropic,再到如今的谷歌,科技巨頭們正競相定義我們與計(jì)算機(jī)交互的未來。盡管當(dāng)前模型在面對復(fù)雜現(xiàn)實(shí)任務(wù)時仍顯稚嫩,但這恰恰是技術(shù)黎明前的真實(shí)寫照。今天我們看到的不僅是一個新模型,更是一個清晰的信號:鍵盤和鼠標(biāo)的主導(dǎo)地位正受到挑戰(zhàn),一個通過自然語言直接驅(qū)動數(shù)字世界的時代,正加速向我們駛來。
https://blog.google/technology/google-deepmind/gemini-computer-use-model/
https://x.com/GoogleAIStudio/status/1975648565222691279
https://x.com/GoogleDeepMind/status/1975648789911224793
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.