網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

谷歌加入CUA戰(zhàn)場發(fā)布Gemini 2.5 Computer Use：AI直接操作瀏覽器

2025-10-08 16:30:23　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心報道

編輯：Panda

谷歌的 Computer Use 模型來了！

今天凌晨，谷歌 DeepMind 重磅發(fā)布了基于 Gemini 2.5 的計(jì)算機(jī)使用模型Gemini 2.5 Computer Use。

考慮到前些天谷歌才剛剛發(fā)布了 Chrome DevTools (MCP)，Gemini 2.5 Computer Use 的誕生倒不是特別讓人驚訝。簡單來說，與 OpenAI 的 Computer-Using Agent (CUA) 類似，DeepMind 的這個模型可讓 AI 直接控制用戶的瀏覽器 —— 在視覺理解和推理能力的基礎(chǔ)上，該模型可以幫助用戶在瀏覽器中執(zhí)行點(diǎn)擊、滾動和輸入等操作。

先來看兩個官方演示。

提示詞：From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示詞：My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可以看到，不管是收集網(wǎng)絡(luò)信息與執(zhí)行動作，還是整理雜亂筆記，Gemini 2.5 Computer Use 都非常準(zhǔn)確地完成了任務(wù)，同時速度也相當(dāng)快。

在相關(guān)基準(zhǔn)上，Gemini 2.5 Computer Use 的性能表現(xiàn)也達(dá)到了 SOTA 水平：

同時，其速度表現(xiàn)也優(yōu)于其它幾個相比較的模型：

目前，開發(fā)者已可以通過 Google AI Studio 和 Vertex AI 的 Gemini API 獲取這些能力。用戶也可以在 Browserbase 托管的演示環(huán)境中試用（最多僅支持 5 分鐘的流程，且不支持用戶中途接管）：https://gemini.browserbase.com/

機(jī)器之心使用該演示環(huán)境做了幾次嘗試。整體來看，Gemini 2.5 Computer Use 在完成簡單任務(wù)時準(zhǔn)確度較高，但稍微復(fù)雜一點(diǎn)的任務(wù)就容易失敗。

比如在執(zhí)行「在維基百科上找到 John Wick 頁面」這樣的簡單任務(wù)時，該模型的表現(xiàn)非常成功。

但只要稍微復(fù)雜一點(diǎn)，該模型就失敗了，比如「在維基百科上找到 John Wick 頁面，并總結(jié)其信息，給出中文版?！沽硗?，我們讓其「打開諾貝爾獎官方網(wǎng)站，給出今年諾貝爾將宣布的時間表」的任務(wù)以及以下任務(wù)均未能成功完成。

提示詞：瀏覽 jiqizhixin.com，找到近半年關(guān)于 Gemini 的報道，并整理成一份 Markdown 文件，并進(jìn)行總結(jié)。

此外，DeepMind 也已經(jīng)發(fā)布了 Gemini 2.5 Computer Use 系統(tǒng)卡：

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use 的工作原理

該模型的核心能力是通過 Gemini API 中新增的computer_use工具實(shí)現(xiàn)的，開發(fā)者使用時需在一個循環(huán)流程（loop）中運(yùn)行。

其輸入應(yīng)包括：

用戶請求；
當(dāng)前環(huán)境的截圖；
最近執(zhí)行動作的歷史記錄。

另外，輸入中還可以指定是否從默認(rèn)支持的 UI 動作中排除特定功能以及添加自定義函數(shù)。

Gemini 2.5 Computer Use 模型工作流程

模型分析這些輸入后，會生成響應(yīng)，通常是一個代表 UI 動作的函數(shù)調(diào)用（如點(diǎn)擊或輸入）。在某些操作（如購買行為）中，模型還會請求用戶確認(rèn)?？蛻舳穗S后會執(zhí)行這些動作。

動作執(zhí)行完成后，系統(tǒng)會將最新截圖與當(dāng)前 URL 作為函數(shù)響應(yīng)返回給模型，重新啟動循環(huán)。

這一迭代過程會持續(xù)進(jìn)行，直到任務(wù)完成、出現(xiàn)錯誤，或因安全機(jī)制或用戶決定而終止。

谷歌表示，當(dāng)前 Gemini 2.5 Computer Use 模型主要針對網(wǎng)頁瀏覽器優(yōu)化，但在移動端 UI 控制方面也展現(xiàn)出強(qiáng)勁潛力。不過它暫未針對桌面操作系統(tǒng)級控制進(jìn)行優(yōu)化。

安全機(jī)制設(shè)計(jì)

谷歌還在博客中分享了他們對該模型的安全機(jī)制設(shè)計(jì)。

谷歌表示：「負(fù)責(zé)任地構(gòu)建智能體是讓 AI 造福所有人的唯一途徑。能夠直接操作電腦的 AI 智能體帶來了特有的風(fēng)險，包括用戶惡意使用、模型意外行為、以及網(wǎng)頁環(huán)境下的提示詞注入與詐騙。因此，我們在設(shè)計(jì)中高度重視安全防護(hù)?！?/p>

在 Gemini 2.5 Computer Use 模型中，谷歌直接在訓(xùn)練階段融入安全機(jī)制，以應(yīng)對三類主要風(fēng)險（詳見系統(tǒng)卡）。

此外，谷歌還為開發(fā)者提供安全控制選項(xiàng)，防止模型自動執(zhí)行潛在高風(fēng)險或有害操作，例如：

損害系統(tǒng)完整性；
危及安全；
繞過驗(yàn)證碼；
控制醫(yī)療設(shè)備。

谷歌實(shí)施的控制手段包括：

逐步安全服務(wù)（Per-step Safety Service）：在推理階段，由獨(dú)立安全服務(wù)評估每個模型擬執(zhí)行的動作。
系統(tǒng)指令（System Instructions）：開發(fā)者可設(shè)定在特定高風(fēng)險操作前，智能體必須拒絕或請求用戶確認(rèn)。

結(jié)語

谷歌 DeepMind 攜 Gemini 2.5 Computer Use 高調(diào)入場，不僅在多個基準(zhǔn)測試上展示了領(lǐng)先的性能，也讓 AI 智能體領(lǐng)域的競爭正式進(jìn)入了白熱化階段。

從 OpenAI 到 Anthropic，再到如今的谷歌，科技巨頭們正競相定義我們與計(jì)算機(jī)交互的未來。盡管當(dāng)前模型在面對復(fù)雜現(xiàn)實(shí)任務(wù)時仍顯稚嫩，但這恰恰是技術(shù)黎明前的真實(shí)寫照。今天我們看到的不僅是一個新模型，更是一個清晰的信號：鍵盤和鼠標(biāo)的主導(dǎo)地位正受到挑戰(zhàn)，一個通過自然語言直接驅(qū)動數(shù)字世界的時代，正加速向我們駛來。

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.