網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

谷歌發(fā)布Gemini 2.5 Deep Think：月費(fèi)250美元會(huì)員可用

2025-08-02 09:19:27　來源: 網(wǎng)易科技報(bào)道

北京舉報(bào)

分享至

核心提示

01 谷歌DeepMind正式推出其迄今最先進(jìn)的AI推理模型Gemini 2.5 Deep Think。該模型是谷歌首個(gè)公開發(fā)布的多智能體系統(tǒng)，能同時(shí)探索并權(quán)衡多種解題路徑以選出最優(yōu)答案。訂閱了Ultra服務(wù)的用戶可率先體驗(yàn)。
02 谷歌稱，該模型在HLE和高難度編程競(jìng)賽等基準(zhǔn)測(cè)試中，表現(xiàn)均超越了OpenAI、xAI和Anthropic的同類模型。公司認(rèn)為其有望助力科研人員，并“有可能加速科學(xué)發(fā)現(xiàn)的進(jìn)程”。因運(yùn)營成本高昂，這類系統(tǒng)或?qū)⒊蔀轫敿?jí)付費(fèi)訂閱的專屬功能。
03 多智能體系統(tǒng)已成為業(yè)界前沿探索方向。xAI、OpenAI、Anthropic等主要競(jìng)爭(zhēng)對(duì)手近期均已推出或被披露正在采用類似的多智能體架構(gòu)。

8月2日消息，據(jù)TechCrunch報(bào)道，谷歌 DeepMind正式推出Gemini 2.5 Deep Think。據(jù)公司介紹，這是其迄今為止最先進(jìn)的AI推理模型，能夠在回答問題時(shí)同時(shí)探索并權(quán)衡多種解題路徑，進(jìn)而選出最優(yōu)答案。

從本周五起，訂閱了每月250美元Ultra訂閱服務(wù)的用戶，將可在Gemini應(yīng)用中率先體驗(yàn)Gemini 2.5 Deep Think。

Gemini 2.5 Deep Think最早亮相于2025年的谷歌I/O大會(huì)，是谷歌公開發(fā)布的首個(gè)多智能體（multi-agent）模型。這類系統(tǒng)可同時(shí)生成多個(gè)AI智能體，并行處理同一問題，雖然對(duì)算力資源的消耗遠(yuǎn)超單一智能體，但通常能獲得更優(yōu)的解答。

谷歌曾以Gemini 2.5 Deep Think的一個(gè)變體，在今年的國際數(shù)學(xué)奧林匹克（IMO）上斬獲金牌。

與此同時(shí)，谷歌還宣布向部分經(jīng)過篩選的數(shù)學(xué)家和學(xué)者群體，開放其在IMO賽事中使用的那一版模型。公司表示，這一AI模型完成一次推理“需要數(shù)小時(shí)”，遠(yuǎn)超絕大多數(shù)面向消費(fèi)級(jí)用戶的AI模型（通常僅需數(shù)秒或數(shù)分鐘）。谷歌希望該IMO模型能助力科研，并收集反饋，以便進(jìn)一步優(yōu)化多智能體系統(tǒng)在學(xué)術(shù)場(chǎng)景下的應(yīng)用。

谷歌指出，相較于I/O大會(huì)上首次亮相的版本，如今的Gemini 2.5 Deep Think已有顯著提升。公司還宣稱已開發(fā)出“全新的強(qiáng)化學(xué)習(xí)技術(shù)”，以促使Gemini 2.5 Deep Think更高效地利用其推理路徑。

谷歌在一篇博文中表示：“Deep Think能幫助用戶解決需要?jiǎng)?chuàng)造力、戰(zhàn)略規(guī)劃和逐步改進(jìn)的問題。”

公司稱，Gemini 2.5 Deep Think在“人類終極大考”（Humanity’s Last Exam，HLE）上取得了頂尖水平（state-of-the-art）的表現(xiàn)。HLE是一項(xiàng)極具挑戰(zhàn)性的測(cè)試，旨在評(píng)估AI回答數(shù)千道來自數(shù)學(xué)、人文、科學(xué)等領(lǐng)域眾包問題的能力。谷歌稱，其模型在不借助外部工具的情況下，HLE得分為34.8%，而xAI的Grok 4得分為25.4%，OpenAI的o3得分為20.3%。

此外，Gemini 2.5 Deep Think在LiveCodeBench 6這一高難度編程競(jìng)賽測(cè)試中，表現(xiàn)同樣超越了OpenAI、xAI和Anthropic的AI模型。谷歌模型的得分為87.6%，Grok 4為79%，OpenAI的o3為72%。

Gemini 2.5 Deep Think能自動(dòng)調(diào)用代碼執(zhí)行、谷歌搜索等工具，并且公司表示，該模型生成的回應(yīng)“篇幅遠(yuǎn)超傳統(tǒng)AI模型”。

在谷歌的內(nèi)部測(cè)試中，相較于其他AI模型，Gemini 2.5 Deep Think完成的網(wǎng)頁開發(fā)任務(wù)在細(xì)節(jié)豐富度和視覺美感上均更勝一籌。公司認(rèn)為，該模型有望為科研人員提供助力，“并有可能加速科學(xué)發(fā)現(xiàn)的進(jìn)程”。

目前，多智能體系統(tǒng)已成為業(yè)界前沿的探索方向。埃隆·馬斯克（Elon Musk）旗下的xAI近期也推出了多智能體系統(tǒng)Grok 4 Heavy，據(jù)稱在多項(xiàng)基準(zhǔn)測(cè)試中取得領(lǐng)先成績。OpenAI研究員諾姆·布朗（Noam Brown）在播客中透露，公司今年在IMO上獲得金牌所用的未公開模型，同樣采用了多智能體架構(gòu)。與此同時(shí)，Anthropic旗下能生成詳盡研究簡報(bào)的工具Research agent，也同樣依托多智能體系統(tǒng)提供支持。

盡管多智能體系統(tǒng)表現(xiàn)突出，但其運(yùn)營成本甚至高于傳統(tǒng)AI模型。這也意味著，科技公司很可能會(huì)將這類高成本的系統(tǒng)，作為其頂級(jí)付費(fèi)訂閱服務(wù)的一項(xiàng)專屬功能，正如xAI和谷歌目前所做的那樣。

在接下來的幾周，谷歌計(jì)劃通過Gemini API，邀請(qǐng)一小批測(cè)試者體驗(yàn)Gemini 2.5 Deep Think。公司表示，此舉是希望進(jìn)一步了解開發(fā)者和企業(yè)用戶可能會(huì)如何利用其多智能體系統(tǒng)。（易句）

（本文由AI翻譯，網(wǎng)易編輯負(fù)責(zé)校對(duì)）