- 01 谷歌DeepMind正式推出其迄今最先進(jìn)的AI推理模型Gemini 2.5 Deep Think。該模型是谷歌首個(gè)公開發(fā)布的多智能體系統(tǒng),能同時(shí)探索并權(quán)衡多種解題路徑以選出最優(yōu)答案。訂閱了Ultra服務(wù)的用戶可率先體驗(yàn)。
- 02 谷歌稱,該模型在HLE和高難度編程競(jìng)賽等基準(zhǔn)測(cè)試中,表現(xiàn)均超越了OpenAI、xAI和Anthropic的同類模型。公司認(rèn)為其有望助力科研人員,并“有可能加速科學(xué)發(fā)現(xiàn)的進(jìn)程”。因運(yùn)營成本高昂,這類系統(tǒng)或?qū)⒊蔀轫敿?jí)付費(fèi)訂閱的專屬功能。
- 03 多智能體系統(tǒng)已成為業(yè)界前沿探索方向。xAI、OpenAI、Anthropic等主要競(jìng)爭(zhēng)對(duì)手近期均已推出或被披露正在采用類似的多智能體架構(gòu)。
8月2日消息,據(jù)TechCrunch報(bào)道,谷歌DeepMind正式推出Gemini 2.5 Deep Think。據(jù)公司介紹,這是其迄今為止最先進(jìn)的AI推理模型,能夠在回答問題時(shí)同時(shí)探索并權(quán)衡多種解題路徑,進(jìn)而選出最優(yōu)答案。
從本周五起,訂閱了每月250美元Ultra訂閱服務(wù)的用戶,將可在Gemini應(yīng)用中率先體驗(yàn)Gemini 2.5 Deep Think。
Gemini 2.5 Deep Think最早亮相于2025年的谷歌I/O大會(huì),是谷歌公開發(fā)布的首個(gè)多智能體(multi-agent)模型。這類系統(tǒng)可同時(shí)生成多個(gè)AI智能體,并行處理同一問題,雖然對(duì)算力資源的消耗遠(yuǎn)超單一智能體,但通常能獲得更優(yōu)的解答。
谷歌曾以Gemini 2.5 Deep Think的一個(gè)變體,在今年的國際數(shù)學(xué)奧林匹克(IMO)上斬獲金牌。
與此同時(shí),谷歌還宣布向部分經(jīng)過篩選的數(shù)學(xué)家和學(xué)者群體,開放其在IMO賽事中使用的那一版模型。公司表示,這一AI模型完成一次推理“需要數(shù)小時(shí)”,遠(yuǎn)超絕大多數(shù)面向消費(fèi)級(jí)用戶的AI模型(通常僅需數(shù)秒或數(shù)分鐘)。谷歌希望該IMO模型能助力科研,并收集反饋,以便進(jìn)一步優(yōu)化多智能體系統(tǒng)在學(xué)術(shù)場(chǎng)景下的應(yīng)用。
谷歌指出,相較于I/O大會(huì)上首次亮相的版本,如今的Gemini 2.5 Deep Think已有顯著提升。公司還宣稱已開發(fā)出“全新的強(qiáng)化學(xué)習(xí)技術(shù)”,以促使Gemini 2.5 Deep Think更高效地利用其推理路徑。
谷歌在一篇博文中表示:“Deep Think能幫助用戶解決需要?jiǎng)?chuàng)造力、戰(zhàn)略規(guī)劃和逐步改進(jìn)的問題。”
公司稱,Gemini 2.5 Deep Think在“人類終極大考”(Humanity’s Last Exam,HLE)上取得了頂尖水平(state-of-the-art)的表現(xiàn)。HLE是一項(xiàng)極具挑戰(zhàn)性的測(cè)試,旨在評(píng)估AI回答數(shù)千道來自數(shù)學(xué)、人文、科學(xué)等領(lǐng)域眾包問題的能力。谷歌稱,其模型在不借助外部工具的情況下,HLE得分為34.8%,而xAI的Grok 4得分為25.4%,OpenAI的o3得分為20.3%。
此外,Gemini 2.5 Deep Think在LiveCodeBench 6這一高難度編程競(jìng)賽測(cè)試中,表現(xiàn)同樣超越了OpenAI、xAI和Anthropic的AI模型。谷歌模型的得分為87.6%,Grok 4為79%,OpenAI的o3為72%。
Gemini 2.5 Deep Think能自動(dòng)調(diào)用代碼執(zhí)行、谷歌搜索等工具,并且公司表示,該模型生成的回應(yīng)“篇幅遠(yuǎn)超傳統(tǒng)AI模型”。
在谷歌的內(nèi)部測(cè)試中,相較于其他AI模型,Gemini 2.5 Deep Think完成的網(wǎng)頁開發(fā)任務(wù)在細(xì)節(jié)豐富度和視覺美感上均更勝一籌。公司認(rèn)為,該模型有望為科研人員提供助力,“并有可能加速科學(xué)發(fā)現(xiàn)的進(jìn)程”。
目前,多智能體系統(tǒng)已成為業(yè)界前沿的探索方向。埃隆·馬斯克(Elon Musk)旗下的xAI近期也推出了多智能體系統(tǒng)Grok 4 Heavy,據(jù)稱在多項(xiàng)基準(zhǔn)測(cè)試中取得領(lǐng)先成績。OpenAI研究員諾姆·布朗(Noam Brown)在播客中透露,公司今年在IMO上獲得金牌所用的未公開模型,同樣采用了多智能體架構(gòu)。與此同時(shí),Anthropic旗下能生成詳盡研究簡報(bào)的工具Research agent,也同樣依托多智能體系統(tǒng)提供支持。
盡管多智能體系統(tǒng)表現(xiàn)突出,但其運(yùn)營成本甚至高于傳統(tǒng)AI模型。這也意味著,科技公司很可能會(huì)將這類高成本的系統(tǒng),作為其頂級(jí)付費(fèi)訂閱服務(wù)的一項(xiàng)專屬功能,正如xAI和谷歌目前所做的那樣。
在接下來的幾周,谷歌計(jì)劃通過Gemini API,邀請(qǐng)一小批測(cè)試者體驗(yàn)Gemini 2.5 Deep Think。公司表示,此舉是希望進(jìn)一步了解開發(fā)者和企業(yè)用戶可能會(huì)如何利用其多智能體系統(tǒng)。(易句)
(本文由AI翻譯,網(wǎng)易編輯負(fù)責(zé)校對(duì))