- 01 谷歌DeepMind正式推出其迄今最先進的AI推理模型Gemini 2.5 Deep Think。該模型是谷歌首個公開發(fā)布的多智能體系統(tǒng),能同時探索并權(quán)衡多種解題路徑以選出最優(yōu)答案。訂閱了Ultra服務的用戶可率先體驗。
- 02 谷歌稱,該模型在HLE和高難度編程競賽等基準測試中,表現(xiàn)均超越了OpenAI、xAI和Anthropic的同類模型。公司認為其有望助力科研人員,并“有可能加速科學發(fā)現(xiàn)的進程”。因運營成本高昂,這類系統(tǒng)或?qū)⒊蔀轫敿壐顿M訂閱的專屬功能。
- 03 多智能體系統(tǒng)已成為業(yè)界前沿探索方向。xAI、OpenAI、Anthropic等主要競爭對手近期均已推出或被披露正在采用類似的多智能體架構(gòu)。
8月2日消息,據(jù)TechCrunch報道,谷歌DeepMind正式推出Gemini 2.5 Deep Think。據(jù)公司介紹,這是其迄今為止最先進的AI推理模型,能夠在回答問題時同時探索并權(quán)衡多種解題路徑,進而選出最優(yōu)答案。
從本周五起,訂閱了每月250美元Ultra訂閱服務的用戶,將可在Gemini應用中率先體驗Gemini 2.5 Deep Think。
Gemini 2.5 Deep Think最早亮相于2025年的谷歌I/O大會,是谷歌公開發(fā)布的首個多智能體(multi-agent)模型。這類系統(tǒng)可同時生成多個AI智能體,并行處理同一問題,雖然對算力資源的消耗遠超單一智能體,但通常能獲得更優(yōu)的解答。
谷歌曾以Gemini 2.5 Deep Think的一個變體,在今年的國際數(shù)學奧林匹克(IMO)上斬獲金牌。
與此同時,谷歌還宣布向部分經(jīng)過篩選的數(shù)學家和學者群體,開放其在IMO賽事中使用的那一版模型。公司表示,這一AI模型完成一次推理“需要數(shù)小時”,遠超絕大多數(shù)面向消費級用戶的AI模型(通常僅需數(shù)秒或數(shù)分鐘)。谷歌希望該IMO模型能助力科研,并收集反饋,以便進一步優(yōu)化多智能體系統(tǒng)在學術(shù)場景下的應用。
谷歌指出,相較于I/O大會上首次亮相的版本,如今的Gemini 2.5 Deep Think已有顯著提升。公司還宣稱已開發(fā)出“全新的強化學習技術(shù)”,以促使Gemini 2.5 Deep Think更高效地利用其推理路徑。
谷歌在一篇博文中表示:“Deep Think能幫助用戶解決需要創(chuàng)造力、戰(zhàn)略規(guī)劃和逐步改進的問題?!?/p>
公司稱,Gemini 2.5 Deep Think在“人類終極大考”(Humanity’s Last Exam,HLE)上取得了頂尖水平(state-of-the-art)的表現(xiàn)。HLE是一項極具挑戰(zhàn)性的測試,旨在評估AI回答數(shù)千道來自數(shù)學、人文、科學等領域眾包問題的能力。谷歌稱,其模型在不借助外部工具的情況下,HLE得分為34.8%,而xAI的Grok 4得分為25.4%,OpenAI的o3得分為20.3%。
此外,Gemini 2.5 Deep Think在LiveCodeBench 6這一高難度編程競賽測試中,表現(xiàn)同樣超越了OpenAI、xAI和Anthropic的AI模型。谷歌模型的得分為87.6%,Grok 4為79%,OpenAI的o3為72%。
Gemini 2.5 Deep Think能自動調(diào)用代碼執(zhí)行、谷歌搜索等工具,并且公司表示,該模型生成的回應“篇幅遠超傳統(tǒng)AI模型”。
在谷歌的內(nèi)部測試中,相較于其他AI模型,Gemini 2.5 Deep Think完成的網(wǎng)頁開發(fā)任務在細節(jié)豐富度和視覺美感上均更勝一籌。公司認為,該模型有望為科研人員提供助力,“并有可能加速科學發(fā)現(xiàn)的進程”。
目前,多智能體系統(tǒng)已成為業(yè)界前沿的探索方向。埃隆·馬斯克(Elon Musk)旗下的xAI近期也推出了多智能體系統(tǒng)Grok 4 Heavy,據(jù)稱在多項基準測試中取得領先成績。OpenAI研究員諾姆·布朗(Noam Brown)在播客中透露,公司今年在IMO上獲得金牌所用的未公開模型,同樣采用了多智能體架構(gòu)。與此同時,Anthropic旗下能生成詳盡研究簡報的工具Research agent,也同樣依托多智能體系統(tǒng)提供支持。
盡管多智能體系統(tǒng)表現(xiàn)突出,但其運營成本甚至高于傳統(tǒng)AI模型。這也意味著,科技公司很可能會將這類高成本的系統(tǒng),作為其頂級付費訂閱服務的一項專屬功能,正如xAI和谷歌目前所做的那樣。
在接下來的幾周,谷歌計劃通過Gemini API,邀請一小批測試者體驗Gemini 2.5 Deep Think。公司表示,此舉是希望進一步了解開發(fā)者和企業(yè)用戶可能會如何利用其多智能體系統(tǒng)。(易句)
(本文由AI翻譯,網(wǎng)易編輯負責校對)