夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌深夜重磅開源!深度研究Agent拿下SOTA,比GPT-5 pro便宜90%

0
分享至


智東西
編譯 程茜
編輯 心緣

智東西12月12日消息,今日凌晨,比OpenAI早一個小時,谷歌甩出了3個Agent大招:

Deep Research Agent功能更新,并首次向開發(fā)者開放;開源新網(wǎng)絡(luò)研究Agent基準(zhǔn)DeepSearchQA,旨在測試Agent在網(wǎng)絡(luò)研究任務(wù)中的全面性;推出新交互API(Interactions API)。


Gemini Deep Research是一款專為長期上下文采集和綜合任務(wù)優(yōu)化的Agent,其背后的模型是Gemini 3 Pro,通過多步強(qiáng)化學(xué)習(xí)的擴(kuò)展搜索,Agent能夠自主地以高精度導(dǎo)航復(fù)雜的信息環(huán)境。此次更新包括針對特定數(shù)據(jù)進(jìn)行網(wǎng)頁搜索、更低成本生成研究報告等。

谷歌DeepMind產(chǎn)品經(jīng)理路卡斯·哈斯(Lukas Haas)在社交平臺X上透露,新Gemini Deep Research Agent已經(jīng)實現(xiàn)SOTA,在谷歌新基準(zhǔn)測試上得分46.4%,在BrowseComp上與GPT-5 Pro相當(dāng),價格是其1/10左右。


Deep Research Agent很快將在谷歌搜索、筆記本、 谷歌金融中提供,并在Gemini應(yīng)用中升級。

DeepSearchQA內(nèi)置了900個手工設(shè)計的“因果鏈”任務(wù),涵蓋17個領(lǐng)域,可以評估Agent在復(fù)雜、需要多步查詢信息等任務(wù)上的能力。

交互API作為其與Gemini模型和Agent的統(tǒng)一交互界面,通過Google AI Studio中的Gemini API公開測試版向開發(fā)者開放。開發(fā)者可以通過Agent開發(fā)套件(ADK)和A2A協(xié)議使用交互API。

有網(wǎng)友評論,谷歌這是把“一個數(shù)字版的福爾摩斯交給了開發(fā)者”,現(xiàn)在你只需要一邊喝咖啡,一邊就能讓每個應(yīng)用像寫論文一樣展開深度調(diào)查。


DeepSearchQA開源地址:https://www.kaggle.com/benchmarks/google/dsqa/leaderboard

一、Deep Research Agent:更新網(wǎng)頁搜索、低成本生成研究報告功能

谷歌博客稱,Deep Research背后的Gemini 3 Pro模型是他們迄今為止最真實的模型,該模型經(jīng)過專門訓(xùn)練,旨在減少幻覺并最大化復(fù)雜任務(wù)中的報告質(zhì)量。

Deep Research通過迭代式流程運(yùn)行,它會提出問題、閱讀結(jié)果、識別知識空白,然后再次進(jìn)行搜索。其新版本大幅提升了網(wǎng)頁搜索功能,使其能夠深入網(wǎng)站查找特定數(shù)據(jù)。

新Gemini Deep Research Agent在完整HLE測試中達(dá)到46.4%,Gemini 3 Pro為43.2%,GPT-5 Pro為38.9%。在DeepSearchQA、BrowseComp的測試中以微小優(yōu)勢勝出。


谷歌還優(yōu)化了該Agent以更低成本生成深度研究報告的功能。

Gemini Deep Research Agent已經(jīng)在需要高精度和基于早期反饋、測試的復(fù)雜領(lǐng)域應(yīng)用,包括金融服務(wù)、生物技術(shù)和市場調(diào)研等行業(yè),這些領(lǐng)域都可以利用Gemini Deep Research完成初步調(diào)研任務(wù)。

對于構(gòu)建下一代自動化研究工具的開發(fā)者來說,Gemini Deep Research Agent能夠綜合信息并生成詳細(xì)報告:

統(tǒng)一信息綜合:Gemini Deep Research通過文件上傳和文件搜索工具分析用戶的文檔和公共網(wǎng)絡(luò)數(shù)據(jù),還能處理長上下文,允許用戶直接在提示中放置大量背景信息;

報告可控性:用戶可以通過提示定義結(jié)構(gòu)、頭部,或指定數(shù)據(jù)表生成和格式來控制輸出;

詳細(xì)引用:其會提供細(xì)粒度的來源,允許用戶驗證數(shù)據(jù)來源;

結(jié)構(gòu)化輸出:支持JSON模式輸出,便于下游應(yīng)用解析研究結(jié)果。

二、DeepSearchQA:新Agent基礎(chǔ),涵蓋17大領(lǐng)域、900條任務(wù)

DeepSearchQA是Deep Research Agent的測試基準(zhǔn)。

現(xiàn)有基準(zhǔn)測試往往無法反映現(xiàn)實世界多步網(wǎng)絡(luò)研究的復(fù)雜性,谷歌開源新基準(zhǔn)DeepSearchQA,是用于評估Agent在復(fù)雜、需要多步查詢信息等任務(wù)上。

DeepSearchQA有900個手工設(shè)計的“因果鏈”任務(wù),涵蓋17個領(lǐng)域,每一步都依賴于事先分析。與傳統(tǒng)的基于事實的測試不同,DeepSearchQA衡量的是全面性,要求Agent生成詳盡的答案集。這不僅評估研究的準(zhǔn)確性,也包括檢索的記憶能力。

DeepSearchQA還可以作為衡量“思考時長”效率的工具。谷歌在內(nèi)部評估中發(fā)現(xiàn),當(dāng)允許Agent執(zhí)行更多搜索與推理步驟時,其性能會獲得顯著提升


三、交互API:集成專為Agent應(yīng)用開發(fā)設(shè)計的接口

交互API原生集成了一套專屬接口,該接口專為Agent應(yīng)用開發(fā)場景設(shè)計,可高效處理交錯式消息、思維鏈、工具調(diào)用及其狀態(tài)信息的復(fù)雜上下文管理工作。除Gemini模型套件外,交互API還提供其首個內(nèi)置Agent Gemini Deep Research Agent

下一步,谷歌將擴(kuò)展其內(nèi)置Agent,并提供構(gòu)建和引入其他Agent的功能,這將使開發(fā)者能夠通過一個API連接Gemini模型、谷歌內(nèi)置Agent和開發(fā)者的定制Agent

交互API提供了一個單一的RESTful端點(diǎn),用于與模型和Agent交互。

通過指定模型參數(shù)與模型交互:


通過指定Agent參數(shù)與Agent互動,目前支持deep-research-pro-preview-12-2025:


交互API通過現(xiàn)代Agent應(yīng)用所需的功能擴(kuò)展了生成內(nèi)容的核心功能,包括:

可選的服務(wù)器端狀態(tài):能夠?qū)v史管理卸載到服務(wù)器。這簡化了開發(fā)者的客戶端代碼,減少了上下文管理錯誤,并通過增加緩存命中率可能降低成本。

可解釋和可組合的數(shù)據(jù)模型:一個為復(fù)雜的Agent歷史設(shè)計的干凈圖式。開發(fā)者可以對交錯的信息、思維、工具及其結(jié)果進(jìn)行調(diào)試、流式分析和推理。

背景執(zhí)行:能夠?qū)㈤L期運(yùn)行的推理環(huán)路卸載到服務(wù)器,而無需維護(hù)客戶端連接。

遠(yuǎn)程MCP工具支持:模型可以直接調(diào)用模型上下文協(xié)議(MCP)服務(wù)器作為工具。

結(jié)語:Gemini生態(tài)再擴(kuò)容,谷歌簡化Agent開發(fā)模式

目前,Deep Research Agent已經(jīng)在金融、科學(xué)研究等諸多領(lǐng)域有所應(yīng)用。此次谷歌不僅更新了這一Agent,還發(fā)布了交互API,以簡化與Gemini模型和Agent的交互流程,構(gòu)建更易用的開發(fā)生態(tài)。

谷歌博客提到,其未來的更新還將聚焦于更豐富的輸出,如原生生成圖表以支持可視化分析報告,以及通過模型上下文協(xié)議(MCP)支持?jǐn)U展連接性,更輕松地訪問自定義數(shù)據(jù)源,并努力將Gemini Deep Research引入企業(yè)用的Vertex AI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海流感疫情,即將達(dá)到峰值!三甲醫(yī)院患者激增,怎樣做可以少排隊?

上海流感疫情,即將達(dá)到峰值!三甲醫(yī)院患者激增,怎樣做可以少排隊?

上觀新聞
2025-12-12 10:47:07
汕頭火災(zāi)的這家人子嗣很旺,大兒子6個孩子,起火屋內(nèi)實景曝光

汕頭火災(zāi)的這家人子嗣很旺,大兒子6個孩子,起火屋內(nèi)實景曝光

魔都姐姐雜談
2025-12-12 11:19:40
劉震云說:世上最危險的關(guān)系,就是夫妻關(guān)系

劉震云說:世上最危險的關(guān)系,就是夫妻關(guān)系

尚曦讀史
2025-12-11 09:34:08
頂刊重磅!最新研究發(fā)現(xiàn):魚油讓腎透析心血管死亡風(fēng)險暴跌43%!

頂刊重磅!最新研究發(fā)現(xiàn):魚油讓腎透析心血管死亡風(fēng)險暴跌43%!

徐德文科學(xué)頻道
2025-12-10 19:28:38
炸裂!郭家形勢危急,郭妹哭訴:兩人重傷住院,錢從哪來?

炸裂!郭家形勢危急,郭妹哭訴:兩人重傷住院,錢從哪來?

公子麥少
2025-11-18 14:34:30
舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

史行途
2025-12-11 10:32:24
給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

給人養(yǎng)了7年閑人,廣汽終于要關(guān)閉洛杉磯的研發(fā)中心

與車同樂
2025-12-04 10:05:02
陳冠?;貞?yīng)自己逐漸趙本山化

陳冠?;貞?yīng)自己逐漸趙本山化

微微熱評
2025-12-06 00:28:48
10人聚餐后9人離開,最后1人拒付千元餐費(fèi),餐館:客人當(dāng)民警面立字據(jù)后也不付錢,已起訴

10人聚餐后9人離開,最后1人拒付千元餐費(fèi),餐館:客人當(dāng)民警面立字據(jù)后也不付錢,已起訴

極目新聞
2025-12-12 16:41:43
何超瓊沒想到,72歲陳婉珍再迎喜訊,讓梁安琪和香港闊太圈沉默了

何超瓊沒想到,72歲陳婉珍再迎喜訊,讓梁安琪和香港闊太圈沉默了

妙知
2025-12-12 11:37:46
《大生意人》大結(jié)局2死2輸3隱5贏,古平原支持革命,蘇紫軒藏太深

《大生意人》大結(jié)局2死2輸3隱5贏,古平原支持革命,蘇紫軒藏太深

宇林網(wǎng)絡(luò)
2025-12-12 14:01:21
馬斯克霸氣回懟Waymo:連對抗特斯拉的機(jī)會都沒有

馬斯克霸氣回懟Waymo:連對抗特斯拉的機(jī)會都沒有

智能車參考
2025-12-11 16:15:43
正式退出,陳夢官宣,不當(dāng)教練,拒絕娛樂圈,安置崗位級薪水曝光

正式退出,陳夢官宣,不當(dāng)教練,拒絕娛樂圈,安置崗位級薪水曝光

樂聊球
2025-12-05 12:40:01
中國終于明白戰(zhàn)勝國的優(yōu)勢!美國意識到:自己也被中國裝進(jìn)去了!

中國終于明白戰(zhàn)勝國的優(yōu)勢!美國意識到:自己也被中國裝進(jìn)去了!

布拉旅游說
2025-12-09 11:27:15
美國慌了!這位中國女科學(xué)家,讓東風(fēng)-17成為反導(dǎo)系統(tǒng)的噩夢

美國慌了!這位中國女科學(xué)家,讓東風(fēng)-17成為反導(dǎo)系統(tǒng)的噩夢

宅家伍菇?jīng)?/span>
2025-12-08 09:00:04
40萬人連夜逃亡,洪森拿出了坑佩通坦的招數(shù),但泰國不會再上當(dāng)

40萬人連夜逃亡,洪森拿出了坑佩通坦的招數(shù),但泰國不會再上當(dāng)

科普100克克
2025-12-11 15:02:09
收手吧“資本家的丑孩子”!沒有顏值和演技,就別出來禍禍觀眾了

收手吧“資本家的丑孩子”!沒有顏值和演技,就別出來禍禍觀眾了

瓜農(nóng)娟姐
2025-12-12 23:38:45
快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

快扔掉!戴一天,輻射量相當(dāng)于拍117次胸片

FM93浙江交通之聲
2025-10-28 00:01:43
伊藤美誠輸球不服,賽后一句話讓全網(wǎng)炸鍋:竟只惦記孫穎莎!

伊藤美誠輸球不服,賽后一句話讓全網(wǎng)炸鍋:竟只惦記孫穎莎!

挑戰(zhàn)你的想象力
2025-12-13 00:54:05
北京連下六道命令拆秦嶺別墅,陜西硬是頂了四年不拆,749局:我來拆

北京連下六道命令拆秦嶺別墅,陜西硬是頂了四年不拆,749局:我來拆

睡前講故事
2025-12-03 10:29:04
2025-12-13 01:48:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10898文章數(shù) 116925關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

38歲男子辭職返鄉(xiāng) 花1.3萬用集裝箱給父母造"網(wǎng)紅屋"

頭條要聞

38歲男子辭職返鄉(xiāng) 花1.3萬用集裝箱給父母造"網(wǎng)紅屋"

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經(jīng)要聞

鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

汽車要聞

表面風(fēng)平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

手機(jī)
教育
親子
健康
公開課

手機(jī)要聞

銷量終破千萬!華為Mate70系列,到底怎么做到的?

教育要聞

TTS新傳論文帶讀:具身新聞(太好了又是什么新聞形式?)

親子要聞

培養(yǎng)孩子你會選擇放手嗎

甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 天天天天噜在线视频| 国产AV熟女一区二区白浆| 人妻少妇69久久中文字幕| 韩国午夜理伦三级理论三级| 少妇网站36| 成在线人视频免费视频| 色 黄 网 站 在 线 观 看 | 激情综合色综合啪啪五月丁香搜索 | 欧美熟妇久久久久久毛多| 真人性生交免费视频| 亚洲女久久久噜噜噜熟女| 免费avwz| 国产熟女区爱色| 亚洲视频二| 日本精品一在线观看视频| 欧美亚洲日韩v在线| 亚洲毛片αv无线播放一区| а天堂中文地址在线| 国产性生活免费视频| 一本久久伊人热热精品中文| 少妇急喘 在线视频| 国产精品99精品无码视频亚瑟| 亚洲3D一区| 国产乱理伦一区二区三区| 亚洲图色第四色| 无码一卡二卡| 熟女操屄精品| 国产桃色在线成免费视频| 人妻少妇麻豆| 无码精品人妻一区二区三区e网站| 国产成人无码精品一线二线三线| 亚洲无码3丨| 成人色区导航| 最新毛片婷婷99精品视频| 亚洲日韩穿丝袜在线推荐| 小说区 图片区色 综合区| 人妻中文字幕乱人伦在线| 国产AV午夜精品一区二区三区| av网在线看| 人轮片无码中文字幕| 99视频国产精品|