夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI的"Manus時(shí)刻"來了:ChatGPT Agent正式發(fā)布

0
分享至



2025 年 7 月 18 日北京時(shí)間凌晨 1 點(diǎn),OpenAI 進(jìn)行了一場直播,介紹了他們最新、最強(qiáng)大的模型。

他們將 DeepResearch 和 Operator 功能合并到一起,打造了一個(gè)同時(shí)能夠做深度研究和 Browser-Use 的 AI Agent ——ChatGPT Agent。

或者,你可以更簡單地理解為,OpenAI 發(fā)布了一個(gè)屬于他自己的 “ Manus ”。

由 OpenAI 打造的 AI Agent,按過往經(jīng)驗(yàn)來看是面向通用型需求的,無論是從成本角度還是技術(shù)角度,預(yù)計(jì)都會(huì)對(duì)同一賽道中的對(duì)手形成降維打擊。

在直播中,Sam Altman 和四位 Agent 項(xiàng)目的研究員( 此前分別是 Operator 和 DeepResearch 的項(xiàng)目成員 )通過參加婚禮策劃等演示展示了 ChatGPT Agent 的功能,以及在基準(zhǔn)測試中的表現(xiàn)。

使用該 Agent 的模式很簡單,只需在 ChatGPT 用戶端點(diǎn)擊工具菜單并選擇 “ Agent ” 就可以。



ChatGPT Agent 可以獨(dú)立使用虛擬計(jì)算機(jī)來執(zhí)行復(fù)雜的任務(wù),能夠無縫地從思考切換到行動(dòng),以及使用各種工具,比如在終端上寫代碼,執(zhí)行網(wǎng)頁瀏覽,制作 Excel 和 PPT 等等。

首先來一個(gè)日常生活的演示:為參加朋友婚禮做準(zhǔn)備。

研究員不僅寫明了詳細(xì)的需求,還給ChatGPT提供了婚禮網(wǎng)站,以及預(yù)訂酒店的網(wǎng)站。

提示詞:

我們的朋友今年晚些時(shí)候要結(jié)婚了!這就是婚禮網(wǎng)站:XXX

你能幫我找到以下物品嗎:

  • 一套符合所有場合著裝要求的服裝(男士)- 推薦五個(gè)方案。服裝要包含一些不錯(cuò)的、中等奢華的物品,要與場地和天氣相符。
  • 幫我找一些可以提前幾天預(yù)訂的酒店 - 使用 booking.com 預(yù)訂,并確保查看空房情況和當(dāng)前價(jià)格。
  • 還有,別忘了給他們挑選一份禮物,最好在 500 美元以下

寫一份漂亮的報(bào)告

收到提示詞后,ChatGPT Agent 立馬開始執(zhí)行。

因?yàn)樾枰褂秒娔X,所以一開始,它需要設(shè)置環(huán)境,這一步通常需要一兩分鐘,快的話甚至不到 5 秒鐘( 實(shí)際演示中為 7 秒 )。準(zhǔn)備好環(huán)境并理解了提示之后,ChatGPT Agent 會(huì)向用戶確認(rèn)自己的理解是否準(zhǔn)確,用戶點(diǎn)擊 “ continue ”,ChatGPT Agent 就會(huì)開始工作。



在 ChatGPT Agent 執(zhí)行任務(wù)的時(shí)候,用戶可以同步看到它操作計(jì)算機(jī)屏幕的過程,以及每一步操作相關(guān)的思維鏈。



在這個(gè)任務(wù)中,ChatGPT Agent 最終提供了一份相當(dāng)全面的報(bào)告。

它會(huì)根據(jù)鏈接確定日期和婚禮場地,并以此來確定西裝的推薦,以及在哪里可以買到,還有房源信息等,它還會(huì)提供關(guān)于禮物的建議。特別是,ChatGPT Agent 還提供瀏覽結(jié)果的屏幕截圖。



在 ChatGPT Agent 執(zhí)行完任務(wù)之后,用戶還可以通過視頻的方式回顧它的執(zhí)行過程。



ChatGPT Agent 可以使用兩種不同的方式來瀏覽互聯(lián)網(wǎng)。一個(gè)是文本瀏覽器,類似于 DeepResearch,可以非常高效快速地閱讀和搜索大量網(wǎng)頁。另一個(gè)是可視化瀏覽器,類似于 Operator,使得它能夠與網(wǎng)頁 UI 進(jìn)行實(shí)際交互。使用該瀏覽器,ChatGPT Agent 可以執(zhí)行拖動(dòng)網(wǎng)頁、使用光標(biāo)點(diǎn)擊、打開 UI 組件、填寫表單、輸入文本等操作。

OpenAI 團(tuán)隊(duì)表示,這兩個(gè)工具互補(bǔ)性很強(qiáng)。

OpenAI 在一月份發(fā)布了 Operator,可以執(zhí)行預(yù)訂和發(fā)送電子郵件等在線任務(wù)。兩周后,OpenAI 又發(fā)布了 DeepResearch,可以進(jìn)行深入的互聯(lián)網(wǎng)研究,并輸出高質(zhì)量的研究報(bào)告。

后來,OpenAI 意識(shí)到這兩種方法實(shí)際上是深度互補(bǔ)的。一方面,Operator 在閱讀超長文章時(shí)會(huì)遇到一些困難,因?yàn)樾枰獫L動(dòng),所以很耗時(shí),但這正是 DeepResearch 的強(qiáng)項(xiàng)。另一方面,DeepResearch 在與網(wǎng)頁、交互元素、視覺效果( 高度可視化的網(wǎng)頁 )交互方面又不如 Operator。

OpenAI 在用戶反饋中也了解到,大家最期待的 DeepResearch 功能之一就是能夠登錄網(wǎng)站并訪問經(jīng)過身份驗(yàn)證的來源,而 Operator 可以做到這一點(diǎn)。此外,很多用戶在使用 Operator 時(shí)的提示,實(shí)際上和 DeepResearch 類型的提示很相似。

ChatGPT Agent 的一個(gè)關(guān)鍵能力是允許隨時(shí)打斷執(zhí)行,并補(bǔ)充新的任務(wù)指示。這對(duì)于執(zhí)行復(fù)雜且耗時(shí)很長的任務(wù)來說特別重要,很多時(shí)候一開始輸入的提示是不完整的。比如在準(zhǔn)備參加婚禮的這個(gè)任務(wù)中,你可以中途提示模型:你能再幫我找一雙9.5碼的男士黑色鞋嗎?

ChatGPT Agent 也可能會(huì)在執(zhí)行過程中主動(dòng)要求用戶澄清和確認(rèn)一些細(xì)節(jié)。

OpenAI 介紹道,與 Agent 合作過程中要注意的一個(gè)關(guān)鍵是,模型有時(shí)會(huì)犯錯(cuò)誤,“ 這就是為什么訓(xùn)練模型在重要步驟的最后一步請(qǐng)求用戶的確認(rèn)很重要?!?/p>

例如,在它發(fā)送電子郵件之前,它會(huì)要求用戶查看草稿,內(nèi)容是否合理,是否有拼寫錯(cuò)誤等。如果有,你可以要求它修改,或者直接接管瀏覽器,進(jìn)入 Agent 的環(huán)境自行修改。

所以,ChatGPT Agent 鼓勵(lì)的不是完全自主的執(zhí)行,而是與用戶的深度協(xié)作。

ChatGPT 還擁有自己的終端來運(yùn)行代碼,并能用于生成和分析 PPT、Excel 等文件。

通過終端,它還可以調(diào)用 API,包括公共 API 和用于訪問用戶私有數(shù)據(jù)源的 API( 例如 Google Drive、Google Calendar、Github Sharepoint 等)。你甚至還可以讓 ChatGPT 調(diào)用圖像生成 API 來生成圖像,這樣就可以為 PPT 等內(nèi)容打造精美的視覺效果。類似 Deep Research Connector,只有當(dāng)用戶明確連接這些 API 時(shí),它才能使用。



在演示中,OpenAI 的研究員通過讓 ChatGPT Agent 調(diào)用 API 操作,生成了 ChatGPT Agent 的基準(zhǔn)測試報(bào)告。

提示詞:

從我們的 Google Drive 中提取你的評(píng)估編號(hào),并制作一些幻燈片。形式保持簡單,沒有引言,沒有結(jié)論,只用圖表呈現(xiàn)結(jié)果。

模型連接到了 Google Drive API,然后在 API 內(nèi)進(jìn)行搜索。第一個(gè)結(jié)果是相關(guān)的,于是模型開始詳細(xì)地讀取第一個(gè)結(jié)果,然后編寫代碼,并使用圖像生成模型來為 PPT 生成圖片。



最終模型生成了一個(gè) PPT 文檔,可以下載并在本地打開。

我們來具體看看 ChatGPT Agent 的基準(zhǔn)測試結(jié)果。

在 “ 人類最后考試 ”( Humanity's Last Exam,HLE,一個(gè)面向人類知識(shí)前沿的多模態(tài)基準(zhǔn)測試 )基準(zhǔn)測試中,擁有完全工具使用能力的 ChatGPT Agent 超越了DeepSesearch(擁有 browser use 和 python 代碼能力)、o3( 擁有 browser use 和 python 代碼能力 ),其性能相比后兩者幾乎翻了一番,達(dá)到 42% 的通過率,而沒有工具使用能力的 ChatGPT Agent 和 o3 則是墊底。

FrontierMath 基準(zhǔn)測試用于衡量高級(jí)數(shù)學(xué)推理能力,ChatGPT Agent 在這個(gè)基準(zhǔn)測試中達(dá)到了 27% 的通過率,超越了擁有 Python 編碼能力的 o4-mini 和 o3 。



在 WebArena 基準(zhǔn)測試中,ChatGPT Agent 的表現(xiàn)已經(jīng)很接近人類,并高于 o3 和 4o 。

在 OpenAI 年初推出的 BrowserComp 基準(zhǔn)測試( 衡量 Agent 搜索和查找信息的能力 )中,ChatGPT Agent 顯著優(yōu)于 o3 和 DeepResearch 模型。



Spreadsheet Bench 基準(zhǔn)測試衡量一定程度上的創(chuàng)建和編輯電子表格的能力,使用 LibreOffice 和其它工具的 ChatGPT Agent 已經(jīng)可以完成 30% 的任務(wù),當(dāng)賦予模型訪問終端中原始 Excel 文件的權(quán)限時(shí),性能進(jìn)一步提升至 45% 。

Internal Banking Benchmark 基準(zhǔn)測試評(píng)估模型執(zhí)行 1 到 3 年經(jīng)驗(yàn)投資銀行分析師任務(wù)的能力,例如為一家財(cái)富 500 強(qiáng)公司構(gòu)建一個(gè)三表財(cái)務(wù)模型。在這項(xiàng)基準(zhǔn)測試中,ChatGPT Agent 的表現(xiàn)顯著優(yōu)于 DeepResearch 和 o3 。



OpenAI 表示,ChatGPT Agent 是 OpenAI 目前最強(qiáng)大的模型之一,不僅在基準(zhǔn)測試中表現(xiàn)出色,而且還能夠推理、瀏覽和處理現(xiàn)實(shí)世界的任務(wù),“ 其水平是我們?nèi)齻€(gè)月前無法想象的。而它的強(qiáng)大很大程度上來自于瀏覽互聯(lián)網(wǎng)的能力?!?/strong>

OpenAI 官方還強(qiáng)調(diào),從安全方面來看,讓 AI Agent 執(zhí)行網(wǎng)頁瀏覽仍然是有風(fēng)險(xiǎn)的,“ 互聯(lián)網(wǎng)仍然是一個(gè)可怕的地方,各種各樣的網(wǎng)絡(luò)攻擊、詐騙和網(wǎng)絡(luò)釣魚試圖竊取人們的信息,而 Agent 模型也無法幸免于所有這些攻擊。”

“ 我們特別擔(dān)心一種叫做 ‘ prompt injection ’ 的新攻擊。假設(shè)你讓智能體幫你買書,并輸入你的信用卡信息,智能體可能會(huì)偶然進(jìn)入一個(gè)惡意網(wǎng)站,要求它輸入信用卡信息,而這時(shí)它可能會(huì)照做?!?/strong>

“ 我們做了很多工作來防止這種情況發(fā)生,比如訓(xùn)練模型忽略可疑網(wǎng)站上的可疑指令,還設(shè)置了多層監(jiān)視器,可以監(jiān)視 Agent 的運(yùn)行。我們甚至可以實(shí)時(shí)更新這些信息,以防范新的攻擊?!?/p>

OpenAI 表示,不可能阻止所有風(fēng)險(xiǎn),所以用戶自己意識(shí)到風(fēng)險(xiǎn)的存在仍然是必要的,比如盡量不要分享高度敏感的信息,或合理地使用接管模式。



OpenAI 還提供了一個(gè)有趣的演示,讓 ChatGPT Agent 制定一個(gè)最佳行程,以游覽所有 30 個(gè) MLB 球場,最后以詳細(xì)的電子表格形式呈現(xiàn)最終計(jì)劃。

有趣的是,ChatGPT Agent 真的使用了代碼構(gòu)建地圖,并成功實(shí)現(xiàn)了。





最后,OpenAI 表示,ChatGPT Agent 將為 Pro、Plus 和 Team 用戶上線。Pro 用戶每月將獲得 400 次查詢,Plus 和 Team 用戶每月將獲得 40 次查詢。Pro 版的部署預(yù)計(jì)將于本月底完成,Plus 版也將很快完成,Team 版將爭取在本月底前上線企業(yè)版和教育版。

“ 我們希望你們會(huì)喜歡它。雖然現(xiàn)在還處于初期階段,但我們會(huì)迅速改進(jìn)它,并且我們非常期待看到它后續(xù)的發(fā)展?!?/strong>OpenAI 團(tuán)隊(duì)表示。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一旦開打,要讓解放軍“找不著北”,繼王世堅(jiān)之后,于北辰也火了

一旦開打,要讓解放軍“找不著北”,繼王世堅(jiān)之后,于北辰也火了

滄海旅行家
2025-11-18 12:52:41
誰在縱容《好東西》這種爛片到處拿獎(jiǎng)?

誰在縱容《好東西》這種爛片到處拿獎(jiǎng)?

木風(fēng)的影視劇綜Vista
2025-11-17 20:51:38
蔡琳曬濟(jì)州島院子,種滿瓜果蔬菜大的像莊園,9年不拍戲仍不差錢

蔡琳曬濟(jì)州島院子,種滿瓜果蔬菜大的像莊園,9年不拍戲仍不差錢

八怪娛
2025-11-17 19:59:09
一個(gè)時(shí)代的盡頭:當(dāng)澳門的燈光開始熄滅

一個(gè)時(shí)代的盡頭:當(dāng)澳門的燈光開始熄滅

七分日記
2025-11-18 00:09:38
俞敏洪又翻車了!老俞給員工發(fā)公司周年慶公開信,上來卻被員工懟

俞敏洪又翻車了!老俞給員工發(fā)公司周年慶公開信,上來卻被員工懟

火山詩話
2025-11-18 15:30:28
涉嫌嚴(yán)重違紀(jì)違法!江西省都昌縣委書記邱艦被查

涉嫌嚴(yán)重違紀(jì)違法!江西省都昌縣委書記邱艦被查

魯中晨報(bào)
2025-11-18 14:29:02
外交部介紹中日外交官會(huì)晤情況:中方再次向日方提出嚴(yán)正交涉

外交部介紹中日外交官會(huì)晤情況:中方再次向日方提出嚴(yán)正交涉

澎湃新聞
2025-11-18 15:26:36
多名網(wǎng)友稱在京東買到假貨,客服:需提供質(zhì)檢報(bào)告

多名網(wǎng)友稱在京東買到假貨,客服:需提供質(zhì)檢報(bào)告

鞭牛士
2025-11-17 21:30:13
蘇提達(dá)棗紅造型雍容華貴,盡顯王室風(fēng)范

蘇提達(dá)棗紅造型雍容華貴,盡顯王室風(fēng)范

述家娛記
2025-11-18 10:33:27
初中生開竅的規(guī)律,還挺準(zhǔn)的!

初中生開竅的規(guī)律,還挺準(zhǔn)的!

好爸育兒
2025-11-17 09:25:09
中央定調(diào),退休新規(guī),1970年后出生的,繳夠15年可以提前退休嗎?

中央定調(diào),退休新規(guī),1970年后出生的,繳夠15年可以提前退休嗎?

boss外傳
2025-11-17 16:00:03
楊亞洲大兒子一句話:“搬出去住”,倪萍當(dāng)場落淚

楊亞洲大兒子一句話:“搬出去住”,倪萍當(dāng)場落淚

青史樓蘭
2025-11-18 11:56:35
最新金牌榜:山東40金穩(wěn)居第一,浙江37金緊追廣東,湖北反超河南

最新金牌榜:山東40金穩(wěn)居第一,浙江37金緊追廣東,湖北反超河南

體育就你秀
2025-11-18 11:27:51
王長慶回應(yīng)“摘桃”:啟蒙不是我?guī)У木退阏??我們考察?00多人

王長慶回應(yīng)“摘桃”:啟蒙不是我?guī)У木退阏遥课覀兛疾炝?00多人

懂球帝
2025-11-18 09:29:18
為躲避戰(zhàn)亂,幾百個(gè)漢人“藏”在云南山洞300多年,已繁衍9代人!

為躲避戰(zhàn)亂,幾百個(gè)漢人“藏”在云南山洞300多年,已繁衍9代人!

史之銘
2025-11-14 20:49:40
大S“布局”終于生效,馬筱梅和張?zhí)m產(chǎn)生分歧,汪小菲也控制不了

大S“布局”終于生效,馬筱梅和張?zhí)m產(chǎn)生分歧,汪小菲也控制不了

檸檬有娛樂
2025-11-18 14:21:10
易烊千璽和李庚希上演了一場“咬脖”戲,末日禁忌戀磕瘋了

易烊千璽和李庚希上演了一場“咬脖”戲,末日禁忌戀磕瘋了

書臺(tái)小事
2025-11-18 16:22:36
燒一賠三!輪到廣汽掀桌子,10.48萬的埃安i60開賣

燒一賠三!輪到廣汽掀桌子,10.48萬的埃安i60開賣

超電實(shí)驗(yàn)室
2025-11-17 18:25:48
奧運(yùn)冠軍石智勇奪全運(yùn)會(huì)舉重73公斤級(jí)冠軍,賽后宣布退役

奧運(yùn)冠軍石智勇奪全運(yùn)會(huì)舉重73公斤級(jí)冠軍,賽后宣布退役

懂球帝
2025-11-18 11:15:10
向佑徹底沒救了!現(xiàn)身南昌酒吧,新交的女友又胖又頹,煙酒不離手

向佑徹底沒救了!現(xiàn)身南昌酒吧,新交的女友又胖又頹,煙酒不離手

姩姩有娛
2025-11-17 18:20:45
2025-11-18 17:12:49
知危 incentive-icons
知危
投資不立危墻之下
498文章數(shù) 1826關(guān)注度
往期回顧 全部

科技要聞

OPPO Reno15系列深評(píng):實(shí)況封神+顏值暴擊

頭條要聞

燃?xì)夤疚锤嬷層脩舫袚?dān)燃?xì)獗黼姵刭M(fèi) 遭業(yè)主起訴

頭條要聞

燃?xì)夤疚锤嬷層脩舫袚?dān)燃?xì)獗黼姵刭M(fèi) 遭業(yè)主起訴

體育要聞

結(jié)束最后一次對(duì)決,陳夢(mèng)和朱雨玲笑著相擁

娛樂要聞

宋佳奪影后動(dòng)了誰的奶酪

財(cái)經(jīng)要聞

青云租陷兌付危機(jī) 集資與放貸的雙面生意

汽車要聞

更加豪華 更加全地形 極石ADAMAS

態(tài)度原創(chuàng)

家居
房產(chǎn)
教育
游戲
軍事航空

家居要聞

彰顯奢華 意式經(jīng)典風(fēng)格

房產(chǎn)要聞

29.4億!海南“地王”片區(qū),要賣超級(jí)宅地!

教育要聞

開屏叭啦吧 |一年級(jí)的小朋友們,最喜歡哪門學(xué)科?

深海迷航+無人深空?開放世界多人撿垃圾《永恒天空》免費(fèi)大更

軍事要聞

日媒揚(yáng)言要"擊沉福建艦" 專家:玩火自焚

無障礙瀏覽 進(jìn)入關(guān)懷版 无码中文字幕日韩专区视频| 麻豆国产av穿旗袍强迫女佣人| 国产乱码AV不卡| 黑人大茎大战女白人| 小伙无套内射老熟女精品| 狠狠躁夜夜躁AV| 久久精品少妇高潮a片免费观| 亚洲AV网站大全| 99久久精彩视频| 青青草国产精品亚洲专区无码| 日本精品啪啪一区二区三区| 99热精品2| 激情五月婷婷| 国产美女自慰在线| 三年高清视频大全| 色欲综合网站| 日本A级视频| 国内熟妇人妻色在线视频| 久久亚洲AV无码精品色午夜秀色| 大陆国语对白国产av片| 久久AV无码| 午夜人性色福利无码视频在线观看| 欧美国产乱伦| 欧美 国产 人人视频| 欧美黑人巨鞭大战丰满少妇| 国产中文成人精品久久久| 女性自慰网站免费观看W| 久久AV无码精品人妻糸列| 熟妇高潮精品一区二区三区喷水| 男女啪啪永久免费网站| 久久久男人天堂| 欧美射精视频在线| 男人天堂新地址| 亚洲三级网址| 水蜜桃成视频人在线看| 人妻少妇被粗大爽| 日韩免费福利| 又爽又色禁片1000视频免费看| 麻豆成人av在线| 无码国产69精品久久久播放| 国产精品福利自产拍在线观看|