夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

奧特曼發(fā)布GPT-5!人人免費(fèi)用博士級(jí)智能,基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽

GPT-5基準(zhǔn)圖錯(cuò)誤遭全網(wǎng)吐槽

GPT-5發(fā)布 基準(zhǔn)圖錯(cuò)誤遭吐槽

0
分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

都看了嗎?

等了多年的 GPT-5,終于在這個(gè)凌晨發(fā)布了。



我們一臉的期待,直播中 OpenAI 幾位核心人員的緊張也肉眼可見。

直播過(guò)程中,奧特曼也是連發(fā)十幾條推特,介紹 GPT-5 的看點(diǎn)。

因?yàn)樾畔Ⅻc(diǎn)比較多,我們就以?shī)W特曼的推特內(nèi)容為依據(jù)為大家一一介紹。

首先,這是一個(gè)集成模型。也就是說(shuō),你用它的時(shí)候不需要在不同模型之間切換,它會(huì)自己決定何時(shí)需要深入思考。



盡管奧特曼強(qiáng)調(diào) benchmark 不重要,但他們還是曬出了不少跑分結(jié)果,比如在數(shù)學(xué)、編程、視覺感知和健康領(lǐng)域。具體跑分如下:

  • 數(shù)學(xué)領(lǐng)域:在 2025 年 AIME 測(cè)試中無(wú)工具輔助達(dá)到 94.6%
  • 實(shí)際編程應(yīng)用:SWE-bench Verified 達(dá)到 74.9%,Aider Polyglot 達(dá)到 88%
  • 多模態(tài)理解:MMMU 達(dá)到 84.2%
  • 健康領(lǐng)域:HealthBench Hard 達(dá)到 46.2%
  • 通過(guò) GPT-5 pro 的擴(kuò)展推理能力,該模型還在 GPQA 測(cè)試中創(chuàng)造了新的 SOTA,在無(wú)工具輔助的情況下得分 88.4%。

費(fèi)用方面,GPT-5 分為免費(fèi)版、Plus 和 Pro 計(jì)劃。根據(jù)奧特曼的說(shuō)法,免費(fèi)版也能用上「博士級(jí)別的智能」(GPT-5 普通版,但帶推理功能),Plus 用戶在使用頻率上限制更少,而 Pro 用戶可以用上 GPT-5 Pro。

面向開發(fā)者,GPT-5 的三個(gè)版本 API 價(jià)格如下:標(biāo)準(zhǔn)版 GPT-5 為每百萬(wàn)輸入 Token 1.25 美元,每百萬(wàn)輸出 Token 10 美元,GPT-5 mini 版 與 Nano 版會(huì)更便宜。



雖然直播長(zhǎng)達(dá)一個(gè)多小時(shí),但 OpenAI 大部分時(shí)間都在介紹 GPT-5 有多「好用」

比如在教育方面,它可以在幾分鐘之內(nèi)生成數(shù)百行代碼,生成互動(dòng)內(nèi)容來(lái)解釋復(fù)雜概念,比如伯努利效應(yīng)。



在寫作方面,GPT-5 的文筆比 GPT-4o 要好。



在編程方面,它可以用幾分鐘時(shí)間寫出一個(gè)法語(yǔ)學(xué)習(xí)網(wǎng)頁(yè),幫你練發(fā)音,還能做題、玩游戲。



語(yǔ)音模式也得到了升級(jí),語(yǔ)音語(yǔ)調(diào)更加自然,想聊多久聊多久,語(yǔ)速也能隨便調(diào),非常適合拿來(lái)學(xué)外語(yǔ)。



之前我們報(bào)道過(guò)的「AI 看病」功能,他們也做了專門的優(yōu)化,還請(qǐng)了一位癌癥患者現(xiàn)場(chǎng)分享自己的經(jīng)歷,以及 ChatGPT 在解釋病情方面給予她的幫助。奧特曼表示,GPT-5 是迄今為止最好的健康模型。



不過(guò),現(xiàn)場(chǎng)也出了一些小 bug,比如做出的跑分圖竟然是錯(cuò)的,奧特曼也承認(rèn)了錯(cuò)誤:



這樣的錯(cuò)誤還不止一個(gè):



更尷尬的是,馬斯克也跑來(lái)拆臺(tái),轉(zhuǎn)發(fā)了 GPT-5 在 ARC-AGI-2 上沒有打敗 Grok 4 的消息:



連關(guān)于減少幻覺方面的 demo,也被人挑出了毛?。?/p>



不過(guò),有人說(shuō),這不是「幻覺」問(wèn)題,而是數(shù)據(jù)來(lái)源就有問(wèn)題。



總體來(lái)看,GPT-5 的表現(xiàn)在很多人看來(lái)沒有達(dá)到預(yù)期。





那么,GPT-5 的各方面表現(xiàn)到底怎么樣?我們來(lái)看一下技術(shù)博客中的詳細(xì)信息。

一體化智能系統(tǒng)

GPT?5 是一個(gè)包含三個(gè)模型的統(tǒng)一系統(tǒng):回答大部分常規(guī)問(wèn)題的高效應(yīng)答模型、解答復(fù)雜難題的深度推理模型「GPT?5 Thinking 模式」,以及根據(jù)對(duì)話類型、問(wèn)題復(fù)雜度、工具需求及用戶明確指令(例如輸入 "深入思考這個(gè)問(wèn)題")自動(dòng)分配最優(yōu)處理模型的實(shí)時(shí) router。

該 router 系統(tǒng)通過(guò)用戶切換模型行為、回答偏好數(shù)據(jù)及準(zhǔn)確率反饋等實(shí)時(shí)信號(hào)持續(xù)優(yōu)化。當(dāng)使用量達(dá)限時(shí),各模型的精簡(jiǎn)版本將接管后續(xù)查詢。

OpenAI 計(jì)劃在近期將這些能力融合至單一終極模型。

GPT?5 不僅在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于前代模型、響應(yīng)速度更快,更重要的是 —— 它能更有效地處理現(xiàn)實(shí)場(chǎng)景中的各類需求。

OpenAI 表示,GPT5 在三大關(guān)鍵領(lǐng)域取得重大突破:顯著降低幻覺生成、提升指令遵循精度、減少迎合性回答。同時(shí),GPT?5 在 ChatGPT 最常用的三大功能場(chǎng)景(文本創(chuàng)作、編程開發(fā)、健康咨詢)中表現(xiàn)全面提升。

評(píng)估

接下來(lái),就讓我們看下 GPT-5 在各項(xiàng)基準(zhǔn)上的成績(jī)。

據(jù)博客介紹,GPT?5 在各項(xiàng)能力上均實(shí)現(xiàn)顯著提升,尤其在數(shù)學(xué)、編程、視覺理解和健康領(lǐng)域表現(xiàn)突出。數(shù)學(xué)領(lǐng)域,無(wú)工具輔助下 GPT-5AIME 2025 測(cè)試達(dá) 94.6%;真實(shí)場(chǎng)景編程,GPT-5 得分分別為 SWE-bench Verified 74.9%/Aider Polyglot 88%,多模態(tài)理解上 MMMU 84.2%,及健康領(lǐng)域 HealthBench Hard 46.2%。搭載擴(kuò)展推理能力的 GPT?5 專業(yè)版更在 GPQA 基準(zhǔn)測(cè)試中以 88.4% 的成績(jī)(無(wú)工具輔助)創(chuàng)下新紀(jì)錄。



不應(yīng)將使用工具的 AIME 結(jié)果與不使用工具的模型的性能直接進(jìn)行比較;這是 GPT-5 如何有效利用可用工具的一個(gè)例子。









編碼基準(zhǔn)



指令遵循與智能工具調(diào)用能力:GPT?5 在指令遵循和智能工具調(diào)用基準(zhǔn)測(cè)試中表現(xiàn)顯著提升。這類能力使其能夠可靠地執(zhí)行多步驟請(qǐng)求、跨工具協(xié)同操作,并適應(yīng)上下文變化。實(shí)際應(yīng)用中,這意味著 GPT?5 更擅長(zhǎng)處理復(fù)雜且動(dòng)態(tài)變化的任務(wù):它能更精準(zhǔn)地遵循用戶指令,并充分利用現(xiàn)有工具端到端地完成更多工作環(huán)節(jié)。





這是一個(gè) GPT-5 寫的小游戲 demo:



多模態(tài)基準(zhǔn)

該模型在多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)卓越,涵蓋視覺、視頻、空間及科學(xué)推理等多個(gè)領(lǐng)域。增強(qiáng)的多模態(tài)能力意味著 ChatGPT 能更精準(zhǔn)地解析圖像等非文本輸入 —— 無(wú)論是解讀圖表數(shù)據(jù)、總結(jié)演示文稿照片,還是回答基于示意圖的提問(wèn)。





健康基準(zhǔn)



經(jīng)濟(jì)價(jià)值型任務(wù)表現(xiàn)

在 OpenAI 內(nèi)部一個(gè)評(píng)估基準(zhǔn)上,GPT5 同樣表現(xiàn)卓越,該測(cè)試專門評(píng)估模型在復(fù)雜、經(jīng)濟(jì)價(jià)值知識(shí)型工作上的表現(xiàn)。在啟用推理功能時(shí),GPT?5 在大約半數(shù)案例中的表現(xiàn)達(dá)到或超越人類專家水平,同時(shí)在法律、物流、銷售、工程等 40 多個(gè)職業(yè)領(lǐng)域的綜合任務(wù)表現(xiàn)上全面優(yōu)于 o3 模型和 ChatGPT Agent。



上述評(píng)估的方法論說(shuō)明:GPT-4o 的測(cè)試結(jié)果基于截至 2025 年 8 月 ChatGPT 中的最新模型版本。所有模型均在 "高推理強(qiáng)度" 設(shè)置下進(jìn)行評(píng)估。需注意的是,ChatGPT 中的推理強(qiáng)度可調(diào)節(jié),而 "高" 強(qiáng)度代表用戶使用模型時(shí)可能體驗(yàn)到的性能上限。

更快、更高效的 Thinking 模式

GPT?5 能以更少的思考時(shí)間創(chuàng)造更大價(jià)值。評(píng)估數(shù)據(jù)顯示,在視覺推理、智能體編程和研究生級(jí)科學(xué)問(wèn)題解決等場(chǎng)景中,啟用思考功能的 GPT?5 性能表現(xiàn)優(yōu)于 OpenAI o3 模型,同時(shí)輸出 token 量減少 50-80%。







這里,OpenAI 特意提到,GPT?5 是在微軟 Azure AI 超級(jí)計(jì)算機(jī)上訓(xùn)練的。

當(dāng)然,GPT-5 也第一時(shí)間就上線到了微軟的平臺(tái)。



為了應(yīng)對(duì)最具挑戰(zhàn)性、最復(fù)雜的任務(wù),OpenAI 還發(fā)布了 GPT-5 pro,以取代 OpenAI o3-pro。GPT-5 pro 是 GPT-5 的一個(gè)變體,它能夠長(zhǎng)時(shí)間思考,使用可擴(kuò)展且高效的并行測(cè)試時(shí)間計(jì)算,從而提供最高質(zhì)量和最全面的答案。

GPT-5 pro 在多項(xiàng)極具挑戰(zhàn)性的智能基準(zhǔn)測(cè)試中取得了 GPT-5 系列中的最高性能,包括在包含極其困難的科學(xué)問(wèn)題的 GPQA 上取得的領(lǐng)先性能。

此外,我們還是把 GPT-5 的模型系統(tǒng)卡放到最后,感興趣的讀者們可以自行研究。



  • 鏈接:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf

值得一提是這張圖,展示了今天發(fā)的 GPT-5 系列模型與前幾代 OpenAI 模型之間的關(guān)聯(lián):



最后,還是想問(wèn)一句:GPT-5 符合你的預(yù)期嗎?是不是更期待 DeepSeek-R2 了?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
桃子立大功!醫(yī)生發(fā)現(xiàn):經(jīng)常吃桃子的人,用不了多久,或有5變化

桃子立大功!醫(yī)生發(fā)現(xiàn):經(jīng)常吃桃子的人,用不了多久,或有5變化

普陀動(dòng)物世界
2025-08-09 02:36:30
超齡打工人!人社部新規(guī):退休返聘、大齡求職者社保工資全保障

超齡打工人!人社部新規(guī):退休返聘、大齡求職者社保工資全保障

逍遙史記
2025-08-08 10:01:09
有錢任性!東契奇喜提200萬(wàn)美金純電豪華超跑,全球限量150輛

有錢任性!東契奇喜提200萬(wàn)美金純電豪華超跑,全球限量150輛

818體育
2025-08-08 10:30:05
謝娜曬爸爸寄的特產(chǎn),引來(lái)上萬(wàn)網(wǎng)友圍觀,感嘆:原諒我沒見過(guò)世面

謝娜曬爸爸寄的特產(chǎn),引來(lái)上萬(wàn)網(wǎng)友圍觀,感嘆:原諒我沒見過(guò)世面

草莓解說(shuō)體育
2025-08-09 07:47:20
宋寧峰也沒想到,自己拋棄的糟糠妻,如今到了王傳君手里閃閃發(fā)光

宋寧峰也沒想到,自己拋棄的糟糠妻,如今到了王傳君手里閃閃發(fā)光

白面書誏
2025-08-06 23:02:30
上海一居民家中被噴射不明液體!30多扇窗全遭殃,老人嚇得不敢出門

上海一居民家中被噴射不明液體!30多扇窗全遭殃,老人嚇得不敢出門

瀟湘晨報(bào)
2025-08-08 21:00:53
年終獎(jiǎng)50萬(wàn)變成10萬(wàn),我提離職退掉所有工作群,第二天老板慌了

年終獎(jiǎng)50萬(wàn)變成10萬(wàn),我提離職退掉所有工作群,第二天老板慌了

曉艾故事匯
2025-08-06 08:05:28
3球7助攻!19歲天才邊鋒橫空出世,2000萬(wàn)鎊被拒,3大豪強(qiáng)還哄搶

3球7助攻!19歲天才邊鋒橫空出世,2000萬(wàn)鎊被拒,3大豪強(qiáng)還哄搶

零度眼看球
2025-08-09 07:22:57
手相不如面相準(zhǔn)!老道士揭秘:能不能長(zhǎng)壽看臉上兩紋

手相不如面相準(zhǔn)!老道士揭秘:能不能長(zhǎng)壽看臉上兩紋

阿鄭的讀書日常
2025-08-06 14:36:17
個(gè)別中成藥,虛高900多倍

個(gè)別中成藥,虛高900多倍

中國(guó)新聞周刊
2025-08-08 21:53:35
逐漸滾燙!今年第11號(hào)臺(tái)風(fēng)“楊柳”生成!未來(lái)廣東天氣……

逐漸滾燙!今年第11號(hào)臺(tái)風(fēng)“楊柳”生成!未來(lái)廣東天氣……

城事特搜
2025-08-08 20:24:51
網(wǎng)傳武大楊某媛疑似已就業(yè),在香港浸會(huì)大學(xué)任研究助理,并非讀博

網(wǎng)傳武大楊某媛疑似已就業(yè),在香港浸會(huì)大學(xué)任研究助理,并非讀博

悠閑歷史
2025-08-08 18:28:37
家人遭辱罵!20歲國(guó)青紅星心態(tài)崩了 手指看臺(tái)+與大連球迷激烈互噴

家人遭辱罵!20歲國(guó)青紅星心態(tài)崩了 手指看臺(tái)+與大連球迷激烈互噴

我愛英超
2025-08-08 23:27:51
瓊斯談徐杰言論:他是對(duì)的 信心是成功關(guān)鍵 練夠多就不會(huì)自我懷疑

瓊斯談徐杰言論:他是對(duì)的 信心是成功關(guān)鍵 練夠多就不會(huì)自我懷疑

直播吧
2025-08-08 23:40:04
鹿哈官宣訂婚,現(xiàn)場(chǎng)視頻曝光

鹿哈官宣訂婚,現(xiàn)場(chǎng)視頻曝光

三湘都市報(bào)
2025-08-08 15:41:50
沸騰了!中國(guó)要申辦世界杯?廣州牽頭

沸騰了!中國(guó)要申辦世界杯?廣州牽頭

說(shuō)財(cái)貓
2025-08-08 22:24:04
跌超50%!當(dāng)年“萬(wàn)人嫌”的深圳新盤,現(xiàn)在都咋樣了?

跌超50%!當(dāng)年“萬(wàn)人嫌”的深圳新盤,現(xiàn)在都咋樣了?

深圳買房計(jì)劃
2025-08-08 22:57:57
9月1號(hào)強(qiáng)制繳納社保是自媒體瞎編的,知道嗎?

9月1號(hào)強(qiáng)制繳納社保是自媒體瞎編的,知道嗎?

流蘇晚晴
2025-08-08 18:09:33
這就是梅蘭芳三位夫人真實(shí)樣貌,非演員扮演,貨真價(jià)實(shí)的罕見照片

這就是梅蘭芳三位夫人真實(shí)樣貌,非演員扮演,貨真價(jià)實(shí)的罕見照片

大壯實(shí)驗(yàn)室
2025-07-26 14:53:33
臺(tái)灣屏東舉行日軍慰靈祭:臺(tái)灣省,為何有一群“精神日本人”?

臺(tái)灣屏東舉行日軍慰靈祭:臺(tái)灣省,為何有一群“精神日本人”?

黃娜老師
2025-08-09 02:34:25
2025-08-09 09:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11048文章數(shù) 142415關(guān)注度
往期回顧 全部

科技要聞

ChatGPT-5“不夠驚艷”?最新實(shí)測(cè)來(lái)了

頭條要聞

尊湃芯片竊密案細(xì)節(jié)披露:有人白天在華為 晚上去尊湃

頭條要聞

尊湃芯片竊密案細(xì)節(jié)披露:有人白天在華為 晚上去尊湃

體育要聞

拒絕美國(guó)U19男籃,他讓中國(guó)臺(tái)北成為黑馬

娛樂(lè)要聞

小S復(fù)出之路艱難!電視臺(tái)避談具體時(shí)間

財(cái)經(jīng)要聞

釋永信海外資本局:至少4600萬(wàn)流向澳洲

汽車要聞

百萬(wàn)級(jí)舒適感!東風(fēng)風(fēng)神L8真實(shí)力打臉楊子

態(tài)度原創(chuàng)

藝術(shù)
房產(chǎn)
手機(jī)
本地
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

一二手齊跌!7月廣州樓市,階段性回調(diào)!

手機(jī)要聞

鏡頭排布一毛一樣,realme搶先蘋果換相機(jī)設(shè)計(jì)

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产AV一区二区精华液| 国产无码AV在线无码免费看| 在线观看亚洲精品福利片 | 日韩精品乱码av一区二区| 欧美人人操人人| 国产办公室AV| 精品国产肉丝袜在线拍国语| 亚洲AV强奸在线| 十八禁 蜜桃视一区二区三区频| 国产精品性| 琪琪一区二区三区| 国产精品无码久久久久久豆腐| 一二三四在线观看免费中文动漫版 | 精品国产午夜| 久久精品国产AV麻豆五月丁香| 国产精品日日摸夜夜添夜夜添2021| 夜夜高潮夜夜爽免费观看| 一区二区三区伦理| 亚洲综合色区在线播放2019| 欧美激情在线视频| 国产老熟女一区二区三区仙踪密林 | 无码人妻丰满熟妇乱| 后入大屁股在线观看| 亚洲国产A∨无码影院| 日韩精品无码内射| 肏妓女老熟女| 日本久久99成人网站| 无码精品人妻一区二区三区97 | 玩弄少妇人妻中文字幕| 午夜dv内射一区二区| 伊人成综合网伊人222| 激情六月丁香婷婷| 国产精品久久久久久对白| 亚洲精品50免费| 桃花岛亚洲成在人线AV| 肉欲性色Av一区二区| 操BBXX网站| 老熟妇仑乱视频一区二区| N老视频Chinese| 欧美日产欧美国产成人私人影院| 国产95在线 | 欧美|