網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

快來看看GPT-5第一波實(shí)測

2025-08-08 18:32:27　來源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

GPT-5的發(fā)布讓全球震動(dòng)，網(wǎng)友也都開始了試玩模式。

50萬粉YoutuberMatthew Berman也參與其中，用25分鐘的視頻展示了數(shù)十個(gè)案例。

利用GPT-5，Berman做出了個(gè)魔方生成器，能夠生成、打亂或復(fù)原任意階數(shù)的魔方。

還做出了賽博版樂高，在網(wǎng)頁中就能快樂搭積木。

還有其他博主用GPT-5一口氣克隆出了太空模擬器、冥想應(yīng)用，甚至是多鄰國和Windows 95

總之，“博士生水平”的GPT-5確實(shí)表現(xiàn)驚人，登頂了大模型競技場，也刷新了多個(gè)榜單。

甚至發(fā)布會(huì)演示的學(xué)法語游戲，讓多鄰國正在上漲的股價(jià)直接掉頭。

網(wǎng)友感嘆，GPT-5誕生后的開發(fā)者be like：

不過也有人并不買賬，其中的代表就是OpenAI的老冤家馬斯克，他拿出ARC-AGI的成績單表示GPT-5不如Grok 4。

當(dāng)然，馬斯克和OpenAI之間存在太多恩怨，但GPT-5也確實(shí)有些細(xì)節(jié)讓網(wǎng)友們紛紛吐槽。

比如直播當(dāng)中OpenAI展示的圖表上“52>69=30”的名場面，確實(shí)難評(píng)。

那么說到底，GPT-5的表現(xiàn)到底咋樣呢？

50萬粉Youtuber實(shí)測GPT-5

GPT-5發(fā)布后，50萬粉Youtuber Matthew Berman用一段25分鐘的視頻，密集展示了GPT-5在近30個(gè)任務(wù)里的表現(xiàn)。

開頭展示了最早的魔方環(huán)節(jié)中，Berman啟動(dòng)20階魔方求解后就切換到了后面的測試，但此時(shí)求解過程仍在繼續(xù)。

Berman時(shí)不時(shí)會(huì)切換到魔方的界面，最終到了視頻的18分半之后，打亂的20階魔方被成功復(fù)原。

利用GPT-5，Berman還成功復(fù)刻出了網(wǎng)頁版的Word和Excel，注意是應(yīng)用本身而不是文檔和表格。

還有計(jì)算機(jī)史上著名的生命游戲，Berman用GPT-5做出了個(gè)3D版本。

當(dāng)然，少不了的還有經(jīng)典的Vibe-coding項(xiàng)目六邊形小球測試

而且在直接看圖復(fù)刻，還支持通過滑動(dòng)條設(shè)置重力、旋轉(zhuǎn)方向等參數(shù)，甚至支持反重力。

在此基礎(chǔ)之上，Berman還搞了個(gè)進(jìn)階版本，支持調(diào)節(jié)小球數(shù)量和大小，還有摩擦力、空氣阻力、碰撞彈性系數(shù)等更多物理參數(shù)，以及背景、拖尾等視覺效果。

在物理方面，GPT-5還能通過代碼對(duì)流體動(dòng)力學(xué)規(guī)律進(jìn)行模擬，并且同樣支持多項(xiàng)參數(shù)調(diào)節(jié)。

除了編程相關(guān)，Berman也測試了GPT-5的多模態(tài)能力，讓其根據(jù)照片推測地點(diǎn)。

還有圖像生成。

包括以上在內(nèi)，Berman一共測試了數(shù)十項(xiàng)任務(wù)，具體內(nèi)容如下（中文為機(jī)翻，僅供參考），感興趣的話原視頻鏈接文末自?。▍⒖兼溄?）：

當(dāng)然除了Berman的視頻，也還有更多的效果和成績陸續(xù)被揭開。

比如長文本能力，相比o3和o4-mini，都有大幅提升。

以及在SimpleBench上，GPT-5的水平已經(jīng)超過了人類平均水平，在大模型中尚屬首次。

這是一個(gè)簡單常識(shí)推理類的數(shù)據(jù)集，主要特點(diǎn)就是對(duì)于人類非常簡單，但對(duì)大模型比較困難。

其實(shí)著名的strawberry數(shù)r就是這類問題的一個(gè)代表，結(jié)果是GPT-5數(shù)對(duì)了。

并且以防strawberry太過知名導(dǎo)致模型已有所防備，這位博主還加測了一個(gè)blueberry，結(jié)果同樣正確。

另外有博主發(fā)現(xiàn)，GPT-5的Pro版本部分解決了大模型容易被問題表象迷惑的問題，識(shí)破了修改版的“外科醫(yī)生謎語”。

“外科醫(yī)生謎語”指的是有一個(gè)男孩和父親遭遇車禍，父親喪生，男孩被送往醫(yī)院，結(jié)果醫(yī)生（surgeon）說無法給男孩進(jìn)行手術(shù)，因?yàn)槟泻⑹荰A的兒子。

而在英文語境當(dāng)中surgeon常被認(rèn)為是男性，而男孩的父親已經(jīng)喪生，不可能說出無法給兒子做手術(shù)的話。

但這個(gè)修改版本，去除了父親喪生的設(shè)定，也沒有提及醫(yī)生和男孩的關(guān)系。

因此題目看似一致，但關(guān)鍵信息發(fā)生了巨大變化，以往的大模型非常容易被表象所迷惑。

不過GPT-5成功識(shí)破了這一點(diǎn)，表示這段話中并不存在謎語，同時(shí)也提及了原始版本。

不過只有Pro版本答對(duì)，GPT-5和GPT-5-Thinking都是當(dāng)成了原始版本在回答。

GPT-5，全球第一？

除了實(shí)際體驗(yàn)和各種Benchmark，在用戶自行投票的大模型競技場上，GPT-5也獲得了總分和各個(gè)單項(xiàng)的第一名。

不過雖然排名是第一，但Reddit上有網(wǎng)友仔細(xì)看了原始對(duì)戰(zhàn)成績，發(fā)現(xiàn)GPT-5和Gemini-2.5-Pro進(jìn)行單獨(dú)對(duì)戰(zhàn)的時(shí)候，勝率不及后者。

比如在Text榜單中，排名是這樣的：

而單獨(dú)對(duì)戰(zhàn)記錄當(dāng)中，Gemini-2.5-Pro在三分之二的對(duì)戰(zhàn)中都戰(zhàn)勝了GPT-5。

抓馬的是，這篇帖子的正文已經(jīng)被Reddit版主刪除了。

不過評(píng)論被保留了下來，網(wǎng)友們分析Gemini智商高但情商低，指令遵循能力稍弱，因此不討人們喜歡，導(dǎo)致最終綜合表現(xiàn)排在了GPT之后。

還有LiveBench榜單當(dāng)中，GPT-5綜合排名第一，但是編程單項(xiàng)不及Claude-4-Sonnet。

當(dāng)然對(duì)“GPT-5是第一”意見最大的還是要屬馬斯克，比如開頭展示的ARC-AGI成績，馬斯克那一條之前就已經(jīng)轉(zhuǎn)發(fā)過一次。

更早前還曬出了Humanity’s Last Exam的成績，表示GPT-5不如Grok 4 Heavy。

另外，GPT-5還有一些具體問題，比如在多模態(tài)數(shù)數(shù)場景當(dāng)中依然存在慣性思維。

面對(duì)被人類P成5條腿的斑馬、5個(gè)圓環(huán)的奧迪、3條腿的鴨子，GPT-5想當(dāng)然認(rèn)為它們是正常的斑馬、奧迪和鴨子，并據(jù)此報(bào)出了與圖片不相符的數(shù)目。

以及直播中展示的法語學(xué)習(xí)網(wǎng)站，雖然功能沒啥問題，但設(shè)計(jì)風(fēng)格被人們吐槽太丑了。

看來這下設(shè)計(jì)師可以先放一放心了（手動(dòng)狗頭）。

網(wǎng)友調(diào)侃奧特曼式繪圖

如果要找這次GPT-5發(fā)布會(huì)最大的槽點(diǎn)，52>69的名場面當(dāng)之無愧。

OpenAI此舉引發(fā)了不少吐槽和調(diào)侃，還有網(wǎng)友表示，這張圖我拿o3給你修復(fù)好了：

也有網(wǎng)友拿隔壁Claude的數(shù)據(jù)做了一個(gè)戲仿版本，通過坐標(biāo)軸讓Claude 2個(gè)百分點(diǎn)的成績提升看上去非常高。

這名網(wǎng)友表示自己應(yīng)該去做營銷的工作，不過這種方法雖然一樣不講武德，但和OpenAI的52>69相比，依然是小巫見大巫。

那么，你認(rèn)為GPT-5的表現(xiàn)如何呢？舊版本一刀全被砍掉的ChatGPT，你還愿意繼續(xù)付費(fèi)嗎？

[1]https://x.com/MatthewBerman/status/1953529524597272910
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mk7u6i/gpt_5_seems_worse_than_gemini_in_headtohead/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.