- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
GPT-5的發(fā)布讓全球震動(dòng),網(wǎng)友也都開始了試玩模式。
50萬粉YoutuberMatthew Berman也參與其中,用25分鐘的視頻展示了數(shù)十個(gè)案例。
利用GPT-5,Berman做出了個(gè)魔方生成器,能夠生成、打亂或復(fù)原任意階數(shù)的魔方。
還做出了賽博版樂高,在網(wǎng)頁中就能快樂搭積木。
還有其他博主用GPT-5一口氣克隆出了太空模擬器、冥想應(yīng)用,甚至是多鄰國和Windows 95
總之,“博士生水平”的GPT-5確實(shí)表現(xiàn)驚人,登頂了大模型競技場,也刷新了多個(gè)榜單。
甚至發(fā)布會(huì)演示的學(xué)法語游戲,讓多鄰國正在上漲的股價(jià)直接掉頭。
網(wǎng)友感嘆,GPT-5誕生后的開發(fā)者be like:
不過也有人并不買賬,其中的代表就是OpenAI的老冤家馬斯克,他拿出ARC-AGI的成績單表示GPT-5不如Grok 4。
當(dāng)然,馬斯克和OpenAI之間存在太多恩怨,但GPT-5也確實(shí)有些細(xì)節(jié)讓網(wǎng)友們紛紛吐槽。
比如直播當(dāng)中OpenAI展示的圖表上“52>69=30”的名場面,確實(shí)難評(píng)。
那么說到底,GPT-5的表現(xiàn)到底咋樣呢?
50萬粉Youtuber實(shí)測GPT-5
GPT-5發(fā)布后,50萬粉Youtuber Matthew Berman用一段25分鐘的視頻,密集展示了GPT-5在近30個(gè)任務(wù)里的表現(xiàn)。
開頭展示了最早的魔方環(huán)節(jié)中,Berman啟動(dòng)20階魔方求解后就切換到了后面的測試,但此時(shí)求解過程仍在繼續(xù)。
Berman時(shí)不時(shí)會(huì)切換到魔方的界面,最終到了視頻的18分半之后,打亂的20階魔方被成功復(fù)原。
利用GPT-5,Berman還成功復(fù)刻出了網(wǎng)頁版的Word和Excel,注意是應(yīng)用本身而不是文檔和表格。
還有計(jì)算機(jī)史上著名的生命游戲,Berman用GPT-5做出了個(gè)3D版本。
當(dāng)然,少不了的還有經(jīng)典的Vibe-coding項(xiàng)目六邊形小球測試
而且在直接看圖復(fù)刻,還支持通過滑動(dòng)條設(shè)置重力、旋轉(zhuǎn)方向等參數(shù),甚至支持反重力。
在此基礎(chǔ)之上,Berman還搞了個(gè)進(jìn)階版本,支持調(diào)節(jié)小球數(shù)量和大小,還有摩擦力、空氣阻力、碰撞彈性系數(shù)等更多物理參數(shù),以及背景、拖尾等視覺效果。
在物理方面,GPT-5還能通過代碼對(duì)流體動(dòng)力學(xué)規(guī)律進(jìn)行模擬,并且同樣支持多項(xiàng)參數(shù)調(diào)節(jié)。
除了編程相關(guān),Berman也測試了GPT-5的多模態(tài)能力,讓其根據(jù)照片推測地點(diǎn)。
還有圖像生成。
包括以上在內(nèi),Berman一共測試了數(shù)十項(xiàng)任務(wù),具體內(nèi)容如下(中文為機(jī)翻,僅供參考),感興趣的話原視頻鏈接文末自?。▍⒖兼溄?):
當(dāng)然除了Berman的視頻,也還有更多的效果和成績陸續(xù)被揭開。
比如長文本能力,相比o3和o4-mini,都有大幅提升。
以及在SimpleBench上,GPT-5的水平已經(jīng)超過了人類平均水平,在大模型中尚屬首次。
這是一個(gè)簡單常識(shí)推理類的數(shù)據(jù)集,主要特點(diǎn)就是對(duì)于人類非常簡單,但對(duì)大模型比較困難。
其實(shí)著名的strawberry數(shù)r就是這類問題的一個(gè)代表,結(jié)果是GPT-5數(shù)對(duì)了。
并且以防strawberry太過知名導(dǎo)致模型已有所防備,這位博主還加測了一個(gè)blueberry,結(jié)果同樣正確。
另外有博主發(fā)現(xiàn),GPT-5的Pro版本部分解決了大模型容易被問題表象迷惑的問題,識(shí)破了修改版的“外科醫(yī)生謎語”。
“外科醫(yī)生謎語”指的是有一個(gè)男孩和父親遭遇車禍,父親喪生,男孩被送往醫(yī)院,結(jié)果醫(yī)生(surgeon)說無法給男孩進(jìn)行手術(shù),因?yàn)槟泻⑹荰A的兒子。
而在英文語境當(dāng)中surgeon常被認(rèn)為是男性,而男孩的父親已經(jīng)喪生,不可能說出無法給兒子做手術(shù)的話。
但這個(gè)修改版本,去除了父親喪生的設(shè)定,也沒有提及醫(yī)生和男孩的關(guān)系。
因此題目看似一致,但關(guān)鍵信息發(fā)生了巨大變化,以往的大模型非常容易被表象所迷惑。
不過GPT-5成功識(shí)破了這一點(diǎn),表示這段話中并不存在謎語,同時(shí)也提及了原始版本。
不過只有Pro版本答對(duì),GPT-5和GPT-5-Thinking都是當(dāng)成了原始版本在回答。
GPT-5,全球第一?
除了實(shí)際體驗(yàn)和各種Benchmark,在用戶自行投票的大模型競技場上,GPT-5也獲得了總分和各個(gè)單項(xiàng)的第一名。
不過雖然排名是第一,但Reddit上有網(wǎng)友仔細(xì)看了原始對(duì)戰(zhàn)成績,發(fā)現(xiàn)GPT-5和Gemini-2.5-Pro進(jìn)行單獨(dú)對(duì)戰(zhàn)的時(shí)候,勝率不及后者。
比如在Text榜單中,排名是這樣的:
而單獨(dú)對(duì)戰(zhàn)記錄當(dāng)中,Gemini-2.5-Pro在三分之二的對(duì)戰(zhàn)中都戰(zhàn)勝了GPT-5。
抓馬的是,這篇帖子的正文已經(jīng)被Reddit版主刪除了。
不過評(píng)論被保留了下來,網(wǎng)友們分析Gemini智商高但情商低,指令遵循能力稍弱,因此不討人們喜歡,導(dǎo)致最終綜合表現(xiàn)排在了GPT之后。
還有LiveBench榜單當(dāng)中,GPT-5綜合排名第一,但是編程單項(xiàng)不及Claude-4-Sonnet。
當(dāng)然對(duì)“GPT-5是第一”意見最大的還是要屬馬斯克,比如開頭展示的ARC-AGI成績,馬斯克那一條之前就已經(jīng)轉(zhuǎn)發(fā)過一次。
更早前還曬出了Humanity’s Last Exam的成績,表示GPT-5不如Grok 4 Heavy。
另外,GPT-5還有一些具體問題,比如在多模態(tài)數(shù)數(shù)場景當(dāng)中依然存在慣性思維。
面對(duì)被人類P成5條腿的斑馬、5個(gè)圓環(huán)的奧迪、3條腿的鴨子,GPT-5想當(dāng)然認(rèn)為它們是正常的斑馬、奧迪和鴨子,并據(jù)此報(bào)出了與圖片不相符的數(shù)目。
以及直播中展示的法語學(xué)習(xí)網(wǎng)站,雖然功能沒啥問題,但設(shè)計(jì)風(fēng)格被人們吐槽太丑了。
看來這下設(shè)計(jì)師可以先放一放心了(手動(dòng)狗頭)。
網(wǎng)友調(diào)侃奧特曼式繪圖
如果要找這次GPT-5發(fā)布會(huì)最大的槽點(diǎn),52>69的名場面當(dāng)之無愧。
OpenAI此舉引發(fā)了不少吐槽和調(diào)侃,還有網(wǎng)友表示,這張圖我拿o3給你修復(fù)好了:
也有網(wǎng)友拿隔壁Claude的數(shù)據(jù)做了一個(gè)戲仿版本,通過坐標(biāo)軸讓Claude 2個(gè)百分點(diǎn)的成績提升看上去非常高。
這名網(wǎng)友表示自己應(yīng)該去做營銷的工作,不過這種方法雖然一樣不講武德,但和OpenAI的52>69相比,依然是小巫見大巫。
那么,你認(rèn)為GPT-5的表現(xiàn)如何呢?舊版本一刀全被砍掉的ChatGPT,你還愿意繼續(xù)付費(fèi)嗎?
[1]https://x.com/MatthewBerman/status/1953529524597272910
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mk7u6i/gpt_5_seems_worse_than_gemini_in_headtohead/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.