夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

快來看看GPT-5第一波實測

0
分享至

  • 克雷西 發(fā)自 凹非寺
    量子位 | 公眾號 QbitAI

GPT-5的發(fā)布讓全球震動,網(wǎng)友也都開始了試玩模式。

50萬粉YoutuberMatthew Berman也參與其中,用25分鐘的視頻展示了數(shù)十個案例。

利用GPT-5,Berman做出了個魔方生成器,能夠生成、打亂或復(fù)原任意階數(shù)的魔方。



還做出了賽博版樂高,在網(wǎng)頁中就能快樂搭積木。



還有其他博主用GPT-5一口氣克隆出了太空模擬器、冥想應(yīng)用,甚至是多鄰國和Windows 95



總之,“博士生水平”的GPT-5確實表現(xiàn)驚人,登頂了大模型競技場,也刷新了多個榜單。

甚至發(fā)布會演示的學(xué)法語游戲,讓多鄰國正在上漲的股價直接掉頭。



網(wǎng)友感嘆,GPT-5誕生后的開發(fā)者be like:



不過也有人并不買賬,其中的代表就是OpenAI的老冤家馬斯克,他拿出ARC-AGI的成績單表示GPT-5不如Grok 4。



當(dāng)然,馬斯克和OpenAI之間存在太多恩怨,但GPT-5也確實有些細(xì)節(jié)讓網(wǎng)友們紛紛吐槽。

比如直播當(dāng)中OpenAI展示的圖表上“52>69=30”的名場面,確實難評。



那么說到底,GPT-5的表現(xiàn)到底咋樣呢?

50萬粉Youtuber實測GPT-5

GPT-5發(fā)布后,50萬粉Youtuber Matthew Berman用一段25分鐘的視頻,密集展示了GPT-5在近30個任務(wù)里的表現(xiàn)。

開頭展示了最早的魔方環(huán)節(jié)中,Berman啟動20階魔方求解后就切換到了后面的測試,但此時求解過程仍在繼續(xù)。

Berman時不時會切換到魔方的界面,最終到了視頻的18分半之后,打亂的20階魔方被成功復(fù)原。



利用GPT-5,Berman還成功復(fù)刻出了網(wǎng)頁版的Word和Excel,注意是應(yīng)用本身而不是文檔和表格。



還有計算機史上著名的生命游戲,Berman用GPT-5做出了個3D版本。



當(dāng)然,少不了的還有經(jīng)典的Vibe-coding項目六邊形小球測試

而且在直接看圖復(fù)刻,還支持通過滑動條設(shè)置重力、旋轉(zhuǎn)方向等參數(shù),甚至支持反重力。



在此基礎(chǔ)之上,Berman還搞了個進(jìn)階版本,支持調(diào)節(jié)小球數(shù)量和大小,還有摩擦力、空氣阻力、碰撞彈性系數(shù)等更多物理參數(shù),以及背景、拖尾等視覺效果。



在物理方面,GPT-5還能通過代碼對流體動力學(xué)規(guī)律進(jìn)行模擬,并且同樣支持多項參數(shù)調(diào)節(jié)。



除了編程相關(guān),Berman也測試了GPT-5的多模態(tài)能力,讓其根據(jù)照片推測地點。



還有圖像生成。



包括以上在內(nèi),Berman一共測試了數(shù)十項任務(wù),具體內(nèi)容如下(中文為機翻,僅供參考),感興趣的話原視頻鏈接文末自取(參考鏈接1):



當(dāng)然除了Berman的視頻,也還有更多的效果和成績陸續(xù)被揭開。

比如長文本能力,相比o3和o4-mini,都有大幅提升。



以及在SimpleBench上,GPT-5的水平已經(jīng)超過了人類平均水平,在大模型中尚屬首次。

這是一個簡單常識推理類的數(shù)據(jù)集,主要特點就是對于人類非常簡單,但對大模型比較困難。



其實著名的strawberry數(shù)r就是這類問題的一個代表,結(jié)果是GPT-5數(shù)對了。

并且以防strawberry太過知名導(dǎo)致模型已有所防備,這位博主還加測了一個blueberry,結(jié)果同樣正確。



另外有博主發(fā)現(xiàn),GPT-5的Pro版本部分解決了大模型容易被問題表象迷惑的問題,識破了修改版的“外科醫(yī)生謎語”。

“外科醫(yī)生謎語”指的是有一個男孩和父親遭遇車禍,父親喪生,男孩被送往醫(yī)院,結(jié)果醫(yī)生(surgeon)說無法給男孩進(jìn)行手術(shù),因為男孩是TA的兒子。

而在英文語境當(dāng)中surgeon常被認(rèn)為是男性,而男孩的父親已經(jīng)喪生,不可能說出無法給兒子做手術(shù)的話。

但這個修改版本,去除了父親喪生的設(shè)定,也沒有提及醫(yī)生和男孩的關(guān)系。

因此題目看似一致,但關(guān)鍵信息發(fā)生了巨大變化,以往的大模型非常容易被表象所迷惑。

不過GPT-5成功識破了這一點,表示這段話中并不存在謎語,同時也提及了原始版本。



不過只有Pro版本答對,GPT-5和GPT-5-Thinking都是當(dāng)成了原始版本在回答。

GPT-5,全球第一?

除了實際體驗和各種Benchmark,在用戶自行投票的大模型競技場上,GPT-5也獲得了總分和各個單項的第一名。



不過雖然排名是第一,但Reddit上有網(wǎng)友仔細(xì)看了原始對戰(zhàn)成績,發(fā)現(xiàn)GPT-5和Gemini-2.5-Pro進(jìn)行單獨對戰(zhàn)的時候,勝率不及后者。

比如在Text榜單中,排名是這樣的:



而單獨對戰(zhàn)記錄當(dāng)中,Gemini-2.5-Pro在三分之二的對戰(zhàn)中都戰(zhàn)勝了GPT-5。



抓馬的是,這篇帖子的正文已經(jīng)被Reddit版主刪除了。



不過評論被保留了下來,網(wǎng)友們分析Gemini智商高但情商低,指令遵循能力稍弱,因此不討人們喜歡,導(dǎo)致最終綜合表現(xiàn)排在了GPT之后。



還有LiveBench榜單當(dāng)中,GPT-5綜合排名第一,但是編程單項不及Claude-4-Sonnet。



當(dāng)然對“GPT-5是第一”意見最大的還是要屬馬斯克,比如開頭展示的ARC-AGI成績,馬斯克那一條之前就已經(jīng)轉(zhuǎn)發(fā)過一次。



更早前還曬出了Humanity’s Last Exam的成績,表示GPT-5不如Grok 4 Heavy。



另外,GPT-5還有一些具體問題,比如在多模態(tài)數(shù)數(shù)場景當(dāng)中依然存在慣性思維。

面對被人類P成5條腿的斑馬、5個圓環(huán)的奧迪、3條腿的鴨子,GPT-5想當(dāng)然認(rèn)為它們是正常的斑馬、奧迪和鴨子,并據(jù)此報出了與圖片不相符的數(shù)目。



以及直播中展示的法語學(xué)習(xí)網(wǎng)站,雖然功能沒啥問題,但設(shè)計風(fēng)格被人們吐槽太丑了。



看來這下設(shè)計師可以先放一放心了(手動狗頭)。

網(wǎng)友調(diào)侃奧特曼式繪圖

如果要找這次GPT-5發(fā)布會最大的槽點,52>69的名場面當(dāng)之無愧。



OpenAI此舉引發(fā)了不少吐槽和調(diào)侃,還有網(wǎng)友表示,這張圖我拿o3給你修復(fù)好了:



也有網(wǎng)友拿隔壁Claude的數(shù)據(jù)做了一個戲仿版本,通過坐標(biāo)軸讓Claude 2個百分點的成績提升看上去非常高。

這名網(wǎng)友表示自己應(yīng)該去做營銷的工作,不過這種方法雖然一樣不講武德,但和OpenAI的52>69相比,依然是小巫見大巫。



那么,你認(rèn)為GPT-5的表現(xiàn)如何呢?舊版本一刀全被砍掉的ChatGPT,你還愿意繼續(xù)付費嗎?


[1]https://x.com/MatthewBerman/status/1953529524597272910
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mk7u6i/gpt_5_seems_worse_than_gemini_in_headtohead/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
這位50歲阿姨火了!健身跑步20年,這顏值和身材吊打少女!

這位50歲阿姨火了!健身跑步20年,這顏值和身材吊打少女!

馬拉松跑步健身
2025-08-11 06:30:09
由于烏克蘭、歐洲的強硬,特朗普團隊開始“圓場”

由于烏克蘭、歐洲的強硬,特朗普團隊開始“圓場”

山河路口
2025-08-11 13:41:53
黃巖島爆發(fā)沖突,菲35船三面包圍中方,解放軍以寡敵眾,052D接戰(zhàn)

黃巖島爆發(fā)沖突,菲35船三面包圍中方,解放軍以寡敵眾,052D接戰(zhàn)

現(xiàn)代小青青慕慕
2025-08-11 16:44:37
暴雨藍(lán)色預(yù)警:河南湖北湖南等地部分地區(qū)有大暴雨

暴雨藍(lán)色預(yù)警:河南湖北湖南等地部分地區(qū)有大暴雨

界面新聞
2025-08-12 06:54:09
外交部:未經(jīng)中方批準(zhǔn)進(jìn)入中國領(lǐng)海的外國軍用船只,中方會依法依規(guī)處置

外交部:未經(jīng)中方批準(zhǔn)進(jìn)入中國領(lǐng)海的外國軍用船只,中方會依法依規(guī)處置

環(huán)球網(wǎng)資訊
2025-08-11 20:50:13
寫Y蘭L的博主都被刪文了?

寫Y蘭L的博主都被刪文了?

黯泉
2025-08-11 11:01:58
男子不信社保,35年堅持不繳納,每月存2000進(jìn)銀行,退休后傻眼了

男子不信社保,35年堅持不繳納,每月存2000進(jìn)銀行,退休后傻眼了

紅豆講堂
2025-08-09 14:07:36
承認(rèn)了!全是演的!網(wǎng)友怒了:沒有良心

承認(rèn)了!全是演的!網(wǎng)友怒了:沒有良心

極目新聞
2025-08-11 12:27:51
難怪越來越多人“去客廳化”,看完這對夫妻的家才明白,太實用了

難怪越來越多人“去客廳化”,看完這對夫妻的家才明白,太實用了

時尚舒適家
2025-08-11 11:28:56
中雨、大雨、暴雨、10級大風(fēng)!明后天強對流襲遼!大連連續(xù)4天有雨

中雨、大雨、暴雨、10級大風(fēng)!明后天強對流襲遼!大連連續(xù)4天有雨

環(huán)球網(wǎng)資訊
2025-08-11 18:58:21
白潔沒有了,小H文也沒有了

白潔沒有了,小H文也沒有了

投稿指南
2025-08-11 11:33:43
文章開大G被偶遇 姚笛疑坐副駕

文章開大G被偶遇 姚笛疑坐副駕

大象新聞
2025-08-11 10:30:04
南航打人家長“社死”!父親正臉曝光,身份被扒,工作口碑全沒了

南航打人家長“社死”!父親正臉曝光,身份被扒,工作口碑全沒了

寒士之言本尊
2025-08-11 18:09:49
廣東一家三口江西景區(qū)吃早餐,結(jié)賬時連確認(rèn)三遍仍不敢信。

廣東一家三口江西景區(qū)吃早餐,結(jié)賬時連確認(rèn)三遍仍不敢信。

奔著月亮盼你
2025-08-11 13:49:02
山西悍將劉傳興結(jié)婚!嬌妻小蠻腰,緊緊擁抱接吻,潘江原帥道喜

山西悍將劉傳興結(jié)婚!嬌妻小蠻腰,緊緊擁抱接吻,潘江原帥道喜

老吳說體育
2025-08-12 00:34:17
廣東一地城區(qū)16所幼兒園停辦,其中還有公辦幼兒園

廣東一地城區(qū)16所幼兒園停辦,其中還有公辦幼兒園

珠江時報
2025-08-11 21:14:56
紅軍城陷落后,11萬俄軍屠城真相,揭開西方援烏最大騙局

紅軍城陷落后,11萬俄軍屠城真相,揭開西方援烏最大騙局

小笛科技
2025-08-10 17:39:47
轉(zhuǎn)會費4000萬鎊!TA:切爾西非常關(guān)注昆達(dá)在葡體最后一年的表現(xiàn)

轉(zhuǎn)會費4000萬鎊!TA:切爾西非常關(guān)注昆達(dá)在葡體最后一年的表現(xiàn)

直播吧
2025-08-11 21:47:28
北京五環(huán)外放開限購后首個周末:熱門項目售樓處“人擠人”,中介稱市場信心很重要

北京五環(huán)外放開限購后首個周末:熱門項目售樓處“人擠人”,中介稱市場信心很重要

華夏時報
2025-08-11 23:04:05
攔腰一刀:俄軍狂突7公里,切斷紅軍城和康城長蛇陣!

攔腰一刀:俄軍狂突7公里,切斷紅軍城和康城長蛇陣!

勝研集
2025-08-11 13:15:59
2025-08-12 07:55:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11082文章數(shù) 176226關(guān)注度
往期回顧 全部

科技要聞

馬斯克xAI官宣:Grok 4向用戶免費開放!

頭條要聞

北約秘書長呂特吹捧特朗普:總統(tǒng)想結(jié)束俄烏這場戰(zhàn)爭

頭條要聞

北約秘書長呂特吹捧特朗普:總統(tǒng)想結(jié)束俄烏這場戰(zhàn)爭

體育要聞

戰(zhàn)勝王楚欽 張本智賽后脫衣瘋狂慶祝

娛樂要聞

姚笛疑似坐文章副駕?再回看當(dāng)年

財經(jīng)要聞

增值稅法實施條例征求意見 有哪些看點?

汽車要聞

綜合續(xù)航超1500km 智己LS9續(xù)航信息曝光

態(tài)度原創(chuàng)

旅游
藝術(shù)
本地
時尚
數(shù)碼

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

i人充電,下班后的精神恢復(fù)角落

數(shù)碼要聞

5999.2 到手,華碩a豆|法國嬌蘭閃光禮盒發(fā)布

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品免费久久久久软件| 欧美日韩另类国产| 老熟妇仑乱一区二区视頻| 华人在线亚洲欧美精品| 亚洲日产无码中文字幕| 中文字幕乱码人妻一区二区三区| 色妞www精品视频| 成人亚洲激情| 成人无码午夜在线观看| 吃奶毛片在线播放| 日本不卡高字幕在线2019| 成人片久久久| 免费国产视频大全入口| 最新国产精品无码| 久久免费亚州国产中文视频| 国产日产精品一区二区三区四区设置 | 制服丝袜88tv| 少妇性爱影院在线观看| 精品视频在线观看免费观看| 亚洲精品国产品国语在线观看| 国产区一区二区| 四虎国产永久在线观看| 公和我做好爽添厨房中文字幕| 国精产品一区一区三区| 国产熟睡乱子伦视频网站| 97超级碰在线视频| 99re只有精品免费观看| 国产中文视频| 亚洲熟女大伊人| 无码一区二区三区av免费| 国内精品久久久久影院一蜜桃| 两个人免费观看视频| 国产无套中出白浆永久视频| 欧美激情一区二区三区成人| 国产成人在线不卡| 19cm体育生晨勃露J毛| 奇米视频7777狠| 成人精品视频99在线观看免费| 国产精品成人va在线观看| 中日韩伦理片一区二区| 无码人妻精品一区二区三批|