夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

快來看看GPT-5第一波實(shí)測

0
分享至

  • 克雷西 發(fā)自 凹非寺
    量子位 | 公眾號(hào) QbitAI

GPT-5的發(fā)布讓全球震動(dòng),網(wǎng)友也都開始了試玩模式。

50萬粉YoutuberMatthew Berman也參與其中,用25分鐘的視頻展示了數(shù)十個(gè)案例。

利用GPT-5,Berman做出了個(gè)魔方生成器,能夠生成、打亂或復(fù)原任意階數(shù)的魔方。



還做出了賽博版樂高,在網(wǎng)頁中就能快樂搭積木。



還有其他博主用GPT-5一口氣克隆出了太空模擬器、冥想應(yīng)用,甚至是多鄰國和Windows 95



總之,“博士生水平”的GPT-5確實(shí)表現(xiàn)驚人,登頂了大模型競技場,也刷新了多個(gè)榜單。

甚至發(fā)布會(huì)演示的學(xué)法語游戲,讓多鄰國正在上漲的股價(jià)直接掉頭。



網(wǎng)友感嘆,GPT-5誕生后的開發(fā)者be like:



不過也有人并不買賬,其中的代表就是OpenAI的老冤家馬斯克,他拿出ARC-AGI的成績單表示GPT-5不如Grok 4。



當(dāng)然,馬斯克和OpenAI之間存在太多恩怨,但GPT-5也確實(shí)有些細(xì)節(jié)讓網(wǎng)友們紛紛吐槽。

比如直播當(dāng)中OpenAI展示的圖表上“52>69=30”的名場面,確實(shí)難評(píng)。



那么說到底,GPT-5的表現(xiàn)到底咋樣呢?

50萬粉Youtuber實(shí)測GPT-5

GPT-5發(fā)布后,50萬粉Youtuber Matthew Berman用一段25分鐘的視頻,密集展示了GPT-5在近30個(gè)任務(wù)里的表現(xiàn)。

開頭展示了最早的魔方環(huán)節(jié)中,Berman啟動(dòng)20階魔方求解后就切換到了后面的測試,但此時(shí)求解過程仍在繼續(xù)。

Berman時(shí)不時(shí)會(huì)切換到魔方的界面,最終到了視頻的18分半之后,打亂的20階魔方被成功復(fù)原。



利用GPT-5,Berman還成功復(fù)刻出了網(wǎng)頁版的Word和Excel,注意是應(yīng)用本身而不是文檔和表格。



還有計(jì)算機(jī)史上著名的生命游戲,Berman用GPT-5做出了個(gè)3D版本。



當(dāng)然,少不了的還有經(jīng)典的Vibe-coding項(xiàng)目六邊形小球測試

而且在直接看圖復(fù)刻,還支持通過滑動(dòng)條設(shè)置重力、旋轉(zhuǎn)方向等參數(shù),甚至支持反重力。



在此基礎(chǔ)之上,Berman還搞了個(gè)進(jìn)階版本,支持調(diào)節(jié)小球數(shù)量和大小,還有摩擦力、空氣阻力、碰撞彈性系數(shù)等更多物理參數(shù),以及背景、拖尾等視覺效果。



在物理方面,GPT-5還能通過代碼對(duì)流體動(dòng)力學(xué)規(guī)律進(jìn)行模擬,并且同樣支持多項(xiàng)參數(shù)調(diào)節(jié)。



除了編程相關(guān),Berman也測試了GPT-5的多模態(tài)能力,讓其根據(jù)照片推測地點(diǎn)。



還有圖像生成。



包括以上在內(nèi),Berman一共測試了數(shù)十項(xiàng)任務(wù),具體內(nèi)容如下(中文為機(jī)翻,僅供參考),感興趣的話原視頻鏈接文末自?。▍⒖兼溄?):



當(dāng)然除了Berman的視頻,也還有更多的效果和成績陸續(xù)被揭開。

比如長文本能力,相比o3和o4-mini,都有大幅提升。



以及在SimpleBench上,GPT-5的水平已經(jīng)超過了人類平均水平,在大模型中尚屬首次。

這是一個(gè)簡單常識(shí)推理類的數(shù)據(jù)集,主要特點(diǎn)就是對(duì)于人類非常簡單,但對(duì)大模型比較困難。



其實(shí)著名的strawberry數(shù)r就是這類問題的一個(gè)代表,結(jié)果是GPT-5數(shù)對(duì)了。

并且以防strawberry太過知名導(dǎo)致模型已有所防備,這位博主還加測了一個(gè)blueberry,結(jié)果同樣正確。



另外有博主發(fā)現(xiàn),GPT-5的Pro版本部分解決了大模型容易被問題表象迷惑的問題,識(shí)破了修改版的“外科醫(yī)生謎語”。

“外科醫(yī)生謎語”指的是有一個(gè)男孩和父親遭遇車禍,父親喪生,男孩被送往醫(yī)院,結(jié)果醫(yī)生(surgeon)說無法給男孩進(jìn)行手術(shù),因?yàn)槟泻⑹荰A的兒子。

而在英文語境當(dāng)中surgeon常被認(rèn)為是男性,而男孩的父親已經(jīng)喪生,不可能說出無法給兒子做手術(shù)的話。

但這個(gè)修改版本,去除了父親喪生的設(shè)定,也沒有提及醫(yī)生和男孩的關(guān)系。

因此題目看似一致,但關(guān)鍵信息發(fā)生了巨大變化,以往的大模型非常容易被表象所迷惑。

不過GPT-5成功識(shí)破了這一點(diǎn),表示這段話中并不存在謎語,同時(shí)也提及了原始版本。



不過只有Pro版本答對(duì),GPT-5和GPT-5-Thinking都是當(dāng)成了原始版本在回答。

GPT-5,全球第一?

除了實(shí)際體驗(yàn)和各種Benchmark,在用戶自行投票的大模型競技場上,GPT-5也獲得了總分和各個(gè)單項(xiàng)的第一名。



不過雖然排名是第一,但Reddit上有網(wǎng)友仔細(xì)看了原始對(duì)戰(zhàn)成績,發(fā)現(xiàn)GPT-5和Gemini-2.5-Pro進(jìn)行單獨(dú)對(duì)戰(zhàn)的時(shí)候,勝率不及后者。

比如在Text榜單中,排名是這樣的:



而單獨(dú)對(duì)戰(zhàn)記錄當(dāng)中,Gemini-2.5-Pro在三分之二的對(duì)戰(zhàn)中都戰(zhàn)勝了GPT-5。



抓馬的是,這篇帖子的正文已經(jīng)被Reddit版主刪除了。



不過評(píng)論被保留了下來,網(wǎng)友們分析Gemini智商高但情商低,指令遵循能力稍弱,因此不討人們喜歡,導(dǎo)致最終綜合表現(xiàn)排在了GPT之后。



還有LiveBench榜單當(dāng)中,GPT-5綜合排名第一,但是編程單項(xiàng)不及Claude-4-Sonnet。



當(dāng)然對(duì)“GPT-5是第一”意見最大的還是要屬馬斯克,比如開頭展示的ARC-AGI成績,馬斯克那一條之前就已經(jīng)轉(zhuǎn)發(fā)過一次。



更早前還曬出了Humanity’s Last Exam的成績,表示GPT-5不如Grok 4 Heavy。



另外,GPT-5還有一些具體問題,比如在多模態(tài)數(shù)數(shù)場景當(dāng)中依然存在慣性思維。

面對(duì)被人類P成5條腿的斑馬、5個(gè)圓環(huán)的奧迪、3條腿的鴨子,GPT-5想當(dāng)然認(rèn)為它們是正常的斑馬、奧迪和鴨子,并據(jù)此報(bào)出了與圖片不相符的數(shù)目。



以及直播中展示的法語學(xué)習(xí)網(wǎng)站,雖然功能沒啥問題,但設(shè)計(jì)風(fēng)格被人們吐槽太丑了。



看來這下設(shè)計(jì)師可以先放一放心了(手動(dòng)狗頭)。

網(wǎng)友調(diào)侃奧特曼式繪圖

如果要找這次GPT-5發(fā)布會(huì)最大的槽點(diǎn),52>69的名場面當(dāng)之無愧。



OpenAI此舉引發(fā)了不少吐槽和調(diào)侃,還有網(wǎng)友表示,這張圖我拿o3給你修復(fù)好了:



也有網(wǎng)友拿隔壁Claude的數(shù)據(jù)做了一個(gè)戲仿版本,通過坐標(biāo)軸讓Claude 2個(gè)百分點(diǎn)的成績提升看上去非常高。

這名網(wǎng)友表示自己應(yīng)該去做營銷的工作,不過這種方法雖然一樣不講武德,但和OpenAI的52>69相比,依然是小巫見大巫。



那么,你認(rèn)為GPT-5的表現(xiàn)如何呢?舊版本一刀全被砍掉的ChatGPT,你還愿意繼續(xù)付費(fèi)嗎?


[1]https://x.com/MatthewBerman/status/1953529524597272910
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mk7u6i/gpt_5_seems_worse_than_gemini_in_headtohead/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一周五場會(huì),“沒人敢缺席,也沒人真投入”

一周五場會(huì),“沒人敢缺席,也沒人真投入”

中國新聞周刊
2025-08-10 17:56:51
釋永信被女徒弟爆料,凌晨4點(diǎn)去他房間,拿到皈依證就算師徒關(guān)系

釋永信被女徒弟爆料,凌晨4點(diǎn)去他房間,拿到皈依證就算師徒關(guān)系

漢史趣聞
2025-07-30 09:57:38
上港要得,換隊(duì)就不給?申花跟隊(duì)記者:不懂就問,望評(píng)議組指教

上港要得,換隊(duì)就不給?申花跟隊(duì)記者:不懂就問,望評(píng)議組指教

足球大腕
2025-08-10 15:10:04
民眾黨全代會(huì)召開,黃國昌重磅宣布,蔡壁如也表態(tài),黃珊珊將出局

民眾黨全代會(huì)召開,黃國昌重磅宣布,蔡壁如也表態(tài),黃珊珊將出局

吃貨的分享
2025-08-10 13:52:30
【中超】王鈺棟傳射王子銘救主 10人浙江3比4國安

【中超】王鈺棟傳射王子銘救主 10人浙江3比4國安

體壇周報(bào)
2025-08-10 21:52:13
楊蘭蘭風(fēng)波升級(jí),所在澳洲圈層生活曝光

楊蘭蘭風(fēng)波升級(jí),所在澳洲圈層生活曝光

古希臘掌管松餅的神
2025-08-09 16:34:19
何家勁站在鄭少秋面前是小弟,難怪當(dāng)年拍上海灘第一人選是鄭少秋

何家勁站在鄭少秋面前是小弟,難怪當(dāng)年拍上海灘第一人選是鄭少秋

素衣讀史
2025-08-09 16:33:26
有個(gè)比恒大還嚇人的雷,可能已經(jīng)快爆發(fā)了。

有個(gè)比恒大還嚇人的雷,可能已經(jīng)快爆發(fā)了。

流蘇晚晴
2025-07-22 18:07:13
北京發(fā)布雷電藍(lán)色預(yù)警:自西向東有雷陣雨,伴有8級(jí)左右大風(fēng)

北京發(fā)布雷電藍(lán)色預(yù)警:自西向東有雷陣雨,伴有8級(jí)左右大風(fēng)

遠(yuǎn)洋生活家
2025-08-10 19:34:53
美俄元首會(huì)晤在即,英法德意等歐洲多國領(lǐng)導(dǎo)人發(fā)表聯(lián)合聲明

美俄元首會(huì)晤在即,英法德意等歐洲多國領(lǐng)導(dǎo)人發(fā)表聯(lián)合聲明

環(huán)球網(wǎng)資訊
2025-08-10 09:30:43
莫迪還沒踏上訪華飛機(jī),印度先對(duì)美國征稅150%,中國已召回工程師

莫迪還沒踏上訪華飛機(jī),印度先對(duì)美國征稅150%,中國已召回工程師

界史
2025-08-10 09:51:27
何猷君和妹妹一張舌頭照,把窮富差距拍成高清!連口腔都能炫富

何猷君和妹妹一張舌頭照,把窮富差距拍成高清!連口腔都能炫富

小娛樂悠悠
2025-08-04 10:10:21
美軍懵了,全球最強(qiáng)超音速巡航導(dǎo)彈中國停產(chǎn),理由竟是:技術(shù)落后

美軍懵了,全球最強(qiáng)超音速巡航導(dǎo)彈中國停產(chǎn),理由竟是:技術(shù)落后

南宮一二
2025-08-08 13:32:03
鹿哈官宣訂婚,現(xiàn)場畫面曝光

鹿哈官宣訂婚,現(xiàn)場畫面曝光

娛慧
2025-08-09 15:27:24
周恩來秘書晚年披露:總理心目中的十大功臣排序,第一名讓人意外

周恩來秘書晚年披露:總理心目中的十大功臣排序,第一名讓人意外

內(nèi)向的故事小生
2025-07-18 15:18:00
22歲小伙摔倒后以為沒事,7天后死亡!摔倒后這些信號(hào)千萬別忽視

22歲小伙摔倒后以為沒事,7天后死亡!摔倒后這些信號(hào)千萬別忽視

環(huán)球網(wǎng)資訊
2025-08-10 07:27:04
醫(yī)護(hù)收入或迎重大調(diào)整!衛(wèi)健委明確:未來3年,這些科室收入有保證了

醫(yī)護(hù)收入或迎重大調(diào)整!衛(wèi)健委明確:未來3年,這些科室收入有保證了

華醫(yī)網(wǎng)
2025-08-10 08:43:24
韓國網(wǎng)友怒斥韓棋院戰(zhàn)略缺失釀成悲劇,擔(dān)憂對(duì)一力遼出臺(tái)特殊規(guī)則

韓國網(wǎng)友怒斥韓棋院戰(zhàn)略缺失釀成悲劇,擔(dān)憂對(duì)一力遼出臺(tái)特殊規(guī)則

月滿大江流
2025-08-10 15:10:17
父母給我買了一個(gè)年輕女人,新婚之夜,我不顧她的哀求和她圓房

父母給我買了一個(gè)年輕女人,新婚之夜,我不顧她的哀求和她圓房

喬生桂
2025-02-12 13:36:07
陳立武的名字,在美國遭攻擊

陳立武的名字,在美國遭攻擊

環(huán)球時(shí)報(bào)國際
2025-08-09 22:08:25
2025-08-10 22:51:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11068文章數(shù) 176225關(guān)注度
往期回顧 全部

科技要聞

機(jī)器人大會(huì):展臺(tái)水泄不通 觀眾眼里放光!

頭條要聞

女子在街邊吃飯疑被樓上潑辣椒油:我們沒有劃拳喧囂

頭條要聞

女子在街邊吃飯疑被樓上潑辣椒油:我們沒有劃拳喧囂

體育要聞

時(shí)隔10年全勝出線,中國男籃收獲了什么?

娛樂要聞

謝霆鋒:把世人的唾棄碾成階梯

財(cái)經(jīng)要聞

機(jī)器人企業(yè)老總要200萬月薪 投資人怒了

汽車要聞

長安啟源全新Q05:10萬級(jí)配激光雷達(dá)和小藍(lán)燈

態(tài)度原創(chuàng)

時(shí)尚
旅游
親子
本地
軍事航空

日常穿衣簡約才高級(jí),快看看這27套基礎(chǔ)穿搭,大方舒適得體

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

當(dāng)孩子說讓我休息一下,幫我剪視頻,廢話都剪掉

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

軍事要聞

俄方要求烏克蘭作出重大領(lǐng)土讓步

無障礙瀏覽 進(jìn)入關(guān)懷版 内射一区二区三区四区| 久久久人体艺术视频| 日本三人交XXX护士视频| 超碰97精品一区二区无码| 国产特色一区二区三区视频| 91午夜福利片人妻无码| 国产成人综合亚洲欧美日韩 | 好男人日本社区www| 久久99久久99久久99人受| 久久99久久99久久综合| 人妻久久久一区二区三区| 国产精品永久视频免费| 99精品国产在热久久无码| 国产亚洲精品久久久久久牛牛| 精品久久少妇| 欧美乱大交xxxxx潮喷l头像| 丁香九月婷婷| 国产91小视频在线观看| 国产精品免费大片| 亚洲国产中文在线有精品| 国内精品99| 丰满人妻被黑人连续中出| 日韩午夜不卡在线看| 国产一区二区亚洲精品| 色av综合六月婷婷综合六月| 亚洲成人精品在线伊人网 | 色小妹黄色视频| 国产三级国产精品久久成人| 国产一二三区在线| 亚洲熟女乱一区二区三区| 琪琪77色窝窝| 国产黄色大片网站| 波多野结衣无码在线视频| 国产成人精品午夜福利在线观看| 精品国产午夜福利在线观看| 人妻熟妇乱又伦精品视频中文字幕| AV一区精品第一页综合| 天堂99导航| 人妻一区二区三区中文字幕| 粗大黑人巨茎大战欧美成人免费看| 一本一道波多野毛片中文在线|