夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5編程成績有貓膩!自刪23道測試題,關(guān)鍵基準還是自己提的

0
分享至

白交 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

有人發(fā)現(xiàn),官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。



什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

現(xiàn)在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現(xiàn)在僅有0.4%的差距。



OpenAI這種自行忽略23道題的操作,已經(jīng)不是第一次了。

早在GPT-4.1發(fā)布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運行。



離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統(tǒng)評估模型的編程能力,所以決定自己再提煉一個子集。

現(xiàn)在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

本來以為GPT-5直播里出現(xiàn)圖表錯誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績可能還有假?



OpenAI一直省略23個問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5能力并不比Claude 4.1 Opus好多少。

現(xiàn)在來看,這個官方給的結(jié)果或許根本沒有參考價值。

網(wǎng)友們除了自行忽略部分測試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。



而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發(fā)布時一樣,因為他們內(nèi)部的基礎(chǔ)設(shè)施運行不了剩下的23個問題。



今年4月份發(fā)布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數(shù)值放在當時也是最高的。



而Anthropic這邊,其實也已經(jīng)發(fā)現(xiàn)了OpenAI這個操作。

就在Claude Opus 4.1發(fā)布公布編程成績之時,在文章的末尾有這么一句話。



對于Claude 4系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規(guī)劃工具”。

并在最后注明:在所有Claude 4模型中,他們報告的分數(shù)基于完整的500個問題。OpenAI模型的得分基于477問題的子集進行報告



基準還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。



當時啊還是因為類似的原因——他們測試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決,導致SWE-bench無法系統(tǒng)性評估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

他們共同發(fā)起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了1699個樣本,然后基于統(tǒng)一標準來進行標注。

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。



此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。

最終得到了500個經(jīng)過驗證的樣本,并且按照難度對數(shù)據(jù)集進行細分。“簡單”子集包含196個小于15分鐘的修復任務(wù),而“困難”子集包含 45 個大于 1 小時的任務(wù)。

結(jié)果現(xiàn)在這個子集又被OpenAI縮減了。

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

在這個榜單中,Claude 4 Opus還是占據(jù)著領(lǐng)先位置。



GPT-5也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區(qū)與我們分享。

參考鏈接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
活了30年才知道,原來這7樣東西“反著用”更好用!我猜你也用錯

活了30年才知道,原來這7樣東西“反著用”更好用!我猜你也用錯

室內(nèi)設(shè)計師有料兒
2025-08-14 15:11:22
2500 億、擬收購:谷歌瀏覽器(Chrome)

2500 億、擬收購:谷歌瀏覽器(Chrome)

云頭條
2025-08-13 08:27:26
猛料越扒越有!釋永信在少林寺到底有多爽,你根本想象不到

猛料越扒越有!釋永信在少林寺到底有多爽,你根本想象不到

一口娛樂
2025-08-14 01:08:05
一場4分險勝,男籃亞洲杯4強全部出爐!中國隊半決賽對手:新西蘭

一場4分險勝,男籃亞洲杯4強全部出爐!中國隊半決賽對手:新西蘭

山河入畫屏
2025-08-15 03:04:28
沖著楊冪去看的《生萬物》,卻被尖嘴猴腮、一臉橫肉的老戲骨驚艷

沖著楊冪去看的《生萬物》,卻被尖嘴猴腮、一臉橫肉的老戲骨驚艷

探源歷史
2025-08-14 16:25:32
潘長江43歲女兒臉部大變樣,承認做醫(yī)美,笑不自然!網(wǎng)友:認不出

潘長江43歲女兒臉部大變樣,承認做醫(yī)美,笑不自然!網(wǎng)友:認不出

章眽八卦
2025-08-13 12:11:48
《戰(zhàn)地6》玩家已造成超751億美元的損失 但遠遠不夠!

《戰(zhàn)地6》玩家已造成超751億美元的損失 但遠遠不夠!

游民星空
2025-08-13 23:04:21
娃哈哈家族大戰(zhàn)終于真相大白了!原來從頭到尾都是場鬧??!

阿傖說事
2025-07-29 09:58:08

2011年,蘇州市原副市長姜人杰被處決,收受賄賂1億多元

2011年,蘇州市原副市長姜人杰被處決,收受賄賂1億多元

青途歷史
2025-08-14 19:10:59
老板兒子高考583分,司機隨禮2888,司機女兒考710,老板回禮666

老板兒子高考583分,司機隨禮2888,司機女兒考710,老板回禮666

球場指揮家
2025-08-13 23:55:06
緊急通知:杭州部分列車停運!多地特大暴雨,停課停航

緊急通知:杭州部分列車停運!多地特大暴雨,停課停航

魯中晨報
2025-08-14 13:16:33
一味藥舒通氣血,專通人體經(jīng)絡(luò),能調(diào)八種病

一味藥舒通氣血,專通人體經(jīng)絡(luò),能調(diào)八種病

太極本草
2025-07-25 13:22:06
經(jīng)濟大省新亮點|福建:164條縣域重點產(chǎn)業(yè)鏈逐質(zhì)向新

經(jīng)濟大省新亮點|福建:164條縣域重點產(chǎn)業(yè)鏈逐質(zhì)向新

新華社
2025-08-12 19:01:16
一屋子專業(yè)老戲骨,硬是演不過一個跨界舞蹈生,爛不是沒有理由

一屋子專業(yè)老戲骨,硬是演不過一個跨界舞蹈生,爛不是沒有理由

胡一舸北游
2025-08-14 16:46:33
黎巴嫩超值歸化!勞森14中10砍24分10板3斷大勝日本 正負值+35!

黎巴嫩超值歸化!勞森14中10砍24分10板3斷大勝日本 正負值+35!

直播吧
2025-08-13 09:09:42
楊女士一覺醒來天塌了!輔導員劉迪調(diào)離,眾叛親離!

楊女士一覺醒來天塌了!輔導員劉迪調(diào)離,眾叛親離!

甜檸聊史
2025-08-14 15:03:53
一覺醒來!所有老板的天都塌了,任何補繳社保的約定都是無效的!

一覺醒來!所有老板的天都塌了,任何補繳社保的約定都是無效的!

深析古今
2025-08-04 14:01:43
落馬女官員挖出327枚比特幣,價值約1.5億元?貴州省紀委回應(yīng):是謠言

落馬女官員挖出327枚比特幣,價值約1.5億元?貴州省紀委回應(yīng):是謠言

極目新聞
2025-08-14 13:06:54
炸裂!大巴逆行逼停軍車,不聽勸阻撞退武警,畫面曝光,網(wǎng)友炸鍋

炸裂!大巴逆行逼停軍車,不聽勸阻撞退武警,畫面曝光,網(wǎng)友炸鍋

鋭娛之樂
2025-08-14 22:36:18
這是一篇性暗示內(nèi)容

這是一篇性暗示內(nèi)容

柴差說
2025-08-14 16:29:57
2025-08-15 07:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11107文章數(shù) 176226關(guān)注度
往期回顧 全部

科技要聞

暴雨之下1萬多人,500個機器人燃爆全場

頭條要聞

特朗普:“普特會”有25%幾率不成功

頭條要聞

特朗普:“普特會”有25%幾率不成功

體育要聞

在菲律賓,一支中國人創(chuàng)建的球隊踢上了亞冠

娛樂要聞

趙露思發(fā)文告別!扯下她最后的顏面

財經(jīng)要聞

“許家印同伙”夏海鈞的資產(chǎn)藏匿游戲

汽車要聞

大六座SUV還能這么玩 吉利銀河M9動態(tài)內(nèi)測

態(tài)度原創(chuàng)

家居
教育
親子
時尚
數(shù)碼

家居要聞

現(xiàn)代奶油 網(wǎng)紅又實用

教育要聞

血性在哪

親子要聞

到底怎么辦呢

9年愛情長跑,3個孩子后媽,她終于被求婚了

數(shù)碼要聞

血氧功能終于在美國回歸 Apple Watch

無障礙瀏覽 進入關(guān)懷版 亚洲日韩久热中文字幕| 亚洲 制服 丝袜 无码| ZZIJZZIJ亚洲日本少妇| 伊人天堂av无码av日韩av| 草草久久久亚洲AV| 亚洲av最新网址| 狠狠色狠狠色综合日日不卡| 日韩A级毛片无码免费| 玩弄放荡人妻少妇系列视频网站| www.天天色.天天艹| 亚洲AV秘 片一区二区三| 抠逼一区二区三区| 亚洲AV狠狠入| 中文字幕+乱码+中文乱码视频| 亚洲性爱 视频XX| 正在播放刚结婚的少妇| 人妻无码久久久| 中文字幕人成乱码中文乱码| 亚洲色精品aⅴ一区区三区| 日韩欧美在线观看一区二区视频| 午夜福利午夜福利1000| 久久夕老熟女一区二区三区| 国产成人无码区免费视频| 日本55丰满熟妇厨房伦| 美女穿旗袍丝袜流白浆视频| 久久天天躁夜夜躁狠狠ds005| 成人免播放Ⅹ×Ⅹ| 九月婷婷人人澡人人添人人爽| 久久精品国产亚洲AV麻豆王友容| www.亚洲无码| 日韩AV无码精品一二三区| 久久久国产网站| 成年人视频在线观看一区| 成人999欠久久| 网友自拍超碰| 亚洲国产福利成人一区二区| 天天VA视频| 女人被男人狂躁c高潮| 人人射人人插| chinese老熟女| 亚州AV天堂|