網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5編程成績(jī)有貓膩！自刪23道測(cè)試題，關(guān)鍵基準(zhǔn)還是自己提的

2025-08-12 13:12:51　來源: 量子位

北京舉報(bào)

分享至

白交發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

別急著用GPT-5編程了，可能它能力沒有你想象中那么強(qiáng)。

有人發(fā)現(xiàn)，官方測(cè)試編程能力用的SWE-bench Verified，但貨不對(duì)板，只用了477個(gè)問題。

什么意思呢？我們知道，SWE-bench是評(píng)估模型/智能體自主編程能力的一個(gè)通用且常用的指標(biāo)。而SWE-bench Verified作為它的子集，本來一共有500個(gè)問題。

現(xiàn)在相當(dāng)于OpenAI自行省略的那23個(gè)問題，自己搞了個(gè)子集的“子集”來評(píng)估模型能力。

而如果這些題默認(rèn)零分，那么得分實(shí)際上是比Claude Opus 4.1還要低的。因?yàn)楝F(xiàn)在僅有0.4%的差距。

OpenAI這種自行忽略23道題的操作，已經(jīng)不是第一次了。

早在GPT-4.1發(fā)布時(shí)就信誓旦旦地說，之所以忽略是因?yàn)檫@些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運(yùn)行。

離譜了朋友們！要知道SWE-bench Verified這個(gè)OpenAI自己提的，理由也是因?yàn)镾WE-bench無法系統(tǒng)評(píng)估模型的編程能力，所以決定自己再提煉一個(gè)子集。

現(xiàn)在又因?yàn)闇y(cè)試題無法正常運(yùn)行，所以自行又搞了個(gè)子集的“子集”。

本來以為GPT-5直播里出現(xiàn)圖表錯(cuò)誤已經(jīng)夠離譜了，結(jié)果現(xiàn)在告訴我這里面的成績(jī)可能還有假？

OpenAI一直省略23個(gè)問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn)，GPT-5能力并不比Claude 4.1 Opus好多少。

現(xiàn)在來看，這個(gè)官方給的結(jié)果或許根本沒有參考價(jià)值。

網(wǎng)友們除了自行忽略部分測(cè)試題，“偽造了結(jié)果”這一發(fā)現(xiàn)外，還發(fā)現(xiàn)，他們是將具有最大思維努力的GPT-5與沒有擴(kuò)展思維僅靠原始模型輸出的Opus 4.1進(jìn)行比較。這種比較實(shí)際上沒有參考意義。

而他們之所以只使用477個(gè)問題來測(cè)試，理由也跟GPT-4.1發(fā)布時(shí)一樣，因?yàn)樗麄儍?nèi)部的基礎(chǔ)設(shè)施運(yùn)行不了剩下的23個(gè)問題。

今年4月份發(fā)布GPT-4.1時(shí)，在同一基準(zhǔn)僅使用477個(gè)問題下得得分在54.6%。

當(dāng)時(shí)官方還指出，如果保守地將這些問題的得分定為 0，那么54.6%的得分就變成了52.1%。即便是這樣，這個(gè)數(shù)值放在當(dāng)時(shí)也是最高的。

而Anthropic這邊，其實(shí)也已經(jīng)發(fā)現(xiàn)了OpenAI這個(gè)操作。

就在Claude Opus 4.1發(fā)布公布編程成績(jī)之時(shí)，在文章的末尾有這么一句話。

對(duì)于Claude 4系列模型，他們繼續(xù)使用相同的簡(jiǎn)單框架，該框架僅為模型配備了兩種工具——一個(gè)Bash工具和一個(gè)通過字符串替換進(jìn)行文件編輯的工具，并且不再包含Claude 3.7 Sonnet中使用的第三個(gè)“規(guī)劃工具”。

并在最后注明：在所有Claude 4模型中，他們報(bào)告的分?jǐn)?shù)基于完整的500個(gè)問題。OpenAI模型的得分基于477道問題的子集進(jìn)行報(bào)告。

基準(zhǔn)還是OpenAI自己提的

如果說，SWE-bench Verified還是OpenAI自己提的基準(zhǔn)，那這件事就更離譜了。

這不就相當(dāng)于自己搬起石頭砸自己的腳啦嘛。

當(dāng)時(shí)啊還是因?yàn)轭愃频脑颉麄儨y(cè)試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決，導(dǎo)致SWE-bench無法系統(tǒng)性評(píng)估模型的自主編程能力。

于是乎，他們決定與SWE-bench的作者合作，決定弄出個(gè)新版本，希望能夠提供更準(zhǔn)確的評(píng)估。

他們共同發(fā)起了一項(xiàng)人工注釋活動(dòng)，共有93位資深程序員參與進(jìn)來，以篩選SWE-bench測(cè)試集每個(gè)樣本，從而獲得適當(dāng)范圍的單元測(cè)試和明確指定的問題描述。

他們隨機(jī)抽取了1699個(gè)樣本，然后基于統(tǒng)一標(biāo)準(zhǔn)來進(jìn)行標(biāo)注。

比如，問題描述是否明確？每個(gè)注釋都有一個(gè)標(biāo)簽，范圍從 [0, 1, 2, 3]，嚴(yán)重程度依次遞增。

標(biāo)簽0和1 表示輕微；標(biāo)簽2和3表示嚴(yán)重，表示樣本在某些方面存在缺陷，應(yīng)予以丟棄。

此外，我們還會(huì)評(píng)估每個(gè)示例的難度，方法是讓注釋者估算開發(fā)人員確定并實(shí)現(xiàn)解決方案所需的時(shí)間。

最終得到了500個(gè)經(jīng)過驗(yàn)證的樣本，并且按照難度對(duì)數(shù)據(jù)集進(jìn)行細(xì)分。“簡(jiǎn)單”子集包含196個(gè)小于15分鐘的修復(fù)任務(wù)，而“困難”子集包含 45 個(gè)大于 1 小時(shí)的任務(wù)。

結(jié)果現(xiàn)在這個(gè)子集又被OpenAI縮減了。

One More Thing

不過，還是有個(gè)總榜單或許值得參考，就是那個(gè)最原始的SWE-bench。

在這個(gè)榜單中，Claude 4 Opus還是占據(jù)著領(lǐng)先位置。

GPT-5也已經(jīng)發(fā)過好一陣了，不知道你有沒有這樣類似的編程體驗(yàn)呀？歡迎在評(píng)論區(qū)與我們分享。

參考鏈接：
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.