夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

GPT-5編程成績有貓膩!自刪23道測(cè)試題,關(guān)鍵基準(zhǔn)還是自己提的

0
分享至

白交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

別急著用GPT-5編程了,可能它能力沒有你想象中那么強(qiáng)。

有人發(fā)現(xiàn),官方測(cè)試編程能力用的SWE-bench Verified,但貨不對(duì)板,只用了477個(gè)問題。



什么意思呢?我們知道,SWE-bench是評(píng)估模型/智能體自主編程能力的一個(gè)通用且常用的指標(biāo)。而SWE-bench Verified作為它的子集,本來一共有500個(gè)問題。

現(xiàn)在相當(dāng)于OpenAI自行省略的那23個(gè)問題,自己搞了個(gè)子集的“子集”來評(píng)估模型能力。

而如果這些題默認(rèn)零分,那么得分實(shí)際上是比Claude Opus 4.1還要低的。因?yàn)楝F(xiàn)在僅有0.4%的差距。



OpenAI這種自行忽略23道題的操作,已經(jīng)不是第一次了。

早在GPT-4.1發(fā)布時(shí)就信誓旦旦地說,之所以忽略是因?yàn)檫@些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運(yùn)行。



離譜了朋友們!要知道SWE-bench Verified這個(gè)OpenAI自己提的,理由也是因?yàn)镾WE-bench無法系統(tǒng)評(píng)估模型的編程能力,所以決定自己再提煉一個(gè)子集。

現(xiàn)在又因?yàn)闇y(cè)試題無法正常運(yùn)行,所以自行又搞了個(gè)子集的“子集”。

本來以為GPT-5直播里出現(xiàn)圖表錯(cuò)誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績可能還有假?



OpenAI一直省略23個(gè)問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5能力并不比Claude 4.1 Opus好多少。

現(xiàn)在來看,這個(gè)官方給的結(jié)果或許根本沒有參考價(jià)值。

網(wǎng)友們除了自行忽略部分測(cè)試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的GPT-5與沒有擴(kuò)展思維僅靠原始模型輸出的Opus 4.1進(jìn)行比較。這種比較實(shí)際上沒有參考意義。



而他們之所以只使用477個(gè)問題來測(cè)試,理由也跟GPT-4.1發(fā)布時(shí)一樣,因?yàn)樗麄儍?nèi)部的基礎(chǔ)設(shè)施運(yùn)行不了剩下的23個(gè)問題。



今年4月份發(fā)布GPT-4.1時(shí),在同一基準(zhǔn)僅使用477個(gè)問題下得得分在54.6%。

當(dāng)時(shí)官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個(gè)數(shù)值放在當(dāng)時(shí)也是最高的。



而Anthropic這邊,其實(shí)也已經(jīng)發(fā)現(xiàn)了OpenAI這個(gè)操作。

就在Claude Opus 4.1發(fā)布公布編程成績之時(shí),在文章的末尾有這么一句話。



對(duì)于Claude 4系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個(gè)Bash工具和一個(gè)通過字符串替換進(jìn)行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個(gè)“規(guī)劃工具”。

并在最后注明:在所有Claude 4模型中,他們報(bào)告的分?jǐn)?shù)基于完整的500個(gè)問題。OpenAI模型的得分基于477問題的子集進(jìn)行報(bào)告。



基準(zhǔn)還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準(zhǔn),那這件事就更離譜了。

這不就相當(dāng)于自己搬起石頭砸自己的腳啦嘛。



當(dāng)時(shí)啊還是因?yàn)轭愃频脑颉麄儨y(cè)試發(fā)現(xiàn)SWE-bench的一些任務(wù)可能難以解決甚至無法解決,導(dǎo)致SWE-bench無法系統(tǒng)性評(píng)估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個(gè)新版本,希望能夠提供更準(zhǔn)確的評(píng)估。

他們共同發(fā)起了一項(xiàng)人工注釋活動(dòng),共有93位資深程序員參與進(jìn)來,以篩選SWE-bench測(cè)試集每個(gè)樣本,從而獲得適當(dāng)范圍的單元測(cè)試和明確指定的問題描述。

他們隨機(jī)抽取了1699個(gè)樣本,然后基于統(tǒng)一標(biāo)準(zhǔn)來進(jìn)行標(biāo)注。

比如,問題描述是否明確?每個(gè)注釋都有一個(gè)標(biāo)簽,范圍從 [0, 1, 2, 3],嚴(yán)重程度依次遞增。

標(biāo)簽0和1 表示輕微;標(biāo)簽2和3表示嚴(yán)重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。



此外,我們還會(huì)評(píng)估每個(gè)示例的難度,方法是讓注釋者估算開發(fā)人員確定并實(shí)現(xiàn)解決方案所需的時(shí)間。

最終得到了500個(gè)經(jīng)過驗(yàn)證的樣本,并且按照難度對(duì)數(shù)據(jù)集進(jìn)行細(xì)分。“簡單”子集包含196個(gè)小于15分鐘的修復(fù)任務(wù),而“困難”子集包含 45 個(gè)大于 1 小時(shí)的任務(wù)。

結(jié)果現(xiàn)在這個(gè)子集又被OpenAI縮減了。

One More Thing

不過,還是有個(gè)總榜單或許值得參考,就是那個(gè)最原始的SWE-bench。

在這個(gè)榜單中,Claude 4 Opus還是占據(jù)著領(lǐng)先位置。



GPT-5也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗(yàn)呀?歡迎在評(píng)論區(qū)與我們分享。

參考鏈接:
[1]https://www.swebench.com/
[2]https://openai.com/index/introducing-gpt-5/
[3]https://www.anthropic.com/news/claude-opus-4-1
[4]https://x.com/SemiAnalysis_/status/1955028150217478177
[5]https://x.com/DavidOndrej1/status/1954158161721487482

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海老人80歲大壽,提前一周訂的蛋糕“根本沒做”!店方:新人誤扔了小票

上海老人80歲大壽,提前一周訂的蛋糕“根本沒做”!店方:新人誤扔了小票

起喜電影
2025-10-02 15:06:12
死亡之組!U23亞洲杯抽簽出爐,國足與泰國同組,出線希望渺小

死亡之組!U23亞洲杯抽簽出爐,國足與泰國同組,出線希望渺小

銜春信
2025-10-02 17:19:39
A股:今天港股大漲,出現(xiàn)兩個(gè)信號(hào),不出所料,行情將進(jìn)入尾聲?

A股:今天港股大漲,出現(xiàn)兩個(gè)信號(hào),不出所料,行情將進(jìn)入尾聲?

小嵩
2025-10-02 15:50:51
上海200萬女性不結(jié)婚的真相:不是不想嫁!而是這三件事太難嫁

上海200萬女性不結(jié)婚的真相:不是不想嫁!而是這三件事太難嫁

小小包工頭阿汾
2025-10-02 10:56:12
把危險(xiǎn)城市變“軍訓(xùn)場”?特朗普講話70分鐘,全美將領(lǐng)沉默70分鐘:艱難得像走鋼絲

把危險(xiǎn)城市變“軍訓(xùn)場”?特朗普講話70分鐘,全美將領(lǐng)沉默70分鐘:艱難得像走鋼絲

紅星新聞
2025-10-01 13:05:22
明星無濾鏡大變樣!蔣欣滿臉褶、董璇一臉苦相、姜妍僵硬像假人

明星無濾鏡大變樣!蔣欣滿臉褶、董璇一臉苦相、姜妍僵硬像假人

林輕吟
2025-10-02 09:23:51
43歲阮經(jīng)天和小20歲富家千金戀情曝光,前任許瑋甯兒子2個(gè)月大了

43歲阮經(jīng)天和小20歲富家千金戀情曝光,前任許瑋甯兒子2個(gè)月大了

叨嘮
2025-10-01 20:58:31
西貝降價(jià)首日實(shí)探北京一門店:不到12點(diǎn)滿客排號(hào),店員稱“以后都按新價(jià)執(zhí)行”,羊肉串等現(xiàn)做

西貝降價(jià)首日實(shí)探北京一門店:不到12點(diǎn)滿客排號(hào),店員稱“以后都按新價(jià)執(zhí)行”,羊肉串等現(xiàn)做

紅星新聞
2025-10-01 16:52:56
成本超4.5億,9小時(shí)票房僅649萬,新片國慶檔墊底,收手吧古天樂

成本超4.5億,9小時(shí)票房僅649萬,新片國慶檔墊底,收手吧古天樂

靠譜電影君
2025-10-01 09:06:52
“小米超強(qiáng)鋼”被標(biāo)注為項(xiàng)目名稱,小米汽車回應(yīng),羅永浩:小字標(biāo)注是行業(yè)普遍陋習(xí)

“小米超強(qiáng)鋼”被標(biāo)注為項(xiàng)目名稱,小米汽車回應(yīng),羅永浩:小字標(biāo)注是行業(yè)普遍陋習(xí)

紅星資本局
2025-10-01 12:32:03
毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

南書房
2025-09-28 23:01:03
節(jié)前密集官宣!多省份黨委、政府一把手同日調(diào)整

節(jié)前密集官宣!多省份黨委、政府一把手同日調(diào)整

魯中晨報(bào)
2025-10-02 10:32:09
真相曝光:華南理工肇事人金雷有前科,學(xué)校處理態(tài)度讓人寒心

真相曝光:華南理工肇事人金雷有前科,學(xué)校處理態(tài)度讓人寒心

熱點(diǎn)菌本君
2025-10-02 15:01:06
亞洲股市全線大漲,港股半導(dǎo)體芯片概念爆發(fā),中芯國際漲超9%

亞洲股市全線大漲,港股半導(dǎo)體芯片概念爆發(fā),中芯國際漲超9%

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-10-02 12:25:08
國際空間站7大禁令:禁止發(fā)生性關(guān)系……最離譜的卻是最后一條!

國際空間站7大禁令:禁止發(fā)生性關(guān)系……最離譜的卻是最后一條!

徐德文科學(xué)頻道
2025-09-25 20:05:13
突發(fā)!以軍抓扣“環(huán)保少女”,她所在船隊(duì)遭襲!以軍用高壓水炮攻擊,干擾船隊(duì)通信后,在午夜前登船……多國發(fā)出抗議

突發(fā)!以軍抓扣“環(huán)保少女”,她所在船隊(duì)遭襲!以軍用高壓水炮攻擊,干擾船隊(duì)通信后,在午夜前登船……多國發(fā)出抗議

每日經(jīng)濟(jì)新聞
2025-10-02 13:00:04
我請(qǐng)假參加哥哥婚禮,卻被新來上司裁員,誰知準(zhǔn)嫂子就是我上司

我請(qǐng)假參加哥哥婚禮,卻被新來上司裁員,誰知準(zhǔn)嫂子就是我上司

小月文史
2025-04-01 18:14:07
緬北魔頭迎末日!明家11人死刑,被關(guān)在中國兩年,還敢口出狂言

緬北魔頭迎末日!明家11人死刑,被關(guān)在中國兩年,還敢口出狂言

娛小余
2025-10-01 21:03:45
No!濃眉哥胖成球!獨(dú)行俠天塌了......

No!濃眉哥胖成球!獨(dú)行俠天塌了......

籃球?qū)崙?zhàn)寶典
2025-10-02 09:54:04
解放前林總戰(zhàn)功赫赫,始終不贊成入朝作戰(zhàn),多年后鄧公說破其心思

解放前林總戰(zhàn)功赫赫,始終不贊成入朝作戰(zhàn),多年后鄧公說破其心思

大運(yùn)河時(shí)空
2025-09-28 23:00:46
2025-10-02 17:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11439文章數(shù) 176287關(guān)注度
往期回顧 全部

科技要聞

9月零跑交付突破6萬輛,小鵬、小米超4萬輛

頭條要聞

哥倫比亞總統(tǒng)佩特羅怒了 下令報(bào)復(fù)以色列

頭條要聞

哥倫比亞總統(tǒng)佩特羅怒了 下令報(bào)復(fù)以色列

體育要聞

痛失三叉戟的大巴黎,是怎么贏下巴薩的?

娛樂要聞

李純馬頔官宣結(jié)婚,曬結(jié)婚照秀幸福

財(cái)經(jīng)要聞

宗馥莉“心腹”嚴(yán)學(xué)峰被調(diào)查

汽車要聞

問界M7啟動(dòng)全國交付 首批車主參與工廠驗(yàn)收環(huán)節(jié)

態(tài)度原創(chuàng)

手機(jī)
游戲
健康
本地
房產(chǎn)

手機(jī)要聞

免費(fèi)!小米之家將送30萬份月餅:玄戒O1等圖案 領(lǐng)取地址快收藏

前《鬼泣》成員新作突然延期?稱全力追加內(nèi)容

內(nèi)分泌科專家破解身高八大謠言

本地新聞

讀港校想省錢,社恐輸在起跑線

房產(chǎn)要聞

買房必看!十一廣州置業(yè)攻略,熱門項(xiàng)目優(yōu)惠提前曝光!

無障礙瀏覽 進(jìn)入關(guān)懷版 中国老熟妇乱仑| 亚洲一区二区三区四区| 亚洲国产二区偷情| 久久中文字幕女人| 五十老妇精品| 亚洲欧洲无卡二区视頻| 亚洲女人的大白腚视频一区二区三区| 人妻中文字幕不卡精品| 国产欧美日韩亚洲更新| 国产精品女黑色高跟鞋免费看| 国产精品日韩av在线播放| 中文无码日韩精品| 亚洲精品国产v片在线观看| 激情短篇亚洲| 天堂AV无码大芭蕉伊人AV| 成人片黄网站色大片免费观看| 国产免费一级高清淫日本片| 亚洲一区二区 国产| 亚洲欧美中文日韩在线v日本| 成人综合区一区| 久久无码中文字幕久久无码APP| 2021最新国产在线人成| 久久久久久亚洲精品| 亚洲人成网亚洲欧洲无码| 插逼电影一区二区三区| 日韩av无码成人无码免费| 亚州日韩欧美一区二区三区爽色欲逼逼嫩| 999久久久国产精品一区| 一区二区在线播放观看| 欧美放荡的少妇| 99久久婷婷国产综合精品| 亚洲精品美女www久久久久久| 精品乱码一区二区三四五区| 国产精品免费无码二区| 99精品视频在线观看| 侵犯人极品白嫩人妻| 天码AV无码一区二区三区四区| 午夜男女爽爽爽在线视频| 婷婷五月天激情综合| 亚洲精品国产福利一区二区| 成人乱人乱一区二区三区软件|