夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI研究大模型對GDP貢獻,三大行業(yè)代替人類,自曝不敵Claude

0
分享至




機器之心報道

編輯:澤南、楊文

AI 的顛覆近在眼前,奧特曼不是亂說的。

時至今日,我們已見過太多大模型的評估方法。

比如涵蓋了數(shù)十個學科的考試式問題的學術基準 MMLU,還有 SWE-Bench (軟件工程錯誤修復任務)、 MLE-Bench (機器學習工程任務,例如模型訓練和分析)和 Paper-Bench (對研究論文的科學推理和評論)這類更具應用性的評估,以及基于市場的評估 SWE-Lancer。

最近,OpenAI 又推出了一種名為GDPval 的新評估方法,用來跟蹤模型在具有經(jīng)濟價值的現(xiàn)實世界任務上的表現(xiàn)。



  • 論文:GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks
  • 論文鏈接:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

之所以將其命名為 GDPval,是因為它以國內(nèi)生產(chǎn)總值 (GDP) 作為關鍵經(jīng)濟指標,并從對 GDP 貢獻最大的行業(yè)中的關鍵職業(yè)中提取任務。

評估結(jié)果顯示,當今最優(yōu)秀的前沿模型已接近行業(yè)專家的工作質(zhì)量。OpenAI 進行了盲測,行業(yè)專家將幾個領先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果與人工成果進行了比較。

在 GDPval 黃金數(shù)據(jù)集的 220 項任務中,他們記錄了哪些模型的輸出優(yōu)于或與行業(yè)專家的成果相當。



在不同生產(chǎn)部門的作用上,可以看到AI 在政府部門、零售和批發(fā)上的能力是已經(jīng)達到或超越人類水平的



有趣的是,在 GDPval 上,OpenAI 大方地承認了 Claude 的領先地位:Claude Opus 4.1 是該數(shù)據(jù)集中表現(xiàn)最佳的模型,尤其在美觀性(例如文檔格式、幻燈片布局)方面表現(xiàn)出色,該模型在 49% 的任務中被評為優(yōu)于或與行業(yè)專家相當。另一方面,GPT-5 則在準確性(例如查找特定領域知識)方面更為出色。

不過 OpenAI 又說了,Claude 得分如此之高,是因為它傾向于制作令人愉悅的圖形,而非純粹的性能。

此外,這些任務隨著時間的推移取得了顯著的進步。從 2024 年春季發(fā)布的 GPT-4o 到 2025 年夏季發(fā)布的 GPT-5,性能提高了一倍多,呈現(xiàn)出明顯的線性趨勢。



從 GPT-4o 到 GPT-5,GDPval 任務的性能在一年內(nèi)提升了兩倍多。

前沿模型完成 GDPval 任務的速度比行業(yè)專家大約快 100 倍,成本也低 100 倍。雖然這些數(shù)據(jù)只考慮了模型的推理時間和 API 費用,但在模型特別擅長的任務上,先使用 AI 完成任務再交由人類測試,能夠顯著節(jié)省時間和成本。

有了測評基準,自然就可以想如何提高成績,OpenAI 逐步訓練了 GPT-5 的內(nèi)部實驗版本,以評估能否提升 GDPval 任務的性能??梢?,這一過程提升了性能,并為進一步的潛在改進開辟了道路。其他對照實驗也證實了這一點:增加模型規(guī)模、鼓勵更多推理步驟以及提供更豐富的任務上下文,這些都帶來了可衡量的收益。

OpenAI 還發(fā)布了 GDPval 任務的黃金子集和公共評分服務,以便其他研究人員在此基礎上繼續(xù)研究。

這些職業(yè)如何被選出來的?

GDPval 是該評估的首個版本,涵蓋了從對美國 GDP 貢獻最大的 9 個行業(yè)中甄選出的 44 個職業(yè),如軟件開發(fā)人員、律師、注冊護士和機械工程師等。這些職業(yè)因其經(jīng)濟重要性而被選中,代表了人工智能可以在日常工作中有意義地輔助專業(yè)人士的工作類型。



GDPval 全套評估包含 1320 項專業(yè)任務(黃金開源評估包含 220 項),每項任務均由經(jīng)驗豐富的專業(yè)人士精心設計并審核,這些專業(yè)人士平均擁有超過 14 年的相關領域從業(yè)經(jīng)驗。每項任務均基于真實的工作成果,例如法律摘要、工程藍圖、客戶支持對話或護理計劃。每個任務經(jīng)過至少 5 輪審查,確保其真實、可行且清晰。

最終數(shù)據(jù)集包含每個職業(yè) 30 個完全審查的任務(完整集),以及 5 個任務的開源黃金集,為評估模型在實際知識工作中的表現(xiàn)提供基礎。每個任務由專業(yè)人士設計,基于實際工作成果,專家的解決方案作為參考。



GDPval 的獨特之處在于其現(xiàn)實性和評估任務的多樣性。與其他專注于特定領域的經(jīng)濟價值評估(例如 SWE-Lancer)不同,GDPval 涵蓋了眾多任務和職業(yè)。同時與那些以學術考試或測試形式綜合創(chuàng)建任務的基準測試(例如 Humanity's Last Exam 或 MMLU)不同,GDPval 關注的是基于可交付成果的任務,這些可交付成果可以是現(xiàn)有的實際工作或產(chǎn)品,也可以是類似構(gòu)造的工作產(chǎn)品。

GDPval 任務并非簡單的文本提示,它們附帶參考文件和上下文,預期交付成果涵蓋文檔、幻燈片、圖表、電子表格和多媒體,這種現(xiàn)實性使得 GDPval 能夠更真實地測試模型如何支持專業(yè)人士。

如何評估模型性能?

OpenAI 通過專家評分員來評估模型的表現(xiàn),這些評分員來自數(shù)據(jù)集中相應職業(yè)的專業(yè)人士。評分員在盲評下比較 AI 和人類的交付成果,并給出排名,判斷 AI 成果是「更好」、「相當」還是「更差」。任務編寫者還制定了詳細的評分標準,確保評分一致性和透明度。

此外,OpenAI 還開發(fā)了一個「自動評分員」,可以快速預測人類專家的評價,作為輔助工具,但目前其可靠性尚不如專家評分員,因此并未替代專家評分。

隨著 AI 能力的增強,它可能會改變就業(yè)市場。GDPval 的早期結(jié)果表明,模型已經(jīng)能夠比專家更快、更低成本地完成一些重復性、明確規(guī)定的任務。然而,大多數(shù)工作不僅僅是一堆可以記錄下來的任務。GDPval 強調(diào)了人工智能可以處理日常任務的領域,以便人們可以將更多時間投入到創(chuàng)造性和判斷性較強的工作中。

當人工智能以這種方式補充工人時,它可以轉(zhuǎn)化為顯著的經(jīng)濟增長。OpenAI 的目標是通過普及這些工具的使用權(quán)、支持工人應對變革以及建立獎勵廣泛貢獻的制度,讓每個人都能登上人工智能的「上升梯」。

最后,OpenAI 表示,GDPval 尚處于起步階段。雖然它涵蓋了 44 種職業(yè)和數(shù)百項任務,但仍在不斷改進方法的過程中。OpenAI 計劃繼續(xù)擴展 GDPval,以涵蓋更多職業(yè)、行業(yè)和任務類型,提高交互性,并添加更多涉及處理模糊性的任務,其長期目標是更好地衡量多元化知識工作的進展。

參考內(nèi)容:

https://openai.com/index/gdpval/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扎心!東三省最后一座千萬級城市徹底掉隊了,年輕人都去哪了?

扎心!東三省最后一座千萬級城市徹底掉隊了,年輕人都去哪了?

青眼財經(jīng)
2025-09-30 10:05:00
緬北明家造成14名人員死亡,“蛇蝎美人”明珍珍在我國判死刑

緬北明家造成14名人員死亡,“蛇蝎美人”明珍珍在我國判死刑

浮島余生
2025-09-30 15:20:03
網(wǎng)信辦整治網(wǎng)絡負面情緒,你怎么看?

網(wǎng)信辦整治網(wǎng)絡負面情緒,你怎么看?

雨秋閑話
2025-09-23 16:58:48
19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

19歲男子KTV上班,三名女孩來喝酒,男子下體過度使用成永久創(chuàng)傷

丫頭舫
2025-09-22 20:39:00
賽琳娜和本尼大婚!抓馬不斷:親媽崩潰,密友缺席,比伯隔空喊我愿意?!

賽琳娜和本尼大婚!抓馬不斷:親媽崩潰,密友缺席,比伯隔空喊我愿意?!

英國那些事兒
2025-09-28 23:01:57
央行重磅新規(guī)落地,四類存款“急剎車”,你的資金何去何從?

央行重磅新規(guī)落地,四類存款“急剎車”,你的資金何去何從?

慧眼看世界哈哈
2025-09-30 12:16:54
墓碑上的 “故、顯、先、考、妣”,分別指的是什么?看完明白了

墓碑上的 “故、顯、先、考、妣”,分別指的是什么?看完明白了

長風文史
2025-09-25 13:41:36
解放臺灣需要多久?解放軍中將給出準確答案

解放臺灣需要多久?解放軍中將給出準確答案

混沌錄
2025-03-23 18:27:21
拳王鄒市明:創(chuàng)業(yè)7年賠掉2億,中年負債累累,又被妻子撕下"體面"

拳王鄒市明:創(chuàng)業(yè)7年賠掉2億,中年負債累累,又被妻子撕下"體面"

洲洲影視娛評
2025-09-27 18:57:42
國手山脈杯16強:王星昊勝樸廷桓、李維清勝申旻埈

國手山脈杯16強:王星昊勝樸廷桓、李維清勝申旻埈

夢憶之淺
2025-09-30 12:26:11
蘋果突然宣布:9月28日,即將暫停發(fā)貨!

蘋果突然宣布:9月28日,即將暫停發(fā)貨!

科技堡壘
2025-09-28 12:53:53
山東黃河工程集團有限公司原董事長、總經(jīng)理郭學鑫接受監(jiān)察調(diào)查

山東黃河工程集團有限公司原董事長、總經(jīng)理郭學鑫接受監(jiān)察調(diào)查

閃電新聞
2025-09-30 13:04:27
荒唐到家了!大國總統(tǒng)竟要飛美國,當著全世界宣告:我妻子是女人

荒唐到家了!大國總統(tǒng)竟要飛美國,當著全世界宣告:我妻子是女人

貓眼觀史
2025-09-29 23:34:58
72歲“唐僧”開始賣房!和陳麗華33年感情成笑話,百億財產(chǎn)成空?

72歲“唐僧”開始賣房!和陳麗華33年感情成笑話,百億財產(chǎn)成空?

小故事娛樂
2025-06-27 14:34:16
表面德高望重,背地里一肚子壞水,這四位老藝人太讓人意外了

表面德高望重,背地里一肚子壞水,這四位老藝人太讓人意外了

老吳教育課堂
2025-09-30 14:50:59
局勢已惡化,菲引狼入室,美核潛艇進駐南海前沿,中方也來援手了

局勢已惡化,菲引狼入室,美核潛艇進駐南海前沿,中方也來援手了

別吵吵
2025-09-30 09:37:06
小伙被西貝開除:拍后廚視頻被發(fā)現(xiàn),5天僅45元工資,黑料藏不住

小伙被西貝開除:拍后廚視頻被發(fā)現(xiàn),5天僅45元工資,黑料藏不住

說歷史的老牢
2025-09-30 11:48:10
我出差傍晚回到家,摸黑上床抱住妻子,卻感覺不對勁發(fā)現(xiàn)抱錯人了

我出差傍晚回到家,摸黑上床抱住妻子,卻感覺不對勁發(fā)現(xiàn)抱錯人了

煙火人間故事匯
2025-09-29 11:00:12
美記:除非勇士提供球員選項,否則庫明加將選擇接受資質(zhì)報價

美記:除非勇士提供球員選項,否則庫明加將選擇接受資質(zhì)報價

雷速體育
2025-09-30 14:15:13
家中有變?杜鋒卸任?廣東新帥或曝光,51歲,名宿,朱芳雨老友

家中有變?杜鋒卸任?廣東新帥或曝光,51歲,名宿,朱芳雨老友

樂聊球
2025-09-30 10:07:36
2025-09-30 16:44:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11384文章數(shù) 142461關注度
往期回顧 全部

科技要聞

罕見!DeepSeek、寒武紀同步發(fā)布

頭條要聞

四川一初中8人宿舍住9人 1人輪流與他人擠著睡一張床

頭條要聞

四川一初中8人宿舍住9人 1人輪流與他人擠著睡一張床

體育要聞

詹姆斯:愿為東契奇調(diào)整打法 失去熱愛時就會退役

娛樂要聞

董璇新婚夜后第二天,張維伊賴床?

財經(jīng)要聞

洽洽凈利暴跌73% 經(jīng)銷商遭壓貨被迫清盤

汽車要聞

升級端到端高快NOA 上汽大眾Pro家族2026款上市

態(tài)度原創(chuàng)

房產(chǎn)
健康
旅游
藝術
手機

房產(chǎn)要聞

「高級」質(zhì)感、「悅己」豐盈!與白鵝潭第一圈層人居封面,赴一場馥雅生活

內(nèi)分泌科專家破解身高八大謠言

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

蘋果發(fā)布iOS 26.0.1系統(tǒng)更新!解決iPhone 17系列新機多項問題

無障礙瀏覽 進入關懷版 国产精品民宅偷窥盗摄| 18禁止看的免费污网站 | 婷婷在线播放| tokyo东一区东二区东三区| 午夜性色一区二区三区不卡视频| 国产Videos视频| 激情另类小说| 亚洲精品久久久无码av片软件| 欲色影视 香天色天天影视来| 国产在视频线在精品视频2020 | 日韩无码视频网站| 婷婷五月丁香花开早| 精品无码成人a v| 久久精品囯产精品亚洲| 久热国产99999| 激情小说激情图片av| 2020国产在线视精品在| 人人操人人乐人人妻| 老熟女操B视频| 成人日韩深夜影院| 亚洲欧洲av无码专区| 丰满人妻久久一区二区三区69| 欧洲亚洲色一区二区色99| 国产suv精品一区二av18| 天堂在线免费av| 成全视频高清免费| 久久久久国产一区二区三区| 51精品人人槡人妻人人玩| japanese熟妇| 久久免费区一区二区三波多野在| 在线观看av永久免费| 热久久 国产| 亚洲国产成人无码AV在线影院L| 麻豆仙嫩儿内射视频| 久久网精品视频| 亚洲中文av一区二区三区| 国产欧美婬乱一区二区| 无码人妻少妇精品免费看| 真人无码作爱免费视频| 精久国产av一区二区三区孕妇| 中文字幕人成乱码中文乱码|