網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI研究大模型對GDP貢獻，三大行業(yè)代替人類，自曝不敵Claude

2025-09-28 11:04:52　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：澤南、楊文

AI 的顛覆近在眼前，奧特曼不是亂說的。

時至今日，我們已見過太多大模型的評估方法。

比如涵蓋了數(shù)十個學科的考試式問題的學術基準 MMLU，還有 SWE-Bench （軟件工程錯誤修復任務）、 MLE-Bench （機器學習工程任務，例如模型訓練和分析）和 Paper-Bench （對研究論文的科學推理和評論）這類更具應用性的評估，以及基于市場的評估 SWE-Lancer。

最近，OpenAI 又推出了一種名為GDPval 的新評估方法，用來跟蹤模型在具有經(jīng)濟價值的現(xiàn)實世界任務上的表現(xiàn)。

論文：GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks
論文鏈接：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

之所以將其命名為 GDPval，是因為它以國內(nèi)生產(chǎn)總值 (GDP) 作為關鍵經(jīng)濟指標，并從對 GDP 貢獻最大的行業(yè)中的關鍵職業(yè)中提取任務。

評估結(jié)果顯示，當今最優(yōu)秀的前沿模型已接近行業(yè)專家的工作質(zhì)量。OpenAI 進行了盲測，行業(yè)專家將幾個領先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果與人工成果進行了比較。

在 GDPval 黃金數(shù)據(jù)集的 220 項任務中，他們記錄了哪些模型的輸出優(yōu)于或與行業(yè)專家的成果相當。

在不同生產(chǎn)部門的作用上，可以看到AI 在政府部門、零售和批發(fā)上的能力是已經(jīng)達到或超越人類水平的

有趣的是，在 GDPval 上，OpenAI 大方地承認了 Claude 的領先地位：Claude Opus 4.1 是該數(shù)據(jù)集中表現(xiàn)最佳的模型，尤其在美觀性（例如文檔格式、幻燈片布局）方面表現(xiàn)出色，該模型在 49% 的任務中被評為優(yōu)于或與行業(yè)專家相當。另一方面，GPT-5 則在準確性（例如查找特定領域知識）方面更為出色。

不過 OpenAI 又說了，Claude 得分如此之高，是因為它傾向于制作令人愉悅的圖形，而非純粹的性能。

此外，這些任務隨著時間的推移取得了顯著的進步。從 2024 年春季發(fā)布的 GPT-4o 到 2025 年夏季發(fā)布的 GPT-5，性能提高了一倍多，呈現(xiàn)出明顯的線性趨勢。

從 GPT-4o 到 GPT-5，GDPval 任務的性能在一年內(nèi)提升了兩倍多。

前沿模型完成 GDPval 任務的速度比行業(yè)專家大約快 100 倍，成本也低 100 倍。雖然這些數(shù)據(jù)只考慮了模型的推理時間和 API 費用，但在模型特別擅長的任務上，先使用 AI 完成任務再交由人類測試，能夠顯著節(jié)省時間和成本。

有了測評基準，自然就可以想如何提高成績，OpenAI 逐步訓練了 GPT-5 的內(nèi)部實驗版本，以評估能否提升 GDPval 任務的性能?？梢?，這一過程提升了性能，并為進一步的潛在改進開辟了道路。其他對照實驗也證實了這一點：增加模型規(guī)模、鼓勵更多推理步驟以及提供更豐富的任務上下文，這些都帶來了可衡量的收益。

OpenAI 還發(fā)布了 GDPval 任務的黃金子集和公共評分服務，以便其他研究人員在此基礎上繼續(xù)研究。

這些職業(yè)如何被選出來的？

GDPval 是該評估的首個版本，涵蓋了從對美國 GDP 貢獻最大的 9 個行業(yè)中甄選出的 44 個職業(yè)，如軟件開發(fā)人員、律師、注冊護士和機械工程師等。這些職業(yè)因其經(jīng)濟重要性而被選中，代表了人工智能可以在日常工作中有意義地輔助專業(yè)人士的工作類型。

GDPval 全套評估包含 1320 項專業(yè)任務（黃金開源評估包含 220 項），每項任務均由經(jīng)驗豐富的專業(yè)人士精心設計并審核，這些專業(yè)人士平均擁有超過 14 年的相關領域從業(yè)經(jīng)驗。每項任務均基于真實的工作成果，例如法律摘要、工程藍圖、客戶支持對話或護理計劃。每個任務經(jīng)過至少 5 輪審查，確保其真實、可行且清晰。

最終數(shù)據(jù)集包含每個職業(yè) 30 個完全審查的任務（完整集），以及 5 個任務的開源黃金集，為評估模型在實際知識工作中的表現(xiàn)提供基礎。每個任務由專業(yè)人士設計，基于實際工作成果，專家的解決方案作為參考。

GDPval 的獨特之處在于其現(xiàn)實性和評估任務的多樣性。與其他專注于特定領域的經(jīng)濟價值評估（例如 SWE-Lancer）不同，GDPval 涵蓋了眾多任務和職業(yè)。同時與那些以學術考試或測試形式綜合創(chuàng)建任務的基準測試（例如 Humanity's Last Exam 或 MMLU）不同，GDPval 關注的是基于可交付成果的任務，這些可交付成果可以是現(xiàn)有的實際工作或產(chǎn)品，也可以是類似構(gòu)造的工作產(chǎn)品。

GDPval 任務并非簡單的文本提示，它們附帶參考文件和上下文，預期交付成果涵蓋文檔、幻燈片、圖表、電子表格和多媒體，這種現(xiàn)實性使得 GDPval 能夠更真實地測試模型如何支持專業(yè)人士。

如何評估模型性能？

OpenAI 通過專家評分員來評估模型的表現(xiàn)，這些評分員來自數(shù)據(jù)集中相應職業(yè)的專業(yè)人士。評分員在盲評下比較 AI 和人類的交付成果，并給出排名，判斷 AI 成果是「更好」、「相當」還是「更差」。任務編寫者還制定了詳細的評分標準，確保評分一致性和透明度。

此外，OpenAI 還開發(fā)了一個「自動評分員」，可以快速預測人類專家的評價，作為輔助工具，但目前其可靠性尚不如專家評分員，因此并未替代專家評分。

隨著 AI 能力的增強，它可能會改變就業(yè)市場。GDPval 的早期結(jié)果表明，模型已經(jīng)能夠比專家更快、更低成本地完成一些重復性、明確規(guī)定的任務。然而，大多數(shù)工作不僅僅是一堆可以記錄下來的任務。GDPval 強調(diào)了人工智能可以處理日常任務的領域，以便人們可以將更多時間投入到創(chuàng)造性和判斷性較強的工作中。

當人工智能以這種方式補充工人時，它可以轉(zhuǎn)化為顯著的經(jīng)濟增長。OpenAI 的目標是通過普及這些工具的使用權(quán)、支持工人應對變革以及建立獎勵廣泛貢獻的制度，讓每個人都能登上人工智能的「上升梯」。

最后，OpenAI 表示，GDPval 尚處于起步階段。雖然它涵蓋了 44 種職業(yè)和數(shù)百項任務，但仍在不斷改進方法的過程中。OpenAI 計劃繼續(xù)擴展 GDPval，以涵蓋更多職業(yè)、行業(yè)和任務類型，提高交互性，并添加更多涉及處理模糊性的任務，其長期目標是更好地衡量多元化知識工作的進展。

參考內(nèi)容：

https://openai.com/index/gdpval/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.