機器之心報道
編輯:澤南、楊文
AI 的顛覆近在眼前,奧特曼不是亂說的。
時至今日,我們已見過太多大模型的評估方法。
比如涵蓋了數(shù)十個學科的考試式問題的學術基準 MMLU,還有 SWE-Bench (軟件工程錯誤修復任務)、 MLE-Bench (機器學習工程任務,例如模型訓練和分析)和 Paper-Bench (對研究論文的科學推理和評論)這類更具應用性的評估,以及基于市場的評估 SWE-Lancer。
最近,OpenAI 又推出了一種名為GDPval 的新評估方法,用來跟蹤模型在具有經(jīng)濟價值的現(xiàn)實世界任務上的表現(xiàn)。
- 論文:GDPval:Evaluating AI Model Performance on Real-World Economically Valuable Tasks
- 論文鏈接:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
之所以將其命名為 GDPval,是因為它以國內(nèi)生產(chǎn)總值 (GDP) 作為關鍵經(jīng)濟指標,并從對 GDP 貢獻最大的行業(yè)中的關鍵職業(yè)中提取任務。
評估結(jié)果顯示,當今最優(yōu)秀的前沿模型已接近行業(yè)專家的工作質(zhì)量。OpenAI 進行了盲測,行業(yè)專家將幾個領先模型 GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4 的交付成果與人工成果進行了比較。
在 GDPval 黃金數(shù)據(jù)集的 220 項任務中,他們記錄了哪些模型的輸出優(yōu)于或與行業(yè)專家的成果相當。
在不同生產(chǎn)部門的作用上,可以看到AI 在政府部門、零售和批發(fā)上的能力是已經(jīng)達到或超越人類水平的
有趣的是,在 GDPval 上,OpenAI 大方地承認了 Claude 的領先地位:Claude Opus 4.1 是該數(shù)據(jù)集中表現(xiàn)最佳的模型,尤其在美觀性(例如文檔格式、幻燈片布局)方面表現(xiàn)出色,該模型在 49% 的任務中被評為優(yōu)于或與行業(yè)專家相當。另一方面,GPT-5 則在準確性(例如查找特定領域知識)方面更為出色。
不過 OpenAI 又說了,Claude 得分如此之高,是因為它傾向于制作令人愉悅的圖形,而非純粹的性能。
此外,這些任務隨著時間的推移取得了顯著的進步。從 2024 年春季發(fā)布的 GPT-4o 到 2025 年夏季發(fā)布的 GPT-5,性能提高了一倍多,呈現(xiàn)出明顯的線性趨勢。
從 GPT-4o 到 GPT-5,GDPval 任務的性能在一年內(nèi)提升了兩倍多。
前沿模型完成 GDPval 任務的速度比行業(yè)專家大約快 100 倍,成本也低 100 倍。雖然這些數(shù)據(jù)只考慮了模型的推理時間和 API 費用,但在模型特別擅長的任務上,先使用 AI 完成任務再交由人類測試,能夠顯著節(jié)省時間和成本。
有了測評基準,自然就可以想如何提高成績,OpenAI 逐步訓練了 GPT-5 的內(nèi)部實驗版本,以評估能否提升 GDPval 任務的性能??梢?,這一過程提升了性能,并為進一步的潛在改進開辟了道路。其他對照實驗也證實了這一點:增加模型規(guī)模、鼓勵更多推理步驟以及提供更豐富的任務上下文,這些都帶來了可衡量的收益。
OpenAI 還發(fā)布了 GDPval 任務的黃金子集和公共評分服務,以便其他研究人員在此基礎上繼續(xù)研究。
這些職業(yè)如何被選出來的?
GDPval 是該評估的首個版本,涵蓋了從對美國 GDP 貢獻最大的 9 個行業(yè)中甄選出的 44 個職業(yè),如軟件開發(fā)人員、律師、注冊護士和機械工程師等。這些職業(yè)因其經(jīng)濟重要性而被選中,代表了人工智能可以在日常工作中有意義地輔助專業(yè)人士的工作類型。
GDPval 全套評估包含 1320 項專業(yè)任務(黃金開源評估包含 220 項),每項任務均由經(jīng)驗豐富的專業(yè)人士精心設計并審核,這些專業(yè)人士平均擁有超過 14 年的相關領域從業(yè)經(jīng)驗。每項任務均基于真實的工作成果,例如法律摘要、工程藍圖、客戶支持對話或護理計劃。每個任務經(jīng)過至少 5 輪審查,確保其真實、可行且清晰。
最終數(shù)據(jù)集包含每個職業(yè) 30 個完全審查的任務(完整集),以及 5 個任務的開源黃金集,為評估模型在實際知識工作中的表現(xiàn)提供基礎。每個任務由專業(yè)人士設計,基于實際工作成果,專家的解決方案作為參考。
GDPval 的獨特之處在于其現(xiàn)實性和評估任務的多樣性。與其他專注于特定領域的經(jīng)濟價值評估(例如 SWE-Lancer)不同,GDPval 涵蓋了眾多任務和職業(yè)。同時與那些以學術考試或測試形式綜合創(chuàng)建任務的基準測試(例如 Humanity's Last Exam 或 MMLU)不同,GDPval 關注的是基于可交付成果的任務,這些可交付成果可以是現(xiàn)有的實際工作或產(chǎn)品,也可以是類似構(gòu)造的工作產(chǎn)品。
GDPval 任務并非簡單的文本提示,它們附帶參考文件和上下文,預期交付成果涵蓋文檔、幻燈片、圖表、電子表格和多媒體,這種現(xiàn)實性使得 GDPval 能夠更真實地測試模型如何支持專業(yè)人士。
如何評估模型性能?
OpenAI 通過專家評分員來評估模型的表現(xiàn),這些評分員來自數(shù)據(jù)集中相應職業(yè)的專業(yè)人士。評分員在盲評下比較 AI 和人類的交付成果,并給出排名,判斷 AI 成果是「更好」、「相當」還是「更差」。任務編寫者還制定了詳細的評分標準,確保評分一致性和透明度。
此外,OpenAI 還開發(fā)了一個「自動評分員」,可以快速預測人類專家的評價,作為輔助工具,但目前其可靠性尚不如專家評分員,因此并未替代專家評分。
隨著 AI 能力的增強,它可能會改變就業(yè)市場。GDPval 的早期結(jié)果表明,模型已經(jīng)能夠比專家更快、更低成本地完成一些重復性、明確規(guī)定的任務。然而,大多數(shù)工作不僅僅是一堆可以記錄下來的任務。GDPval 強調(diào)了人工智能可以處理日常任務的領域,以便人們可以將更多時間投入到創(chuàng)造性和判斷性較強的工作中。
當人工智能以這種方式補充工人時,它可以轉(zhuǎn)化為顯著的經(jīng)濟增長。OpenAI 的目標是通過普及這些工具的使用權(quán)、支持工人應對變革以及建立獎勵廣泛貢獻的制度,讓每個人都能登上人工智能的「上升梯」。
最后,OpenAI 表示,GDPval 尚處于起步階段。雖然它涵蓋了 44 種職業(yè)和數(shù)百項任務,但仍在不斷改進方法的過程中。OpenAI 計劃繼續(xù)擴展 GDPval,以涵蓋更多職業(yè)、行業(yè)和任務類型,提高交互性,并添加更多涉及處理模糊性的任務,其長期目標是更好地衡量多元化知識工作的進展。
參考內(nèi)容:
https://openai.com/index/gdpval/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.