OpenAI 3萬億美元測試，AI首戰(zhàn)44個行業(yè)人類專家！

2025-09-26 13:11:08　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導(dǎo)讀】AI下半場，AGI已成過去式，ASI正引領(lǐng)新智能革命！OpenAI推出的GDPval評估體系，通過真實工作任務(wù)審視大模型潛力，揭示AI如何從實驗室走向3萬億經(jīng)濟(jì)戰(zhàn)場，助力人類從日?，嵤轮薪夥?，擁抱創(chuàng)造性未來。

AI下半場真來了！

AGI都過時了，現(xiàn)在AI業(yè)內(nèi)討論的是：

AGI能把人類從80%的日常工作中解放出來；

而ASI則全面超越人類智能的系統(tǒng)。

剛剛，在a16z訪談中，OpenAI首席科學(xué)家Jakub Pachocki，透露OpenAI的研究路線圖的下一步是推理，下一個5年的重點目標(biāo)是打造自動化研究人員：

AI自動發(fā)現(xiàn)新想法，自動化研究人員的工作，自動化機(jī)器學(xué)習(xí)研究。

但理解AI潛力最清晰的方式，并不是預(yù)測未來，而是看看模型現(xiàn)在已經(jīng)能做什么。

歷史經(jīng)驗告訴我們，從互聯(lián)網(wǎng)到智能手機(jī)，每一項重大技術(shù)從誕生到普及都需要十年以上。

OpenAI希望以更透明的方式，展示大模型如何真正服務(wù)于現(xiàn)實世界。

因此，他們推出了一項全新的評估體系GDPval，在有據(jù)可依的基礎(chǔ)上審視AI進(jìn)步軌跡，而不是憑空臆測。

論文地址：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

數(shù)據(jù)集：https://huggingface.co/datasets/openai/gdpval

在GDPval 上，專家評審員將頂尖模型的輸出與人類專家的工作進(jìn)行了比較。

哈佛大學(xué)教授、名譽(yù)校長Lawrence H. Summers——同時任OpenAI的董事會成員，認(rèn)為新研究令人興奮：

在多項實際任務(wù)上，即使只有有限的指導(dǎo)，AI的表現(xiàn)與人類相當(dāng)甚至更好;

人類與人·工智能結(jié)合，可以更高效;

AI具有令人驚訝的能力，可用來評估并隨后改進(jìn)其性能。

OpenAI坦承：Claude Opus 4.1表現(xiàn)最佳，在接近一半的任務(wù)上與專家工作相當(dāng)或更好，明顯優(yōu)于GPT-5。

但OpenAI的進(jìn)步速度引人注目：在一年內(nèi)，GPT系列模型勝率幾乎翻了一番。

GDPVal

衡量AI的3萬億美元影響

過去，大模型評估往往集中在學(xué)術(shù)測試或編程挑戰(zhàn)上。

這些評估雖然在推動模型推理能力方面起到了重要作用，但與現(xiàn)實工作場景仍有一定距離。

為了填補(bǔ)這道鴻溝，OpenAI逐步開發(fā)出一系列更貼近實際、更具經(jīng)濟(jì)意義的評估方法——

從傳統(tǒng)的MMLU（涵蓋多學(xué)科的考試型題目），

到更具實戰(zhàn)意味的SWE-Bench（軟件工程Bug修復(fù)任務(wù)）、MLE-Bench（機(jī)器學(xué)習(xí)工程任務(wù)，如模型訓(xùn)練與分析）、Paper-Bench（科研論文的邏輯推理與評議），

再到基于市場項目的SWE-Lancer（源于真實交易的自由職業(yè)軟件開發(fā)任務(wù)）。

GDPval正是在這一演進(jìn)路徑上的下一個關(guān)鍵節(jié)點。

這項評估直接來源于現(xiàn)實工作中的任務(wù)，覆蓋了9大行業(yè)、44種職業(yè)、每年共計3萬億美元經(jīng)濟(jì)價值。

整個任務(wù)集共包含1,320個高度專業(yè)化任務(wù)（其中220為金標(biāo)任務(wù)子集，已開源）。

這些任務(wù)源于真實工作產(chǎn)出，比如法律意見書、工程圖紙、客服對話記錄或護(hù)理計劃等。

每一項任務(wù)都需通過多輪嚴(yán)格審核流程，確保其具備三點，即：高度貼近實際工作場景；可由同領(lǐng)域的專業(yè)人士獨立完成；具備明確的評估標(biāo)準(zhǔn)。

每項任務(wù)平均經(jīng)歷5輪專家評審，評審團(tuán)隊包括其他任務(wù)撰寫者、獨立職業(yè)評審專家，并輔以模型可行性與清晰度校驗。

GDPval的獨特之處在于，不僅任務(wù)內(nèi)容貼近現(xiàn)實、形式多樣，還具備極高的專業(yè)性和代表性。

與傳統(tǒng)評估相比，GDPval并非簡單的文本提示任務(wù)。它要求模型處理完整的參考材料與工作背景，輸出形式也不僅限于文字，還包括文檔、PPT、圖表、電子表格，甚至多媒體內(nèi)容。

當(dāng)然，GDPval目前還只是一個起點，尚未完全覆蓋現(xiàn)實知識工作中任務(wù)的復(fù)雜性。

它幫助我們清晰地認(rèn)識到，大模型不僅僅能在實驗室中解題，更可能在千千萬萬人的日常工作中，扮演可靠的輔助角色。

請再讀一遍：AI不再只是「通過考試」，而是開始接受文明體系本身的考核標(biāo)準(zhǔn)：GDP。

獨立研究員Shanaka Anslem Perera表示：

這不僅僅是一套評估體系，更像是某種經(jīng)濟(jì)生命體的誕生。

GDPval，是「后人類經(jīng)濟(jì)時代」的第一套會計體系。

今天，它是一個「基準(zhǔn)」；明天，它將成為新物種的記分牌。

當(dāng)AI的產(chǎn)出開始計入GDP，它就不再是工具，而是超越「土地、勞動與資本」的第四種生產(chǎn)要素

半數(shù)任務(wù)

AI已逼近專業(yè)水平

早期測試結(jié)果顯示，當(dāng)前領(lǐng)先的大模型在某些任務(wù)上，表現(xiàn)已接近甚至媲美行業(yè)專家。

在220項金標(biāo)任務(wù)中，行業(yè)專家盲測了多款主流模型：

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

結(jié)果顯示：

Claude Opus 4.1在美學(xué)表現(xiàn)方面表現(xiàn)最強(qiáng)（如文檔排版、PPT布局等）；
GPT-5則在準(zhǔn)確性方面領(lǐng)先，尤其擅長定位專業(yè)知識點。

當(dāng)前最先進(jìn)的大模型，輸出質(zhì)量已接近業(yè)內(nèi)專家水平。其中，Claude Opus 4.1表現(xiàn)尤為突出——

在接近一半的任務(wù)中，其產(chǎn)出被評為「與人類一樣好」甚至「優(yōu)于人類」。

從GPT-4o（2024年春發(fā)布）到GPT-5（2025年夏發(fā)布），模型在GDPval任務(wù)上的平均表現(xiàn)幾乎翻倍，呈現(xiàn)出明顯的線性進(jìn)步趨勢。

OpenAI還發(fā)現(xiàn)，頂尖模型完成GDPval任務(wù)的速度和成本，平均是人類的1%——約快100倍、便宜100倍。

不過，這一數(shù)據(jù)僅統(tǒng)計了模型推理時間與API調(diào)用成本，并未包含人類監(jiān)督、迭代修改與實際集成等現(xiàn)實工作流程所需的資源投入。

盡管如此，在模型表現(xiàn)尤為出色的任務(wù)類型上，先用AI試一輪，再交由人類介入，可能成為節(jié)省時間與成本的理想策略。

如何優(yōu)化模型以提升GDPval表現(xiàn)

為了驗證是否可以提升GPT-5在GDPval任務(wù)中的表現(xiàn)，OpenAI增量訓(xùn)練了實驗性的內(nèi)部特定版GPT-5。

結(jié)果證實，經(jīng)過該訓(xùn)練流程后，模型性能確實得到了實質(zhì)性提升，展現(xiàn)了進(jìn)一步優(yōu)化的潛力。

下圖的多項受控實驗結(jié)果，進(jìn)一步印證了這一點：擴(kuò)大模型規(guī)模、引導(dǎo)模型進(jìn)行更多推理步驟、提供更豐富的任務(wù)背景信息，都會帶來可衡量的性能增益。

OpenAI設(shè)計了一條通用提示詞，要求模型在提交結(jié)果前進(jìn)行嚴(yán)謹(jǐn)?shù)淖詸z，可適用于各類多模態(tài)經(jīng)濟(jì)類任務(wù)，并未針對具體問題進(jìn)行過擬合。

最豪評分員

頂尖機(jī)構(gòu)的14年行業(yè)專家

在GDPval任務(wù)中，為了評估模型的實際表現(xiàn)，OpenAI依賴資深從業(yè)者作為「評分員」。

專家入選標(biāo)準(zhǔn)包括：至少4年行業(yè)從業(yè)經(jīng)驗，且簡歷中需體現(xiàn)專業(yè)認(rèn)可度、晉升軌跡及管理職責(zé)。參與本項目的專家平均擁有14年從業(yè)經(jīng)驗。

行業(yè)專家團(tuán)隊曾任職于以下代表性機(jī)構(gòu)：

Meta、微軟、摩根士丹利、谷歌、甲骨文、蘋果、通用電氣、高盛、HBO、IBM、摩根大通、領(lǐng)英、洛克希德·馬丁、美國銀行、巴克萊銀行、波音、美國疾控中心、花旗集團(tuán)、美國國防部、美國聯(lián)邦貿(mào)易委員會、美國國家公園管理局、NFL網(wǎng)絡(luò)、雷神、Sally Beauty、《科學(xué)美國人》、蘇富比、英國電訊報集團(tuán)、賽默飛世爾、《時代》雜志、美國司法部、美國空軍、美國郵政總局……

這些評分員來自與任務(wù)相同的職業(yè)背景，并在不知曉「人類 vs AI」身份的前提下，盲評由模型與人類任務(wù)撰寫者完成的任務(wù)成果。

他們不僅會給出評價，還會對比排名，最終判斷每個AI生成結(jié)果是「優(yōu)于」、「相當(dāng)于」或「劣于」人類結(jié)果。

為了確保評分過程透明一致，每位任務(wù)撰寫者還為其職業(yè)領(lǐng)域制定了詳細(xì)評分標(biāo)準(zhǔn)（rubric），涵蓋各類評價維度。

OpenAI還開發(fā)了「自動評分器」——一個用于預(yù)測人類專家偏好的AI系統(tǒng)，模仿行業(yè)專家的對比評估方式。

自動評估工具比專家評估更快、成本更低，且與人類專家評估的一致性達(dá)到66%，僅比人類評估者之間71%的一致性低5%。

由于其局限性，OpenAI沒有使用自動評分器取代人類打分員。

AI與工作的未來圖景

隨著AI能力不斷提升，勞動力市場勢必將發(fā)生結(jié)構(gòu)性變化。

GDPval的早期結(jié)果已經(jīng)表明，大模型在處理那些重復(fù)性強(qiáng)、結(jié)構(gòu)清晰的任務(wù)時，效率遠(yuǎn)超人類專家，不僅更快也更便宜。

但也要看到，大多數(shù)工作不僅僅是可拆解的任務(wù)清單。

GDPval的意義在于：它揭示了AI可以承接哪些日常性事務(wù)型任務(wù)，從而為人類騰出時間專注更具創(chuàng)造力、判斷力的復(fù)雜工作。

當(dāng)AI能夠以這種方式補(bǔ)充而非替代人類時，將為經(jīng)濟(jì)增長釋放巨大潛力。

OpenAI希望借助GDPval與相關(guān)工具，推動AI工具的普及平民化，支持勞動者順利適應(yīng)時代變革，并打造能鼓勵廣泛參與與共享成果的激勵機(jī)制。

同時，OpenAI也開放了GDPval金標(biāo)任務(wù)子集以及一個公共評分平臺，希望能為更多研究者提供基礎(chǔ)設(shè)施，持續(xù)推動該方向的發(fā)展。

愿每個人都能搭上AI時代的「上行電梯」。

參考資料：

https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

https://openai.com/index/gdpval/

https://x.com/OpenAI/status/1971249382889750803

https://x.com/a16z/status/1971304302569546237

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.