新智元報道
編輯:KingHZ
【新智元導(dǎo)讀】AI下半場,AGI已成過去式,ASI正引領(lǐng)新智能革命!OpenAI推出的GDPval評估體系,通過真實工作任務(wù)審視大模型潛力,揭示AI如何從實驗室走向3萬億經(jīng)濟(jì)戰(zhàn)場,助力人類從日?,嵤轮薪夥?,擁抱創(chuàng)造性未來。
AI下半場真來了!
AGI都過時了,現(xiàn)在AI業(yè)內(nèi)討論的是:
AGI能把人類從80%的日常工作中解放出來;
而ASI則全面超越人類智能的系統(tǒng)。
剛剛,在a16z訪談中,OpenAI首席科學(xué)家Jakub Pachocki,透露OpenAI的研究路線圖的下一步是推理,下一個5年的重點目標(biāo)是打造自動化研究人員:
AI自動發(fā)現(xiàn)新想法,自動化研究人員的工作,自動化機(jī)器學(xué)習(xí)研究。
但理解AI潛力最清晰的方式,并不是預(yù)測未來,而是看看模型現(xiàn)在已經(jīng)能做什么。
歷史經(jīng)驗告訴我們,從互聯(lián)網(wǎng)到智能手機(jī),每一項重大技術(shù)從誕生到普及都需要十年以上。
OpenAI希望以更透明的方式,展示大模型如何真正服務(wù)于現(xiàn)實世界。
因此,他們推出了一項全新的評估體系GDPval,在有據(jù)可依的基礎(chǔ)上審視AI進(jìn)步軌跡,而不是憑空臆測。
論文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
數(shù)據(jù)集:https://huggingface.co/datasets/openai/gdpval
在GDPval 上,專家評審員將頂尖模型的輸出與人類專家的工作進(jìn)行了比較。
哈佛大學(xué)教授、名譽(yù)校長Lawrence H. Summers——同時任OpenAI的董事會成員,認(rèn)為新研究令人興奮:
在多項實際任務(wù)上,即使只有有限的指導(dǎo),AI的表現(xiàn)與人類相當(dāng)甚至更好;
人類與人·工智能結(jié)合,可以更高效;
AI具有令人驚訝的能力,可用來評估并隨后改進(jìn)其性能。
OpenAI坦承:Claude Opus 4.1表現(xiàn)最佳,在接近一半的任務(wù)上與專家工作相當(dāng)或更好,明顯優(yōu)于GPT-5。
但OpenAI的進(jìn)步速度引人注目:在一年內(nèi),GPT系列模型勝率幾乎翻了一番。
GDPVal
衡量AI的3萬億美元影響
過去,大模型評估往往集中在學(xué)術(shù)測試或編程挑戰(zhàn)上。
這些評估雖然在推動模型推理能力方面起到了重要作用,但與現(xiàn)實工作場景仍有一定距離。
為了填補(bǔ)這道鴻溝,OpenAI逐步開發(fā)出一系列更貼近實際、更具經(jīng)濟(jì)意義的評估方法——
從傳統(tǒng)的MMLU(涵蓋多學(xué)科的考試型題目),
到更具實戰(zhàn)意味的SWE-Bench(軟件工程Bug修復(fù)任務(wù))、MLE-Bench(機(jī)器學(xué)習(xí)工程任務(wù),如模型訓(xùn)練與分析)、Paper-Bench(科研論文的邏輯推理與評議),
再到基于市場項目的SWE-Lancer(源于真實交易的自由職業(yè)軟件開發(fā)任務(wù))。
GDPval正是在這一演進(jìn)路徑上的下一個關(guān)鍵節(jié)點。
這項評估直接來源于現(xiàn)實工作中的任務(wù),覆蓋了9大行業(yè)、44種職業(yè)、每年共計3萬億美元經(jīng)濟(jì)價值。
整個任務(wù)集共包含1,320個高度專業(yè)化任務(wù)(其中220為金標(biāo)任務(wù)子集,已開源)。
這些任務(wù)源于真實工作產(chǎn)出,比如法律意見書、工程圖紙、客服對話記錄或護(hù)理計劃等。
每一項任務(wù)都需通過多輪嚴(yán)格審核流程,確保其具備三點,即:高度貼近實際工作場景;可由同領(lǐng)域的專業(yè)人士獨立完成;具備明確的評估標(biāo)準(zhǔn)。
每項任務(wù)平均經(jīng)歷5輪專家評審,評審團(tuán)隊包括其他任務(wù)撰寫者、獨立職業(yè)評審專家,并輔以模型可行性與清晰度校驗。
GDPval的獨特之處在于,不僅任務(wù)內(nèi)容貼近現(xiàn)實、形式多樣,還具備極高的專業(yè)性和代表性。
與傳統(tǒng)評估相比,GDPval并非簡單的文本提示任務(wù)。它要求模型處理完整的參考材料與工作背景,輸出形式也不僅限于文字,還包括文檔、PPT、圖表、電子表格,甚至多媒體內(nèi)容。
當(dāng)然,GDPval目前還只是一個起點,尚未完全覆蓋現(xiàn)實知識工作中任務(wù)的復(fù)雜性。
它幫助我們清晰地認(rèn)識到,大模型不僅僅能在實驗室中解題,更可能在千千萬萬人的日常工作中,扮演可靠的輔助角色。
請再讀一遍:AI不再只是「通過考試」,而是開始接受文明體系本身的考核標(biāo)準(zhǔn):GDP。
獨立研究員Shanaka Anslem Perera表示:
這不僅僅是一套評估體系,更像是某種經(jīng)濟(jì)生命體的誕生 。
GDPval,是「后人類經(jīng)濟(jì)時代」的第一套會計體系。
今天,它是一個「基準(zhǔn)」;明天,它將成為新物種的記分牌。
當(dāng)AI的產(chǎn)出開始計入GDP,它就不再是工具,而是超越「土地、勞動與資本」的第四種生產(chǎn)要素
半數(shù)任務(wù)
AI已逼近專業(yè)水平
早期測試結(jié)果顯示,當(dāng)前領(lǐng)先的大模型在某些任務(wù)上,表現(xiàn)已接近甚至媲美行業(yè)專家。
在220項金標(biāo)任務(wù)中,行業(yè)專家盲測了多款主流模型:
GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。
結(jié)果顯示:
Claude Opus 4.1在美學(xué)表現(xiàn)方面表現(xiàn)最強(qiáng)(如文檔排版、PPT布局等);
GPT-5則在準(zhǔn)確性方面領(lǐng)先,尤其擅長定位專業(yè)知識點。
當(dāng)前最先進(jìn)的大模型,輸出質(zhì)量已接近業(yè)內(nèi)專家水平。其中,Claude Opus 4.1表現(xiàn)尤為突出——
在接近一半的任務(wù)中,其產(chǎn)出被評為「與人類一樣好」甚至「優(yōu)于人類」。
從GPT-4o(2024年春發(fā)布)到GPT-5(2025年夏發(fā)布),模型在GDPval任務(wù)上的平均表現(xiàn)幾乎翻倍,呈現(xiàn)出明顯的線性進(jìn)步趨勢。
OpenAI還發(fā)現(xiàn),頂尖模型完成GDPval任務(wù)的速度和成本,平均是人類的1%——約快100倍、便宜100倍。
不過,這一數(shù)據(jù)僅統(tǒng)計了模型推理時間與API調(diào)用成本,并未包含人類監(jiān)督、迭代修改與實際集成等現(xiàn)實工作流程所需的資源投入。
盡管如此,在模型表現(xiàn)尤為出色的任務(wù)類型上,先用AI試一輪,再交由人類介入,可能成為節(jié)省時間與成本的理想策略。
如何優(yōu)化模型以提升GDPval表現(xiàn)
為了驗證是否可以提升GPT-5在GDPval任務(wù)中的表現(xiàn),OpenAI增量訓(xùn)練了實驗性的內(nèi)部特定版GPT-5。
結(jié)果證實,經(jīng)過該訓(xùn)練流程后,模型性能確實得到了實質(zhì)性提升,展現(xiàn)了進(jìn)一步優(yōu)化的潛力。
下圖的多項受控實驗結(jié)果,進(jìn)一步印證了這一點:擴(kuò)大模型規(guī)模、引導(dǎo)模型進(jìn)行更多推理步驟、提供更豐富的任務(wù)背景信息,都會帶來可衡量的性能增益。
OpenAI設(shè)計了一條通用提示詞,要求模型在提交結(jié)果前進(jìn)行嚴(yán)謹(jǐn)?shù)淖詸z,可適用于各類多模態(tài)經(jīng)濟(jì)類任務(wù),并未針對具體問題進(jìn)行過擬合。
最豪評分員
頂尖機(jī)構(gòu)的14年行業(yè)專家
在GDPval任務(wù)中,為了評估模型的實際表現(xiàn),OpenAI依賴資深從業(yè)者作為「評分員」。
專家入選標(biāo)準(zhǔn)包括:至少4年行業(yè)從業(yè)經(jīng)驗,且簡歷中需體現(xiàn)專業(yè)認(rèn)可度、晉升軌跡及管理職責(zé)。參與本項目的專家平均擁有14年從業(yè)經(jīng)驗。
行業(yè)專家團(tuán)隊曾任職于以下代表性機(jī)構(gòu):
Meta、微軟、摩根士丹利、谷歌、甲骨文、蘋果、通用電氣、高盛、HBO、IBM、摩根大通、領(lǐng)英、洛克希德·馬丁、美國銀行、巴克萊銀行、波音、美國疾控中心、花旗集團(tuán)、美國國防部、美國聯(lián)邦貿(mào)易委員會、美國國家公園管理局、NFL網(wǎng)絡(luò)、雷神、Sally Beauty、《科學(xué)美國人》、蘇富比、英國電訊報集團(tuán)、賽默飛世爾、《時代》雜志、美國司法部、美國空軍、美國郵政總局……
這些評分員來自與任務(wù)相同的職業(yè)背景,并在不知曉「人類 vs AI」身份的前提下,盲評由模型與人類任務(wù)撰寫者完成的任務(wù)成果。
他們不僅會給出評價,還會對比排名,最終判斷每個AI生成結(jié)果是「優(yōu)于」、「相當(dāng)于」或「劣于」人類結(jié)果。
為了確保評分過程透明一致,每位任務(wù)撰寫者還為其職業(yè)領(lǐng)域制定了詳細(xì)評分標(biāo)準(zhǔn)(rubric),涵蓋各類評價維度。
OpenAI還開發(fā)了「自動評分器」——一個用于預(yù)測人類專家偏好的AI系統(tǒng),模仿行業(yè)專家的對比評估方式。
自動評估工具比專家評估更快、成本更低,且與人類專家評估的一致性達(dá)到66%,僅比人類評估者之間71%的一致性低5%。
由于其局限性,OpenAI沒有使用自動評分器取代人類打分員。
AI與工作的未來圖景
隨著AI能力不斷提升,勞動力市場勢必將發(fā)生結(jié)構(gòu)性變化。
GDPval的早期結(jié)果已經(jīng)表明,大模型在處理那些重復(fù)性強(qiáng)、結(jié)構(gòu)清晰的任務(wù)時,效率遠(yuǎn)超人類專家,不僅更快也更便宜。
但也要看到,大多數(shù)工作不僅僅是可拆解的任務(wù)清單。
GDPval的意義在于:它揭示了AI可以承接哪些日常性事務(wù)型任務(wù),從而為人類騰出時間專注更具創(chuàng)造力、判斷力的復(fù)雜工作。
當(dāng)AI能夠以這種方式補(bǔ)充而非替代人類時,將為經(jīng)濟(jì)增長釋放巨大潛力。
OpenAI希望借助GDPval與相關(guān)工具,推動AI工具的普及平民化,支持勞動者順利適應(yīng)時代變革,并打造能鼓勵廣泛參與與共享成果的激勵機(jī)制。
同時,OpenAI也開放了GDPval金標(biāo)任務(wù)子集以及一個公共評分平臺,希望能為更多研究者提供基礎(chǔ)設(shè)施,持續(xù)推動該方向的發(fā)展。
愿每個人都能搭上AI時代的「上行電梯」。
參考資料:
https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
https://openai.com/index/gdpval/
https://x.com/OpenAI/status/1971249382889750803
https://x.com/a16z/status/1971304302569546237
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.