夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI 3萬億美元測試,AI首戰(zhàn)44個行業(yè)人類專家!

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】AI下半場,AGI已成過去式,ASI正引領(lǐng)新智能革命!OpenAI推出的GDPval評估體系,通過真實工作任務(wù)審視大模型潛力,揭示AI如何從實驗室走向3萬億經(jīng)濟(jì)戰(zhàn)場,助力人類從日?,嵤轮薪夥?,擁抱創(chuàng)造性未來。

AI下半場真來了!

AGI都過時了,現(xiàn)在AI業(yè)內(nèi)討論的是:

AGI能把人類從80%的日常工作中解放出來;

而ASI則全面超越人類智能的系統(tǒng)。

剛剛,在a16z訪談中,OpenAI首席科學(xué)家Jakub Pachocki,透露OpenAI的研究路線圖的下一步是推理,下一個5年的重點目標(biāo)是打造自動化研究人員

AI自動發(fā)現(xiàn)新想法,自動化研究人員的工作,自動化機(jī)器學(xué)習(xí)研究。

但理解AI潛力最清晰的方式,并不是預(yù)測未來,而是看看模型現(xiàn)在已經(jīng)能做什么。

歷史經(jīng)驗告訴我們,從互聯(lián)網(wǎng)到智能手機(jī),每一項重大技術(shù)從誕生到普及都需要十年以上。

OpenAI希望以更透明的方式,展示大模型如何真正服務(wù)于現(xiàn)實世界。

因此,他們推出了一項全新的評估體系GDPval,在有據(jù)可依的基礎(chǔ)上審視AI進(jìn)步軌跡,而不是憑空臆測。


論文地址:https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

數(shù)據(jù)集:https://huggingface.co/datasets/openai/gdpval

在GDPval 上,專家評審員將頂尖模型的輸出與人類專家的工作進(jìn)行了比較。

哈佛大學(xué)教授、名譽(yù)校長Lawrence H. Summers——同時任OpenAI的董事會成員,認(rèn)為新研究令人興奮:

在多項實際任務(wù)上,即使只有有限的指導(dǎo),AI的表現(xiàn)與人類相當(dāng)甚至更好;

人類與人·工智能結(jié)合,可以更高效;

AI具有令人驚訝的能力,可用來評估并隨后改進(jìn)其性能。


OpenAI坦承:Claude Opus 4.1表現(xiàn)最佳,在接近一半的任務(wù)上與專家工作相當(dāng)或更好,明顯優(yōu)于GPT-5。


但OpenAI的進(jìn)步速度引人注目:在一年內(nèi),GPT系列模型勝率幾乎翻了一番。


GDPVal

衡量AI的3萬億美元影響

過去,大模型評估往往集中在學(xué)術(shù)測試或編程挑戰(zhàn)上。

這些評估雖然在推動模型推理能力方面起到了重要作用,但與現(xiàn)實工作場景仍有一定距離。

為了填補(bǔ)這道鴻溝,OpenAI逐步開發(fā)出一系列更貼近實際、更具經(jīng)濟(jì)意義的評估方法——

從傳統(tǒng)的MMLU(涵蓋多學(xué)科的考試型題目),

到更具實戰(zhàn)意味的SWE-Bench(軟件工程Bug修復(fù)任務(wù))、MLE-Bench(機(jī)器學(xué)習(xí)工程任務(wù),如模型訓(xùn)練與分析)、Paper-Bench(科研論文的邏輯推理與評議),

再到基于市場項目的SWE-Lancer(源于真實交易的自由職業(yè)軟件開發(fā)任務(wù))。

GDPval正是在這一演進(jìn)路徑上的下一個關(guān)鍵節(jié)點。


這項評估直接來源于現(xiàn)實工作中的任務(wù),覆蓋了9大行業(yè)、44種職業(yè)、每年共計3萬億美元經(jīng)濟(jì)價值。


整個任務(wù)集共包含1,320個高度專業(yè)化任務(wù)(其中220為金標(biāo)任務(wù)子集,已開源)。

這些任務(wù)源于真實工作產(chǎn)出,比如法律意見書、工程圖紙、客服對話記錄或護(hù)理計劃等。


每一項任務(wù)都需通過多輪嚴(yán)格審核流程,確保其具備三點,即:高度貼近實際工作場景可由同領(lǐng)域的專業(yè)人士獨立完成;具備明確的評估標(biāo)準(zhǔn)

每項任務(wù)平均經(jīng)歷5輪專家評審,評審團(tuán)隊包括其他任務(wù)撰寫者、獨立職業(yè)評審專家,并輔以模型可行性與清晰度校驗。

GDPval的獨特之處在于,不僅任務(wù)內(nèi)容貼近現(xiàn)實、形式多,還具備極高的專業(yè)性和代表性。

與傳統(tǒng)評估相比,GDPval并非簡單的文本提示任務(wù)。它要求模型處理完整的參考材料與工作背景,輸出形式也不僅限于文字,還包括文檔、PPT、圖表、電子表格,甚至多媒體內(nèi)容。

當(dāng)然,GDPval目前還只是一個起點,尚未完全覆蓋現(xiàn)實知識工作中任務(wù)的復(fù)雜性。

它幫助我們清晰地認(rèn)識到,大模型不僅僅能在實驗室中解題,更可能在千千萬萬人的日常工作中,扮演可靠的輔助角色。

請再讀一遍:AI不再只是「通過考試」,而是開始接受文明體系本身的考核標(biāo)準(zhǔn):GDP。

獨立研究員Shanaka Anslem Perera表示:

這不僅僅是一套評估體系,更像是某種經(jīng)濟(jì)生命體的誕生 。

GDPval,是「后人類經(jīng)濟(jì)時代」的第一套會計體系。

今天,它是一個「基準(zhǔn)」;明天,它將成為新物種的記分牌。


當(dāng)AI的產(chǎn)出開始計入GDP,它就不再是工具,而是超越「土地、勞動與資本」的第四種生產(chǎn)要素

半數(shù)任務(wù)

AI已逼近專業(yè)水平

早期測試結(jié)果顯示,當(dāng)前領(lǐng)先的大模型在某些任務(wù)上,表現(xiàn)已接近甚至媲美行業(yè)專家。

在220項金標(biāo)任務(wù)中,行業(yè)專家盲測了多款主流模型

GPT-4o、o4-mini、OpenAI o3、GPT-5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4。

結(jié)果顯示:

  • Claude Opus 4.1美學(xué)表現(xiàn)方面表現(xiàn)最強(qiáng)(如文檔排版、PPT布局等);

  • GPT-5則在準(zhǔn)確性方面領(lǐng)先,尤其擅長定位專業(yè)知識點。

當(dāng)前最先進(jìn)的大模型,輸出質(zhì)量已接近業(yè)內(nèi)專家水平。其中,Claude Opus 4.1表現(xiàn)尤為突出——

在接近一半的任務(wù)中,其產(chǎn)出被評為「與人類一樣好」甚至「優(yōu)于人類」。


從GPT-4o(2024年春發(fā)布)到GPT-5(2025年夏發(fā)布),模型在GDPval任務(wù)上的平均表現(xiàn)幾乎翻倍,呈現(xiàn)出明顯的線性進(jìn)步趨勢。


OpenAI還發(fā)現(xiàn),頂尖模型完成GDPval任務(wù)的速度和成本,平均是人類的1%——約快100倍、便宜100倍。


不過,這一數(shù)據(jù)僅統(tǒng)計了模型推理時間與API調(diào)用成本,并未包含人類監(jiān)督、迭代修改與實際集成等現(xiàn)實工作流程所需的資源投入。

盡管如此,在模型表現(xiàn)尤為出色的任務(wù)類型上,先用AI試一輪,再交由人類介入,可能成為節(jié)省時間與成本的理想策略。

如何優(yōu)化模型以提升GDPval表現(xiàn)

為了驗證是否可以提升GPT-5在GDPval任務(wù)中的表現(xiàn),OpenAI增量訓(xùn)練了實驗性的內(nèi)部特定版GPT-5。

結(jié)果證實,經(jīng)過該訓(xùn)練流程后,模型性能確實得到了實質(zhì)性提升,展現(xiàn)了進(jìn)一步優(yōu)化的潛力。

下圖的多項受控實驗結(jié)果,進(jìn)一步印證了這一點:擴(kuò)大模型規(guī)模、引導(dǎo)模型進(jìn)行更多推理步驟、提供更豐富的任務(wù)背景信息,都會帶來可衡量的性能增益。


OpenAI設(shè)計了一條通用提示詞,要求模型在提交結(jié)果前進(jìn)行嚴(yán)謹(jǐn)?shù)淖詸z,可適用于各類多模態(tài)經(jīng)濟(jì)類任務(wù),并未針對具體問題進(jìn)行過擬合


最豪評分員

頂尖機(jī)構(gòu)的14年行業(yè)專家

在GDPval任務(wù)中,為了評估模型的實際表現(xiàn),OpenAI依賴資深從業(yè)者作為「評分員」。

專家入選標(biāo)準(zhǔn)包括:至少4年行業(yè)從業(yè)經(jīng)驗,且簡歷中需體現(xiàn)專業(yè)認(rèn)可度、晉升軌跡及管理職責(zé)。參與本項目的專家平均擁有14年從業(yè)經(jīng)驗。

行業(yè)專家團(tuán)隊曾任職于以下代表性機(jī)構(gòu):

Meta、微軟、摩根士丹利、谷歌、甲骨文、蘋果、通用電氣、高盛、HBO、IBM、摩根大通、領(lǐng)英、洛克希德·馬丁、美國銀行、巴克萊銀行、波音、美國疾控中心、花旗集團(tuán)、美國國防部、美國聯(lián)邦貿(mào)易委員會、美國國家公園管理局、NFL網(wǎng)絡(luò)、雷神、Sally Beauty、《科學(xué)美國人》、蘇富比、英國電訊報集團(tuán)、賽默飛世爾、《時代》雜志、美國司法部、美國空軍、美國郵政總局……

這些評分員來自與任務(wù)相同的職業(yè)背景,并在不知曉「人類 vs AI」身份的前提下,盲評由模型與人類任務(wù)撰寫者完成的任務(wù)成果。


他們不僅會給出評價,還會對比排名,最終判斷每個AI生成結(jié)果是「優(yōu)于」、「相當(dāng)于」或「劣于」人類結(jié)果。

為了確保評分過程透明一致,每位任務(wù)撰寫者還為其職業(yè)領(lǐng)域制定了詳細(xì)評分標(biāo)準(zhǔn)(rubric),涵蓋各類評價維度。

OpenAI還開發(fā)了「自動評分器」——一個用于預(yù)測人類專家偏好的AI系統(tǒng),模仿行業(yè)專家的對比評估方式。

自動評估工具比專家評估更快、成本更低,且與人類專家評估的一致性達(dá)到66%,僅比人類評估者之間71%的一致性低5%。


由于其局限性,OpenAI沒有使用自動評分器取代人類打分員。

AI與工作的未來圖景

隨著AI能力不斷提升,勞動力市場勢必將發(fā)生結(jié)構(gòu)性變化。

GDPval的早期結(jié)果已經(jīng)表明,大模型在處理那些重復(fù)性強(qiáng)、結(jié)構(gòu)清晰的任務(wù)時,效率遠(yuǎn)超人類專家,不僅更快也更便宜。

但也要看到,大多數(shù)工作不僅僅是可拆解的任務(wù)清單

GDPval的意義在于:它揭示了AI可以承接哪些日常性事務(wù)型任務(wù),從而為人類騰出時間專注更具創(chuàng)造力、判斷力的復(fù)雜工作。

當(dāng)AI能夠以這種方式補(bǔ)充而非替代人類時,將為經(jīng)濟(jì)增長釋放巨大潛力。

OpenAI希望借助GDPval與相關(guān)工具,推動AI工具的普及平民化,支持勞動者順利適應(yīng)時代變革,并打造能鼓勵廣泛參與與共享成果的激勵機(jī)制。

同時,OpenAI也開放了GDPval金標(biāo)任務(wù)子集以及一個公共評分平臺,希望能為更多研究者提供基礎(chǔ)設(shè)施,持續(xù)推動該方向的發(fā)展。

愿每個人都能搭上AI時代的「上行電梯」。

參考資料:

https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

https://openai.com/index/gdpval/

https://x.com/OpenAI/status/1971249382889750803

https://x.com/a16z/status/1971304302569546237

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
第一屆國務(wù)院領(lǐng)導(dǎo)班子,12位副總理都是誰?101竟在彭德懷之前

第一屆國務(wù)院領(lǐng)導(dǎo)班子,12位副總理都是誰?101竟在彭德懷之前

舊書卷里的長安
2025-09-28 22:12:58
2-1!阿森納霸氣逆轉(zhuǎn)+壓哨絕殺,終結(jié)對紐卡客場3連敗,距榜首2分

2-1!阿森納霸氣逆轉(zhuǎn)+壓哨絕殺,終結(jié)對紐卡客場3連敗,距榜首2分

我愛英超
2025-09-29 01:56:28
國民黨權(quán)力再洗牌?鄭麗文一邊倒領(lǐng)先、洪秀柱表態(tài)中立,改選更添懸念

國民黨權(quán)力再洗牌?鄭麗文一邊倒領(lǐng)先、洪秀柱表態(tài)中立,改選更添懸念

愛意隨風(fēng)起呀
2025-09-29 15:40:06
兒子誤發(fā)家里跑車照片到家長群,某位媽媽回復(fù):這車牌號是我家的

兒子誤發(fā)家里跑車照片到家長群,某位媽媽回復(fù):這車牌號是我家的

黑貓故事所
2025-09-27 22:30:06
連簽5人!勇士是真老,真小??!

連簽5人!勇士是真老,真小??!

風(fēng)子說個球
2025-09-29 17:06:08
“跳梁小丑”李玉剛跌下神壇,不再被大家寬容,梅葆玖:永不原諒

“跳梁小丑”李玉剛跌下神壇,不再被大家寬容,梅葆玖:永不原諒

詩意世界
2025-08-13 16:24:00
看了西南大學(xué)招聘現(xiàn)場凌晨排長龍,我勸你要敬重自己的飯碗

看了西南大學(xué)招聘現(xiàn)場凌晨排長龍,我勸你要敬重自己的飯碗

洞見
2025-09-27 21:38:07
莎拉收到緊急通知,老杜在拘留所昏倒在地,已失去意識被緊急送醫(yī)

莎拉收到緊急通知,老杜在拘留所昏倒在地,已失去意識被緊急送醫(yī)

趣文說娛
2025-09-29 09:42:59
武漢大學(xué)霸占“八一路”,周圍居民投訴不斷,區(qū)政府回應(yīng)略顯無力

武漢大學(xué)霸占“八一路”,周圍居民投訴不斷,區(qū)政府回應(yīng)略顯無力

知曉科普
2025-09-29 11:14:13
它是牛肉“克星”,燉牛肉加1勺,出鍋后軟爛入味,沒牙也咬得動

它是牛肉“克星”,燉牛肉加1勺,出鍋后軟爛入味,沒牙也咬得動

阿龍美食記
2025-09-27 12:03:42
刀郎不再隱瞞!坦白和女徒弟云朵真實關(guān)系,我們都被騙了

刀郎不再隱瞞!坦白和女徒弟云朵真實關(guān)系,我們都被騙了

TVB的四小花
2025-09-25 12:40:11
3年1.78億美金!聯(lián)盟第1!約基奇拒絕續(xù)約,掘金17人豪陣?yán)^續(xù)沖冠

3年1.78億美金!聯(lián)盟第1!約基奇拒絕續(xù)約,掘金17人豪陣?yán)^續(xù)沖冠

世界體育圈
2025-09-29 16:21:26
掃地出門!皇馬正式出售1億“頂星”!欽點頂級“節(jié)拍器”

掃地出門!皇馬正式出售1億“頂星”!欽點頂級“節(jié)拍器”

頭狼追球
2025-09-29 12:20:49
釋永信交代了全過程令人吃驚!你想象不到他的生活有多豪多豐富!

釋永信交代了全過程令人吃驚!你想象不到他的生活有多豪多豐富!

娛樂看阿敞
2025-09-20 10:30:24
大批進(jìn)攻俄軍被切割包圍;印、土有意放棄俄國能源

大批進(jìn)攻俄軍被切割包圍;印、土有意放棄俄國能源

近距離
2025-09-27 10:43:24
大滿貫賽:國乒第4位女單被淘汰!0:3出局,王曼昱晉級,早田晉級

大滿貫賽:國乒第4位女單被淘汰!0:3出局,王曼昱晉級,早田晉級

國乒二三事
2025-09-29 13:35:11
轟動全國的“操場埋尸案”:24人被判刑!殘忍細(xì)節(jié)讓人憤怒

轟動全國的“操場埋尸案”:24人被判刑!殘忍細(xì)節(jié)讓人憤怒

卡索
2024-07-25 11:32:01
“高凈值家庭”標(biāo)準(zhǔn)出爐!全中國共有414.2萬戶,你家達(dá)標(biāo)了嗎?

“高凈值家庭”標(biāo)準(zhǔn)出爐!全中國共有414.2萬戶,你家達(dá)標(biāo)了嗎?

毒sir財經(jīng)
2025-09-29 14:42:17
王慧琳,調(diào)任新職

王慧琳,調(diào)任新職

政知新媒體
2025-09-29 10:47:53
中甲前三名集體剎車不想贏球,一點原因使然,看誰不幸升入中超

中甲前三名集體剎車不想贏球,一點原因使然,看誰不幸升入中超

姜大叔侃球
2025-09-29 11:59:48
2025-09-29 17:28:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
13533文章數(shù) 66185關(guān)注度
往期回顧 全部

科技要聞

"中國僅落后'幾納秒',我們必須參與競爭"

頭條要聞

男子舉報鎮(zhèn)干部建"別墅"還披露其奧迪車牌 被拘19天

頭條要聞

男子舉報鎮(zhèn)干部建"別墅"還披露其奧迪車牌 被拘19天

體育要聞

東北燒烤的秘密,都藏在馬拉松里

娛樂要聞

董璇女兒和佟麗婭兒子同登灣區(qū)晚會

財經(jīng)要聞

臭蝦供應(yīng)商背靠新希望 競標(biāo)卻自稱小企業(yè)

汽車要聞

歐拉5靜態(tài)體驗 一輛“源于自然”的都市SUV

態(tài)度原創(chuàng)

游戲
教育
房產(chǎn)
數(shù)碼
手機(jī)

網(wǎng)傳《明末》不會推出DLC?玩家意見兩極化

教育要聞

關(guān)于x的一元二次方程只有整數(shù)根求a的值

房產(chǎn)要聞

正式動工!國企巨頭甩出“頂配”,??跇鞘行聵?biāo)桿來了!

數(shù)碼要聞

蘋果不做小米做!小米金沙江磁吸充電寶賣斷貨:完美兼容iPhone17

手機(jī)要聞

聯(lián)想moto X70 Air手機(jī)官宣10月底見:主打輕薄與AI

無障礙瀏覽 進(jìn)入關(guān)懷版 久久精品国产精品第一区| 亚洲中文字幕在线精品一区| 一区二区三区四区在线不卡高清 | 高清不卡一区国产| 麻豆人妻少妇精品无码专区2| 欧美性精品| 伊人久久大香线蕉综合影院首页| 99精品久久99久久久久| 国产无码激情视频| 精品精品国产高清a毛片| 婷婷五月六月| 亚洲av无码一区二区三区网站| 成年永久一区二区三区免费视频| 国产伦精品一区二区三区在线观看| 天堂а√在线中文在线最新版| 波多野结衣的av一区二区三区| 亚洲午夜中文字幕| 伊人久久大香线蕉av一区| 少妇人妻无码专区视频| 毛片啊啊啊一区二区| 女人18毛片A级18女人水真多| 国产成人精品怡红院在线观看| av成人免费观看| 久久人妻黄色视频精品| 国产亚洲精品aa片在线爽| 蜜臀精品国产高清在线观看| 亚洲欧美日韩一区| 日韩精品中文字一区二区| 粉嫩Av一区二区三区免费| 无码一区二区三区视频| 亚洲熟妇久久精品| 欧美老妇50.60aV| 亚洲精品乱码久久久久久密桃明星 | 丰满美女被操网站。| 亚洲一区在线观看尤物| 精品一区二区三人妻视频| 日韩av 丝袜人妻| 无码人妻一区二区三区精品视频| 精品熟妇无码av免费久久| 日本在线一二三| 狠狠躁夜夜躁人人爽天天不卡软件 |