夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

沃頓教授警告:老板用AI正偷偷賺錢,而你還在審它做的17份PPT?

0
分享至


新智元報道

編輯:peter東 KingHZ

【新智元導讀】AI已經不只會「答題」,開始下場「掙錢」了。但它也可能順手給你產出17份PPT,把你淹沒在電子垃圾里。下一代AI也許真能贏過專家,可更刺激的問題是:它會替你上班,還是讓你轉職為「AI監(jiān)工」?

悄然之間,人工智能跨越了一個關鍵門檻:它們現在已能完成具有實際經濟價值的工作。

但當你把一份企業(yè)備忘錄交給Claude,讓它做個 PPT,結果它一口氣生成了17個版本。

面對這種「用力過猛」的 AI,你可能會懷疑:它真的具有實用性和經濟價值嗎?

對此,賓夕法尼亞大學沃頓商學院教授Ethan Mollick給出了他的回答。


智能體能完成特定任務

但無法取代工作

考慮到開發(fā)新AI所投入的天量資源,無論是字面意義還是象征意義上,我們卻在精確衡量AI「智能」程度這件事上意外地捉襟見肘。

目前,最普遍的做法是將AI視作人類,通過標準化測試來統(tǒng)計其答對題目的數量。

這類被稱為「基準測試」的評估體系多達數十種,已成為衡量AI能力演進的核心標尺。


但AI真的實用性?有經濟價值嗎?

要回答這個問題,不能光靠感覺,得看數據。

OpenAI發(fā)布了一個名叫GDPVAL的新基準測試。它不像以往的數學或常識測試,而是專門考察大模型在現實工作場景中能否創(chuàng)造經濟價值。

這一次,考得很「實戰(zhàn)」。

OpenAI組了個高端局:

  • 出題人:來自金融、法律、零售等行業(yè)的資深專家(平均14年經驗)。

  • 題目難度:人類專家平均需要4-7小時才能完成的真實業(yè)務任務。

  • 評測方式:AI和人類專家同臺競技,由第三方專家進行盲測打分。

然后,OpenAI讓各家的大模型和其他專家親自完成這些任務。第三組專家對結果進行評分,評分的專家不知道哪些答案來自AI,哪些來自人類,每個問題的評分時間大約需要一小時。

測試結果非常耐人尋味:人類專家贏了,但是贏得很難(勉強獲勝)。


圖1:GDPVAL中,不同模型在對應任務上和人類具有相同或更好水平的比例。

同時,測試發(fā)現AI進步極快:較新的模型得分遠超舊模型。

輸在哪?有趣的是,大模型輸給人類,并不是因為「幻覺」或「胡說八道」,主要是因為格式排版不好沒能精確遵循指令——而這些恰恰是最容易修復的短板。


圖2:不同領域中,大模型的表現好壞差異較大

如果當前趨勢持續(xù),下一代人工智能模型在這項測試中應超越人類專家。但這意味著AI已做好準備,來取代人類工作了嗎?

回答是否定

這里的關鍵在于:GDPVAL測試的是「任務」(Task),而我們做的是「工作」(Job)。

  • 任務是具體的:寫一段代碼、翻譯一篇文章。

  • 工作是復雜的:它包含了一連串的任務,更包含了人際溝通、決策博弈和對突發(fā)狀況的處理。

只要AI還做不到像人類一樣處理復雜互動,它就無法取代你的崗位。

但在這些高價值的任務中,AI什么時候能達到人類專家級水平?理論上,AI落地已無阻礙?

Ethan Mollick教授認為,AI智能體突然變得具有落地可能,確實讓人大吃一驚。部分原因在于大家對智能體的錯誤認知 。


智能體,工作「續(xù)航能力」指數級增長

以前,大家認為,AI想獨立完成長任務非常難,比如寫一個完整的軟件。因為AI只要中間錯一步,后面就全完了(誤差累積)。

但劍橋大學等機構聯手顛覆了這個認知:AI的能力并沒有遇到瓶頸,反而在爆發(fā)。


預印本鏈接:https://arxiv.org/abs/2509.09677

劍橋大學Akshit Sinha等研究人員挖掘出四大原因:

1)收益非遞減:變準一點點,能做的事會暴增

2)自我修正:它會停下來檢查,不會被一個錯誤拖死

3)更長上下文:一次對話就能裝下更長流程

4)更強模型能力:規(guī)劃更穩(wěn),長任務更不崩

所有這一切意味著,AI 智能體能夠應對那些需要更多步驟才能完成的任務,并且這一過程無需人工干預。


圖3:大模型性能的提升不會引起收益遞減的四個原因

因此,指標METR,從GPT-3到GPT-5,在五年間持續(xù)保持了指數級增長,顯示出智能體能力增加的速度沒有放緩。


圖4:大模型能夠穩(wěn)定完成的任務所需的耗時變化

該指標衡量AI能以至少50%幾率獨立完成的任務到底多長。

這意味著我們在不遠的未來,就能夠看到AI完成需要專業(yè)人士一天甚至一周時間才能完成的復雜任務。

人類決定AI的未來

然而,真正具有自主性智能體并不存在。

目前,我們需要決定如何使用它們,這將決定未來工作的許多方面。當下大多人關注的重點是用AI取代人類勞動所帶來的風險,而且不難看出這將在未來幾年成為一個主要問題,特別是對于那些只關注削減成本、而不是利用這些新能力來擴展或轉型工作的,同時缺乏想象力的組織。

但在工作中使用AI,會帶來的另一個非常有可能發(fā)生的風險是:我們會無意識地讓智能體去完成一堆比我們當下所做的更多,但完全不必要的任務,例如根據一個文檔做17個PPT。

我們如果不認真思考我們?yōu)槭裁匆龉ぷ?,以及工作應該是什么樣子,那么會被AI生成的「電子垃圾」大潮淹沒。

那么,替代方案是什么?

OpenAI建議專家可以通過將任務委托給 AI ,將AI生成的結果當成初稿,由人類審查,從而與 AI 合作解決問題。如果AI生成的初稿不夠好,用戶可在提示詞中提供糾正或優(yōu)化提示詞再試一次。如果那仍然不起作用,他們應該親自完成工作。

如果專家遵循這種工作流程,論文估計他們可以加快40%的工作速度,降低60%的成本。更重要的是,他們可以保持對 AI 的控制權。


圖5:不同大模型帶來的速度和成本提升

具有經濟實用性的智能體已經出現。例如通過讓AI智能體去復現學術論文,可以應對學術界的「可復現性危機」。

盡管智能體能夠完成的任務仍然有限,但它有經濟價值,并且價值正在遞增。

出現哪一個未來,區(qū)別不在于AI技術的演變,而在于我們選擇如何使用AI。通過在我們的判斷中決定什么值得做,而不僅僅是能做什么,我們可以確保這些工具使我們變得更有能力,而不僅僅是更有效率。

參考資料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

?點贊、轉發(fā)、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大西北超超長高鐵來了,1700公里,終于打通了?。厍蛑R局

大西北超超長高鐵來了,1700公里,終于打通了!|地球知識局

地球知識局
2025-12-23 20:26:17
羅馬諾:曼市雙雄都為塞門約提供了戰(zhàn)術愿景,球員選擇了曼城

羅馬諾:曼市雙雄都為塞門約提供了戰(zhàn)術愿景,球員選擇了曼城

懂球帝
2025-12-24 04:32:30
西媒:皇馬圣誕活動預計凈收入600萬至1000萬歐元

西媒:皇馬圣誕活動預計凈收入600萬至1000萬歐元

懂球帝
2025-12-24 07:00:34
為何上海攪拌車一撞就倒圍墻?致2死悲劇真相揭秘

為何上海攪拌車一撞就倒圍墻?致2死悲劇真相揭秘

筆墨V
2025-12-23 17:00:56
重磅打虎!溫州紀委剛剛官宣

重磅打虎!溫州紀委剛剛官宣

溫百君
2025-12-23 17:35:50
“蕪湖庫里南”現身!這顏值帥到沒朋友,真心動了!明年帶著固態(tài)電池上市!

“蕪湖庫里南”現身!這顏值帥到沒朋友,真心動了!明年帶著固態(tài)電池上市!

隔壁說車老王
2025-12-24 05:47:44
小米YU9曝光:車長超5.2米+純電續(xù)航超300KM

小米YU9曝光:車長超5.2米+純電續(xù)航超300KM

高科技愛好者
2025-12-22 23:15:32
“干得再好結局都是‘下?!保?6歲女生曝團播驚人亂象

“干得再好結局都是‘下?!?!26歲女生曝團播驚人亂象

半島晨報
2025-12-23 18:18:40
趙露思典禮妝容被嫌臟!認了沒請化妝師,霸氣喊:不再為造型內耗

趙露思典禮妝容被嫌臟!認了沒請化妝師,霸氣喊:不再為造型內耗

璀璨幻行者
2025-12-23 22:18:54
“小洛熙”事件最新進展:浙江省委省政府高度重視!醫(yī)療事故鑒定已啟動,醫(yī)療訴訟進入司法程序

“小洛熙”事件最新進展:浙江省委省政府高度重視!醫(yī)療事故鑒定已啟動,醫(yī)療訴訟進入司法程序

縱相新聞
2025-12-23 22:19:19
活久見!趙櫻子回應與楊子戀情,直言不怕黃圣依反擊,想紅想瘋了

活久見!趙櫻子回應與楊子戀情,直言不怕黃圣依反擊,想紅想瘋了

扒星人
2025-12-23 09:30:12
浙金中心董事長丁建林已被采取刑事拘留強制措施

浙金中心董事長丁建林已被采取刑事拘留強制措施

財聯社
2025-12-23 15:06:07
一位北京老教授直言:炒股不用太復雜,用最簡單的方式持續(xù)盈利!

一位北京老教授直言:炒股不用太復雜,用最簡單的方式持續(xù)盈利!

股經縱橫談
2025-12-05 21:59:08
吃一塹不長一智,天津女排再做錯誤決定,李盈瑩兩眼一黑

吃一塹不長一智,天津女排再做錯誤決定,李盈瑩兩眼一黑

體育快遞小哥哥
2025-12-23 16:40:52
香港前特首林鄭月娥:工作42年未在香港買房?卸任后為什么還是租房???

歷史回憶室
2025-12-21 12:51:07

燃油車4s店被擠爆,新能源4s店卻只進來一個人

燃油車4s店被擠爆,新能源4s店卻只進來一個人

水滴汽車App
2025-12-22 20:00:07
明明演技一般,還被捧成“老戲骨”,這幾位演員終于遭到了"反噬"

明明演技一般,還被捧成“老戲骨”,這幾位演員終于遭到了"反噬"

墨印齋
2025-12-24 06:12:39
英聯杯:93分鐘被絕平 阿森納點球大戰(zhàn)9-8水晶宮晉級4強將戰(zhàn)藍軍

英聯杯:93分鐘被絕平 阿森納點球大戰(zhàn)9-8水晶宮晉級4強將戰(zhàn)藍軍

狍子歪解體壇
2025-12-24 06:24:37
“排骨羽絨服”今年冬天又火了,這樣穿時髦保暖又高級,你買了嗎

“排骨羽絨服”今年冬天又火了,這樣穿時髦保暖又高級,你買了嗎

時尚穿搭生活館
2025-12-20 20:12:31
最新消息!樊振東將在波爾家里過圣誕節(jié),大概率缺席乒超總決賽

最新消息!樊振東將在波爾家里過圣誕節(jié),大概率缺席乒超總決賽

鳳幻洋
2025-12-23 15:53:27
2025-12-24 07:32:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
14167文章數 66395關注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應

頭條要聞

與多名女子在泳池大尺度照片披露 克林頓最新回應

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應阿信感謝,自曝沒再收到邀約

財經要聞

祥源系百億產品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

本地
手機
藝術
親子
公開課

本地新聞

云游安徽|宣城何以動人心,百年塔影一城徽韻

手機要聞

蘋果iOS 26.3新功能獲歐委會稱贊,正式版或在這一天發(fā)布!

藝術要聞

王玉琦:當代著名寫實油畫家

親子要聞

嚴禁引入第三方,管住幼兒園亂收費 | 新京報快評

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 中文字幕人妻系列人妻有码| 激情综合丁香五月| 美女自拍偷拍一级黄色片自拍偷拍美女!!! | 国产欧美日韩在线观看精品| 国产综合久久亚洲综合| AA区一区二区三无码精片| 亚洲欧美日韩自偷自拍| 91亚洲日韩看片无码| 国产偷拍自拍视频在线观看| 国产香港A级片| 99国产精品久久久| 亚洲区少妇熟女专区| 国產精品久久久久久久| 欧美色图久久| 国产国产人免费视频成69| XnXX熟妇乱XXXX| 中文字幕av一区二区| 色欲色香天天天综合网www下载| 欧美多毛肥胖老妇做爰| 亚洲人妻交换小说| 97精产国品一二三产区| 超碰刺激大香蕉| 五月色丁香婷婷网蜜臀av| 欧美激欧美啪啪片| 无码大潮喷水在线观看| 东北少妇不带套对白| 日韩成人不卡大片| 欧美大屁股喷潮水xxxx| 成熟丰满熟妇偷拍XXXXX| 久久精品夜色国产按摩推油| 欧美三级视频网站| 国产午夜精华液| 亞洲國產綜合久久久| 天天爽夜夜爽视频精品| 日本55丰满熟妇厨房伦| 12孩岁女www免费观看| 91九色丨PORNY丨蝌蚪| 天堂中文8资源在线8| 亚洲激情四射视频中文字幕久久 | 欧美性猛交xxxx免费看| 国产1卡二卡3卡四卡乱码视频|