夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

紅杉中國,準備這樣預測下一個AI獨角獸 | 筆記

0
分享至

我們去年底發(fā)了一篇展望2025年AI的文章,其中第2條提到了AGI,認為2025年將提出更難的基準,但AGI仍然很難跨越莫拉維克悖論。

這種悖論,部分體現(xiàn)在那些前沿AI模型可以解出奧數題,卻難以完成實際工作中初級員工的任務。而智能體的實際應用,恰恰是從完成簡單的工作任務開始。

紅杉中國想跨越這個悖論,推出了xBench,測評專業(yè)領域智能體的表現(xiàn)——從完成簡單的任務開始。


(招聘和營銷兩個專業(yè)智能體的xBench測評結果)

如果說當初ChatGPT帶給人們的驚喜來自實際對話的體驗,GPT-4的發(fā)布所引發(fā)的震撼,基本上是來自其刷題的分數。

它的技術報告中,用一系列學術和專業(yè)資格試題來測試GPT-4,得分達到甚至超過了人類的平均水平;在一系列美國大學本科和研究生入學,律師資格考試等專業(yè)領域,以及有關科學和數學的通識,初步的視覺和推理能力,編程能力等方面,實現(xiàn)了對GPT-3.5的大幅度提升。

配合這個模型的發(fā)布,微軟發(fā)布了一篇論文稱,GPT-4呈現(xiàn)了早期的“火花”;而OpenAI請了幾位經濟學家,發(fā)布一篇論文,根據GPT-4在各職業(yè)崗位技能上廣泛的可替代程度,提出了(General Purpose Technologies),即GPTs are GPTs。

論文調查了美國1016種職業(yè),包括工作行為的具體描述,將其進一步分解為每種職業(yè)的具體任務,共計19265種。對應GPT所訓練出的基礎能力,微調出來的具體專業(yè)領域的能力,以及融合其他技術的能力,與目前所有職業(yè)技能進行對照,劃分其對GPT “暴露”的程度。

調查結果表明,大約 80% 的美國勞動力至少有 10% 的工作任務會受到 GPT 的影響,而大約 19% 的員工可能會看到至少 50% 的工作任務受到影響。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的暴露風險。這個硬幣的另外一面是,AI如果能接管現(xiàn)有的許多工作技能,將會創(chuàng)造巨大的價值。

今天回頭看來,AI大模型通的通用智能,可以通過刷題獲得高分,達到大學生甚至博士的水平,可以在對話中侃侃而談,學識淵博,而在真實世界的應用中卻顯得“低能”。大模型過分依賴這類測評獲得存在感,在一定程度上會陷入了刷題與刷榜的游戲。

OpenAI o3的發(fā)布再一次,在編程、數學、科學等一系列基準測試中成為學霸中的學霸,讓測評分數都不夠用了,迅速趨于飽和。

這個評價體系的創(chuàng)始人Fran?ois Chollet 認為,o3可以解出奧數題,卻在一些非常簡單的任務上仍然會失敗,新出一道小學數學可能輕松拿捏它,“這表明它與人類智能存在根本性的差異。”

與此同時,大模型也在撞上數據墻,各種圍繞刷題和刷榜的demo,在經過了近兩年的“核彈”、“王炸”級別的不斷的炒作之后 ,令人產生疲勞感,人們越來越關注AI大模型的“高分低能”問題。

應該把大模型當成一個智能體,投入到實際工作中,并對其表現(xiàn)進行考評,而不是僅僅停留在教室和實驗室里測試它們的分數。已經有一些開創(chuàng)性的測評方式,如硅谷研究機構METR,對OpenAI及Anthropic大模型完成的1460項任務,根據其所用的時長、完成程度和成本進行分析,初步得出了。

紅杉中國也走過了同樣的路。2022年ChatGPT推出后,紅杉中國密切追蹤AGI的進程,每個月測評主流模型,在內部匯報和投資參考。他們在中國同樣也遇到了測試基準快速“飽和”的問題,主流模型從20-30分在18個月內提升到90-100分。

2024年10月,OpenAI推出推理模型o1之后一個月,紅杉中國大規(guī)模更新了xbench題庫,換掉了所有都得滿分的題,新增的試題主要針對Chatbot復雜問答及推理,以及簡單的模型外部工具調用能力。結果這一次題庫被大模型更快地刷爆,僅用了6個月。

2025年3月,紅杉開始第三次對xbench題庫進行升級,這一次,他們開始停下來質疑現(xiàn)有評估方式,思考兩個核心問題:

模型能力和AI實際效用之間的關系:“我們出越來越難的題目意義是什么,是否落入了慣性思維?AI落地的實際經濟價值真的和AI會做難題正相關嗎?” 舉個例子,程序員工作的Utility Value很高,但AI做起來進步非??欤叭スさ匕岽u”這樣的工作AI卻幾乎無法完成。

不同時間維度上的能力比較:“每一次xbench換題,我們便失去了對AI能力的前后可比性追蹤,因為在新的題集下,模型版本也在迭代,我們無法比較不同時間維度上的單個模型的能力如何變化?!?這樣的測評,在判斷創(chuàng)業(yè)項目的時候,尤其是在評估AI能力這件事上,可能已經失靈。

這次紅杉中國決定從水平到垂直,進入一個個行業(yè)領域,去發(fā)現(xiàn)智能體的勞動生產率,基于AI技術與市場匹配(Technology Market Fit,TMF),甚至預測AI技術將率先在哪些領域實現(xiàn)大規(guī)模應用,從而盡早發(fā)現(xiàn)優(yōu)秀的產品和團隊。

xBench既測試AI的系統(tǒng)能力上限與技能邊界,即AGI能力,也會量化AI系統(tǒng)在真實場景中的效用值(Utility Value)。如果說前者是對齊人類的抽象思維范式和價值觀,那么后者則動態(tài)對齊現(xiàn)實世界的真實需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業(yè)務價值的測評標準。

xbench還采用長青評估(Evergreen Evaluation)機制,通過持續(xù)維護并動態(tài)更新測試內容,以確保時效性和相關性。xBench將定期測評市場主流智能體產品,跟蹤模型能力演進,捕捉智能體產品迭代過程中的關鍵突破,進而預測下一個智能體應用的TMF。

紅杉中國要構建 xbench 指數,服務于它的AI獨角獸捕獲機器。通過長期更新的評估追蹤并預測代理產品之間的競爭格局:“我們可以追蹤交替領先的產品,同時也希望發(fā)現(xiàn)能力在短期內迅速提升的新秀產品。”

紅杉中國稱之為AI“下半場的評估”,目前已經被證明了的賽道是AI編程,接下來,招聘和市場營銷可能是基于深度搜索技術而產生的兩個充滿機會的AI應用賽道。

33位中美頂尖名校中國博士組成的團隊,與這兩個行業(yè)專家合作,提煉出了真實的需求和工作流程,具體到時間分配,并且計算出每個工作環(huán)節(jié)和模塊的市場價值。

行業(yè)專家對具體的工作提出要求,通過搜索智能體輸出結果,如應聘候選人專業(yè)表現(xiàn),然后由大型語言模型進行評判,得出分數。


(對招聘智能體工作流程的打分)

基于這樣的方法,紅杉在5月份對前沿模型的最新版本的招聘和營銷智能體的能力進行了測評,推出了榜單,并且首次對外公開xBench。紅杉想以此來建立一個動態(tài)的榜單和指標體系,對模型研究者和垂直智能體的開發(fā)者開放測評結果。

具體到抽象的過程,比較能反應中國創(chuàng)業(yè)者的特點,尤其是是在進入智能體創(chuàng)業(yè)的階段,是不是還要“通用”,什么是“通用”。從MANUS等中國創(chuàng)業(yè)者最早提出通用智能體這個概念,并且引發(fā)出現(xiàn)象級的主張之后,我們可以看到,它實際上把“通用”建立在一系列創(chuàng)造經濟價值的的典型行業(yè)與場景之上,它是一個演變泛化的過程。它與硅谷創(chuàng)業(yè)者所擅長的從抽象到具體形成互補。

參考報告:

https://xbench.org/#/reports

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
浙江:28歲新郎娶36歲新娘,雙方父母裝都不裝了,全部缺席!

浙江:28歲新郎娶36歲新娘,雙方父母裝都不裝了,全部缺席!

少點意思
2025-08-13 23:06:12
女生玩手機睡著:iPhone貼在臉上直接燙出4顆大水泡!

女生玩手機睡著:iPhone貼在臉上直接燙出4顆大水泡!

快科技
2025-09-01 16:24:12
慘遭棄用!熱刺新援“憑一己之力”搞砸冠軍,3500萬虧大了!

慘遭棄用!熱刺新援“憑一己之力”搞砸冠軍,3500萬虧大了!

大陸漂移
2025-09-04 11:20:31
0-2爆冷!早上6點 斯瓦泰克含淚出局,美網4強亂了:一人或成贏家

0-2爆冷!早上6點 斯瓦泰克含淚出局,美網4強亂了:一人或成贏家

大秦壁虎白話體育
2025-09-04 06:34:15
姜維的最后一計為何那么出名,縱觀古今,絕對是“天花板”級別!

姜維的最后一計為何那么出名,縱觀古今,絕對是“天花板”級別!

銘記歷史呀
2025-09-03 14:19:27
"假愛國"風波3年,51歲吳京人財兩空,而他受邀觀禮閱兵

"假愛國"風波3年,51歲吳京人財兩空,而他受邀觀禮閱兵

白面書誏
2025-09-03 19:36:28
“最快女護士”被舉報到紀檢委,領導、同事和老公回應這下真完了

“最快女護士”被舉報到紀檢委,領導、同事和老公回應這下真完了

娛樂看阿敞
2025-09-03 12:58:50
8萬人見證 世預賽主場最后一舞!38歲梅西沖金靴 首發(fā)曝光

8萬人見證 世預賽主場最后一舞!38歲梅西沖金靴 首發(fā)曝光

葉青足球世界
2025-09-04 08:45:40
午評|徹底崩了!A股正式破位!牛市結束?

午評|徹底崩了!A股正式破位!牛市結束?

龍行天下虎
2025-09-04 11:50:17
分手15年,一別兩寬,吳越對陳建斌絕口不提,如今才知她贏在哪兒

分手15年,一別兩寬,吳越對陳建斌絕口不提,如今才知她贏在哪兒

跳跳歷史
2025-09-04 09:57:16
25km/h限速下的中國電動車,跑不快也活不好

25km/h限速下的中國電動車,跑不快也活不好

高見觀潮
2025-09-04 02:16:20
閱兵現(xiàn)場特殊一幕:1945 檢閱車立麥空無一人,真相讓人肅然起敬

閱兵現(xiàn)場特殊一幕:1945 檢閱車立麥空無一人,真相讓人肅然起敬

瘋狂薯條
2025-09-03 16:22:52
王炸落地!300Wh/kg固態(tài)電池殺到,機器人要起飛

王炸落地!300Wh/kg固態(tài)電池殺到,機器人要起飛

小蜜情感說
2025-09-03 15:07:15
國足U22主場場地狀況受質疑,央視記者王濤:西安這個草坪從美國進口的,奈何連日高溫后又連日陰雨

國足U22主場場地狀況受質疑,央視記者王濤:西安這個草坪從美國進口的,奈何連日高溫后又連日陰雨

魯中晨報
2025-09-04 07:20:07
同樣是香港富豪,看到李嘉誠和霍啟剛閱兵前安排,差距一目了然

同樣是香港富豪,看到李嘉誠和霍啟剛閱兵前安排,差距一目了然

貴州小娟
2025-09-03 20:35:07
霍啟剛談觀看閱兵感受,大合影中“意外”與姚明同框

霍啟剛談觀看閱兵感受,大合影中“意外”與姚明同框

極目新聞
2025-09-03 17:21:18
8萬羽和平鴿成功放飛,“最快下班鴿”回家只用了4分鐘,養(yǎng)鴿人:提前兩個月就在家訓練

8萬羽和平鴿成功放飛,“最快下班鴿”回家只用了4分鐘,養(yǎng)鴿人:提前兩個月就在家訓練

極目新聞
2025-09-04 00:34:37
西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

普覽
2025-09-01 21:45:50
網盤中的加密文件,二十年后依然回味無窮

網盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
央5直播德約科維奇VS阿爾卡拉斯,誰能打進美網決賽?獎金有多少

央5直播德約科維奇VS阿爾卡拉斯,誰能打進美網決賽?獎金有多少

體育大學僧
2025-09-04 09:39:16
2025-09-04 13:16:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
187文章數 41關注度
往期回顧 全部

科技要聞

傳蘋果自研AI搜索,明年iPhone將大升級

頭條要聞

原國家部委工作人員與外國女官員生下私生子 詳情披露

頭條要聞

原國家部委工作人員與外國女官員生下私生子 詳情披露

體育要聞

詹姆斯曬外灘拍照組圖:上海的夜晚和高度

娛樂要聞

宋祖英春晚39年經歷,先是被罵?

財經要聞

美國8月份關稅突破310億美元 創(chuàng)歷史新高

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

房產
藝術
本地
旅游
公開課

房產要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | “中式美學”打開夏日濰坊

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 午夜理论电影在线观看亚洲| 性欧美俄罗斯乱妇| 欧美性XXXX极品HD欧美风情| 色yeye香蕉凹凸视频在线观看| 色色院澋97| 91人妻一区二区三区黑料| 国产成人理论在线视频观看| 亚洲天堂1234| 中文幕AV一区二区三区佐山爱| 久久亚洲粉嫩高潮的18P| 国产a∨精品一区二区三区不卡| 国产精品久久久久AV蜜臀| 欧美日日午夜影院| 亚洲综合精品第一页| 国产一区二区女内射| 国产精品v欧美精品∨日韩| 国产欧美又粗又猛又爽老| 91美女被操一区| 伊人丁香狠狠色综合久久| 成年性午夜免费视频网站| 麻豆蜜桃国产精品无码视频综艺| 天天爱天天做天天爽| 久久人人爽人人爽人人片ⅴ| 色综合 图片区 小说区| 成人毛片试看| 亚洲综合无码精品一区二区| 欧美男女精品网站| 欧美日本日韩| 无码人妻丰满熟妇久久久久久| 91九色最新地址| 精品少妇肉体| 狠狠色噜噜狠狠狠狠色综合久av| 亚洲国产日韩成人a在线欧美| 亚洲高清无码中字人妻| 亚洲AV色香蕉一区二区蜜桃| 亚洲成a人片在线观看天堂无码| AV成人午夜无码一区二区| 精品人妻一操一啪| 国内精品久久人妻无| 黑人精品一区二区三区不| 国产精品久线在线观看|