我們去年底發(fā)了一篇展望2025年AI的文章,其中第2條提到了AGI,認為2025年將提出更難的基準,但AGI仍然很難跨越莫拉維克悖論。
這種悖論,部分體現(xiàn)在那些前沿AI模型可以解出奧數題,卻難以完成實際工作中初級員工的任務。而智能體的實際應用,恰恰是從完成簡單的工作任務開始。
紅杉中國想跨越這個悖論,推出了xBench,測評專業(yè)領域智能體的表現(xiàn)——從完成簡單的任務開始。
(招聘和營銷兩個專業(yè)智能體的xBench測評結果)
如果說當初ChatGPT帶給人們的驚喜來自實際對話的體驗,GPT-4的發(fā)布所引發(fā)的震撼,基本上是來自其刷題的分數。
它的技術報告中,用一系列學術和專業(yè)資格試題來測試GPT-4,得分達到甚至超過了人類的平均水平;在一系列美國大學本科和研究生入學,律師資格考試等專業(yè)領域,以及有關科學和數學的通識,初步的視覺和推理能力,編程能力等方面,實現(xiàn)了對GPT-3.5的大幅度提升。
配合這個模型的發(fā)布,微軟發(fā)布了一篇論文稱,GPT-4呈現(xiàn)了早期的“火花”;而OpenAI請了幾位經濟學家,發(fā)布一篇論文,根據GPT-4在各職業(yè)崗位技能上廣泛的可替代程度,提出了(General Purpose Technologies),即GPTs are GPTs。
論文調查了美國1016種職業(yè),包括工作行為的具體描述,將其進一步分解為每種職業(yè)的具體任務,共計19265種。對應GPT所訓練出的基礎能力,微調出來的具體專業(yè)領域的能力,以及融合其他技術的能力,與目前所有職業(yè)技能進行對照,劃分其對GPT “暴露”的程度。
調查結果表明,大約 80% 的美國勞動力至少有 10% 的工作任務會受到 GPT 的影響,而大約 19% 的員工可能會看到至少 50% 的工作任務受到影響。這種影響涵蓋所有工資水平,高收入工作可能面臨更大的暴露風險。這個硬幣的另外一面是,AI如果能接管現(xiàn)有的許多工作技能,將會創(chuàng)造巨大的價值。
今天回頭看來,AI大模型通的通用智能,可以通過刷題獲得高分,達到大學生甚至博士的水平,可以在對話中侃侃而談,學識淵博,而在真實世界的應用中卻顯得“低能”。大模型過分依賴這類測評獲得存在感,在一定程度上會陷入了刷題與刷榜的游戲。
OpenAI o3的發(fā)布再一次,在編程、數學、科學等一系列基準測試中成為學霸中的學霸,讓測評分數都不夠用了,迅速趨于飽和。
這個評價體系的創(chuàng)始人Fran?ois Chollet 認為,o3可以解出奧數題,卻在一些非常簡單的任務上仍然會失敗,新出一道小學數學可能輕松拿捏它,“這表明它與人類智能存在根本性的差異。”
與此同時,大模型也在撞上數據墻,各種圍繞刷題和刷榜的demo,在經過了近兩年的“核彈”、“王炸”級別的不斷的炒作之后 ,令人產生疲勞感,人們越來越關注AI大模型的“高分低能”問題。
應該把大模型當成一個智能體,投入到實際工作中,并對其表現(xiàn)進行考評,而不是僅僅停留在教室和實驗室里測試它們的分數。已經有一些開創(chuàng)性的測評方式,如硅谷研究機構METR,對OpenAI及Anthropic大模型完成的1460項任務,根據其所用的時長、完成程度和成本進行分析,初步得出了。
紅杉中國也走過了同樣的路。2022年ChatGPT推出后,紅杉中國密切追蹤AGI的進程,每個月測評主流模型,在內部匯報和投資參考。他們在中國同樣也遇到了測試基準快速“飽和”的問題,主流模型從20-30分在18個月內提升到90-100分。
2024年10月,OpenAI推出推理模型o1之后一個月,紅杉中國大規(guī)模更新了xbench題庫,換掉了所有都得滿分的題,新增的試題主要針對Chatbot復雜問答及推理,以及簡單的模型外部工具調用能力。結果這一次題庫被大模型更快地刷爆,僅用了6個月。
2025年3月,紅杉開始第三次對xbench題庫進行升級,這一次,他們開始停下來質疑現(xiàn)有評估方式,思考兩個核心問題:
模型能力和AI實際效用之間的關系:“我們出越來越難的題目意義是什么,是否落入了慣性思維?AI落地的實際經濟價值真的和AI會做難題正相關嗎?” 舉個例子,程序員工作的Utility Value很高,但AI做起來進步非??欤叭スさ匕岽u”這樣的工作AI卻幾乎無法完成。
不同時間維度上的能力比較:“每一次xbench換題,我們便失去了對AI能力的前后可比性追蹤,因為在新的題集下,模型版本也在迭代,我們無法比較不同時間維度上的單個模型的能力如何變化?!?這樣的測評,在判斷創(chuàng)業(yè)項目的時候,尤其是在評估AI能力這件事上,可能已經失靈。
這次紅杉中國決定從水平到垂直,進入一個個行業(yè)領域,去發(fā)現(xiàn)智能體的勞動生產率,基于AI技術與市場匹配(Technology Market Fit,TMF),甚至預測AI技術將率先在哪些領域實現(xiàn)大規(guī)模應用,從而盡早發(fā)現(xiàn)優(yōu)秀的產品和團隊。
xBench既測試AI的系統(tǒng)能力上限與技能邊界,即AGI能力,也會量化AI系統(tǒng)在真實場景中的效用值(Utility Value)。如果說前者是對齊人類的抽象思維范式和價值觀,那么后者則動態(tài)對齊現(xiàn)實世界的真實需求,基于實際工作流程和具體社會角色,為各垂直領域構建具有明確業(yè)務價值的測評標準。
xbench還采用長青評估(Evergreen Evaluation)機制,通過持續(xù)維護并動態(tài)更新測試內容,以確保時效性和相關性。xBench將定期測評市場主流智能體產品,跟蹤模型能力演進,捕捉智能體產品迭代過程中的關鍵突破,進而預測下一個智能體應用的TMF。
紅杉中國要構建 xbench 指數,服務于它的AI獨角獸捕獲機器。通過長期更新的評估追蹤并預測代理產品之間的競爭格局:“我們可以追蹤交替領先的產品,同時也希望發(fā)現(xiàn)能力在短期內迅速提升的新秀產品。”
紅杉中國稱之為AI“下半場的評估”,目前已經被證明了的賽道是AI編程,接下來,招聘和市場營銷可能是基于深度搜索技術而產生的兩個充滿機會的AI應用賽道。
33位中美頂尖名校中國博士組成的團隊,與這兩個行業(yè)專家合作,提煉出了真實的需求和工作流程,具體到時間分配,并且計算出每個工作環(huán)節(jié)和模塊的市場價值。
行業(yè)專家對具體的工作提出要求,通過搜索智能體輸出結果,如應聘候選人專業(yè)表現(xiàn),然后由大型語言模型進行評判,得出分數。
(對招聘智能體工作流程的打分)
基于這樣的方法,紅杉在5月份對前沿模型的最新版本的招聘和營銷智能體的能力進行了測評,推出了榜單,并且首次對外公開xBench。紅杉想以此來建立一個動態(tài)的榜單和指標體系,對模型研究者和垂直智能體的開發(fā)者開放測評結果。
具體到抽象的過程,比較能反應中國創(chuàng)業(yè)者的特點,尤其是是在進入智能體創(chuàng)業(yè)的階段,是不是還要“通用”,什么是“通用”。從MANUS等中國創(chuàng)業(yè)者最早提出通用智能體這個概念,并且引發(fā)出現(xiàn)象級的主張之后,我們可以看到,它實際上把“通用”建立在一系列創(chuàng)造經濟價值的的典型行業(yè)與場景之上,它是一個演變泛化的過程。它與硅谷創(chuàng)業(yè)者所擅長的從抽象到具體形成互補。
參考報告:
https://xbench.org/#/reports
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.