網易首頁 > 網易號 > 正文申請入駐

紅杉中國，準備這樣預測下一個AI獨角獸 | 筆記

2025-05-28 00:01:10　來源: 未盡研究

上海舉報

分享至

我們去年底發(fā)了一篇展望2025年AI的文章，其中第2條提到了AGI，認為2025年將提出更難的基準，但AGI仍然很難跨越莫拉維克悖論。

這種悖論，部分體現(xiàn)在那些前沿AI模型可以解出奧數題，卻難以完成實際工作中初級員工的任務。而智能體的實際應用，恰恰是從完成簡單的工作任務開始。

紅杉中國想跨越這個悖論，推出了xBench，測評專業(yè)領域智能體的表現(xiàn)——從完成簡單的任務開始。

（招聘和營銷兩個專業(yè)智能體的xBench測評結果）

如果說當初ChatGPT帶給人們的驚喜來自實際對話的體驗，GPT-4的發(fā)布所引發(fā)的震撼，基本上是來自其刷題的分數。

它的技術報告中，用一系列學術和專業(yè)資格試題來測試GPT-4，得分達到甚至超過了人類的平均水平；在一系列美國大學本科和研究生入學，律師資格考試等專業(yè)領域，以及有關科學和數學的通識，初步的視覺和推理能力，編程能力等方面，實現(xiàn)了對GPT-3.5的大幅度提升。

配合這個模型的發(fā)布，微軟發(fā)布了一篇論文稱，GPT-4呈現(xiàn)了早期的“火花”；而OpenAI請了幾位經濟學家，發(fā)布一篇論文，根據GPT-4在各職業(yè)崗位技能上廣泛的可替代程度，提出了（General Purpose Technologies)，即GPTs are GPTs。

論文調查了美國1016種職業(yè)，包括工作行為的具體描述，將其進一步分解為每種職業(yè)的具體任務，共計19265種。對應GPT所訓練出的基礎能力，微調出來的具體專業(yè)領域的能力，以及融合其他技術的能力，與目前所有職業(yè)技能進行對照，劃分其對GPT “暴露”的程度。

調查結果表明，大約 80% 的美國勞動力至少有 10% 的工作任務會受到 GPT 的影響，而大約 19% 的員工可能會看到至少 50% 的工作任務受到影響。這種影響涵蓋所有工資水平，高收入工作可能面臨更大的暴露風險。這個硬幣的另外一面是，AI如果能接管現(xiàn)有的許多工作技能，將會創(chuàng)造巨大的價值。

今天回頭看來，AI大模型通的通用智能，可以通過刷題獲得高分，達到大學生甚至博士的水平，可以在對話中侃侃而談，學識淵博，而在真實世界的應用中卻顯得“低能”。大模型過分依賴這類測評獲得存在感，在一定程度上會陷入了刷題與刷榜的游戲。

OpenAI o3的發(fā)布再一次，在編程、數學、科學等一系列基準測試中成為學霸中的學霸，讓測評分數都不夠用了，迅速趨于飽和。

這個評價體系的創(chuàng)始人Fran?ois Chollet 認為，o3可以解出奧數題，卻在一些非常簡單的任務上仍然會失敗，新出一道小學數學可能輕松拿捏它，“這表明它與人類智能存在根本性的差異。”

與此同時，大模型也在撞上數據墻，各種圍繞刷題和刷榜的demo，在經過了近兩年的“核彈”、“王炸”級別的不斷的炒作之后，令人產生疲勞感，人們越來越關注AI大模型的“高分低能”問題。

應該把大模型當成一個智能體，投入到實際工作中，并對其表現(xiàn)進行考評，而不是僅僅停留在教室和實驗室里測試它們的分數。已經有一些開創(chuàng)性的測評方式，如硅谷研究機構METR，對OpenAI及Anthropic大模型完成的1460項任務，根據其所用的時長、完成程度和成本進行分析，初步得出了。

紅杉中國也走過了同樣的路。2022年ChatGPT推出后，紅杉中國密切追蹤AGI的進程，每個月測評主流模型，在內部匯報和投資參考。他們在中國同樣也遇到了測試基準快速“飽和”的問題，主流模型從20-30分在18個月內提升到90-100分。

2024年10月，OpenAI推出推理模型o1之后一個月，紅杉中國大規(guī)模更新了xbench題庫，換掉了所有都得滿分的題，新增的試題主要針對Chatbot復雜問答及推理，以及簡單的模型外部工具調用能力。結果這一次題庫被大模型更快地刷爆，僅用了6個月。

2025年3月，紅杉開始第三次對xbench題庫進行升級，這一次，他們開始停下來質疑現(xiàn)有評估方式，思考兩個核心問題：

模型能力和AI實際效用之間的關系：“我們出越來越難的題目意義是什么，是否落入了慣性思維？AI落地的實際經濟價值真的和AI會做難題正相關嗎？” 舉個例子，程序員工作的Utility Value很高，但AI做起來進步非?？欤叭スさ匕岽u”這樣的工作AI卻幾乎無法完成。

不同時間維度上的能力比較：“每一次xbench換題，我們便失去了對AI能力的前后可比性追蹤，因為在新的題集下，模型版本也在迭代，我們無法比較不同時間維度上的單個模型的能力如何變化?！?這樣的測評，在判斷創(chuàng)業(yè)項目的時候，尤其是在評估AI能力這件事上，可能已經失靈。

這次紅杉中國決定從水平到垂直，進入一個個行業(yè)領域，去發(fā)現(xiàn)智能體的勞動生產率，基于AI技術與市場匹配（Technology Market Fit，TMF），甚至預測AI技術將率先在哪些領域實現(xiàn)大規(guī)模應用，從而盡早發(fā)現(xiàn)優(yōu)秀的產品和團隊。

xBench既測試AI的系統(tǒng)能力上限與技能邊界，即AGI能力，也會量化AI系統(tǒng)在真實場景中的效用值（Utility Value）。如果說前者是對齊人類的抽象思維范式和價值觀，那么后者則動態(tài)對齊現(xiàn)實世界的真實需求，基于實際工作流程和具體社會角色，為各垂直領域構建具有明確業(yè)務價值的測評標準。

xbench還采用長青評估（Evergreen Evaluation）機制，通過持續(xù)維護并動態(tài)更新測試內容，以確保時效性和相關性。xBench將定期測評市場主流智能體產品，跟蹤模型能力演進，捕捉智能體產品迭代過程中的關鍵突破，進而預測下一個智能體應用的TMF。

紅杉中國要構建 xbench 指數，服務于它的AI獨角獸捕獲機器。通過長期更新的評估追蹤并預測代理產品之間的競爭格局：“我們可以追蹤交替領先的產品，同時也希望發(fā)現(xiàn)能力在短期內迅速提升的新秀產品。”

紅杉中國稱之為AI“下半場的評估”，目前已經被證明了的賽道是AI編程，接下來，招聘和市場營銷可能是基于深度搜索技術而產生的兩個充滿機會的AI應用賽道。

33位中美頂尖名校中國博士組成的團隊，與這兩個行業(yè)專家合作，提煉出了真實的需求和工作流程，具體到時間分配，并且計算出每個工作環(huán)節(jié)和模塊的市場價值。

行業(yè)專家對具體的工作提出要求，通過搜索智能體輸出結果，如應聘候選人專業(yè)表現(xiàn)，然后由大型語言模型進行評判，得出分數。

(對招聘智能體工作流程的打分）

基于這樣的方法，紅杉在5月份對前沿模型的最新版本的招聘和營銷智能體的能力進行了測評，推出了榜單，并且首次對外公開xBench。紅杉想以此來建立一個動態(tài)的榜單和指標體系，對模型研究者和垂直智能體的開發(fā)者開放測評結果。

具體到抽象的過程，比較能反應中國創(chuàng)業(yè)者的特點，尤其是是在進入智能體創(chuàng)業(yè)的階段，是不是還要“通用”，什么是“通用”。從MANUS等中國創(chuàng)業(yè)者最早提出通用智能體這個概念，并且引發(fā)出現(xiàn)象級的主張之后，我們可以看到，它實際上把“通用”建立在一系列創(chuàng)造經濟價值的的典型行業(yè)與場景之上，它是一個演變泛化的過程。它與硅谷創(chuàng)業(yè)者所擅長的從抽象到具體形成互補。

參考報告：

https://xbench.org/#/reports

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.