網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

打破AI能力的慣性評(píng)估方式，紅杉中國(guó)推出全新雙軌基準(zhǔn)測(cè)試xbench

2025-06-13 17:32:37　來(lái)源: 甲子光年

北京舉報(bào)

分享至

一款全新的AI基準(zhǔn)測(cè)試工具。

隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進(jìn)入規(guī)?；瘧?yīng)用階段，被廣泛使用的基準(zhǔn)測(cè)試（Benchmark）卻面臨一個(gè)日益尖銳的問(wèn)題：想要真實(shí)地反映AI的客觀能力正變得越來(lái)越困難。

因此，構(gòu)建更加科學(xué)、長(zhǎng)效和如實(shí)反映AI客觀能力的評(píng)測(cè)體系，正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。

有鑒于此，紅杉中國(guó)今天正式推出一款全新的AI基準(zhǔn)測(cè)試工具xbench，并發(fā)布論文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。在評(píng)估和推動(dòng)AI系統(tǒng)提升能力上限與技術(shù)邊界的同時(shí)，xbench會(huì)重點(diǎn)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值，并采用長(zhǎng)青評(píng)估的機(jī)制，去捕捉Agent產(chǎn)品的關(guān)鍵突破。（點(diǎn)擊文末【閱讀原文】即可下載閱讀本論文，建議使用電腦端進(jìn)行下載）

摘要：

? xbench采用雙軌評(píng)估體系，構(gòu)建多維度測(cè)評(píng)數(shù)據(jù)集，旨在同時(shí)追蹤模型的理論能力上限與Agent的實(shí)際落地價(jià)值。該體系創(chuàng)新性地將評(píng)測(cè)任務(wù)分為兩條互補(bǔ)的主線：（1）評(píng)估AI系統(tǒng)的能力上限與技術(shù)邊界；（2）量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值（Utility Value）。其中，后者需要?jiǎng)討B(tài)對(duì)齊現(xiàn)實(shí)世界的應(yīng)用需求，基于實(shí)際工作流程和具體社會(huì)角色，為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價(jià)值的測(cè)評(píng)標(biāo)準(zhǔn)。

? xbench采用長(zhǎng)青評(píng)估（Evergreen Evaluation）機(jī)制，通過(guò)持續(xù)維護(hù)并動(dòng)態(tài)更新測(cè)試內(nèi)容，以確保時(shí)效性和相關(guān)性。我們將定期測(cè)評(píng)市場(chǎng)主流Agent產(chǎn)品，跟蹤模型能力演進(jìn)，捕捉Agent產(chǎn)品迭代過(guò)程中的關(guān)鍵突破，進(jìn)而預(yù)測(cè)下一個(gè)Agent應(yīng)用的技術(shù)-市場(chǎng)契合點(diǎn)（TMF，Tech-Market Fit）。作為獨(dú)立第三方，我們致力于為每類(lèi)產(chǎn)品設(shè)計(jì)公允的評(píng)估環(huán)境，提供客觀且可復(fù)現(xiàn)的評(píng)價(jià)結(jié)果。

? 首期發(fā)布包含兩個(gè)核心評(píng)估集：科學(xué)問(wèn)題解答測(cè)評(píng)集（xbench-ScienceQA）與中文互聯(lián)網(wǎng)深度搜索測(cè)評(píng)集（xbench-DeepSearch），并對(duì)該領(lǐng)域主要產(chǎn)品進(jìn)行了綜合排名。同期提出了垂直領(lǐng)域智能體的評(píng)測(cè)方法論，并構(gòu)建了面向招聘（Recruitment）和營(yíng)銷(xiāo)（Marketing）領(lǐng)域的垂類(lèi)Agent評(píng)測(cè)框架。評(píng)測(cè)結(jié)果和方法論可通過(guò)xbench.org網(wǎng)站實(shí)時(shí)查看。

? 在過(guò)去兩年多的時(shí)間里，xbench一直是紅杉中國(guó)在內(nèi)部使用的跟蹤和評(píng)估基礎(chǔ)模型能力的工具，今天我們將其公開(kāi)并貢獻(xiàn)給整個(gè)AI社區(qū)。無(wú)論你是基礎(chǔ)模型和Agent的開(kāi)發(fā)者，還是相關(guān)領(lǐng)域的專(zhuān)家和企業(yè)，或者是對(duì)AI評(píng)測(cè)具有濃厚興趣的研究者，我們都?xì)g迎你加入，成為使用并完善xbench的一份子，一起打造評(píng)估AI能力的新范式。

xbench Dual-track Leaderboard 2025.05

1.為什么現(xiàn)在需要新的Eval系統(tǒng)

2022年ChatGPT推出后，紅杉中國(guó)開(kāi)始對(duì)AGI進(jìn)程和主流模型實(shí)行每個(gè)月的評(píng)測(cè)與內(nèi)部匯報(bào)。

2023年3月，我們開(kāi)始建設(shè)xbench的第一批私有題庫(kù)，題目類(lèi)型主要針對(duì)Chatbot簡(jiǎn)單問(wèn)答及邏輯思考，如：

“香蕉的平方根是多少？”
“小明立志成為最成功的投資人，經(jīng)過(guò)一番努力，最終他成功了。請(qǐng)問(wèn)用什么諺語(yǔ)描述這個(gè)情況比較適合？”

我們見(jiàn)證了主流模型從20-30分，在18個(gè)月內(nèi)，提升到90-100分。2024年10月，我們第二次比較大規(guī)模地更新了xbench題庫(kù)，換掉了所有模型都得滿分的題，新題主要針對(duì)Chatbot復(fù)雜問(wèn)答及推理，以及簡(jiǎn)單的模型外部工具調(diào)用能力（tool use），如：

“設(shè)f(x)是一個(gè)奇函數(shù)，而g(x)是一個(gè)偶函數(shù)。那么，f(f(g(f(g(f(x))))))是奇函數(shù)、偶函數(shù)還是都不是？”
“Q：將/nt目錄下所有符合‘result_*.txt’格式的文件，按*數(shù)字從小到大的順序，合并到一個(gè)文件中。并且命名為‘results_total.txt’?！?br/>

我們?cè)俅我?jiàn)證了主流模型的進(jìn)步，這一次的速度更快，主流模型在6個(gè)月內(nèi)“刷爆”了我們的第二期題庫(kù)。

評(píng)估的有效時(shí)間在急劇縮短，圖源：姚順雨個(gè)人博客

2025年3月，我們開(kāi)始第三次對(duì)xbench題庫(kù)進(jìn)行升級(jí)，但這一次，我們開(kāi)始停下來(lái)質(zhì)疑現(xiàn)有評(píng)估方式，思考兩個(gè)核心問(wèn)題：

1/ 模型能力和AI實(shí)際效用之間的關(guān)系：我們出越來(lái)越難的題目意義是什么，是否落入了慣性思維？AI落地的實(shí)際經(jīng)濟(jì)價(jià)值真的和AI會(huì)做難題正相關(guān)嗎？舉個(gè)例子，程序員工作的Utility Value很高，但AI做起來(lái)進(jìn)步非?？欤叭スさ匕岽u”這樣的工作AI卻幾乎無(wú)法完成。

2/ 不同時(shí)間維度上的能力比較：每一次xbench換題，我們便失去了對(duì)AI能力的前后可比性追蹤，因?yàn)樵谛碌念}集下，模型版本也在迭代，我們無(wú)法比較不同時(shí)間維度上的單個(gè)模型的能力如何變化。在判斷創(chuàng)業(yè)項(xiàng)目的時(shí)候，我們喜歡看創(chuàng)業(yè)者的“成長(zhǎng)斜率”，但在評(píng)估AI能力這件事上，我們卻因?yàn)轭}庫(kù)的不斷更新而無(wú)法有效判斷。

接下來(lái)我們應(yīng)該怎么做評(píng)估？

為了應(yīng)對(duì)上述兩個(gè)核心問(wèn)題，我們迫切需要構(gòu)建新的評(píng)估平臺(tái)，并重點(diǎn)面向：

■ 打破慣性思維，為現(xiàn)實(shí)世界的實(shí)用性開(kāi)發(fā)新穎的任務(wù)設(shè)置和評(píng)估方式

以“Search”能力為例，AI能力評(píng)估集的進(jìn)化路徑可能是：

Single-turn QA→Search→Deep Search（Multi-step Reasoning）→Deeper Search（Multi-hop or Chained Reasoning）

如果我們跳脫出“研究視角”慣性，轉(zhuǎn)向“市場(chǎng)與業(yè)務(wù)視角”，任務(wù)和環(huán)境的多樣性會(huì)爆炸式增長(zhǎng)，Search類(lèi)的題就會(huì)變成：

→Marketing→KOL Search→ “一家智能投影儀品牌計(jì)劃在中東市場(chǎng)進(jìn)行內(nèi)容投放，目標(biāo)人群為35歲以下、有獨(dú)立居住空間的科技早期用戶，主要通過(guò)生活方式類(lèi)博主觸達(dá)。AI Agent需完成：①在中英文多平臺(tái)上識(shí)別優(yōu)質(zhì)創(chuàng)作者，判斷其內(nèi)容調(diào)性是否貼近‘居家?jiàn)蕵?lè)+智能家居’；②預(yù)測(cè)不同地區(qū)（如迪拜與利雅得）的CTR差異；③輔助完成組合推薦。”→$6,000（人工完成該任務(wù)需3名中東本地營(yíng)銷(xiāo)人員，約耗時(shí)1周，總成本約$6,000（$2,000/人/周））
→Recruiting→People Search→ “一家頭部VC支持的多模態(tài)大模型初創(chuàng)公司，正在尋找一位具備高質(zhì)量開(kāi)源項(xiàng)目經(jīng)驗(yàn)、熟悉transformer架構(gòu)、曾在FAIR或DeepMind實(shí)習(xí)/合作過(guò)’的AI工程負(fù)責(zé)人。目標(biāo)候選人不一定在招聘平臺(tái)上活躍，大部分信息分布在GitHub、arXiv、X、海外社區(qū)論壇中。AI Agent需完成：①跨平臺(tái)搜索與聚合；②候選人背景重建（教育、項(xiàng)目、實(shí)習(xí)）；③對(duì)技術(shù)契合度自動(dòng)評(píng)分；④生成Cold outreach策略郵件草稿?！薄?,000（人工完成該任務(wù)，通常需1名高級(jí)獵頭+1名技術(shù)研究員，耗時(shí)約1周，人力總成本約￥9,000）

下半場(chǎng)的評(píng)估，不僅需要越來(lái)越難的AI Search能力的考察基準(zhǔn)（AI Capabilities Evals），也需要一套對(duì)齊現(xiàn)實(shí)世界專(zhuān)家的實(shí)用性任務(wù)體系（Utility Tasks）。前者考察的是能力邊界，呈現(xiàn)是Score，而后者考察的是實(shí)用性任務(wù)和環(huán)境多樣性、商業(yè)KPIs（Conversion Rate、Closing Rate）和直接的經(jīng)濟(jì)產(chǎn)出。

我們引入Profession Aligned的基準(zhǔn)概念，我們認(rèn)為接下來(lái)的評(píng)估會(huì)分為AGI tracking與Profession Aligned，AI將面臨更多復(fù)雜環(huán)境下效用的考察，從業(yè)務(wù)中收集的動(dòng)態(tài)題集，而不單是更難的智力題。

■ 建立長(zhǎng)青評(píng)估體系

靜態(tài)評(píng)估集一旦面世，會(huì)出現(xiàn)題目泄露導(dǎo)致過(guò)擬合然后迅速失效的問(wèn)題。我們將維護(hù)一個(gè)動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集來(lái)緩解這一現(xiàn)象。

針對(duì)AI Capacity Evals：學(xué)術(shù)界提出了很多出色的方法論，但是受限于資源與時(shí)間不充分，無(wú)法維護(hù)成動(dòng)態(tài)擴(kuò)充的持續(xù)評(píng)估。我們希望能延續(xù)一系列公開(kāi)評(píng)估集的方法，并提供第三方、黑白盒、Live的評(píng)測(cè)。

針對(duì)Profession Aligned Evals：我們希望建立從真實(shí)業(yè)務(wù)中Live收集機(jī)制，邀請(qǐng)各行業(yè)的職業(yè)專(zhuān)家與我們共同構(gòu)建和維護(hù)行業(yè)的動(dòng)態(tài)評(píng)估集。

同時(shí)，在動(dòng)態(tài)更新的基礎(chǔ)上，我們?cè)O(shè)計(jì)可橫向?qū)Ρ鹊哪芰χ笜?biāo)，用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào)，幫助我們判斷某個(gè)模型是否達(dá)到市場(chǎng)可落地閾值，以及在什么時(shí)間點(diǎn)上，Agent可以接管已有的業(yè)務(wù)流程，提供規(guī)模化服務(wù)。

2.面向真實(shí)世界的動(dòng)態(tài)評(píng)估，Live Evaluations for Agent

Agent評(píng)測(cè)的雙軌路徑

我們推出xbench雙軌系列評(píng)估集，分為xbench-AGI Tracking與xbench-Profession Aligned。我們將AGI Tracking評(píng)測(cè)視為Agent應(yīng)用落地的基礎(chǔ)臺(tái)階，而Profession Centric評(píng)測(cè)則是對(duì)接真實(shí)生產(chǎn)場(chǎng)景的高階實(shí)踐。

AGI track評(píng)測(cè)旨在驗(yàn)證模型在特定能力維度上是否從0到1具備了智能表現(xiàn)，這類(lèi)評(píng)測(cè)的關(guān)鍵是要足夠難和巧妙、足夠有區(qū)分度，來(lái)挖掘“智能”而非“系統(tǒng)”的邊界。只有當(dāng)某個(gè)AI關(guān)鍵能力在AGI Tracking中實(shí)現(xiàn)從0到1的突破，才可能進(jìn)一步解鎖更多專(zhuān)業(yè)工作流程，進(jìn)入Profession Aligned評(píng)測(cè)的范疇。

Profession Aligned評(píng)測(cè)則聚焦于現(xiàn)實(shí)生產(chǎn)場(chǎng)景，是把Agent當(dāng)成一個(gè)數(shù)字員工放在具體業(yè)務(wù)流程里來(lái)進(jìn)行考察。其評(píng)估核心并非智能存在與否，而是在真實(shí)場(chǎng)景下的交付結(jié)果和商業(yè)價(jià)值。Profession Aligned可以有很多類(lèi)型應(yīng)用來(lái)解決，評(píng)估不會(huì)限定解決方案，只會(huì)考核結(jié)果。另外，Profession Aligned評(píng)估從對(duì)生產(chǎn)力的需求出發(fā)，是定義垂類(lèi)應(yīng)用/尋找垂類(lèi)AI解決方案，即使這個(gè)場(chǎng)景應(yīng)用還沒(méi)有做出來(lái)。

以營(yíng)銷(xiāo)和人力資源場(chǎng)景為例，我們通過(guò)對(duì)xbench AGI track中xbench-DeepSearch評(píng)測(cè)指標(biāo)追蹤，認(rèn)為AI search這一關(guān)鍵模型能力正在快速成熟，尋找簡(jiǎn)歷、分析候選人匹配度，在各大平臺(tái)上尋找KOL、分析KOL與需求的匹配度，都是潛在AI能實(shí)現(xiàn)的工作流。于是我們開(kāi)始構(gòu)建
xbench-Profession-Recruitment及xbench-Profession-Marketing希望對(duì)齊Agent業(yè)務(wù)落地價(jià)值，預(yù)測(cè)TMF的時(shí)間點(diǎn)。

在AI Search之外，隨著AI關(guān)鍵能力可預(yù)見(jiàn)的拓展至多模態(tài)理解和生成，營(yíng)銷(xiāo)素材的生產(chǎn)和投放會(huì)被納入可能達(dá)到TMF的環(huán)節(jié)-進(jìn)入Profession Aligned評(píng)估的測(cè)試范圍內(nèi)。同樣，應(yīng)用于recruiting時(shí)，senior recruiter的工作流不局限于people search、people evaluation，更難的在于對(duì)候選人長(zhǎng)期維護(hù)和溝通甚至是薪酬談判和達(dá)成交易環(huán)節(jié)——這里AI具備長(zhǎng)期記憶、競(jìng)爭(zhēng)和決策博弈等核心職能，也是下一個(gè)階段關(guān)鍵智能的突破方向，我們會(huì)持續(xù)監(jiān)測(cè)關(guān)鍵能力突破并增加Profession-Aligned測(cè)評(píng)的豐富度。

以AI關(guān)鍵能力為中心的評(píng)估（AGI Tracking）

2023-2024年大模型在知識(shí)、多模態(tài)、記憶、指令遵循與推理能力上取得顯著突破，這些突破的積累造成了Agent應(yīng)用能力的爆發(fā)——但仍然在長(zhǎng)期記憶、可信度、問(wèn)題發(fā)現(xiàn)、多智能體協(xié)作與博弈能力等上存在短板。我們希望抓住AI尚未充分解決的核心能力，構(gòu)建并持續(xù)維護(hù)對(duì)應(yīng)的評(píng)估集。

我們相信針對(duì)這些關(guān)鍵能力，學(xué)術(shù)界提出了很多出色的方法論，但是受限于資源與時(shí)間不充分，無(wú)法維護(hù)成持續(xù)評(píng)測(cè)、動(dòng)態(tài)擴(kuò)充的評(píng)估。我們希望能延續(xù)一系列公開(kāi)評(píng)估集的方法，并提供第三方、黑白盒、Live的評(píng)測(cè)。

我們把Agent能力拆分成基礎(chǔ)智能、專(zhuān)業(yè)實(shí)踐能力、創(chuàng)新能力與組織能力，每個(gè)層級(jí)中我們會(huì)拆分出構(gòu)成實(shí)現(xiàn)AGI的關(guān)鍵要素。AI的發(fā)展不一定是從基礎(chǔ)到高階的順序進(jìn)行，我們可以預(yù)見(jiàn)的是，在AI獲取了組織能力后依然存在基礎(chǔ)可信度的問(wèn)題。

這一次我們發(fā)布的xbench-ScienceQA與xbench-DeepSearch評(píng)估屬于Knowledge與Tool Use的子類(lèi)別，測(cè)試Agent在這兩項(xiàng)主能力分類(lèi)下的子任務(wù)能力。后續(xù)我們會(huì)圍繞這些關(guān)鍵問(wèn)題持續(xù)發(fā)布新的評(píng)估，并追蹤市面產(chǎn)品的表現(xiàn)。

■ xbench-ScienceQA: 考察基礎(chǔ)智能-知識(shí)

該評(píng)測(cè)集用于測(cè)試研究生水平的學(xué)科知識(shí)和推理能力。我們收集可靠、多領(lǐng)域、高等教育難度、搜索引擎上缺少的、答案明確的高質(zhì)量題目數(shù)據(jù)。已有的相關(guān)評(píng)估集如GPQA、SuperGPQA等獲得了很大認(rèn)可與關(guān)注，但他們均為一次性發(fā)布，缺少定期更新的機(jī)制。無(wú)法有效檢查評(píng)估集泄露的程度。

我們希望建設(shè)出一個(gè)按照季度更新的ScienceQA題目數(shù)據(jù)，并每月持續(xù)匯報(bào)最新模型的能力表現(xiàn)，每季度更新一次。我們邀請(qǐng)來(lái)自頂級(jí)院校的博士研究生以及資深行業(yè)專(zhuān)家出題，并采用LLM難度檢驗(yàn)、搜索引擎檢驗(yàn)、同行檢驗(yàn)等方式確保題目的公正性、區(qū)分度與正確性。

■ xbench-DeepSearch ：考察專(zhuān)業(yè)生產(chǎn)力-工具使用

自主規(guī)劃（Planning）→信息收集（Search）→推理分析（Reasoning）→總結(jié)歸納（Summarization）的深度搜索能力是AI Agents通向AGI的核心能力之一，也給評(píng)估帶來(lái)了更難的挑戰(zhàn)?；诤?jiǎn)單事實(shí)的評(píng)估集如SimpleQA、Chinese SimpleQA能夠評(píng)估信息收集能力，但缺乏對(duì)自主規(guī)劃和推理分析能力的考察；基于前沿科學(xué)的評(píng)估集如HLE、AIME擅長(zhǎng)考察模型的推理分析能力，但弱于自主規(guī)劃和信息收集能力的度量。為了更好的考察Agents的深度搜索能力，我們推出并開(kāi)源了xbench-DeepSearch評(píng)測(cè)集，具備以下特點(diǎn)：

? 適應(yīng)中文互聯(lián)網(wǎng)環(huán)境，降低搜索信息源對(duì)結(jié)果的影響；

? 難度高，要求Agent具備規(guī)劃+搜索+推理+總結(jié)的端到端綜合能力；

? 所有題目經(jīng)由人工出題并交叉驗(yàn)證，保證題目的新穎性，答案的正確性和唯一性，方便自動(dòng)化評(píng)測(cè)；

? 持續(xù)更新，每月持續(xù)匯報(bào)最新模型的能力表現(xiàn)，每季度更新一次評(píng)估集。

我們認(rèn)為2025年我們會(huì)見(jiàn)證AI更多在基礎(chǔ)智能與專(zhuān)業(yè)生產(chǎn)力上的進(jìn)展，今年我們的后續(xù)評(píng)估中會(huì)關(guān)注：

1. 具有思維鏈的多模態(tài)模型能否生成商用水平視頻？（多模態(tài)，推理，工具使用）

2. MCP工具大面積使用是否具有可信度問(wèn)題？（工具使用，可信度）

3. GUI Agents能否有效使用動(dòng)態(tài)更新/未訓(xùn)練的應(yīng)用？（工具使用，測(cè)試時(shí)學(xué)習(xí)）

以專(zhuān)業(yè)工作為中心的評(píng)估（Profession Aligned）

追求與真實(shí)世界任務(wù)對(duì)齊是目前AI評(píng)估的核心訴求，這里我們提出以專(zhuān)業(yè)工作為中心的構(gòu)建方法。

已有的真實(shí)世界評(píng)估通常是以AI能力為中心，去廣泛地覆蓋不同場(chǎng)景與領(lǐng)域，這對(duì)于指導(dǎo)通用模型的迭代非常有價(jià)值。然而Agent應(yīng)用通常需要解決垂類(lèi)場(chǎng)景任務(wù)，并針對(duì)垂類(lèi)需求進(jìn)行定制設(shè)計(jì)，此時(shí)通用評(píng)估結(jié)果的參考價(jià)值下降。

我們看到在Coding、客服與醫(yī)療領(lǐng)域出現(xiàn)高質(zhì)量的評(píng)估，并帶動(dòng)了對(duì)應(yīng)專(zhuān)業(yè)Agent能力的快速演進(jìn)與產(chǎn)品化。專(zhuān)業(yè)中心的評(píng)估會(huì)快速在更多領(lǐng)域延展開(kāi)，其占主流AI評(píng)估的比重也會(huì)快速提升。

面向?qū)I(yè)工作的評(píng)估是希望從特定職業(yè)專(zhuān)家出發(fā)，分析它自身的工作流與思維模式，構(gòu)建出與專(zhuān)家行為對(duì)齊的任務(wù)、執(zhí)行環(huán)境與驗(yàn)證方式，流程如下圖所示：

xbench Profession Aligned的構(gòu)建遵循如下三條核心原則：

? 評(píng)估由需求定義：針對(duì)一個(gè)職業(yè)構(gòu)建評(píng)估集，優(yōu)先梳理其業(yè)務(wù)流程與任務(wù)分類(lèi)，聚焦于可評(píng)估的任務(wù)項(xiàng)。對(duì)于部分暫不可評(píng)估的任務(wù)，通過(guò)模擬方式轉(zhuǎn)化為可評(píng)估形式。

? 評(píng)估任務(wù)隨時(shí)間逐漸產(chǎn)生的從專(zhuān)家業(yè)務(wù)中Live收集：任務(wù)并非“出題”生成，而是在專(zhuān)家日常業(yè)務(wù)中逐步積累與收集。對(duì)于動(dòng)態(tài)變化的任務(wù)，我們持續(xù)從真實(shí)業(yè)務(wù)流中獲取與市場(chǎng)最貼近的評(píng)估內(nèi)容。

? 領(lǐng)域價(jià)值驅(qū)動(dòng)評(píng)估目標(biāo)：每項(xiàng)任務(wù)標(biāo)注專(zhuān)家完成所需時(shí)間，并結(jié)合薪資基準(zhǔn)估算任務(wù)的經(jīng)濟(jì)價(jià)值。每個(gè)任務(wù)預(yù)設(shè)TMF目標(biāo)，一旦Agent達(dá)標(biāo)則停止更新，Profession-Aligned的評(píng)估難度追求實(shí)際匹配，而不是持續(xù)變難。

這里我們以招聘專(zhuān)家為例，設(shè)計(jì)
xbench-Profession-Recruitment。

我們通過(guò)與多家頭部獵頭企業(yè)合作，梳理專(zhuān)家每周工作在不同任務(wù)上的時(shí)間分配。并讓專(zhuān)家對(duì)這些任務(wù)的重要性進(jìn)行評(píng)估，篩選出領(lǐng)域工作的拆分圖譜。

下面是一個(gè)結(jié)構(gòu)化的工作任務(wù)拆解和經(jīng)濟(jì)價(jià)值的對(duì)齊，以及對(duì)任務(wù)在現(xiàn)階段可實(shí)現(xiàn)性和可評(píng)測(cè)性的梳理：

在每個(gè)單項(xiàng)任務(wù)中，我們從現(xiàn)有技術(shù)角度分析其可測(cè)性與可行性。第一期
xbench-Profession-Recruitment收錄了JD需求拆解、人才畫(huà)像定位、候選人經(jīng)歷補(bǔ)全、人物關(guān)系理解、公開(kāi)人才搜索等幾類(lèi)任務(wù)。

我們與專(zhuān)業(yè)獵頭公司，以及具有充分歷史業(yè)務(wù)數(shù)據(jù)積累的營(yíng)銷(xiāo)企業(yè)分別共建了
xbench-Profession-Recruitment與xbench-Profession-Marketing這兩個(gè)評(píng)估任務(wù)。你可以點(diǎn)擊文末【閱讀原文】，在論文中看到更多結(jié)果。

我們會(huì)以實(shí)際生產(chǎn)力需求為出發(fā)點(diǎn)，通過(guò)上述方法論，聯(lián)合行業(yè)專(zhuān)家拆解專(zhuān)業(yè)工作流程形成任務(wù)，定義客觀、可復(fù)現(xiàn)的評(píng)價(jià)指標(biāo)，逐個(gè)構(gòu)建Profession Aligned的評(píng)估集，先于垂類(lèi)應(yīng)用定義出能力目標(biāo)，用eval指導(dǎo)profession agent的落地。預(yù)計(jì)將陸續(xù)拓展至金融（Finance）、法律（Law）、銷(xiāo)售（Sales）等高價(jià)值專(zhuān)業(yè)領(lǐng)域的評(píng)估任務(wù)體系構(gòu)建。我們歡迎來(lái)自相關(guān)領(lǐng)域的專(zhuān)家學(xué)者、產(chǎn)業(yè)企業(yè)、研究機(jī)構(gòu)參與共建，共同推進(jìn)Profession-Aligned Eval的發(fā)展。

3.長(zhǎng)青評(píng)估（Evergreen Eval）

評(píng)估有生命周期的任務(wù)與產(chǎn)品

靜態(tài)評(píng)估集會(huì)出現(xiàn)題目泄露的問(wèn)題。如LiveBench與LiveCodeBench評(píng)估的出現(xiàn)，利用動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集，緩解了題目泄露的問(wèn)題，然而，在Agent應(yīng)用的評(píng)估任務(wù)中仍有新挑戰(zhàn)。

首先，Agent應(yīng)用的產(chǎn)品版本是具有生命周期的。Agent產(chǎn)品的迭代速度很快，會(huì)不斷集成與開(kāi)發(fā)新功能，而舊版本Agent可能會(huì)被下線。我們雖然可以在同一時(shí)間測(cè)試同類(lèi)Agent不同產(chǎn)品的能力，但是不能比較不同時(shí)間的產(chǎn)品能力進(jìn)步。

同時(shí)，Agent接觸的外部環(huán)境也是動(dòng)態(tài)變化的。即使是相同的題目，如果解題需要使用互聯(lián)網(wǎng)應(yīng)用等內(nèi)容快速更新的工具，在不同時(shí)間測(cè)試效果不同。

上述表格展示了針對(duì)Agent的Live評(píng)測(cè)可獲取的結(jié)果。利用該結(jié)果可以得到同期不同產(chǎn)品的排名，但是由于評(píng)估環(huán)境與任務(wù)的調(diào)整，不同期評(píng)測(cè)之間的能力增長(zhǎng)是沒(méi)有捕捉到的。因此我們希望解決如下問(wèn)題：

評(píng)估集與模型不斷迭代情況下，設(shè)計(jì)指標(biāo)追蹤Agent能力的持續(xù)增長(zhǎng)。

統(tǒng)計(jì)上，我們可以針對(duì)殘缺得分矩陣估計(jì)每個(gè)Agent版本的能力主成分。我們采用項(xiàng)目反應(yīng)理論（Item Response Theory, IRT）完成對(duì)Agent Capability的估計(jì)。IRT理論把被測(cè)對(duì)象能力

，題目難度

以及題目區(qū)分度

按照如下模型建模，被測(cè)對(duì)象在測(cè)試題目上的得分為：

這個(gè)公式滿足題目得分概率

是[0,1]之間的取值，更大的難度系數(shù)

會(huì)降低得分概率，而強(qiáng)的能力系數(shù)

則會(huì)提升得分概率。對(duì)于區(qū)分度

更大的題目，通常伴隨能力

增長(zhǎng)更加平緩，意味題目能區(qū)分更廣泛能力的評(píng)測(cè)對(duì)象。

我們使用OpenCompass動(dòng)態(tài)更新的評(píng)估結(jié)果來(lái)驗(yàn)證IRT方法（
https://rank.opencompass.org.cn/leaderboard-llm/?m=25-01）。該榜單從2024年2月開(kāi)始，每隔1-3個(gè)月更新一次題庫(kù)并發(fā)布評(píng)估結(jié)果，下面左圖展示了不同模型在評(píng)估時(shí)間評(píng)測(cè)的得分，相同系列模型被同一顏色的線進(jìn)行連接。雖然榜單結(jié)果很好顯示了每次評(píng)估時(shí)模型能力排序，但因?yàn)轭}目更新，不同時(shí)間模型得分時(shí)不具有可對(duì)比性。

而利用IRT估計(jì)的能力得分，則可以很好地體現(xiàn)模型能力持續(xù)增長(zhǎng)的趨勢(shì)。我們可以觀察到2024年10月之后Google Gemini模型能力的快速跟進(jìn)，以及Deepseek v2與r1發(fā)布所帶來(lái)的兩次明顯提升。

在后續(xù)的Agent評(píng)估中，我們會(huì)持續(xù)匯報(bào)Agent評(píng)估集不同產(chǎn)品的IRT能力得分，用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào)。

評(píng)估Agent的技術(shù)市場(chǎng)匹配（Tech-Market Fit）

成本也是Agent應(yīng)用落地的決定性因素之一。

Inference Scaling讓模型與Agent可以通過(guò)投入更多推理算力來(lái)取得更好的效果。這種投入既可以來(lái)自于強(qiáng)化學(xué)習(xí)帶來(lái)的更長(zhǎng)思維鏈，也可以是在思維鏈的基礎(chǔ)上引入更多次數(shù)的推理與匯總進(jìn)一步提升效果。

然而我們?cè)诂F(xiàn)實(shí)任務(wù)中需要考慮Inference Scaling帶來(lái)的投入產(chǎn)出比，找到在花費(fèi)、延遲與效果上的平衡。類(lèi)似于ARC-AGI，我們會(huì)追求為每個(gè)評(píng)估集匯報(bào)在效果-成本圖上的需求曲線、人類(lèi)能力曲線以及現(xiàn)有產(chǎn)品的最優(yōu)供給曲線。

在Benchmark的得分-成本圖上，我們可以劃分出左上區(qū)域的市場(chǎng)接受區(qū)與右下的技術(shù)可行區(qū)。人力成本應(yīng)當(dāng)是市場(chǎng)接受區(qū)邊緣的一部分。左圖展示了技術(shù)尚未落地的狀態(tài)，而中間圖展示了TMF后的狀態(tài)，而其中交叉部分是AI帶來(lái)的增量?jī)r(jià)值。對(duì)于具有TMF的AI場(chǎng)景，人力資源應(yīng)當(dāng)更多投入在領(lǐng)域的前沿以及不可評(píng)估的任務(wù)，并且市場(chǎng)會(huì)因?yàn)槿肆Y源與AI算力的稀缺性不同重新給人類(lèi)貢獻(xiàn)的價(jià)值定價(jià)。

我們認(rèn)為每個(gè)專(zhuān)業(yè)領(lǐng)域會(huì)經(jīng)歷3個(gè)階段：

1. 未達(dá)成TMF：技術(shù)可信與市場(chǎng)接受區(qū)域沒(méi)有交集，此時(shí)Agent應(yīng)用僅是工具或概念，無(wú)法交付結(jié)果或規(guī)?；a(chǎn)生價(jià)值；Agent對(duì)人的影響較小。

2. Agent與Human共同工作：技術(shù)可信與市場(chǎng)接受區(qū)域發(fā)生交集，交叉區(qū)域是AI帶來(lái)的價(jià)值增量，包括（1）以低于最低人類(lèi)成本提供可行服務(wù)，（2）幫助提升應(yīng)對(duì)重復(fù)性、質(zhì)量要求中等的工作內(nèi)容。而高水準(zhǔn)的工作內(nèi)容，由于數(shù)據(jù)稀缺、難度更高、依然需要人來(lái)執(zhí)行，此時(shí)由于稀缺性，企業(yè)獲取的AI Profit可能會(huì)被用于支付高端工作產(chǎn)出。

3. 專(zhuān)業(yè)化Agent：領(lǐng)域?qū)＜以跇?gòu)建評(píng)估體系，并指引Agent迭代。專(zhuān)家的工作從交付結(jié)果轉(zhuǎn)向構(gòu)建專(zhuān)業(yè)評(píng)估訓(xùn)練垂類(lèi)Agents，并提供規(guī)?；?wù)。

其中從1.向2.的轉(zhuǎn)變是由AI技術(shù)突破、算力與數(shù)據(jù)的Scaling帶來(lái)的，而2.轉(zhuǎn)向3.的進(jìn)展依賴于熟悉垂類(lèi)需求、標(biāo)準(zhǔn)、歷史經(jīng)驗(yàn)的專(zhuān)家。

此外，在部分領(lǐng)域中，AI可能帶來(lái)新的滿足需求的方式，改變已有的業(yè)務(wù)流程和生產(chǎn)關(guān)系組成方式。

AI可能會(huì)帶來(lái)價(jià)值轉(zhuǎn)移、改變?nèi)肆π枨蟮慕Y(jié)構(gòu)，我們相信社會(huì)會(huì)因?yàn)楦咝У纳a(chǎn)效率與商業(yè)模式增加人類(lèi)的總體福利。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.