一款全新的AI基準(zhǔn)測(cè)試工具。
隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進(jìn)入規(guī)?;瘧?yīng)用階段,被廣泛使用的基準(zhǔn)測(cè)試(Benchmark)卻面臨一個(gè)日益尖銳的問(wèn)題:想要真實(shí)地反映AI的客觀能力正變得越來(lái)越困難。
因此,構(gòu)建更加科學(xué)、長(zhǎng)效和如實(shí)反映AI客觀能力的評(píng)測(cè)體系,正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。
有鑒于此,紅杉中國(guó)今天正式推出一款全新的AI基準(zhǔn)測(cè)試工具xbench,并發(fā)布論文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。在評(píng)估和推動(dòng)AI系統(tǒng)提升能力上限與技術(shù)邊界的同時(shí),xbench會(huì)重點(diǎn)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值,并采用長(zhǎng)青評(píng)估的機(jī)制,去捕捉Agent產(chǎn)品的關(guān)鍵突破。(點(diǎn)擊文末【閱讀原文】即可下載閱讀本論文,建議使用電腦端進(jìn)行下載)
摘要:
? xbench采用雙軌評(píng)估體系,構(gòu)建多維度測(cè)評(píng)數(shù)據(jù)集,旨在同時(shí)追蹤模型的理論能力上限與Agent的實(shí)際落地價(jià)值。該體系創(chuàng)新性地將評(píng)測(cè)任務(wù)分為兩條互補(bǔ)的主線:(1)評(píng)估AI系統(tǒng)的能力上限與技術(shù)邊界;(2)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值(Utility Value)。其中,后者需要?jiǎng)討B(tài)對(duì)齊現(xiàn)實(shí)世界的應(yīng)用需求,基于實(shí)際工作流程和具體社會(huì)角色,為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價(jià)值的測(cè)評(píng)標(biāo)準(zhǔn)。
? xbench采用長(zhǎng)青評(píng)估(Evergreen Evaluation)機(jī)制,通過(guò)持續(xù)維護(hù)并動(dòng)態(tài)更新測(cè)試內(nèi)容,以確保時(shí)效性和相關(guān)性。我們將定期測(cè)評(píng)市場(chǎng)主流Agent產(chǎn)品,跟蹤模型能力演進(jìn),捕捉Agent產(chǎn)品迭代過(guò)程中的關(guān)鍵突破,進(jìn)而預(yù)測(cè)下一個(gè)Agent應(yīng)用的技術(shù)-市場(chǎng)契合點(diǎn)(TMF,Tech-Market Fit)。作為獨(dú)立第三方,我們致力于為每類(lèi)產(chǎn)品設(shè)計(jì)公允的評(píng)估環(huán)境,提供客觀且可復(fù)現(xiàn)的評(píng)價(jià)結(jié)果。
? 首期發(fā)布包含兩個(gè)核心評(píng)估集:科學(xué)問(wèn)題解答測(cè)評(píng)集(xbench-ScienceQA)與中文互聯(lián)網(wǎng)深度搜索測(cè)評(píng)集(xbench-DeepSearch),并對(duì)該領(lǐng)域主要產(chǎn)品進(jìn)行了綜合排名。同期提出了垂直領(lǐng)域智能體的評(píng)測(cè)方法論,并構(gòu)建了面向招聘(Recruitment)和營(yíng)銷(xiāo)(Marketing)領(lǐng)域的垂類(lèi)Agent評(píng)測(cè)框架。評(píng)測(cè)結(jié)果和方法論可通過(guò)xbench.org網(wǎng)站實(shí)時(shí)查看。
? 在過(guò)去兩年多的時(shí)間里,xbench一直是紅杉中國(guó)在內(nèi)部使用的跟蹤和評(píng)估基礎(chǔ)模型能力的工具,今天我們將其公開(kāi)并貢獻(xiàn)給整個(gè)AI社區(qū)。無(wú)論你是基礎(chǔ)模型和Agent的開(kāi)發(fā)者, 還是相關(guān)領(lǐng)域的專(zhuān)家和企業(yè),或者是對(duì)AI評(píng)測(cè)具有濃厚興趣的研究者,我們都?xì)g迎你加入,成為使用并完善xbench的一份子,一起打造評(píng)估AI能力的新范式。
xbench Dual-track Leaderboard 2025.05
1.為什么現(xiàn)在需要新的Eval系統(tǒng)
2022年ChatGPT推出后,紅杉中國(guó)開(kāi)始對(duì)AGI進(jìn)程和主流模型實(shí)行每個(gè)月的評(píng)測(cè)與內(nèi)部匯報(bào)。
2023年3月,我們開(kāi)始建設(shè)xbench的第一批私有題庫(kù),題目類(lèi)型主要針對(duì)Chatbot簡(jiǎn)單問(wèn)答及邏輯思考,如:
“香蕉的平方根是多少?”
“小明立志成為最成功的投資人,經(jīng)過(guò)一番努力,最終他成功了。請(qǐng)問(wèn)用什么諺語(yǔ)描述這個(gè)情況比較適合?”
我們見(jiàn)證了主流模型從20-30分,在18個(gè)月內(nèi),提升到90-100分。2024年10月,我們第二次比較大規(guī)模地更新了xbench題庫(kù),換掉了所有模型都得滿分的題,新題主要針對(duì)Chatbot復(fù)雜問(wèn)答及推理,以及簡(jiǎn)單的模型外部工具調(diào)用能力(tool use),如:
“設(shè)f(x)是一個(gè)奇函數(shù),而g(x)是一個(gè)偶函數(shù)。那么,f(f(g(f(g(f(x))))))是奇函數(shù)、偶函數(shù)還是都不是?”
“Q:將/nt目錄下所有符合‘result_*.txt’格式的文件,按*數(shù)字從小到大的順序,合并到一個(gè)文件中。并且命名為‘results_total.txt’?!?br/>
我們?cè)俅我?jiàn)證了主流模型的進(jìn)步,這一次的速度更快,主流模型在6個(gè)月內(nèi)“刷爆”了我們的第二期題庫(kù)。
評(píng)估的有效時(shí)間在急劇縮短,圖源:姚順雨個(gè)人博客
2025年3月,我們開(kāi)始第三次對(duì)xbench題庫(kù)進(jìn)行升級(jí),但這一次,我們開(kāi)始停下來(lái)質(zhì)疑現(xiàn)有評(píng)估方式,思考兩個(gè)核心問(wèn)題:
1/ 模型能力和AI實(shí)際效用之間的關(guān)系:我們出越來(lái)越難的題目意義是什么,是否落入了慣性思維?AI落地的實(shí)際經(jīng)濟(jì)價(jià)值真的和AI會(huì)做難題正相關(guān)嗎?舉個(gè)例子,程序員工作的Utility Value很高,但AI做起來(lái)進(jìn)步非??欤叭スさ匕岽u”這樣的工作AI卻幾乎無(wú)法完成。
2/ 不同時(shí)間維度上的能力比較:每一次xbench換題,我們便失去了對(duì)AI能力的前后可比性追蹤,因?yàn)樵谛碌念}集下,模型版本也在迭代,我們無(wú)法比較不同時(shí)間維度上的單個(gè)模型的能力如何變化。在判斷創(chuàng)業(yè)項(xiàng)目的時(shí)候,我們喜歡看創(chuàng)業(yè)者的“成長(zhǎng)斜率”,但在評(píng)估AI能力這件事上,我們卻因?yàn)轭}庫(kù)的不斷更新而無(wú)法有效判斷。
接下來(lái)我們應(yīng)該怎么做評(píng)估?
為了應(yīng)對(duì)上述兩個(gè)核心問(wèn)題,我們迫切需要構(gòu)建新的評(píng)估平臺(tái),并重點(diǎn)面向:
■ 打破慣性思維,為現(xiàn)實(shí)世界的實(shí)用性開(kāi)發(fā)新穎的任務(wù)設(shè)置和評(píng)估方式
以“Search”能力為例,AI能力評(píng)估集的進(jìn)化路徑可能是:
- Single-turn QA→Search→Deep Search(Multi-step Reasoning)→Deeper Search(Multi-hop or Chained Reasoning)
如果我們跳脫出“研究視角”慣性,轉(zhuǎn)向“市場(chǎng)與業(yè)務(wù)視角”,任務(wù)和環(huán)境的多樣性會(huì)爆炸式增長(zhǎng),Search類(lèi)的題就會(huì)變成:
→Marketing→KOL Search→ “一家智能投影儀品牌計(jì)劃在中東市場(chǎng)進(jìn)行內(nèi)容投放,目標(biāo)人群為35歲以下、有獨(dú)立居住空間的科技早期用戶,主要通過(guò)生活方式類(lèi)博主觸達(dá)。AI Agent需完成:①在中英文多平臺(tái)上識(shí)別優(yōu)質(zhì)創(chuàng)作者,判斷其內(nèi)容調(diào)性是否貼近‘居家?jiàn)蕵?lè)+智能家居’;②預(yù)測(cè)不同地區(qū)(如迪拜與利雅得)的CTR差異;③輔助完成組合推薦。”→$6,000(人工完成該任務(wù)需3名中東本地營(yíng)銷(xiāo)人員,約耗時(shí)1周,總成本約$6,000($2,000/人/周))
→Recruiting→People Search→ “一家頭部VC支持的多模態(tài)大模型初創(chuàng)公司,正在尋找一位具備高質(zhì)量開(kāi)源項(xiàng)目經(jīng)驗(yàn)、熟悉transformer架構(gòu)、曾在FAIR或DeepMind實(shí)習(xí)/合作過(guò)’的AI工程負(fù)責(zé)人。目標(biāo)候選人不一定在招聘平臺(tái)上活躍,大部分信息分布在GitHub、arXiv、X、海外社區(qū)論壇中。AI Agent需完成:①跨平臺(tái)搜索與聚合;②候選人背景重建(教育、項(xiàng)目、實(shí)習(xí));③對(duì)技術(shù)契合度自動(dòng)評(píng)分;④生成Cold outreach策略郵件草稿?!薄?,000(人工完成該任務(wù),通常需1名高級(jí)獵頭+1名技術(shù)研究員,耗時(shí)約1周,人力總成本約¥9,000)
下半場(chǎng)的評(píng)估,不僅需要越來(lái)越難的AI Search能力的考察基準(zhǔn)(AI Capabilities Evals),也需要一套對(duì)齊現(xiàn)實(shí)世界專(zhuān)家的實(shí)用性任務(wù)體系(Utility Tasks)。前者考察的是能力邊界,呈現(xiàn)是Score,而后者考察的是實(shí)用性任務(wù)和環(huán)境多樣性、商業(yè)KPIs(Conversion Rate、Closing Rate)和直接的經(jīng)濟(jì)產(chǎn)出。
我們引入Profession Aligned的基準(zhǔn)概念,我們認(rèn)為接下來(lái)的評(píng)估會(huì)分為AGI tracking與Profession Aligned,AI將面臨更多復(fù)雜環(huán)境下效用的考察,從業(yè)務(wù)中收集的動(dòng)態(tài)題集,而不單是更難的智力題。
■ 建立長(zhǎng)青評(píng)估體系
靜態(tài)評(píng)估集一旦面世,會(huì)出現(xiàn)題目泄露導(dǎo)致過(guò)擬合然后迅速失效的問(wèn)題。我們將維護(hù)一個(gè)動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集來(lái)緩解這一現(xiàn)象。
針對(duì)AI Capacity Evals:學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時(shí)間不充分,無(wú)法維護(hù)成動(dòng)態(tài)擴(kuò)充的持續(xù)評(píng)估。我們希望能延續(xù)一系列公開(kāi)評(píng)估集的方法,并提供第三方、黑白盒、Live的評(píng)測(cè)。
針對(duì)Profession Aligned Evals:我們希望建立從真實(shí)業(yè)務(wù)中Live收集機(jī)制,邀請(qǐng)各行業(yè)的職業(yè)專(zhuān)家與我們共同構(gòu)建和維護(hù)行業(yè)的動(dòng)態(tài)評(píng)估集。
同時(shí),在動(dòng)態(tài)更新的基礎(chǔ)上,我們?cè)O(shè)計(jì)可橫向?qū)Ρ鹊哪芰χ笜?biāo),用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào),幫助我們判斷某個(gè)模型是否達(dá)到市場(chǎng)可落地閾值,以及在什么時(shí)間點(diǎn)上,Agent可以接管已有的業(yè)務(wù)流程,提供規(guī)模化服務(wù)。
2.面向真實(shí)世界的動(dòng)態(tài)評(píng)估,Live Evaluations for Agent
Agent評(píng)測(cè)的雙軌路徑
我們推出xbench雙軌系列評(píng)估集,分為xbench-AGI Tracking與xbench-Profession Aligned。我們將AGI Tracking評(píng)測(cè)視為Agent應(yīng)用落地的基礎(chǔ)臺(tái)階,而Profession Centric評(píng)測(cè)則是對(duì)接真實(shí)生產(chǎn)場(chǎng)景的高階實(shí)踐。
AGI track評(píng)測(cè)旨在驗(yàn)證模型在特定能力維度上是否從0到1具備了智能表現(xiàn),這類(lèi)評(píng)測(cè)的關(guān)鍵是要足夠難和巧妙、足夠有區(qū)分度,來(lái)挖掘“智能”而非“系統(tǒng)”的邊界。只有當(dāng)某個(gè)AI關(guān)鍵能力在AGI Tracking中實(shí)現(xiàn)從0到1的突破,才可能進(jìn)一步解鎖更多專(zhuān)業(yè)工作流程,進(jìn)入Profession Aligned評(píng)測(cè)的范疇。
Profession Aligned評(píng)測(cè)則聚焦于現(xiàn)實(shí)生產(chǎn)場(chǎng)景,是把Agent當(dāng)成一個(gè)數(shù)字員工放在具體業(yè)務(wù)流程里來(lái)進(jìn)行考察。其評(píng)估核心并非智能存在與否,而是在真實(shí)場(chǎng)景下的交付結(jié)果和商業(yè)價(jià)值。Profession Aligned可以有很多類(lèi)型應(yīng)用來(lái)解決,評(píng)估不會(huì)限定解決方案,只會(huì)考核結(jié)果。另外,Profession Aligned評(píng)估從對(duì)生產(chǎn)力的需求出發(fā),是定義垂類(lèi)應(yīng)用/尋找垂類(lèi)AI解決方案,即使這個(gè)場(chǎng)景應(yīng)用還沒(méi)有做出來(lái)。
以營(yíng)銷(xiāo)和人力資源場(chǎng)景為例,我們通過(guò)對(duì)xbench AGI track中xbench-DeepSearch評(píng)測(cè)指標(biāo)追蹤,認(rèn)為AI search這一關(guān)鍵模型能力正在快速成熟,尋找簡(jiǎn)歷、分析候選人匹配度,在各大平臺(tái)上尋找KOL、分析KOL與需求的匹配度,都是潛在AI能實(shí)現(xiàn)的工作流。于是我們開(kāi)始構(gòu)建
xbench-Profession-Recruitment及xbench-Profession-Marketing希望對(duì)齊Agent業(yè)務(wù)落地價(jià)值,預(yù)測(cè)TMF的時(shí)間點(diǎn)。
在AI Search之外,隨著AI關(guān)鍵能力可預(yù)見(jiàn)的拓展至多模態(tài)理解和生成,營(yíng)銷(xiāo)素材的生產(chǎn)和投放會(huì)被納入可能達(dá)到TMF的環(huán)節(jié)-進(jìn)入Profession Aligned評(píng)估的測(cè)試范圍內(nèi)。同樣,應(yīng)用于recruiting時(shí),senior recruiter的工作流不局限于people search、people evaluation,更難的在于對(duì)候選人長(zhǎng)期維護(hù)和溝通甚至是薪酬談判和達(dá)成交易環(huán)節(jié)——這里AI具備長(zhǎng)期記憶、競(jìng)爭(zhēng)和決策博弈等核心職能,也是下一個(gè)階段關(guān)鍵智能的突破方向,我們會(huì)持續(xù)監(jiān)測(cè)關(guān)鍵能力突破并增加Profession-Aligned測(cè)評(píng)的豐富度。
以AI關(guān)鍵能力為中心的評(píng)估(AGI Tracking)
2023-2024年大模型在知識(shí)、多模態(tài)、記憶、指令遵循與推理能力上取得顯著突破,這些突破的積累造成了Agent應(yīng)用能力的爆發(fā)——但仍然在長(zhǎng)期記憶、可信度、問(wèn)題發(fā)現(xiàn)、多智能體協(xié)作與博弈能力等上存在短板。我們希望抓住AI尚未充分解決的核心能力,構(gòu)建并持續(xù)維護(hù)對(duì)應(yīng)的評(píng)估集。
我們相信針對(duì)這些關(guān)鍵能力,學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時(shí)間不充分,無(wú)法維護(hù)成持續(xù)評(píng)測(cè)、動(dòng)態(tài)擴(kuò)充的評(píng)估。我們希望能延續(xù)一系列公開(kāi)評(píng)估集的方法,并提供第三方、黑白盒、Live的評(píng)測(cè)。
我們把Agent能力拆分成基礎(chǔ)智能、專(zhuān)業(yè)實(shí)踐能力、創(chuàng)新能力與組織能力,每個(gè)層級(jí)中我們會(huì)拆分出構(gòu)成實(shí)現(xiàn)AGI的關(guān)鍵要素。AI的發(fā)展不一定是從基礎(chǔ)到高階的順序進(jìn)行,我們可以預(yù)見(jiàn)的是,在AI獲取了組織能力后依然存在基礎(chǔ)可信度的問(wèn)題。
這一次我們發(fā)布的xbench-ScienceQA與xbench-DeepSearch評(píng)估屬于Knowledge與Tool Use的子類(lèi)別,測(cè)試Agent在這兩項(xiàng)主能力分類(lèi)下的子任務(wù)能力。后續(xù)我們會(huì)圍繞這些關(guān)鍵問(wèn)題持續(xù)發(fā)布新的評(píng)估,并追蹤市面產(chǎn)品的表現(xiàn)。
■ xbench-ScienceQA: 考察基礎(chǔ)智能-知識(shí)
該評(píng)測(cè)集用于測(cè)試研究生水平的學(xué)科知識(shí)和推理能力。我們收集可靠、多領(lǐng)域、高等教育難度、搜索引擎上缺少的、答案明確的高質(zhì)量題目數(shù)據(jù)。已有的相關(guān)評(píng)估集如GPQA、SuperGPQA等獲得了很大認(rèn)可與關(guān)注,但他們均為一次性發(fā)布,缺少定期更新的機(jī)制。無(wú)法有效檢查評(píng)估集泄露的程度。
我們希望建設(shè)出一個(gè)按照季度更新的ScienceQA題目數(shù)據(jù),并每月持續(xù)匯報(bào)最新模型的能力表現(xiàn),每季度更新一次。我們邀請(qǐng)來(lái)自頂級(jí)院校的博士研究生以及資深行業(yè)專(zhuān)家出題,并采用LLM難度檢驗(yàn)、搜索引擎檢驗(yàn)、同行檢驗(yàn)等方式確保題目的公正性、區(qū)分度與正確性。
■ xbench-DeepSearch :考察專(zhuān)業(yè)生產(chǎn)力-工具使用
自主規(guī)劃(Planning)→信息收集(Search)→推理分析(Reasoning)→總結(jié)歸納(Summarization)的深度搜索能力是AI Agents通向AGI的核心能力之一,也給評(píng)估帶來(lái)了更難的挑戰(zhàn)?;诤?jiǎn)單事實(shí)的評(píng)估集如SimpleQA、Chinese SimpleQA能夠評(píng)估信息收集能力,但缺乏對(duì)自主規(guī)劃和推理分析能力的考察;基于前沿科學(xué)的評(píng)估集如HLE、AIME擅長(zhǎng)考察模型的推理分析能力,但弱于自主規(guī)劃和信息收集能力的度量。為了更好的考察Agents的深度搜索能力,我們推出并開(kāi)源了xbench-DeepSearch評(píng)測(cè)集,具備以下特點(diǎn):
? 適應(yīng)中文互聯(lián)網(wǎng)環(huán)境,降低搜索信息源對(duì)結(jié)果的影響;
? 難度高,要求Agent具備規(guī)劃+搜索+推理+總結(jié)的端到端綜合能力;
? 所有題目經(jīng)由人工出題并交叉驗(yàn)證,保證題目的新穎性,答案的正確性和唯一性,方便自動(dòng)化評(píng)測(cè);
? 持續(xù)更新,每月持續(xù)匯報(bào)最新模型的能力表現(xiàn),每季度更新一次評(píng)估集。
我們認(rèn)為2025年我們會(huì)見(jiàn)證AI更多在基礎(chǔ)智能與專(zhuān)業(yè)生產(chǎn)力上的進(jìn)展,今年我們的后續(xù)評(píng)估中會(huì)關(guān)注:
1. 具有思維鏈的多模態(tài)模型能否生成商用水平視頻?(多模態(tài),推理,工具使用)
2. MCP工具大面積使用是否具有可信度問(wèn)題?(工具使用,可信度)
3. GUI Agents能否有效使用動(dòng)態(tài)更新/未訓(xùn)練的應(yīng)用?(工具使用,測(cè)試時(shí)學(xué)習(xí))
以專(zhuān)業(yè)工作為中心的評(píng)估(Profession Aligned)
追求與真實(shí)世界任務(wù)對(duì)齊是目前AI評(píng)估的核心訴求,這里我們提出以專(zhuān)業(yè)工作為中心的構(gòu)建方法。
已有的真實(shí)世界評(píng)估通常是以AI能力為中心,去廣泛地覆蓋不同場(chǎng)景與領(lǐng)域,這對(duì)于指導(dǎo)通用模型的迭代非常有價(jià)值。然而Agent應(yīng)用通常需要解決垂類(lèi)場(chǎng)景任務(wù),并針對(duì)垂類(lèi)需求進(jìn)行定制設(shè)計(jì),此時(shí)通用評(píng)估結(jié)果的參考價(jià)值下降。
我們看到在Coding、客服與醫(yī)療領(lǐng)域出現(xiàn)高質(zhì)量的評(píng)估,并帶動(dòng)了對(duì)應(yīng)專(zhuān)業(yè)Agent能力的快速演進(jìn)與產(chǎn)品化。專(zhuān)業(yè)中心的評(píng)估會(huì)快速在更多領(lǐng)域延展開(kāi),其占主流AI評(píng)估的比重也會(huì)快速提升。
面向?qū)I(yè)工作的評(píng)估是希望從特定職業(yè)專(zhuān)家出發(fā),分析它自身的工作流與思維模式,構(gòu)建出與專(zhuān)家行為對(duì)齊的任務(wù)、執(zhí)行環(huán)境與驗(yàn)證方式,流程如下圖所示:
xbench Profession Aligned的構(gòu)建遵循如下三條核心原則:
? 評(píng)估由需求定義:針對(duì)一個(gè)職業(yè)構(gòu)建評(píng)估集,優(yōu)先梳理其業(yè)務(wù)流程與任務(wù)分類(lèi),聚焦于可評(píng)估的任務(wù)項(xiàng)。對(duì)于部分暫不可評(píng)估的任務(wù),通過(guò)模擬方式轉(zhuǎn)化為可評(píng)估形式。
? 評(píng)估任務(wù)隨時(shí)間逐漸產(chǎn)生的從專(zhuān)家業(yè)務(wù)中Live收集:任務(wù)并非“出題”生成,而是在專(zhuān)家日常業(yè)務(wù)中逐步積累與收集。對(duì)于動(dòng)態(tài)變化的任務(wù),我們持續(xù)從真實(shí)業(yè)務(wù)流中獲取與市場(chǎng)最貼近的評(píng)估內(nèi)容。
? 領(lǐng)域價(jià)值驅(qū)動(dòng)評(píng)估目標(biāo):每項(xiàng)任務(wù)標(biāo)注專(zhuān)家完成所需時(shí)間,并結(jié)合薪資基準(zhǔn)估算任務(wù)的經(jīng)濟(jì)價(jià)值。每個(gè)任務(wù)預(yù)設(shè)TMF目標(biāo),一旦Agent達(dá)標(biāo)則停止更新,Profession-Aligned的評(píng)估難度追求實(shí)際匹配,而不是持續(xù)變難。
這里我們以招聘專(zhuān)家為例,設(shè)計(jì)
xbench-Profession-Recruitment。
我們通過(guò)與多家頭部獵頭企業(yè)合作,梳理專(zhuān)家每周工作在不同任務(wù)上的時(shí)間分配。并讓專(zhuān)家對(duì)這些任務(wù)的重要性進(jìn)行評(píng)估,篩選出領(lǐng)域工作的拆分圖譜。
下面是一個(gè)結(jié)構(gòu)化的工作任務(wù)拆解和經(jīng)濟(jì)價(jià)值的對(duì)齊,以及對(duì)任務(wù)在現(xiàn)階段可實(shí)現(xiàn)性和可評(píng)測(cè)性的梳理:
在每個(gè)單項(xiàng)任務(wù)中,我們從現(xiàn)有技術(shù)角度分析其可測(cè)性與可行性。第一期
xbench-Profession-Recruitment收錄了JD需求拆解、人才畫(huà)像定位、候選人經(jīng)歷補(bǔ)全、人物關(guān)系理解、公開(kāi)人才搜索等幾類(lèi)任務(wù)。
我們與專(zhuān)業(yè)獵頭公司,以及具有充分歷史業(yè)務(wù)數(shù)據(jù)積累的營(yíng)銷(xiāo)企業(yè)分別共建了
xbench-Profession-Recruitment與xbench-Profession-Marketing這兩個(gè)評(píng)估任務(wù)。你可以點(diǎn)擊文末【閱讀原文】,在論文中看到更多結(jié)果。
我們會(huì)以實(shí)際生產(chǎn)力需求為出發(fā)點(diǎn),通過(guò)上述方法論,聯(lián)合行業(yè)專(zhuān)家拆解專(zhuān)業(yè)工作流程形成任務(wù),定義客觀、可復(fù)現(xiàn)的評(píng)價(jià)指標(biāo),逐個(gè)構(gòu)建Profession Aligned的評(píng)估集,先于垂類(lèi)應(yīng)用定義出能力目標(biāo),用eval指導(dǎo)profession agent的落地。預(yù)計(jì)將陸續(xù)拓展至金融(Finance)、法律(Law)、銷(xiāo)售(Sales)等高價(jià)值專(zhuān)業(yè)領(lǐng)域的評(píng)估任務(wù)體系構(gòu)建。我們歡迎來(lái)自相關(guān)領(lǐng)域的專(zhuān)家學(xué)者、產(chǎn)業(yè)企業(yè)、研究機(jī)構(gòu)參與共建,共同推進(jìn)Profession-Aligned Eval的發(fā)展。
3.長(zhǎng)青評(píng)估(Evergreen Eval)
評(píng)估有生命周期的任務(wù)與產(chǎn)品
靜態(tài)評(píng)估集會(huì)出現(xiàn)題目泄露的問(wèn)題。如LiveBench與LiveCodeBench評(píng)估的出現(xiàn),利用動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集,緩解了題目泄露的問(wèn)題,然而,在Agent應(yīng)用的評(píng)估任務(wù)中仍有新挑戰(zhàn)。
首先,Agent應(yīng)用的產(chǎn)品版本是具有生命周期的。Agent產(chǎn)品的迭代速度很快,會(huì)不斷集成與開(kāi)發(fā)新功能,而舊版本Agent可能會(huì)被下線。我們雖然可以在同一時(shí)間測(cè)試同類(lèi)Agent不同產(chǎn)品的能力,但是不能比較不同時(shí)間的產(chǎn)品能力進(jìn)步。
同時(shí),Agent接觸的外部環(huán)境也是動(dòng)態(tài)變化的。即使是相同的題目,如果解題需要使用互聯(lián)網(wǎng)應(yīng)用等內(nèi)容快速更新的工具,在不同時(shí)間測(cè)試效果不同。
上述表格展示了針對(duì)Agent的Live評(píng)測(cè)可獲取的結(jié)果。利用該結(jié)果可以得到同期不同產(chǎn)品的排名,但是由于評(píng)估環(huán)境與任務(wù)的調(diào)整,不同期評(píng)測(cè)之間的能力增長(zhǎng)是沒(méi)有捕捉到的。因此我們希望解決如下問(wèn)題:
評(píng)估集與模型不斷迭代情況下,設(shè)計(jì)指標(biāo)追蹤Agent能力的持續(xù)增長(zhǎng)。
統(tǒng)計(jì)上,我們可以針對(duì)殘缺得分矩陣估計(jì)每個(gè)Agent版本的能力主成分。我們采用項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)完成對(duì)Agent Capability的估計(jì)。IRT理論把被測(cè)對(duì)象能力
,題目難度
以及題目區(qū)分度
按照如下模型建模,被測(cè)對(duì)象在測(cè)試題目上的得分為:
這個(gè)公式滿足題目得分概率
是[0,1]之間的取值,更大的難度系數(shù)
會(huì)降低得分概率,而強(qiáng)的能力系數(shù)
則會(huì)提升得分概率。對(duì)于區(qū)分度
更大的題目,通常伴隨能力
增長(zhǎng)更加平緩,意味題目能區(qū)分更廣泛能力的評(píng)測(cè)對(duì)象。
我們使用OpenCompass動(dòng)態(tài)更新的評(píng)估結(jié)果來(lái)驗(yàn)證IRT方法(
https://rank.opencompass.org.cn/leaderboard-llm/?m=25-01)。該榜單從2024年2月開(kāi)始,每隔1-3個(gè)月更新一次題庫(kù)并發(fā)布評(píng)估結(jié)果,下面左圖展示了不同模型在評(píng)估時(shí)間評(píng)測(cè)的得分,相同系列模型被同一顏色的線進(jìn)行連接。雖然榜單結(jié)果很好顯示了每次評(píng)估時(shí)模型能力排序,但因?yàn)轭}目更新,不同時(shí)間模型得分時(shí)不具有可對(duì)比性。
而利用IRT估計(jì)的能力得分,則可以很好地體現(xiàn)模型能力持續(xù)增長(zhǎng)的趨勢(shì)。我們可以觀察到2024年10月之后Google Gemini模型能力的快速跟進(jìn),以及Deepseek v2與r1發(fā)布所帶來(lái)的兩次明顯提升。
在后續(xù)的Agent評(píng)估中,我們會(huì)持續(xù)匯報(bào)Agent評(píng)估集不同產(chǎn)品的IRT能力得分,用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào)。
評(píng)估Agent的技術(shù)市場(chǎng)匹配(Tech-Market Fit)
成本也是Agent應(yīng)用落地的決定性因素之一。
Inference Scaling讓模型與Agent可以通過(guò)投入更多推理算力來(lái)取得更好的效果。這種投入既可以來(lái)自于強(qiáng)化學(xué)習(xí)帶來(lái)的更長(zhǎng)思維鏈,也可以是在思維鏈的基礎(chǔ)上引入更多次數(shù)的推理與匯總進(jìn)一步提升效果。
然而我們?cè)诂F(xiàn)實(shí)任務(wù)中需要考慮Inference Scaling帶來(lái)的投入產(chǎn)出比,找到在花費(fèi)、延遲與效果上的平衡。類(lèi)似于ARC-AGI,我們會(huì)追求為每個(gè)評(píng)估集匯報(bào)在效果-成本圖上的需求曲線、人類(lèi)能力曲線以及現(xiàn)有產(chǎn)品的最優(yōu)供給曲線。
在Benchmark的得分-成本圖上,我們可以劃分出左上區(qū)域的市場(chǎng)接受區(qū)與右下的技術(shù)可行區(qū)。人力成本應(yīng)當(dāng)是市場(chǎng)接受區(qū)邊緣的一部分。左圖展示了技術(shù)尚未落地的狀態(tài),而中間圖展示了TMF后的狀態(tài),而其中交叉部分是AI帶來(lái)的增量?jī)r(jià)值。對(duì)于具有TMF的AI場(chǎng)景,人力資源應(yīng)當(dāng)更多投入在領(lǐng)域的前沿以及不可評(píng)估的任務(wù),并且市場(chǎng)會(huì)因?yàn)槿肆Y源與AI算力的稀缺性不同重新給人類(lèi)貢獻(xiàn)的價(jià)值定價(jià)。
我們認(rèn)為每個(gè)專(zhuān)業(yè)領(lǐng)域會(huì)經(jīng)歷3個(gè)階段:
1. 未達(dá)成TMF:技術(shù)可信與市場(chǎng)接受區(qū)域沒(méi)有交集,此時(shí)Agent應(yīng)用僅是工具或概念,無(wú)法交付結(jié)果或規(guī)?;a(chǎn)生價(jià)值;Agent對(duì)人的影響較小。
2. Agent與Human共同工作:技術(shù)可信與市場(chǎng)接受區(qū)域發(fā)生交集,交叉區(qū)域是AI帶來(lái)的價(jià)值增量,包括(1)以低于最低人類(lèi)成本提供可行服務(wù),(2)幫助提升應(yīng)對(duì)重復(fù)性、質(zhì)量要求中等的工作內(nèi)容。而高水準(zhǔn)的工作內(nèi)容,由于數(shù)據(jù)稀缺、難度更高、依然需要人來(lái)執(zhí)行,此時(shí)由于稀缺性,企業(yè)獲取的AI Profit可能會(huì)被用于支付高端工作產(chǎn)出。
3. 專(zhuān)業(yè)化Agent:領(lǐng)域?qū)<以跇?gòu)建評(píng)估體系,并指引Agent迭代。專(zhuān)家的工作從交付結(jié)果轉(zhuǎn)向構(gòu)建專(zhuān)業(yè)評(píng)估訓(xùn)練垂類(lèi)Agents,并提供規(guī)?;?wù)。
其中從1.向2.的轉(zhuǎn)變是由AI技術(shù)突破、算力與數(shù)據(jù)的Scaling帶來(lái)的,而2.轉(zhuǎn)向3.的進(jìn)展依賴于熟悉垂類(lèi)需求、標(biāo)準(zhǔn)、歷史經(jīng)驗(yàn)的專(zhuān)家。
此外,在部分領(lǐng)域中,AI可能帶來(lái)新的滿足需求的方式,改變已有的業(yè)務(wù)流程和生產(chǎn)關(guān)系組成方式。
AI可能會(huì)帶來(lái)價(jià)值轉(zhuǎn)移、改變?nèi)肆π枨蟮慕Y(jié)構(gòu),我們相信社會(huì)會(huì)因?yàn)楦咝У纳a(chǎn)效率與商業(yè)模式增加人類(lèi)的總體福利。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.