夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

打破AI能力的慣性評(píng)估方式,紅杉中國(guó)推出全新雙軌基準(zhǔn)測(cè)試xbench

0
分享至



一款全新的AI基準(zhǔn)測(cè)試工具。

隨著基礎(chǔ)模型的快速發(fā)展和AI Agent進(jìn)入規(guī)?;瘧?yīng)用階段,被廣泛使用的基準(zhǔn)測(cè)試(Benchmark)卻面臨一個(gè)日益尖銳的問(wèn)題:想要真實(shí)地反映AI的客觀能力正變得越來(lái)越困難。

因此,構(gòu)建更加科學(xué)、長(zhǎng)效和如實(shí)反映AI客觀能力的評(píng)測(cè)體系,正在成為指引AI技術(shù)突破與產(chǎn)品迭代的重要需求。

有鑒于此,紅杉中國(guó)今天正式推出一款全新的AI基準(zhǔn)測(cè)試工具xbench,并發(fā)布論文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。在評(píng)估和推動(dòng)AI系統(tǒng)提升能力上限與技術(shù)邊界的同時(shí),xbench會(huì)重點(diǎn)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值,并采用長(zhǎng)青評(píng)估的機(jī)制,去捕捉Agent產(chǎn)品的關(guān)鍵突破。(點(diǎn)擊文末【閱讀原文】即可下載閱讀本論文,建議使用電腦端進(jìn)行下載)



摘要:

? xbench采用雙軌評(píng)估體系,構(gòu)建多維度測(cè)評(píng)數(shù)據(jù)集,旨在同時(shí)追蹤模型的理論能力上限與Agent的實(shí)際落地價(jià)值。該體系創(chuàng)新性地將評(píng)測(cè)任務(wù)分為兩條互補(bǔ)的主線:(1)評(píng)估AI系統(tǒng)的能力上限與技術(shù)邊界;(2)量化AI系統(tǒng)在真實(shí)場(chǎng)景的效用價(jià)值(Utility Value)。其中,后者需要?jiǎng)討B(tài)對(duì)齊現(xiàn)實(shí)世界的應(yīng)用需求,基于實(shí)際工作流程和具體社會(huì)角色,為各垂直領(lǐng)域構(gòu)建具有明確業(yè)務(wù)價(jià)值的測(cè)評(píng)標(biāo)準(zhǔn)。

? xbench采用長(zhǎng)青評(píng)估(Evergreen Evaluation)機(jī)制,通過(guò)持續(xù)維護(hù)并動(dòng)態(tài)更新測(cè)試內(nèi)容,以確保時(shí)效性和相關(guān)性。我們將定期測(cè)評(píng)市場(chǎng)主流Agent產(chǎn)品,跟蹤模型能力演進(jìn),捕捉Agent產(chǎn)品迭代過(guò)程中的關(guān)鍵突破,進(jìn)而預(yù)測(cè)下一個(gè)Agent應(yīng)用的技術(shù)-市場(chǎng)契合點(diǎn)(TMF,Tech-Market Fit)。作為獨(dú)立第三方,我們致力于為每類(lèi)產(chǎn)品設(shè)計(jì)公允的評(píng)估環(huán)境,提供客觀且可復(fù)現(xiàn)的評(píng)價(jià)結(jié)果。

? 首期發(fā)布包含兩個(gè)核心評(píng)估集:科學(xué)問(wèn)題解答測(cè)評(píng)集(xbench-ScienceQA)與中文互聯(lián)網(wǎng)深度搜索測(cè)評(píng)集(xbench-DeepSearch),并對(duì)該領(lǐng)域主要產(chǎn)品進(jìn)行了綜合排名。同期提出了垂直領(lǐng)域智能體的評(píng)測(cè)方法論,并構(gòu)建了面向招聘(Recruitment)和營(yíng)銷(xiāo)(Marketing)領(lǐng)域的垂類(lèi)Agent評(píng)測(cè)框架。評(píng)測(cè)結(jié)果和方法論可通過(guò)xbench.org網(wǎng)站實(shí)時(shí)查看。

? 在過(guò)去兩年多的時(shí)間里,xbench一直是紅杉中國(guó)在內(nèi)部使用的跟蹤和評(píng)估基礎(chǔ)模型能力的工具,今天我們將其公開(kāi)并貢獻(xiàn)給整個(gè)AI社區(qū)。無(wú)論你是基礎(chǔ)模型和Agent的開(kāi)發(fā)者, 還是相關(guān)領(lǐng)域的專(zhuān)家和企業(yè),或者是對(duì)AI評(píng)測(cè)具有濃厚興趣的研究者,我們都?xì)g迎你加入,成為使用并完善xbench的一份子,一起打造評(píng)估AI能力的新范式。


xbench Dual-track Leaderboard 2025.05


1.為什么現(xiàn)在需要新的Eval系統(tǒng)

2022年ChatGPT推出后,紅杉中國(guó)開(kāi)始對(duì)AGI進(jìn)程和主流模型實(shí)行每個(gè)月的評(píng)測(cè)與內(nèi)部匯報(bào)。

2023年3月,我們開(kāi)始建設(shè)xbench的第一批私有題庫(kù),題目類(lèi)型主要針對(duì)Chatbot簡(jiǎn)單問(wèn)答及邏輯思考,如:

“香蕉的平方根是多少?”
“小明立志成為最成功的投資人,經(jīng)過(guò)一番努力,最終他成功了。請(qǐng)問(wèn)用什么諺語(yǔ)描述這個(gè)情況比較適合?”

我們見(jiàn)證了主流模型從20-30分,在18個(gè)月內(nèi),提升到90-100分。2024年10月,我們第二次比較大規(guī)模地更新了xbench題庫(kù),換掉了所有模型都得滿分的題,新題主要針對(duì)Chatbot復(fù)雜問(wèn)答及推理,以及簡(jiǎn)單的模型外部工具調(diào)用能力(tool use),如:

“設(shè)f(x)是一個(gè)奇函數(shù),而g(x)是一個(gè)偶函數(shù)。那么,f(f(g(f(g(f(x))))))是奇函數(shù)、偶函數(shù)還是都不是?”
“Q:將/nt目錄下所有符合‘result_*.txt’格式的文件,按*數(shù)字從小到大的順序,合并到一個(gè)文件中。并且命名為‘results_total.txt’?!?br/>

我們?cè)俅我?jiàn)證了主流模型的進(jìn)步,這一次的速度更快,主流模型在6個(gè)月內(nèi)“刷爆”了我們的第二期題庫(kù)。


評(píng)估的有效時(shí)間在急劇縮短,圖源:姚順雨個(gè)人博客


2025年3月,我們開(kāi)始第三次對(duì)xbench題庫(kù)進(jìn)行升級(jí),但這一次,我們開(kāi)始停下來(lái)質(zhì)疑現(xiàn)有評(píng)估方式,思考兩個(gè)核心問(wèn)題:

1/ 模型能力和AI實(shí)際效用之間的關(guān)系:我們出越來(lái)越難的題目意義是什么,是否落入了慣性思維?AI落地的實(shí)際經(jīng)濟(jì)價(jià)值真的和AI會(huì)做難題正相關(guān)嗎?舉個(gè)例子,程序員工作的Utility Value很高,但AI做起來(lái)進(jìn)步非??欤叭スさ匕岽u”這樣的工作AI卻幾乎無(wú)法完成。

2/ 不同時(shí)間維度上的能力比較:每一次xbench換題,我們便失去了對(duì)AI能力的前后可比性追蹤,因?yàn)樵谛碌念}集下,模型版本也在迭代,我們無(wú)法比較不同時(shí)間維度上的單個(gè)模型的能力如何變化。在判斷創(chuàng)業(yè)項(xiàng)目的時(shí)候,我們喜歡看創(chuàng)業(yè)者的“成長(zhǎng)斜率”,但在評(píng)估AI能力這件事上,我們卻因?yàn)轭}庫(kù)的不斷更新而無(wú)法有效判斷。

接下來(lái)我們應(yīng)該怎么做評(píng)估?

為了應(yīng)對(duì)上述兩個(gè)核心問(wèn)題,我們迫切需要構(gòu)建新的評(píng)估平臺(tái),并重點(diǎn)面向:

■ 打破慣性思維,為現(xiàn)實(shí)世界的實(shí)用性開(kāi)發(fā)新穎的任務(wù)設(shè)置和評(píng)估方式

以“Search”能力為例,AI能力評(píng)估集的進(jìn)化路徑可能是:

  • Single-turn QA→Search→Deep Search(Multi-step Reasoning)→Deeper Search(Multi-hop or Chained Reasoning)

如果我們跳脫出“研究視角”慣性,轉(zhuǎn)向“市場(chǎng)與業(yè)務(wù)視角”,任務(wù)和環(huán)境的多樣性會(huì)爆炸式增長(zhǎng),Search類(lèi)的題就會(huì)變成:

→Marketing→KOL Search→ “一家智能投影儀品牌計(jì)劃在中東市場(chǎng)進(jìn)行內(nèi)容投放,目標(biāo)人群為35歲以下、有獨(dú)立居住空間的科技早期用戶,主要通過(guò)生活方式類(lèi)博主觸達(dá)。AI Agent需完成:①在中英文多平臺(tái)上識(shí)別優(yōu)質(zhì)創(chuàng)作者,判斷其內(nèi)容調(diào)性是否貼近‘居家?jiàn)蕵?lè)+智能家居’;②預(yù)測(cè)不同地區(qū)(如迪拜與利雅得)的CTR差異;③輔助完成組合推薦。”→$6,000(人工完成該任務(wù)需3名中東本地營(yíng)銷(xiāo)人員,約耗時(shí)1周,總成本約$6,000($2,000/人/周))
→Recruiting→People Search→ “一家頭部VC支持的多模態(tài)大模型初創(chuàng)公司,正在尋找一位具備高質(zhì)量開(kāi)源項(xiàng)目經(jīng)驗(yàn)、熟悉transformer架構(gòu)、曾在FAIR或DeepMind實(shí)習(xí)/合作過(guò)’的AI工程負(fù)責(zé)人。目標(biāo)候選人不一定在招聘平臺(tái)上活躍,大部分信息分布在GitHub、arXiv、X、海外社區(qū)論壇中。AI Agent需完成:①跨平臺(tái)搜索與聚合;②候選人背景重建(教育、項(xiàng)目、實(shí)習(xí));③對(duì)技術(shù)契合度自動(dòng)評(píng)分;④生成Cold outreach策略郵件草稿?!薄?,000(人工完成該任務(wù),通常需1名高級(jí)獵頭+1名技術(shù)研究員,耗時(shí)約1周,人力總成本約¥9,000)

下半場(chǎng)的評(píng)估,不僅需要越來(lái)越難的AI Search能力的考察基準(zhǔn)(AI Capabilities Evals),也需要一套對(duì)齊現(xiàn)實(shí)世界專(zhuān)家的實(shí)用性任務(wù)體系(Utility Tasks)。前者考察的是能力邊界,呈現(xiàn)是Score,而后者考察的是實(shí)用性任務(wù)和環(huán)境多樣性、商業(yè)KPIs(Conversion Rate、Closing Rate)和直接的經(jīng)濟(jì)產(chǎn)出。

我們引入Profession Aligned的基準(zhǔn)概念,我們認(rèn)為接下來(lái)的評(píng)估會(huì)分為AGI tracking與Profession Aligned,AI將面臨更多復(fù)雜環(huán)境下效用的考察,從業(yè)務(wù)中收集的動(dòng)態(tài)題集,而不單是更難的智力題。



■ 建立長(zhǎng)青評(píng)估體系

靜態(tài)評(píng)估集一旦面世,會(huì)出現(xiàn)題目泄露導(dǎo)致過(guò)擬合然后迅速失效的問(wèn)題。我們將維護(hù)一個(gè)動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集來(lái)緩解這一現(xiàn)象。

針對(duì)AI Capacity Evals:學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時(shí)間不充分,無(wú)法維護(hù)成動(dòng)態(tài)擴(kuò)充的持續(xù)評(píng)估。我們希望能延續(xù)一系列公開(kāi)評(píng)估集的方法,并提供第三方、黑白盒、Live的評(píng)測(cè)。

針對(duì)Profession Aligned Evals:我們希望建立從真實(shí)業(yè)務(wù)中Live收集機(jī)制,邀請(qǐng)各行業(yè)的職業(yè)專(zhuān)家與我們共同構(gòu)建和維護(hù)行業(yè)的動(dòng)態(tài)評(píng)估集。

同時(shí),在動(dòng)態(tài)更新的基礎(chǔ)上,我們?cè)O(shè)計(jì)可橫向?qū)Ρ鹊哪芰χ笜?biāo),用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào),幫助我們判斷某個(gè)模型是否達(dá)到市場(chǎng)可落地閾值,以及在什么時(shí)間點(diǎn)上,Agent可以接管已有的業(yè)務(wù)流程,提供規(guī)模化服務(wù)。

2.面向真實(shí)世界的動(dòng)態(tài)評(píng)估,Live Evaluations for Agent


Agent評(píng)測(cè)的雙軌路徑

我們推出xbench雙軌系列評(píng)估集,分為xbench-AGI Trackingxbench-Profession Aligned。我們將AGI Tracking評(píng)測(cè)視為Agent應(yīng)用落地的基礎(chǔ)臺(tái)階,而Profession Centric評(píng)測(cè)則是對(duì)接真實(shí)生產(chǎn)場(chǎng)景的高階實(shí)踐。

AGI track評(píng)測(cè)旨在驗(yàn)證模型在特定能力維度上是否從0到1具備了智能表現(xiàn),這類(lèi)評(píng)測(cè)的關(guān)鍵是要足夠難和巧妙、足夠有區(qū)分度,來(lái)挖掘“智能”而非“系統(tǒng)”的邊界。只有當(dāng)某個(gè)AI關(guān)鍵能力在AGI Tracking中實(shí)現(xiàn)從0到1的突破,才可能進(jìn)一步解鎖更多專(zhuān)業(yè)工作流程,進(jìn)入Profession Aligned評(píng)測(cè)的范疇。

Profession Aligned評(píng)測(cè)則聚焦于現(xiàn)實(shí)生產(chǎn)場(chǎng)景,是把Agent當(dāng)成一個(gè)數(shù)字員工放在具體業(yè)務(wù)流程里來(lái)進(jìn)行考察。其評(píng)估核心并非智能存在與否,而是在真實(shí)場(chǎng)景下的交付結(jié)果和商業(yè)價(jià)值。Profession Aligned可以有很多類(lèi)型應(yīng)用來(lái)解決,評(píng)估不會(huì)限定解決方案,只會(huì)考核結(jié)果。另外,Profession Aligned評(píng)估從對(duì)生產(chǎn)力的需求出發(fā),是定義垂類(lèi)應(yīng)用/尋找垂類(lèi)AI解決方案,即使這個(gè)場(chǎng)景應(yīng)用還沒(méi)有做出來(lái)。

以營(yíng)銷(xiāo)和人力資源場(chǎng)景為例,我們通過(guò)對(duì)xbench AGI track中xbench-DeepSearch評(píng)測(cè)指標(biāo)追蹤,認(rèn)為AI search這一關(guān)鍵模型能力正在快速成熟,尋找簡(jiǎn)歷、分析候選人匹配度,在各大平臺(tái)上尋找KOL、分析KOL與需求的匹配度,都是潛在AI能實(shí)現(xiàn)的工作流。于是我們開(kāi)始構(gòu)建
xbench-Profession-Recruitment及xbench-Profession-Marketing希望對(duì)齊Agent業(yè)務(wù)落地價(jià)值,預(yù)測(cè)TMF的時(shí)間點(diǎn)。

在AI Search之外,隨著AI關(guān)鍵能力可預(yù)見(jiàn)的拓展至多模態(tài)理解和生成,營(yíng)銷(xiāo)素材的生產(chǎn)和投放會(huì)被納入可能達(dá)到TMF的環(huán)節(jié)-進(jìn)入Profession Aligned評(píng)估的測(cè)試范圍內(nèi)。同樣,應(yīng)用于recruiting時(shí),senior recruiter的工作流不局限于people search、people evaluation,更難的在于對(duì)候選人長(zhǎng)期維護(hù)和溝通甚至是薪酬談判和達(dá)成交易環(huán)節(jié)——這里AI具備長(zhǎng)期記憶、競(jìng)爭(zhēng)和決策博弈等核心職能,也是下一個(gè)階段關(guān)鍵智能的突破方向,我們會(huì)持續(xù)監(jiān)測(cè)關(guān)鍵能力突破并增加Profession-Aligned測(cè)評(píng)的豐富度。



以AI關(guān)鍵能力為中心的評(píng)估(AGI Tracking)

2023-2024年大模型在知識(shí)、多模態(tài)、記憶、指令遵循與推理能力上取得顯著突破,這些突破的積累造成了Agent應(yīng)用能力的爆發(fā)——但仍然在長(zhǎng)期記憶、可信度、問(wèn)題發(fā)現(xiàn)、多智能體協(xié)作與博弈能力等上存在短板。我們希望抓住AI尚未充分解決的核心能力,構(gòu)建并持續(xù)維護(hù)對(duì)應(yīng)的評(píng)估集。

我們相信針對(duì)這些關(guān)鍵能力,學(xué)術(shù)界提出了很多出色的方法論,但是受限于資源與時(shí)間不充分,無(wú)法維護(hù)成持續(xù)評(píng)測(cè)、動(dòng)態(tài)擴(kuò)充的評(píng)估。我們希望能延續(xù)一系列公開(kāi)評(píng)估集的方法,并提供第三方、黑白盒、Live的評(píng)測(cè)。

我們把Agent能力拆分成基礎(chǔ)智能、專(zhuān)業(yè)實(shí)踐能力、創(chuàng)新能力與組織能力,每個(gè)層級(jí)中我們會(huì)拆分出構(gòu)成實(shí)現(xiàn)AGI的關(guān)鍵要素。AI的發(fā)展不一定是從基礎(chǔ)到高階的順序進(jìn)行,我們可以預(yù)見(jiàn)的是,在AI獲取了組織能力后依然存在基礎(chǔ)可信度的問(wèn)題。

這一次我們發(fā)布的xbench-ScienceQAxbench-DeepSearch評(píng)估屬于Knowledge與Tool Use的子類(lèi)別,測(cè)試Agent在這兩項(xiàng)主能力分類(lèi)下的子任務(wù)能力。后續(xù)我們會(huì)圍繞這些關(guān)鍵問(wèn)題持續(xù)發(fā)布新的評(píng)估,并追蹤市面產(chǎn)品的表現(xiàn)。



■ xbench-ScienceQA: 考察基礎(chǔ)智能-知識(shí)

該評(píng)測(cè)集用于測(cè)試研究生水平的學(xué)科知識(shí)和推理能力。我們收集可靠、多領(lǐng)域、高等教育難度、搜索引擎上缺少的、答案明確的高質(zhì)量題目數(shù)據(jù)。已有的相關(guān)評(píng)估集如GPQA、SuperGPQA等獲得了很大認(rèn)可與關(guān)注,但他們均為一次性發(fā)布,缺少定期更新的機(jī)制。無(wú)法有效檢查評(píng)估集泄露的程度。

我們希望建設(shè)出一個(gè)按照季度更新的ScienceQA題目數(shù)據(jù),并每月持續(xù)匯報(bào)最新模型的能力表現(xiàn),每季度更新一次。我們邀請(qǐng)來(lái)自頂級(jí)院校的博士研究生以及資深行業(yè)專(zhuān)家出題,并采用LLM難度檢驗(yàn)、搜索引擎檢驗(yàn)、同行檢驗(yàn)等方式確保題目的公正性、區(qū)分度與正確性。

■ xbench-DeepSearch :考察專(zhuān)業(yè)生產(chǎn)力-工具使用

自主規(guī)劃(Planning)→信息收集(Search)→推理分析(Reasoning)→總結(jié)歸納(Summarization)的深度搜索能力是AI Agents通向AGI的核心能力之一,也給評(píng)估帶來(lái)了更難的挑戰(zhàn)?;诤?jiǎn)單事實(shí)的評(píng)估集如SimpleQA、Chinese SimpleQA能夠評(píng)估信息收集能力,但缺乏對(duì)自主規(guī)劃和推理分析能力的考察;基于前沿科學(xué)的評(píng)估集如HLE、AIME擅長(zhǎng)考察模型的推理分析能力,但弱于自主規(guī)劃和信息收集能力的度量。為了更好的考察Agents的深度搜索能力,我們推出并開(kāi)源了xbench-DeepSearch評(píng)測(cè)集,具備以下特點(diǎn):

? 適應(yīng)中文互聯(lián)網(wǎng)環(huán)境,降低搜索信息源對(duì)結(jié)果的影響;

? 難度高,要求Agent具備規(guī)劃+搜索+推理+總結(jié)的端到端綜合能力;

? 所有題目經(jīng)由人工出題并交叉驗(yàn)證,保證題目的新穎性,答案的正確性和唯一性,方便自動(dòng)化評(píng)測(cè);

? 持續(xù)更新,每月持續(xù)匯報(bào)最新模型的能力表現(xiàn),每季度更新一次評(píng)估集。

我們認(rèn)為2025年我們會(huì)見(jiàn)證AI更多在基礎(chǔ)智能與專(zhuān)業(yè)生產(chǎn)力上的進(jìn)展,今年我們的后續(xù)評(píng)估中會(huì)關(guān)注:

1. 具有思維鏈的多模態(tài)模型能否生成商用水平視頻?(多模態(tài),推理,工具使用)

2. MCP工具大面積使用是否具有可信度問(wèn)題?(工具使用,可信度)

3. GUI Agents能否有效使用動(dòng)態(tài)更新/未訓(xùn)練的應(yīng)用?(工具使用,測(cè)試時(shí)學(xué)習(xí))

以專(zhuān)業(yè)工作為中心的評(píng)估(Profession Aligned)

追求與真實(shí)世界任務(wù)對(duì)齊是目前AI評(píng)估的核心訴求,這里我們提出以專(zhuān)業(yè)工作為中心的構(gòu)建方法。

已有的真實(shí)世界評(píng)估通常是以AI能力為中心,去廣泛地覆蓋不同場(chǎng)景與領(lǐng)域,這對(duì)于指導(dǎo)通用模型的迭代非常有價(jià)值。然而Agent應(yīng)用通常需要解決垂類(lèi)場(chǎng)景任務(wù),并針對(duì)垂類(lèi)需求進(jìn)行定制設(shè)計(jì),此時(shí)通用評(píng)估結(jié)果的參考價(jià)值下降。

我們看到在Coding、客服與醫(yī)療領(lǐng)域出現(xiàn)高質(zhì)量的評(píng)估,并帶動(dòng)了對(duì)應(yīng)專(zhuān)業(yè)Agent能力的快速演進(jìn)與產(chǎn)品化。專(zhuān)業(yè)中心的評(píng)估會(huì)快速在更多領(lǐng)域延展開(kāi),其占主流AI評(píng)估的比重也會(huì)快速提升。

面向?qū)I(yè)工作的評(píng)估是希望從特定職業(yè)專(zhuān)家出發(fā),分析它自身的工作流與思維模式,構(gòu)建出與專(zhuān)家行為對(duì)齊的任務(wù)、執(zhí)行環(huán)境與驗(yàn)證方式,流程如下圖所示:



xbench Profession Aligned的構(gòu)建遵循如下三條核心原則:

? 評(píng)估由需求定義:針對(duì)一個(gè)職業(yè)構(gòu)建評(píng)估集,優(yōu)先梳理其業(yè)務(wù)流程與任務(wù)分類(lèi),聚焦于可評(píng)估的任務(wù)項(xiàng)。對(duì)于部分暫不可評(píng)估的任務(wù),通過(guò)模擬方式轉(zhuǎn)化為可評(píng)估形式。

? 評(píng)估任務(wù)隨時(shí)間逐漸產(chǎn)生的從專(zhuān)家業(yè)務(wù)中Live收集:任務(wù)并非“出題”生成,而是在專(zhuān)家日常業(yè)務(wù)中逐步積累與收集。對(duì)于動(dòng)態(tài)變化的任務(wù),我們持續(xù)從真實(shí)業(yè)務(wù)流中獲取與市場(chǎng)最貼近的評(píng)估內(nèi)容。

? 領(lǐng)域價(jià)值驅(qū)動(dòng)評(píng)估目標(biāo):每項(xiàng)任務(wù)標(biāo)注專(zhuān)家完成所需時(shí)間,并結(jié)合薪資基準(zhǔn)估算任務(wù)的經(jīng)濟(jì)價(jià)值。每個(gè)任務(wù)預(yù)設(shè)TMF目標(biāo),一旦Agent達(dá)標(biāo)則停止更新,Profession-Aligned的評(píng)估難度追求實(shí)際匹配,而不是持續(xù)變難。

這里我們以招聘專(zhuān)家為例,設(shè)計(jì)
xbench-Profession-Recruitment。

我們通過(guò)與多家頭部獵頭企業(yè)合作,梳理專(zhuān)家每周工作在不同任務(wù)上的時(shí)間分配。并讓專(zhuān)家對(duì)這些任務(wù)的重要性進(jìn)行評(píng)估,篩選出領(lǐng)域工作的拆分圖譜。

下面是一個(gè)結(jié)構(gòu)化的工作任務(wù)拆解和經(jīng)濟(jì)價(jià)值的對(duì)齊,以及對(duì)任務(wù)在現(xiàn)階段可實(shí)現(xiàn)性和可評(píng)測(cè)性的梳理:



在每個(gè)單項(xiàng)任務(wù)中,我們從現(xiàn)有技術(shù)角度分析其可測(cè)性與可行性。第一期
xbench-Profession-Recruitment收錄了JD需求拆解、人才畫(huà)像定位、候選人經(jīng)歷補(bǔ)全、人物關(guān)系理解、公開(kāi)人才搜索等幾類(lèi)任務(wù)。

我們與專(zhuān)業(yè)獵頭公司,以及具有充分歷史業(yè)務(wù)數(shù)據(jù)積累的營(yíng)銷(xiāo)企業(yè)分別共建了
xbench-Profession-Recruitment與xbench-Profession-Marketing這兩個(gè)評(píng)估任務(wù)。你可以點(diǎn)擊文末【閱讀原文】,在論文中看到更多結(jié)果。

我們會(huì)以實(shí)際生產(chǎn)力需求為出發(fā)點(diǎn),通過(guò)上述方法論,聯(lián)合行業(yè)專(zhuān)家拆解專(zhuān)業(yè)工作流程形成任務(wù),定義客觀、可復(fù)現(xiàn)的評(píng)價(jià)指標(biāo),逐個(gè)構(gòu)建Profession Aligned的評(píng)估集,先于垂類(lèi)應(yīng)用定義出能力目標(biāo),用eval指導(dǎo)profession agent的落地。預(yù)計(jì)將陸續(xù)拓展至金融(Finance)、法律(Law)、銷(xiāo)售(Sales)等高價(jià)值專(zhuān)業(yè)領(lǐng)域的評(píng)估任務(wù)體系構(gòu)建。我們歡迎來(lái)自相關(guān)領(lǐng)域的專(zhuān)家學(xué)者、產(chǎn)業(yè)企業(yè)、研究機(jī)構(gòu)參與共建,共同推進(jìn)Profession-Aligned Eval的發(fā)展。

3.長(zhǎng)青評(píng)估(Evergreen Eval)

評(píng)估有生命周期的任務(wù)與產(chǎn)品

靜態(tài)評(píng)估集會(huì)出現(xiàn)題目泄露的問(wèn)題。如LiveBench與LiveCodeBench評(píng)估的出現(xiàn),利用動(dòng)態(tài)更新的題目擴(kuò)充評(píng)估集,緩解了題目泄露的問(wèn)題,然而,在Agent應(yīng)用的評(píng)估任務(wù)中仍有新挑戰(zhàn)。

首先,Agent應(yīng)用的產(chǎn)品版本是具有生命周期的。Agent產(chǎn)品的迭代速度很快,會(huì)不斷集成與開(kāi)發(fā)新功能,而舊版本Agent可能會(huì)被下線。我們雖然可以在同一時(shí)間測(cè)試同類(lèi)Agent不同產(chǎn)品的能力,但是不能比較不同時(shí)間的產(chǎn)品能力進(jìn)步。

同時(shí),Agent接觸的外部環(huán)境也是動(dòng)態(tài)變化的。即使是相同的題目,如果解題需要使用互聯(lián)網(wǎng)應(yīng)用等內(nèi)容快速更新的工具,在不同時(shí)間測(cè)試效果不同。



上述表格展示了針對(duì)Agent的Live評(píng)測(cè)可獲取的結(jié)果。利用該結(jié)果可以得到同期不同產(chǎn)品的排名,但是由于評(píng)估環(huán)境與任務(wù)的調(diào)整,不同期評(píng)測(cè)之間的能力增長(zhǎng)是沒(méi)有捕捉到的。因此我們希望解決如下問(wèn)題:

評(píng)估集與模型不斷迭代情況下,設(shè)計(jì)指標(biāo)追蹤Agent能力的持續(xù)增長(zhǎng)。

統(tǒng)計(jì)上,我們可以針對(duì)殘缺得分矩陣估計(jì)每個(gè)Agent版本的能力主成分。我們采用項(xiàng)目反應(yīng)理論(Item Response Theory, IRT)完成對(duì)Agent Capability的估計(jì)。IRT理論把被測(cè)對(duì)象能力

,題目難度



以及題目區(qū)分度



按照如下模型建模,被測(cè)對(duì)象在測(cè)試題目上的得分為:



這個(gè)公式滿足題目得分概率



是[0,1]之間的取值,更大的難度系數(shù)



會(huì)降低得分概率,而強(qiáng)的能力系數(shù)

則會(huì)提升得分概率。對(duì)于區(qū)分度



更大的題目,通常伴隨能力

增長(zhǎng)更加平緩,意味題目能區(qū)分更廣泛能力的評(píng)測(cè)對(duì)象。

我們使用OpenCompass動(dòng)態(tài)更新的評(píng)估結(jié)果來(lái)驗(yàn)證IRT方法(
https://rank.opencompass.org.cn/leaderboard-llm/?m=25-01)。該榜單從2024年2月開(kāi)始,每隔1-3個(gè)月更新一次題庫(kù)并發(fā)布評(píng)估結(jié)果,下面左圖展示了不同模型在評(píng)估時(shí)間評(píng)測(cè)的得分,相同系列模型被同一顏色的線進(jìn)行連接。雖然榜單結(jié)果很好顯示了每次評(píng)估時(shí)模型能力排序,但因?yàn)轭}目更新,不同時(shí)間模型得分時(shí)不具有可對(duì)比性。

而利用IRT估計(jì)的能力得分,則可以很好地體現(xiàn)模型能力持續(xù)增長(zhǎng)的趨勢(shì)。我們可以觀察到2024年10月之后Google Gemini模型能力的快速跟進(jìn),以及Deepseek v2與r1發(fā)布所帶來(lái)的兩次明顯提升。







在后續(xù)的Agent評(píng)估中,我們會(huì)持續(xù)匯報(bào)Agent評(píng)估集不同產(chǎn)品的IRT能力得分,用于在時(shí)間上觀察到排名之外發(fā)展速度與關(guān)鍵突破的信號(hào)。

評(píng)估Agent的技術(shù)市場(chǎng)匹配(Tech-Market Fit)

成本也是Agent應(yīng)用落地的決定性因素之一。

Inference Scaling讓模型與Agent可以通過(guò)投入更多推理算力來(lái)取得更好的效果。這種投入既可以來(lái)自于強(qiáng)化學(xué)習(xí)帶來(lái)的更長(zhǎng)思維鏈,也可以是在思維鏈的基礎(chǔ)上引入更多次數(shù)的推理與匯總進(jìn)一步提升效果。

然而我們?cè)诂F(xiàn)實(shí)任務(wù)中需要考慮Inference Scaling帶來(lái)的投入產(chǎn)出比,找到在花費(fèi)、延遲與效果上的平衡。類(lèi)似于ARC-AGI,我們會(huì)追求為每個(gè)評(píng)估集匯報(bào)在效果-成本圖上的需求曲線、人類(lèi)能力曲線以及現(xiàn)有產(chǎn)品的最優(yōu)供給曲線。

在Benchmark的得分-成本圖上,我們可以劃分出左上區(qū)域的市場(chǎng)接受區(qū)與右下的技術(shù)可行區(qū)。人力成本應(yīng)當(dāng)是市場(chǎng)接受區(qū)邊緣的一部分。左圖展示了技術(shù)尚未落地的狀態(tài),而中間圖展示了TMF后的狀態(tài),而其中交叉部分是AI帶來(lái)的增量?jī)r(jià)值。對(duì)于具有TMF的AI場(chǎng)景,人力資源應(yīng)當(dāng)更多投入在領(lǐng)域的前沿以及不可評(píng)估的任務(wù),并且市場(chǎng)會(huì)因?yàn)槿肆Y源與AI算力的稀缺性不同重新給人類(lèi)貢獻(xiàn)的價(jià)值定價(jià)。

我們認(rèn)為每個(gè)專(zhuān)業(yè)領(lǐng)域會(huì)經(jīng)歷3個(gè)階段:



1. 未達(dá)成TMF:技術(shù)可信與市場(chǎng)接受區(qū)域沒(méi)有交集,此時(shí)Agent應(yīng)用僅是工具或概念,無(wú)法交付結(jié)果或規(guī)?;a(chǎn)生價(jià)值;Agent對(duì)人的影響較小。

2. Agent與Human共同工作:技術(shù)可信與市場(chǎng)接受區(qū)域發(fā)生交集,交叉區(qū)域是AI帶來(lái)的價(jià)值增量,包括(1)以低于最低人類(lèi)成本提供可行服務(wù),(2)幫助提升應(yīng)對(duì)重復(fù)性、質(zhì)量要求中等的工作內(nèi)容。而高水準(zhǔn)的工作內(nèi)容,由于數(shù)據(jù)稀缺、難度更高、依然需要人來(lái)執(zhí)行,此時(shí)由于稀缺性,企業(yè)獲取的AI Profit可能會(huì)被用于支付高端工作產(chǎn)出。

3. 專(zhuān)業(yè)化Agent:領(lǐng)域?qū)<以跇?gòu)建評(píng)估體系,并指引Agent迭代。專(zhuān)家的工作從交付結(jié)果轉(zhuǎn)向構(gòu)建專(zhuān)業(yè)評(píng)估訓(xùn)練垂類(lèi)Agents,并提供規(guī)?;?wù)。

其中從1.2.的轉(zhuǎn)變是由AI技術(shù)突破、算力與數(shù)據(jù)的Scaling帶來(lái)的,而2.轉(zhuǎn)向3.的進(jìn)展依賴于熟悉垂類(lèi)需求、標(biāo)準(zhǔn)、歷史經(jīng)驗(yàn)的專(zhuān)家。

此外,在部分領(lǐng)域中,AI可能帶來(lái)新的滿足需求的方式,改變已有的業(yè)務(wù)流程和生產(chǎn)關(guān)系組成方式。

AI可能會(huì)帶來(lái)價(jià)值轉(zhuǎn)移、改變?nèi)肆π枨蟮慕Y(jié)構(gòu),我們相信社會(huì)會(huì)因?yàn)楦咝У纳a(chǎn)效率與商業(yè)模式增加人類(lèi)的總體福利。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美五角大樓徹夜難眠:人類(lèi)史上首款空射彈道導(dǎo)彈亮相,覆蓋美全境

美五角大樓徹夜難眠:人類(lèi)史上首款空射彈道導(dǎo)彈亮相,覆蓋美全境

大道無(wú)形我有型
2025-09-04 12:15:24
正式退出,拒絕遼籃安排,安置體育局的韓德君級(jí)別年薪如何?

正式退出,拒絕遼籃安排,安置體育局的韓德君級(jí)別年薪如何?

東球弟
2025-09-04 11:24:25
解析:木子美與申奧的瓜,為什么沒(méi)有激起一點(diǎn)水花?

解析:木子美與申奧的瓜,為什么沒(méi)有激起一點(diǎn)水花?

喜歡歷史的阿繁
2025-09-03 16:21:30
心理學(xué)上有個(gè)詞叫:踢貓效應(yīng)(一個(gè)人對(duì)親人暴躁,對(duì)外人和氣,意味著什么?“踢貓效應(yīng)”告訴你答案)

心理學(xué)上有個(gè)詞叫:踢貓效應(yīng)(一個(gè)人對(duì)親人暴躁,對(duì)外人和氣,意味著什么?“踢貓效應(yīng)”告訴你答案)

德魯克博雅管理
2025-09-04 17:16:00
山東東營(yíng)市委書(shū)記楊國(guó)強(qiáng)已任海南省政府黨組成員

山東東營(yíng)市委書(shū)記楊國(guó)強(qiáng)已任海南省政府黨組成員

澎湃新聞
2025-09-04 20:34:27
臺(tái)兒莊戰(zhàn)役六功臣的悲慘結(jié)局

臺(tái)兒莊戰(zhàn)役六功臣的悲慘結(jié)局

深度報(bào)
2025-06-19 22:36:15
日本為何多次索要辛追夫人頭發(fā)?多年后真相曝光,幸好我們沒(méi)給

日本為何多次索要辛追夫人頭發(fā)?多年后真相曝光,幸好我們沒(méi)給

大千世界觀
2025-09-02 19:32:08
遏制中國(guó)不再是首要任務(wù)?中方攤牌要求取消20%關(guān)稅,川普迅速表態(tài)

遏制中國(guó)不再是首要任務(wù)?中方攤牌要求取消20%關(guān)稅,川普迅速表態(tài)

次元君情感
2025-09-04 09:32:36
外國(guó)記者看閱兵后忍不住哭了:多希望過(guò)上像中國(guó)人一樣的生活!有韓國(guó)網(wǎng)友感嘆:不愧是中國(guó),真帥啊

外國(guó)記者看閱兵后忍不住哭了:多希望過(guò)上像中國(guó)人一樣的生活!有韓國(guó)網(wǎng)友感嘆:不愧是中國(guó),真帥啊

每日經(jīng)濟(jì)新聞
2025-09-04 12:35:05
暴漲!沖破1050元/克!深圳水貝被擠爆,商家:基本買(mǎi)三件起步

暴漲!沖破1050元/克!深圳水貝被擠爆,商家:基本買(mǎi)三件起步

南方都市報(bào)
2025-09-04 10:34:22
摩根大通在比亞迪股份的持股比例于8月29日從6.67%降至6.58%

摩根大通在比亞迪股份的持股比例于8月29日從6.67%降至6.58%

每日經(jīng)濟(jì)新聞
2025-09-04 17:10:17
凱特王妃9月首亮相!狀態(tài)證實(shí)內(nèi)部傳聞,威廉王子的態(tài)度也變了!

凱特王妃9月首亮相!狀態(tài)證實(shí)內(nèi)部傳聞,威廉王子的態(tài)度也變了!

小嵩
2025-09-04 20:52:33
亞洲唯一的永久中立國(guó),至今仍在閉關(guān)鎖國(guó),比朝鮮還要神秘

亞洲唯一的永久中立國(guó),至今仍在閉關(guān)鎖國(guó),比朝鮮還要神秘

博覽歷史
2025-08-08 16:29:29
售價(jià) 33.9 萬(wàn)元,銷(xiāo)售人員稱(chēng)特斯拉 Model Y L 日均訂單近萬(wàn)輛

售價(jià) 33.9 萬(wàn)元,銷(xiāo)售人員稱(chēng)特斯拉 Model Y L 日均訂單近萬(wàn)輛

IT之家
2025-09-03 23:31:12
我國(guó)將誕生第5座直轄市?南京、成都基本無(wú)緣,4城呼聲最高

我國(guó)將誕生第5座直轄市?南京、成都基本無(wú)緣,4城呼聲最高

紀(jì)中百大事
2025-08-28 19:37:25
小縣城的留守婦女,到底有多缺錢(qián)?

小縣城的留守婦女,到底有多缺錢(qián)?

英軍眼
2025-07-30 14:55:01
毛主席紀(jì)念堂重要公告

毛主席紀(jì)念堂重要公告

政知新媒體
2025-09-04 20:49:58
預(yù)售爆單的沃爾沃XC70:打的就是Model Y!

預(yù)售爆單的沃爾沃XC70:打的就是Model Y!

趣味萌寵的日常
2025-09-03 23:14:12
杭州放假通知:連休11天

杭州放假通知:連休11天

魯中晨報(bào)
2025-09-04 13:31:05
“外交男神”王毅年輕舊照,與妻子罕見(jiàn)同框,岳父曾是周總理秘書(shū)

“外交男神”王毅年輕舊照,與妻子罕見(jiàn)同框,岳父曾是周總理秘書(shū)

寒士之言本尊
2025-08-07 12:44:53
2025-09-04 22:20:49
甲子光年
甲子光年
中國(guó)科技產(chǎn)業(yè)化前沿智庫(kù)
3168文章數(shù) 9252關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機(jī)新品

頭條要聞

男子買(mǎi)5元材料自行補(bǔ)牙口腔長(zhǎng)"烤年糕" 醫(yī)生:沒(méi)人敢拆

頭條要聞

男子買(mǎi)5元材料自行補(bǔ)牙口腔長(zhǎng)"烤年糕" 醫(yī)生:沒(méi)人敢拆

體育要聞

這個(gè)中國(guó)人,和楊瀚森一起進(jìn)了《NBA2K26》

娛樂(lè)要聞

墻倒眾人推!胡歌張譯的仇終于有人報(bào)

財(cái)經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車(chē)要聞

對(duì)話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

親子
家居
旅游
教育
公開(kāi)課

親子要聞

北大醫(yī)學(xué)博士談雞娃:父母需要接納孩子的平凡

家居要聞

高級(jí)黑白 體現(xiàn)簡(jiǎn)單生活

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

教育要聞

深圳同學(xué)的失眠,讓我重新思考“補(bǔ)課”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国内精品久久久久影院老司机| 六月丁香婷婷久久| 精品国产成人国产在线观看| 免费真人av| 久久香蕉国产线看观看精品yw | 亚洲国产婷婷六月丁香| 人人妻人人澡人人爽人人精品| 少妇掰开逼一区二区| 无码av不卡免费播放| 亚洲无码18禁| 欧美mmCn| 久久精品女人的天堂av| 国产精品_国产精品_k频道| 凹凸久久久精品| 欧美变态另类zozo| 亚洲有码中文在线| 91精品人妻一区二区六十路| 亚洲AV无码精品色欲av| 主播xxxx| 欧美成人福利网站| 91网址在线播放| 中国语音大黑逼黄色日女人| www在线观看无码| 国语自产精品视频在线看| 玩弄老熟女30p| 人人D人人澡| 亚洲第一av男人的天堂| 超碰人妻澡澡| 欧美z0zo人禽交| 国产精品小视频一区二页| 熟妇人妻中文av无码| 色欲av一区二区| 日韩免费码中文在线观看 | 国产一区二区激情对白在线| 香蕉乱码成人久久天堂爱| 国产精品视频无码中出| 少妇被爽到高潮喷水久久欧美精品 | 日韩人妻人操| 无码人妻一区二区三区一| 亚洲一区二区精品无码久久久| 久久婷婷五月综合色99啪ak|