夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

評(píng)測(cè)也很酷,Data Agent 自動(dòng)化評(píng)測(cè)的三層框架與實(shí)戰(zhàn)

0
分享至


作者|尹小明

編輯|李忠良

策劃|AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)

在大模型技術(shù)飛速發(fā)展的當(dāng)下,大數(shù)據(jù)領(lǐng)域的各類(lèi)應(yīng)用如雨后春筍般涌現(xiàn),從數(shù)倉(cāng)開(kāi)發(fā)到 ChatBI 問(wèn)數(shù),再到深度分析 Agent,這些領(lǐng)域的大模型應(yīng)用極大地提升了數(shù)據(jù)處理和分析的效率。但與此同時(shí),如何科學(xué)、準(zhǔn)確地評(píng)估這些應(yīng)用的效果,成為了行業(yè)面臨的重要難題。

InfoQ 榮幸邀請(qǐng)到了字節(jié)跳動(dòng) / 數(shù)據(jù)平臺(tái)大模型評(píng)測(cè)技術(shù)負(fù)責(zé)人尹小明在 AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)·深圳站上分享了《評(píng)測(cè)也很酷——Agent 自動(dòng)化評(píng)測(cè)技術(shù)創(chuàng)新與實(shí)踐》。作為字節(jié)跳動(dòng)數(shù)據(jù)平臺(tái)的大模型效果評(píng)估團(tuán)隊(duì),他們深耕數(shù)據(jù)應(yīng)用 Agent 領(lǐng)域,構(gòu)建了覆蓋從數(shù)據(jù)開(kāi)發(fā)到數(shù)據(jù)應(yīng)用垂直領(lǐng)域 Agent 應(yīng)用的評(píng)測(cè)技術(shù)體系,尤其在自動(dòng)化評(píng)測(cè)算法、Agent 級(jí)評(píng)測(cè)框架等方面形成了可落地的技術(shù)方案。本次分享將聚焦這一領(lǐng)域的技術(shù)細(xì)節(jié)與實(shí)踐經(jīng)驗(yàn)。

12 月 19~20 日的 AICon 北京站 將錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴(lài)、可規(guī)?;?、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長(zhǎng)天花板的核心引擎。

詳細(xì)日程見(jiàn):

https://aicon.infoq.cn/202512/beijing/schedule

以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/blockquote>

為什么“評(píng)測(cè)也很酷”:

從用例到效果度量

先談今天分享的主題——“評(píng)測(cè)也很酷”。在傳統(tǒng)軟件測(cè)試中,我們編寫(xiě)并執(zhí)行用例,核對(duì)功能是否正常即可。而在大模型相關(guān)場(chǎng)景中,評(píng)測(cè)的復(fù)雜度和挑戰(zhàn)明顯更高。

挑戰(zhàn)主要體現(xiàn)在兩方面:一是如何更加貼切地評(píng)價(jià)我們所構(gòu)建應(yīng)用的實(shí)際效果;二是既有的傳統(tǒng)技術(shù)是否可復(fù)用,若不足,我們應(yīng)在何處開(kāi)展探索與創(chuàng)新。那當(dāng)我們談“模型評(píng)測(cè)”時(shí),究竟在說(shuō)什么、常見(jiàn)的評(píng)測(cè)維度和指標(biāo)有哪些?


首先是“效果”,也就是大家常說(shuō)的好不好、準(zhǔn)不準(zhǔn)。這里有三個(gè)常見(jiàn)指標(biāo),首先是事實(shí)性,指模型在回答時(shí)是否遵從通識(shí)和常識(shí),在給定上下文的情況下是否依據(jù)證據(jù)作答,是否存在“幻覺(jué)”;其次是有用性,回答是否對(duì)任務(wù)有幫助,不能只是講了實(shí)話卻對(duì)問(wèn)題沒(méi)有實(shí)質(zhì)價(jià)值;最后是有害性,這是模型訓(xùn)練和評(píng)估都會(huì)關(guān)注的方向,比如是否觸及政治敏感、是否引導(dǎo)不當(dāng)行為等;

其次,是性能與推理性能。很多人都有這種體驗(yàn):大模型輸出 Token 很慢,我得等很久,眼看著一個(gè)字一個(gè)字往外蹦。這里通常涉及首個(gè) Token 出現(xiàn)的時(shí)間,也就是首字符 / 首 Token 時(shí)延,以及完整推理過(guò)程中的生成速度等;同時(shí)還要看資源消耗,這些都應(yīng)納入評(píng)估口徑;

第三是穩(wěn)健性,或者說(shuō)魯棒性。重點(diǎn)在于能不能容錯(cuò)、持續(xù)穩(wěn)定地輸出,以及面對(duì)對(duì)抗或異常輸入時(shí)的抗攻擊能力。這些都直接關(guān)系到上線后的可用性與風(fēng)險(xiǎn)。

明確了該“看什么”,接下來(lái)就是“怎么評(píng)”。在實(shí)際工作中,當(dāng)前的常見(jiàn)評(píng)測(cè)方法有以下幾種:

首先人工評(píng)測(cè)。在大模型生成帶有主觀性的內(nèi)容時(shí),比如一次性生成幾千張創(chuàng)意圖片,哪個(gè)更好、哪個(gè)更差,通常要先請(qǐng)領(lǐng)域?qū)<疫^(guò)一遍,并據(jù)此寫(xiě)出清晰的評(píng)價(jià)標(biāo)準(zhǔn)——我們認(rèn)為什么是“好”,什么是“壞”;其次是自動(dòng)化評(píng)測(cè)。

業(yè)界普遍的做法大致有幾類(lèi):一類(lèi)是客觀題(單選或多選),便于直接做結(jié)果匹配;文本類(lèi)會(huì)更難一些,常見(jiàn)思路是和標(biāo)準(zhǔn)答案做相似度比較,配合相應(yīng)算法和指標(biāo),比如 BLEU、ROUGE 等;還有一類(lèi)是基于排序的評(píng)估(rank),在 RLHF 里就很典型——不是給一個(gè)絕對(duì)分,而是讓人對(duì)多個(gè)候選進(jìn)行相對(duì)優(yōu)劣比較,從而完成與人的偏好對(duì)齊。

此外,人機(jī)協(xié)同評(píng)測(cè)。很多場(chǎng)景里,純自動(dòng)化還達(dá)不到足夠準(zhǔn)確、足夠讓人放心的程度,于是通常采用機(jī)器先給出初步結(jié)論和建議,再由人工復(fù)核與定判。

不過(guò),落地過(guò)程中依然會(huì)暴露出一些共性痛點(diǎn)。

一方面當(dāng)下有很多評(píng)測(cè) Benchmark,也有很多評(píng)測(cè)集。當(dāng)評(píng)測(cè)結(jié)束之后,大家常有一個(gè)痛點(diǎn):你說(shuō)現(xiàn)在效果很好,可為什么線上客戶(hù)老在吐槽,說(shuō)“我的感覺(jué)沒(méi)有你說(shuō)的分?jǐn)?shù)那么高”?這其實(shí)就是靜態(tài)評(píng)測(cè)和線上實(shí)際效果脫節(jié)的問(wèn)題。

另一方面:今天很多評(píng)測(cè)往往針對(duì)模型的單一能力,或者若干常見(jiàn)的通用能力。這就像高考考數(shù)學(xué)、語(yǔ)文、英語(yǔ);但這些科考完,放到自己的業(yè)務(wù)里會(huì)發(fā)現(xiàn),成績(jī)好并不等于能力強(qiáng)?;氐綄?shí)際業(yè)務(wù)場(chǎng)景,我該怎么綜合評(píng)估他的能力?

再者,即便有了一個(gè)評(píng)測(cè)集,業(yè)務(wù)在變,產(chǎn)品定義在變,線上用戶(hù)的使用方式也在變。這個(gè)時(shí)候,評(píng)測(cè)就更難反映線上的真實(shí)情況。

以上是通用框架,落到數(shù)據(jù)應(yīng)用 Agent,具體會(huì)碰到哪些垂直適配難點(diǎn)?


第一,領(lǐng)域特殊性。模型的代碼生成能力很強(qiáng),但在早期訓(xùn)練語(yǔ)料里,SQL 的占比非常低。所以你會(huì)發(fā)現(xiàn):它寫(xiě) Python 還不錯(cuò),寫(xiě) SQL 就明顯吃力。另外,在數(shù)據(jù)領(lǐng)域,數(shù)據(jù)“正確性”極其關(guān)鍵。

找資料、寫(xiě)個(gè)想法,準(zhǔn)不準(zhǔn)影響也許不大;但一份數(shù)據(jù)分析報(bào)告,或者一個(gè)關(guān)鍵數(shù)值,最后要給到老板,如果這個(gè)數(shù)差之千里,后果就很?chē)?yán)重了。

還有,從評(píng)測(cè)的維度來(lái)看,通用模型通常關(guān)注一些基礎(chǔ)能力,比如數(shù)學(xué)。但一旦落到真正的 Agent 場(chǎng)景,情況就完全不同了。在數(shù)據(jù)(Data Agent)方向,像“深度研究”這樣的產(chǎn)品形態(tài),涉及的維度非常多。其包括數(shù)據(jù)源的差異、數(shù)據(jù)的異構(gòu)性都很復(fù)雜。

因此,對(duì)應(yīng)的評(píng)估維度也需要從單一能力,擴(kuò)展到能夠覆蓋這些復(fù)雜因素。

第三,“效率”與“并發(fā)”非常關(guān)鍵,這里的并發(fā)指研發(fā)并發(fā),同時(shí)嘗試多種方案。這點(diǎn)尤其重要。為什么?因?yàn)樵谧瞿P蜁r(shí),我們至今并沒(méi)有一套被驗(yàn)證為“最有效”的通用架構(gòu);模型本身也在不斷迭代。

很難沿著一條技術(shù)路線一直走到底,所以必須做大量嘗試;新模型出來(lái),也要做新的探索。此時(shí)能否承載方案空間的復(fù)雜度,往往決定成敗。因此,評(píng)測(cè)的效率就顯得格外重要。一輪回歸測(cè)試要做兩周,和一天之內(nèi)就能判斷一個(gè)方案是好是壞,帶來(lái)的研發(fā)周期差異可想而知。

三層評(píng)測(cè)框架


前面說(shuō)的是數(shù)據(jù)領(lǐng)域里可能會(huì)遇到的問(wèn)題?;氐?Agent 這邊,我們提出了一個(gè)“三層評(píng)測(cè)”的體系設(shè)計(jì)。在構(gòu)建大模型的 Agent 應(yīng)用時(shí),通常會(huì)同時(shí)面對(duì)幾層問(wèn)題。

最下層是技術(shù)選型。市面上的模型很多,豆包、千問(wèn)、文心、DeepSeek 等等。我的 Agent 關(guān)注哪些能力,哪些模型能達(dá)標(biāo)、值得進(jìn)入實(shí)驗(yàn)集?不能盲目把所有模型都往架構(gòu)里堆,并發(fā)和成本都承受不住。先做一輪有依據(jù)的篩選,這一步非常關(guān)鍵;

中間層是研發(fā)迭代。確定了初步架構(gòu)之后,需要持續(xù)優(yōu)化,并能看清 Agent 的各個(gè)部分在哪里拖了后腿。大家熟悉的 Multi-Agent、ReAct、workflow 都會(huì)用到。做法上更像“單元測(cè)試”式的評(píng)測(cè):把子模塊拆開(kāi)看,既看效果也看速度,把問(wèn)題收斂到具體模塊,迭代才高效;

最上層才是端到端的業(yè)務(wù)效果。最終要用一套覆蓋完整鏈路的評(píng)測(cè)集與流程,加上相應(yīng)的方法實(shí)踐,來(lái)衡量這個(gè) Agent 在真實(shí)任務(wù)中的表現(xiàn)到底如何。


圍繞上述各層,我們開(kāi)展了配套實(shí)踐。

第一個(gè)層面是基礎(chǔ)能力評(píng)測(cè),對(duì)應(yīng)我們前面說(shuō)的技術(shù)選型階段。做這件事的目的,是先設(shè)定一個(gè)“準(zhǔn)入門(mén)檻”。以數(shù)據(jù)領(lǐng)域?yàn)槔覀儠?huì)關(guān)注工具調(diào)用能力(Function Call、Tool using、MCP 等)、數(shù)值計(jì)算與表格理解、數(shù)據(jù)幻覺(jué)的控制、復(fù)雜指令遵循,以及編碼與 Text-to-SQL。各個(gè)方向基本都有可參考的開(kāi)源 Benchmark。

比如在 Function Call 方向,我們調(diào)研后會(huì)采用 ComplexFuncBench;在編碼能力上,早期熟悉的 HumanEval 仍有參考價(jià)值,現(xiàn)在也會(huì)引入 SWE-Bench(評(píng)估代碼 Agent 能力的 Benchmark)。這些評(píng)測(cè)會(huì)接入我們的平臺(tái),提供給數(shù)據(jù)平臺(tái)的各個(gè)探索團(tuán)隊(duì)使用。

第二個(gè)層面是組件(或子 Agent)的評(píng)測(cè),面向的是 Agent 的各個(gè)組成部分??梢园岩粋€(gè) Agent 的工作流程拆成幾個(gè)階段:先是召回,比如做 Schema Linking;然后是理解與規(guī)劃;接著進(jìn)入洞察、分析與執(zhí)行;最后是結(jié)果總結(jié),把結(jié)論寫(xiě)成報(bào)告。

我們要看的,是問(wèn)題出在第幾個(gè)階段,以及每個(gè)階段的實(shí)際表現(xiàn)如何。放到一個(gè)典型的 RAG 應(yīng)用里,前序召回的上下文質(zhì)量會(huì)直接決定后續(xù)表現(xiàn):Schema 里有沒(méi)有找到正確的字段、閾值和指標(biāo),都會(huì)影響后面 SQL 能不能寫(xiě)對(duì)。如果第一階段就偏差很大,后面再怎么優(yōu)化 Agent 也很難“拉回”。

第三個(gè)層面,是端到端效果評(píng)測(cè)。一方面,我們針對(duì)特定的業(yè)務(wù)場(chǎng)景構(gòu)建相應(yīng)的評(píng)測(cè)集;層級(jí)越往上,我們離業(yè)務(wù)越近,評(píng)測(cè)也就越貼近實(shí)際的業(yè)務(wù)場(chǎng)景和產(chǎn)品形態(tài)的定義。

我們相應(yīng)地構(gòu)建評(píng)測(cè)集和自動(dòng)化評(píng)測(cè)方法;同時(shí),在我們的評(píng)估平臺(tái)上設(shè)有“數(shù)據(jù)與飛輪”模塊對(duì)接業(yè)務(wù),把線上的會(huì)話日志采集進(jìn)來(lái),用于 Case Study、回歸評(píng)測(cè)集的沉淀,以及人工標(biāo)注。

Data Agent 評(píng)測(cè)技術(shù)創(chuàng)新和實(shí)踐

基于上述“三層評(píng)測(cè)”框架,下一步將聚焦 Data Agent 這一主題,結(jié)合兩個(gè)具體案例展開(kāi)說(shuō)明。


其一為 Text-to-SQL 任務(wù)。無(wú)論是問(wèn)答取數(shù)類(lèi) Agent,還是更綜合的分析型 Data Agent,自然語(yǔ)言查詢(xún)通常需要轉(zhuǎn)化為實(shí)際的 SQL 查詢(xún);無(wú)論用戶(hù)提出具體指標(biāo)問(wèn)題(如“昨天的 DAU 是多少”)還是總結(jié)性分析請(qǐng)求(如“請(qǐng)分析上一周的數(shù)據(jù)情況”),底層通常都會(huì)拆解為若干查詢(xún)?nèi)蝿?wù),核心評(píng)估點(diǎn)落在 SQL 查詢(xún)的準(zhǔn)確率與誤差歸因。

傳統(tǒng)的 Text-to-SQL(或 NL-to-SQL)評(píng)測(cè)方法與數(shù)據(jù)集(如 Spider、WikiSQL、BIRD-SQL 等)為通用場(chǎng)景提供了基礎(chǔ)衡量手段,但在面向大數(shù)據(jù)與真實(shí)業(yè)務(wù)約束的環(huán)境中,仍會(huì)遭遇諸多適配性與可擴(kuò)展性問(wèn)題。

傳統(tǒng)評(píng)測(cè)方法往往只給出“對(duì) / 錯(cuò)”的結(jié)論,這種二元判定無(wú)法體現(xiàn)能力優(yōu)劣的細(xì)微差異。以一條 SQL 為例,若僅在某個(gè)條件上將“≥”寫(xiě)成“>”,其余部分完全正確,執(zhí)行結(jié)果可能只相差極小,但在二元評(píng)分下仍被判為零分。

若此類(lèi)情況高頻出現(xiàn),模型的實(shí)際可用性仍然較強(qiáng)——在數(shù)據(jù)開(kāi)發(fā)場(chǎng)景中,只需改動(dòng)個(gè)別細(xì)節(jié)即可投入使用——而傳統(tǒng)方法無(wú)法反映這種“接近正確”的價(jià)值。

所謂“執(zhí)行正確性”,是指對(duì)每個(gè)問(wèn)題—答案對(duì)提供標(biāo)準(zhǔn) SQL 與測(cè)試數(shù)據(jù)集,分別執(zhí)行標(biāo)準(zhǔn) SQL 與模型預(yù)測(cè)的 SQL,比較結(jié)果是否一致,以此判斷對(duì)錯(cuò)。

然而實(shí)踐表明,這一方法易產(chǎn)生誤判。根源在于測(cè)試數(shù)據(jù)分布并不完備,可能存在“非等價(jià) SQL 執(zhí)行結(jié)果相同”的情況。例如,age > 34 與 age ≥ 34 在測(cè)試集中恰無(wú) 34 這一邊界值時(shí),二者輸出一致,導(dǎo)致錯(cuò)誤地判定為正確。

這里放一個(gè)稍微復(fù)雜點(diǎn)的例子:我們的gold(ground truth)標(biāo)準(zhǔn)答案其實(shí)是一條很簡(jiǎn)單的 SQL,問(wèn)題是“文檔中哪些template_id被使用過(guò)”。但模型在預(yù)測(cè)時(shí),去和另一張template表做了INNER JOIN,按id關(guān)聯(lián)。

肉眼一看就知道兩者不是一回事。按理說(shuō),放到設(shè)計(jì)更嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)集上,應(yīng)該能把差異測(cè)出來(lái);可不幸的是,在 Spider 上兩條 SQL 的執(zhí)行結(jié)果一模一樣,最終造成了誤判。

還有一種做法是比較標(biāo)準(zhǔn)答案 SQL 與預(yù)測(cè) SQL 的文本相似度。字面上可以直接比對(duì)一致性,并計(jì)算一個(gè)相似度分?jǐn)?shù),比如余弦相似度等。但這類(lèi)方法很難準(zhǔn)確反映語(yǔ)義 / 邏輯上的等價(jià):哪怕只是表名或子查詢(xún)的別名不同,也可能被判為不一致而誤判。

第三個(gè)問(wèn)題,如果要在大數(shù)據(jù)引擎(比如 ClickHouse)上構(gòu)造一套可用于回歸測(cè)試的數(shù)據(jù)集,成本非常高。這些都是傳統(tǒng) Text-to-SQL 評(píng)測(cè)在實(shí)際落地中的局限。


針對(duì)以上問(wèn)題,我們做了一些改進(jìn),核心是提出一套基于語(yǔ)義等價(jià)的評(píng)測(cè)方法。所謂語(yǔ)義等價(jià),是指兩條 SQL 在邏輯含義上相同,那么它們?cè)?strong>執(zhí)行結(jié)果上就應(yīng)當(dāng)相同;只要判斷這一點(diǎn)即可,并不一定需要真正去跑一次查詢(xún)。

做法上,先把 SQL 當(dāng)作代碼處理,表示成抽象語(yǔ)法樹(shù)(AST)。進(jìn)一步,我們借助Apache Calcite做執(zhí)行層的下推,把字面 SQL 轉(zhuǎn)成執(zhí)行層的語(yǔ)法表示,也就是RelNode。到了這一層,很多寫(xiě)法上的不一致會(huì)被歸一到相同的執(zhí)行語(yǔ)義。

舉兩個(gè)直觀的例子:某些情況下,用JOIN和用IN子查詢(xún)是等價(jià)的;再比如連接兩個(gè)表時(shí),你可以用子查詢(xún),也可以用WHERE條件,最終下推到執(zhí)行語(yǔ)法樹(shù)上的執(zhí)行過(guò)程是一樣的。通過(guò)這樣的語(yǔ)義下推和標(biāo)準(zhǔn)化,能抹平大量表面差異。

第二個(gè)方法,我們把節(jié)點(diǎn)之間的引用關(guān)系建立起來(lái):參考答案是一張圖,預(yù)測(cè)答案也是一張圖,然后訓(xùn)練一個(gè)圖匹配網(wǎng)絡(luò)(Graph-Matching Network,GMN)來(lái)計(jì)算兩條 SQL 在語(yǔ)法 / 表達(dá)上的相似度?;谡Z(yǔ)法樹(shù)的匹配這一路,我們稱(chēng)為RelPM(在執(zhí)行層面的語(yǔ)法樹(shù)上做Partial Matching的局部匹配):用規(guī)則做局部比對(duì)并賦權(quán),得到 0~1 的相似度分?jǐn)?shù),已經(jīng)明顯優(yōu)于傳統(tǒng)做法。

進(jìn)一步,在FuncEvalGMN上,無(wú)論對(duì)比基于執(zhí)行正確性的評(píng)測(cè)、基于文本 / 語(yǔ)義相似度的評(píng)測(cè),還是一些基于 BERT 的預(yù)訓(xùn)練模型,我們的效果都有顯著提升。在業(yè)務(wù)側(cè),這套方法也已經(jīng)成為我們數(shù)據(jù)領(lǐng)域的核心算法之一。

以上 Text-to-SQL 更偏向“查詢(xún)”類(lèi)場(chǎng)景,不過(guò) Data Agent 的產(chǎn)品形態(tài)在不斷豐富?,F(xiàn)在形成了一種新的產(chǎn)品形態(tài)——“深度研究”。用戶(hù)只需提出一個(gè)簡(jiǎn)單的問(wèn)題,或者把意圖描述清楚,系統(tǒng)就會(huì)給出一套完整的分析流程,并且能夠同時(shí)完成多種分析任務(wù)。

評(píng)測(cè)在這里會(huì)明顯更難。它不再是簡(jiǎn)單的查數(shù)題,比 Text-to-SQL 難得多。我們要回答的不是“查得對(duì)不對(duì)”這么單一的問(wèn)題,還要判斷:這份報(bào)告是否對(duì)業(yè)務(wù)有用;生成時(shí)的推理思路是否合理;內(nèi)容是否完整,是否覆蓋了我要求它分析的那些角度;最后給出的建議是否有效。

用什么維度來(lái)衡量一份深度分析報(bào)告“好不好”,以及如何把這些維度做成可執(zhí)行的自動(dòng)化評(píng)測(cè),都是實(shí)打?qū)嵉奶魬?zhàn)。


因此我們首先定義了一套評(píng)測(cè)體系。它是指用一套明確的標(biāo)準(zhǔn)來(lái)衡量好與壞。就像高考有一整套評(píng)價(jià)口徑;公司招聘、晉升和績(jī)效也都有相應(yīng)的準(zhǔn)則一樣。針對(duì)“深度研究”這種產(chǎn)品形態(tài),我們從幾個(gè)角度來(lái)評(píng):一是分析與洞察的深度與準(zhǔn)確性;二是報(bào)告在展示上的可讀性、易讀性;三是執(zhí)行過(guò)程的穩(wěn)定性與成功率。圍繞這些,我們?cè)O(shè)定了第一層與第二層的評(píng)估維度,并分別定義了關(guān)鍵指標(biāo),并在每項(xiàng)指標(biāo)下設(shè)定可落地的評(píng)分點(diǎn)。


接下來(lái)談自動(dòng)化評(píng)估技術(shù)。這是業(yè)界相對(duì)前沿的話題,大家可能聽(tīng)過(guò) “LLM as a Judge” 或 “LLM Judge”。我們最新的探索是用 Agent 來(lái)評(píng)測(cè) Agent。原因很簡(jiǎn)單:寫(xiě)一份數(shù)據(jù)分析報(bào)告,沒(méi)辦法把數(shù)據(jù)直接丟給大模型就指望一次性產(chǎn)出完整結(jié)果,中間需要大量 Agent 能力來(lái)完成過(guò)程性的工作,所以在評(píng)測(cè)側(cè)同樣要引入 Agent 技術(shù)。

從評(píng)測(cè)角度來(lái)講。我們也不可能把一個(gè)結(jié)果直接交給 LLM 就讓它打分完事,評(píng)測(cè)仍需要 Agent。這里大家可能會(huì)有個(gè)自然的疑問(wèn):Data Agent 做了那么多架構(gòu)改進(jìn)、用了那么多技術(shù)和技巧,甚至有那么多專(zhuān)家參與,它都可能算不對(duì);為什么“評(píng)測(cè)的 Agent”能評(píng)得出來(lái)?

這是我們一開(kāi)始必須回答的基礎(chǔ)判斷。我的判斷基于幾個(gè)前提:第一,挑錯(cuò)往往比做對(duì)容易;給出一套完全正確的方案很難,但指出其中的問(wèn)題相對(duì)容易。第二,可以復(fù)盤(pán)過(guò)程:把 Data Agent 寫(xiě)報(bào)告的完整流程和數(shù)據(jù)計(jì)算鏈路逐步審閱,像批改應(yīng)用題一樣看每一步思路是否合理;如果每一步都是對(duì)的,結(jié)果大概率也是對(duì)的。第三,可以做定向優(yōu)化:針對(duì)特定領(lǐng)域或特定評(píng)測(cè)集進(jìn)行針對(duì)性調(diào)優(yōu),并結(jié)合 Agent 方法增強(qiáng)判斷能力。基于這些,我們認(rèn)為這條路線是有前景的。

在實(shí)現(xiàn)上,我們用到一些基本技術(shù)。其一是自我反思:模型先按評(píng)分標(biāo)準(zhǔn)完成一次打分,再進(jìn)入反思環(huán)節(jié),檢查自己是否完整遵循了打分邏輯、是否有遺漏。其二是多 Agent 協(xié)作架構(gòu)

我們把評(píng)估對(duì)象(報(bào)告)、評(píng)估過(guò)程、問(wèn)題及相關(guān)上下文作為整體輸入,送入一個(gè)用于應(yīng)用評(píng)估的系統(tǒng)(我們稱(chēng)為 Critic Agents)。該系統(tǒng)首先按我們的評(píng)分標(biāo)準(zhǔn)與細(xì)則完成初評(píng)分,然后交給 Reflect(自我反思)模塊,復(fù)查本次打分是否存在遺漏或不當(dāng)之處。

再舉一個(gè)我們踩過(guò)的坑:寫(xiě)報(bào)告時(shí)很容易在單位轉(zhuǎn)換上出錯(cuò)。原始計(jì)算得到的是一個(gè)數(shù),寫(xiě)進(jìn)報(bào)告卻被表述成“XX 萬(wàn)”。這既是 Data Agent 的高發(fā)錯(cuò)誤點(diǎn),也是評(píng)估里容易被誤判的點(diǎn)。

針對(duì)這類(lèi)問(wèn)題,我們會(huì)把相關(guān)環(huán)節(jié)交給Reflect的反思流程復(fù)查;同時(shí)引入多個(gè) Agent,從不同角度、甚至基于不同的底層模型分別打分,最后由“裁判長(zhǎng)”統(tǒng)一審閱整條打分鏈路及其與標(biāo)準(zhǔn)答案的對(duì)齊情況。

整體架構(gòu)上,我們還會(huì)結(jié)合ReAct,讓評(píng)測(cè)側(cè)“自己寫(xiě)代碼”把關(guān)鍵數(shù)據(jù)復(fù)算一遍,核對(duì)計(jì)算是否正確。遇到特定場(chǎng)景(比如歸因分析),要完成有效評(píng)估還需要專(zhuān)業(yè)的領(lǐng)域計(jì)算工具;這些工具同樣交由評(píng)判方調(diào)用,才能對(duì)該類(lèi)任務(wù)給出評(píng)價(jià)結(jié)果。

為說(shuō)明方法有效性,以下給出兩個(gè)真實(shí)案例。


這是第一個(gè)案例:我們用自動(dòng)化評(píng)測(cè)在報(bào)告里定位到數(shù)據(jù)錯(cuò)誤。上面的片段是一個(gè)典型的歸因場(chǎng)景。機(jī)評(píng)發(fā)現(xiàn),報(bào)告寫(xiě)到“德芙巧克力單筆銷(xiāo)售額 1.5 萬(wàn)”等數(shù)字沒(méi)有真實(shí)來(lái)源?;厮葸^(guò)程可以看到,右側(cè)的 SQL 少寫(xiě)了一個(gè)GROUP BY 商品名。

在這種寫(xiě)法下,只能查出一系列明細(xì)訂單,不可能直接得到“德芙巧克力 1.5 萬(wàn)”這樣的聚合結(jié)論。原始明細(xì)里雖然出現(xiàn)過(guò)“1.5 萬(wàn)”這個(gè)數(shù),但無(wú)法據(jù)此推斷它對(duì)應(yīng)“德芙巧克力”。這一問(wèn)題被機(jī)評(píng)準(zhǔn)確抓出。

在人評(píng)場(chǎng)景中,讀過(guò)類(lèi)似報(bào)告的同學(xué)會(huì)有同感:像 OpenAI 的 Deep Research 那樣的長(zhǎng)報(bào)告,要把其中每個(gè)數(shù)字都核驗(yàn)一遍,幾乎不現(xiàn)實(shí);人評(píng)非常容易漏錯(cuò)。相比之下,機(jī)評(píng)在這類(lèi)細(xì)粒度、很復(fù)雜的校驗(yàn)上更有優(yōu)勢(shì)。


第二個(gè)例子,我們?cè)u(píng)估的是“分析意圖的完成度”。左邊是題目:對(duì) DAU 數(shù)據(jù)做分析;下面先定義分析對(duì)象,再給出一套完整的分析框架,也就是要從哪些角度展開(kāi)。右邊是自動(dòng)化評(píng)測(cè)頁(yè)面的截圖。紅框里可以看到:這個(gè)題目一共有 18 個(gè)分析意圖,這份報(bào)告完成了 17 個(gè),對(duì)應(yīng)得分 0.94。系統(tǒng)還會(huì)標(biāo)注哪一個(gè)意圖沒(méi)有完成,已完成的意圖在報(bào)告中對(duì)應(yīng)的是哪些章節(jié)。由此能直觀看到機(jī)評(píng)在這個(gè)場(chǎng)景下的實(shí)際效果。

最后給一組離線實(shí)驗(yàn)數(shù)據(jù):我們做了人評(píng)與機(jī)評(píng)的對(duì)比。機(jī)評(píng)在事實(shí)性錯(cuò)誤上的召回率超過(guò) 88%,準(zhǔn)確性達(dá)到 86%。意思是說(shuō),真實(shí)存在的錯(cuò)誤里有 88% 以上能被正確發(fā)現(xiàn);而被機(jī)評(píng)判為“錯(cuò)誤”的項(xiàng)里,接近九成判斷是對(duì)的。對(duì)日常評(píng)測(cè),尤其是研發(fā)迭代,這樣的能力基本夠用。只要測(cè)試集覆蓋充分,就能用來(lái)比較兩個(gè)版本、兩種架構(gòu)的優(yōu)劣。

當(dāng)然也有目前覆蓋不到的部分。比如易讀性高度依賴(lài)人工判斷:圖表展示是否出現(xiàn)圖例堆疊等問(wèn)題,自動(dòng)化暫時(shí)難以發(fā)現(xiàn);再如報(bào)告是否“足夠有深度、足夠有豐富度”,這些判斷偏主觀,我們也尚未做自動(dòng)化覆蓋。

評(píng)估平臺(tái)的工具與鏈路建設(shè)

開(kāi)展評(píng)測(cè)不僅需要方法與算法,也需要完善的平臺(tái)與工具支撐。我們?cè)跀?shù)據(jù)平臺(tái)內(nèi)部搭建了面向數(shù)據(jù)評(píng)估的統(tǒng)一平臺(tái),定位于為大模型應(yīng)用的探索與優(yōu)化提效。平臺(tái)覆蓋數(shù)據(jù)集管理與標(biāo)注、自動(dòng)化與人工評(píng)測(cè)、指標(biāo)匯總與分析、結(jié)果歸因與對(duì)比歸因等完整流程,并提供相應(yīng)的功能組件。

另外平臺(tái)同時(shí)引入“數(shù)據(jù)飛輪”,將線上新增案例持續(xù)沉淀為評(píng)測(cè)集,確保評(píng)測(cè)隨業(yè)務(wù)與使用方式演化而更新;在基礎(chǔ)選型環(huán)節(jié),提供 Benchmark 與榜單模塊,便于業(yè)務(wù)側(cè)進(jìn)行判斷與選擇。

這里簡(jiǎn)單介紹一下幾個(gè)特色功能。第一個(gè)“數(shù)據(jù)飛輪”前面已經(jīng)提過(guò)。第二,我們還提供一系列常用評(píng)測(cè)算子,既有基于規(guī)則實(shí)現(xiàn)的,也有基于大模型實(shí)現(xiàn)的。

業(yè)務(wù)方可以自行調(diào)用,在“自定義策略”模塊里按業(yè)務(wù)需要編排這些“原子算子”,實(shí)現(xiàn)自己的分析邏輯。針對(duì)這類(lèi)場(chǎng)景,我們還設(shè)計(jì)了“評(píng)估工作流”模塊。用過(guò)類(lèi)似 langchain、Dify、Coze 這類(lèi)平臺(tái)的同學(xué)都會(huì)熟悉,用工作流可視化地搭建一個(gè) agent;同樣地,我們也支持把評(píng)估流程用工作流快速搭建起來(lái),更高效地復(fù)用算子,而不是一律寫(xiě)代碼。

這個(gè)模塊的反饋很好,內(nèi)部評(píng)測(cè)同學(xué)也在用它為業(yè)務(wù)搭建評(píng)測(cè)流程。舉個(gè)很簡(jiǎn)單的用法:先對(duì)輸入做基礎(chǔ)處理與歸一化,然后調(diào)用一個(gè)評(píng)估算法,或調(diào)用大模型,并寫(xiě)好自己的 prompt,即可把這條評(píng)估鏈路跑通。

未來(lái)展望

面向未來(lái),自動(dòng)化評(píng)測(cè)在數(shù)據(jù)領(lǐng)域可能的重點(diǎn)投入方向如下:

首先,評(píng)測(cè)的維度和體系需要進(jìn)一步完善?,F(xiàn)在對(duì)多模態(tài)能力的利用還不夠,數(shù)據(jù)集也需要持續(xù)優(yōu)化;流程要更規(guī)范,效率要更高。同時(shí)要解決線上與線下的一致性:如何讓線下評(píng)估盡可能反映線上的真實(shí)能力,而不是做成“線上全量、全人工”的評(píng)估。

可以通過(guò)有效采樣、時(shí)效性校驗(yàn)等手段,持續(xù)衡量線下評(píng)測(cè)數(shù)據(jù)集是否過(guò)時(shí),讓評(píng)測(cè)結(jié)果真正對(duì)應(yīng)用戶(hù)的實(shí)際體感。

其次,在應(yīng)用改進(jìn)方面,以前常講 TDD(Test-Driven Development)。在大模型時(shí)代,我更主張“評(píng)估驅(qū)動(dòng)開(kāi)發(fā)”(EDD)。它需要把評(píng)估更好地分解到 Agent 架構(gòu)的各個(gè)環(huán)節(jié):細(xì)化到子模塊的能力、推理的不同階段,并把最終業(yè)務(wù)指標(biāo)與過(guò)程性指標(biāo)建立起更有效的關(guān)聯(lián)。

模型訓(xùn)練層面,無(wú)論是精調(diào)(SFT)還是強(qiáng)化學(xué)習(xí),歸根到底都是與預(yù)期業(yè)務(wù)效果和人類(lèi)判斷對(duì)齊,這與評(píng)測(cè)天然相關(guān)。我們也在探索用自動(dòng)化評(píng)測(cè)去反向驅(qū)動(dòng)訓(xùn)練流程。

最后,是讓自動(dòng)化評(píng)估的結(jié)果更快、更高效地生成對(duì)應(yīng)用改進(jìn)的建議,切實(shí)服務(wù)迭代。這能直接幫助到研發(fā)與業(yè)務(wù)兩端:作為用戶(hù)方 / 業(yè)務(wù)方,可以更有效地判斷一個(gè) Agent 是否滿(mǎn)足需求;作為開(kāi)發(fā)者,也能在更高效的評(píng)測(cè)支持下,用更大的探索空間去嘗試新技術(shù)方案,并把最終效果做上去。

AI 重塑組織的浪潮已至,Agentic 企業(yè)時(shí)代正式開(kāi)啟!當(dāng) AI 不再是單純的輔助工具,而是深度融入業(yè)務(wù)核心、驅(qū)動(dòng)組織形態(tài)與運(yùn)作邏輯全面革新的核心力量。

把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),12 月 19 日 - 20 日,AICon 全球人工智能開(kāi)發(fā)與應(yīng)用大會(huì)(北京站) 即將重磅啟幕!本屆大會(huì)精準(zhǔn)錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴(lài)、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長(zhǎng)天花板的核心引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
何晴生前最大謠言!沒(méi)有再婚嫁廖京生,唯一一段婚姻是和許亞軍

何晴生前最大謠言!沒(méi)有再婚嫁廖京生,唯一一段婚姻是和許亞軍

萌神木木
2025-12-14 11:44:44
悉尼槍案已致12死29傷!男子勇奪一歹徒槍支,“很多人活下來(lái)全靠他”,一嫌疑人身份披露

悉尼槍案已致12死29傷!男子勇奪一歹徒槍支,“很多人活下來(lái)全靠他”,一嫌疑人身份披露

紅星新聞
2025-12-14 22:33:17
2025最慘大撤退:18萬(wàn)家快遞驛站,快把所有人得罪光了

2025最慘大撤退:18萬(wàn)家快遞驛站,快把所有人得罪光了

金錯(cuò)刀
2025-12-14 15:34:35
6局激戰(zhàn)勝出!張本智和4-2險(xiǎn)勝莫雷加德,加冕總決賽男單冠軍

6局激戰(zhàn)勝出!張本智和4-2險(xiǎn)勝莫雷加德,加冕總決賽男單冠軍

全景體育V
2025-12-14 21:55:27
A股重要調(diào)整,明起實(shí)施

A股重要調(diào)整,明起實(shí)施

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-14 18:49:05
悉尼邦迪海灘目擊者回憶槍擊事件:槍手無(wú)差別掃射十分鐘 宛如煉獄

悉尼邦迪海灘目擊者回憶槍擊事件:槍手無(wú)差別掃射十分鐘 宛如煉獄

上游新聞
2025-12-14 21:09:08
長(zhǎng)臂管轄!美國(guó)只給了中國(guó)三大運(yùn)營(yíng)商14天時(shí)間整改“騷擾電話”

長(zhǎng)臂管轄!美國(guó)只給了中國(guó)三大運(yùn)營(yíng)商14天時(shí)間整改“騷擾電話”

荊楚寰宇文樞
2025-12-14 21:55:39
張本智和回應(yīng)淘汰林詩(shī)棟!王楚欽拒絕道德綁架,退賽無(wú)關(guān)愛(ài)國(guó)

張本智和回應(yīng)淘汰林詩(shī)棟!王楚欽拒絕道德綁架,退賽無(wú)關(guān)愛(ài)國(guó)

三十年萊斯特城球迷
2025-12-14 16:53:24
連“同仁堂”都涉嫌造假,我們還能相信誰(shuí)?

連“同仁堂”都涉嫌造假,我們還能相信誰(shuí)?

融通天下
2025-12-14 12:13:20
隨著曼城3-0,熱刺0-3,維拉3-0,利茲聯(lián)1-1,英超最新積分榜出爐

隨著曼城3-0,熱刺0-3,維拉3-0,利茲聯(lián)1-1,英超最新積分榜出爐

側(cè)身凌空斬
2025-12-15 03:24:50
遠(yuǎn)離!無(wú)錫常州交界處,突然出現(xiàn)!

遠(yuǎn)離!無(wú)錫常州交界處,突然出現(xiàn)!

江南晚報(bào)
2025-12-14 13:25:31
何晴離世年僅61歲!生前因腦瘤淡出娛樂(lè)圈,后患癌惡化無(wú)法手術(shù)

何晴離世年僅61歲!生前因腦瘤淡出娛樂(lè)圈,后患癌惡化無(wú)法手術(shù)

萌神木木
2025-12-14 10:38:04
偉大慈父費(fèi)盡心血!朝鮮又出一寶

偉大慈父費(fèi)盡心血!朝鮮又出一寶

IN朝鮮
2025-12-14 14:23:45
悉尼槍擊慘案中徒手奪槍的穆斯林英雄

悉尼槍擊慘案中徒手奪槍的穆斯林英雄

魏城看天下
2025-12-15 03:48:12
澤連斯基:烏已妥協(xié),不入北約

澤連斯基:烏已妥協(xié),不入北約

新京報(bào)政事兒
2025-12-14 20:47:30
9名工兵陣亡,朝鮮披露庫(kù)爾斯克排雷詳情

9名工兵陣亡,朝鮮披露庫(kù)爾斯克排雷詳情

中國(guó)新聞周刊
2025-12-14 20:53:05
王楚欽傷勢(shì)曝光!莫雷加德炮轟WTT,王皓怒懟林詩(shī)棟 張本智和發(fā)聲

王楚欽傷勢(shì)曝光!莫雷加德炮轟WTT,王皓怒懟林詩(shī)棟 張本智和發(fā)聲

知軒體育
2025-12-14 16:51:34
亞運(yùn)三金得主運(yùn)動(dòng)員王莉,實(shí)名舉報(bào)獲獎(jiǎng)歸來(lái)竟被領(lǐng)導(dǎo)索要獎(jiǎng)金

亞運(yùn)三金得主運(yùn)動(dòng)員王莉,實(shí)名舉報(bào)獲獎(jiǎng)歸來(lái)竟被領(lǐng)導(dǎo)索要獎(jiǎng)金

回旋鏢
2025-12-14 22:01:43
國(guó)安部提醒!手機(jī)APP非必要不授權(quán)位置權(quán)限

國(guó)安部提醒!手機(jī)APP非必要不授權(quán)位置權(quán)限

看看新聞Knews
2025-12-14 15:48:03
3-2!54歲埃梅里震撼英超:率隊(duì)兩度扳平后絕殺 9連勝+近11輪10勝

3-2!54歲埃梅里震撼英超:率隊(duì)兩度扳平后絕殺 9連勝+近11輪10勝

我愛(ài)英超
2025-12-15 00:11:39
2025-12-15 05:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術(shù)社區(qū)媒體
11824文章數(shù) 51630關(guān)注度
往期回顧 全部

科技要聞

當(dāng)人形機(jī)器人有了App Store,宇樹(shù)在賭什么

頭條要聞

悉尼槍案:男子勇奪一歹徒槍支 很多人活下來(lái)全靠他

頭條要聞

悉尼槍案:男子勇奪一歹徒槍支 很多人活下來(lái)全靠他

體育要聞

馬刺終結(jié)雷霆:以勇猛,以文班亞馬

娛樂(lè)要聞

何晴生前最大謠言!沒(méi)有再婚嫁廖京生

財(cái)經(jīng)要聞

重大違法強(qiáng)制退市!10人被判刑

汽車(chē)要聞

硬核敞篷巴士?擲彈兵Game Viewer 2026年初量產(chǎn)

態(tài)度原創(chuàng)

旅游
游戲
本地
時(shí)尚
公開(kāi)課

旅游要聞

冬天去哪玩?爾濱 120 萬(wàn)㎡冰雪王國(guó)等你來(lái)打卡

“一念神魔”資料片正式開(kāi)啟!穿上新衣鬧天宮,三界提前過(guò)年?

本地新聞

云游安徽|阜陽(yáng)三朝風(fēng)骨,傳承千年墨香

終于在廣州最舒服的季節(jié)和你們見(jiàn)面啦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 成人羞羞视频一区二区三区| www、rinvren| 亚洲色大成网站www尤物| 国产ts在线视频| 鲁死你资源站| 女人与牲口性恔配视频免费| 久久美女精品热| 亚洲AV无码成人精品区麻豆曹妞| 午夜av成人| 新妺妺窝人体色WWW聚色窝| 亚洲成色7777777久久| 久久精品蜜芽亚洲国产av| 国产视频网站在线观看| 开心激情婷婷| 国产精品一区二区无码免费看片 | 国产乱人伦真实精品视频| 欧洲熟妇精品视频| 中文无码一区二区不卡av| 又大又粗又爽18禁免费看| 日日摸日日碰夜夜爽201| 亚V日日夜夜| 熟妇人妻系列aⅴ无码专区友真希| 欧美孕妇XXX| 日本系列国产主播| 亚洲熟女少妇精品| 无码中文字幕日韩专区| 爽一区二区三区将下架整改| 18禁喷水流白浆自慰视噜噜噜 | 在线观看av网站| 日韩欧美一区天天躁噜噜| 国产在线播放专区av| 久久久久久久久久久久久久久久久久久| 99精品视频在线观看免费蜜桃| 精品国产一区二区三区国产区| 日本成人AⅤ免费在线| av午夜久久蜜桃传媒软件| 亚洲人成网站77777在线观看 | 国产毛片一区二区精品| 亚洲无码成人片| 白嫩少妇激情无码| 欧美另类精品xxxx|