夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

大模型給自己當裁判并不靠譜!上交揭示LLM-as-a-judge機制缺陷

0
分享至

大語言模型(LLM)正從工具進化為“裁判”(LLM-as-a-judge),開始大規(guī)模地評判由AI自己生成的內容。這種高效的評估范式,其可靠性與人類判斷的一致性,卻很少被深入驗證。

一個最基礎、卻也最關鍵的問題是:在評判一個模型是否“入戲”之前,AI裁判能準確識別出對話中到底是誰在說話嗎?

針對這一問題,上海交通大學王德泉課題組的論文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》對此進行了系統(tǒng)性的研究。

文章提出一個名為PersonaEval的全新基準測試。這項測試的核心任務,就是讓模型在給定一段對話后,從幾個候選角色中選出真正的說話者。



測試結果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準確率僅為68.8%,而人類實驗組的平均準確率為90.8%。

論文即將發(fā)表在2025年10月份的第2屆語言模型大會(COLM)上。

一個讓頂尖模型也“翻車”的簡單問題

近來,關于大語言模型能否勝任“裁判”的討論愈發(fā)激烈,從“隱形prompt”影響大模型審稿的爭議,到斯坦福大學籌備首屆純AI學術會議Agent4Science的嘗試,都標志著一個新趨勢的到來:大語言模型(LLM)能當裁判評判AI生成的內容。

這一趨勢在角色扮演(Role-Play)領域尤為明顯。從讓大模型扮演經典的文學人物、游戲NPC,到Character.AI的火爆和各類應用中“AI陪玩”的興起,一個由LLM驅動的虛擬伴侶和內容創(chuàng)作時代正向我們走來。

隨著其巨大的商業(yè)與應用潛力引發(fā)業(yè)界廣泛關注,如何評價AI“演技”也自然成了亟待解決的核心問題。于是,讓LLM來擔當裁判,也順理成章地成為了該領域的主流評估方法之一。

在AI當裁判之前,首先要確認AI是否能夠準確進行“角色身份識別”(Role Identification)。作者認為,如果連這個都做不到,那么后續(xù)所有關于語氣、情感、性格一致性的高級評估,都將是空中樓閣。

我們來看一個在人類眼中非常簡單,但卻讓頂尖大模型都判斷失誤的例子,如下圖所示:



△圖1 簡單案例

如上圖所示,角色莊顏正在與某人對話。在她的內心獨白中,她明確提到了“羅輯”,同時她在話語中也提到了“羅老師”。

  • 人類的判斷邏輯:對于即使沒有看過《三體》的人類來說,也能判斷出莊顏是在與羅輯對話,因為莊顏的內心獨白和說話內容已經圈定了羅輯是說話對象,這是最直接、最關鍵的上下文線索,即對話的參與者
  • LLM的判斷邏輯:然而,一個頂尖的LLM(DeepSeek-R1-0528)在此案例中做出了錯誤判斷,選擇了史強。從模型的分析可以看出,它忽略了“羅輯是對話參與者”這一核心情境信息,反而過度關注回應者的語言風格,認為其“直接、現(xiàn)實、略帶挑釁”更符合史強的性格特征,從而做出了錯誤選擇。

這個例子一針見血地指出了當前LLM裁判的致命缺陷:它們似乎更關注表層的語言風格(聽起來像誰),而人類則首先觀察真實的對話意圖和上下文(在那個情境下,誰會這么說)。

為什么會產生這種分歧?這背后其實是AI與人類智能模式的深刻差異。

正如論文所引述的認知科學家Josh Tenenbaum的觀點:LLM的智能是從海量語言中學習模式而“衍生”出來的,它們是頂級的模式匹配專家;而人類的智能則“先于”語言,我們是帶著意圖和認知去發(fā)展和使用語言這一工具的。

PersonaEval:一個專為LLM裁判打造的“照妖鏡”

為了系統(tǒng)性地評估LLM在角色身份識別上的能力,論文作者精心構建了PersonaEval基準。

它有幾個核心特點,確保了評估與人類對齊,以及一定的挑戰(zhàn)性:

  • 源于純正的人類創(chuàng)作:所有對話數(shù)據(jù)均來自小說、劇本和真實的人類視頻,而非AI合成內容。這保證了評估的標準根植于真實的人類判斷,避免了“模型評價模型”的數(shù)據(jù)污染。
  • 精心設計的“干擾項”:在多項選擇任務中,錯誤的選項(distractors)并非隨機設置,而是通過embedding技術精心挑選出的、與正確角色在語義上最接近的“高仿”角色。這迫使模型進行細致入微的推理,而不是簡單的模式匹配。
  • 專注于“疑難雜癥”:為了避免簡單的案例虛假拉高模型的表現(xiàn),論文作者通過一個強大的基線模型(Qwen-max)進行過濾,只保留那些連強模型都感到困惑(置信度低于0.5)的“硬核案例”。



△圖2:PersonaEval基準的構建流程

整個基準包含了三個不同方向的測試集:

  • PersonaEval-Literary:來自771本英文小說,測試模型對虛構敘事角色的推理能力。
  • PersonaEval-Drama:來自中文劇本,測試模型對腳本化互動中的角色理解。
  • PersonaEval-Expertise:來自WIRED的“5Levels”系列視頻,測試模型能否根據(jù)語言和概念的復雜程度,判斷專家是在對兒童、青少年還是其他專家說話。

測試發(fā)現(xiàn):AI判斷相較于人類還有巨大差距

在PersonaEval這個“考場”上,現(xiàn)有LLM的表現(xiàn)如何呢?結果令人震驚。

論文作者對包括GPT系列、Claude系列、DeepSeek系列在內的多個頂尖模型進行了測試。結果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準確率也僅為68.8%。相比之下,論文作者組織了一場人類研究,由20名高學歷志愿者參與,人類的平均準確率高達90.8%!



△圖3:LLM在PersonaEval上的準確率與人類水平對比

上圖直觀地展示了這條巨大的“鴻溝”(Current Gap)。這清晰地回答了論文標題中的問題:

目前的LLM裁判,還遠不夠“擬人”,不足以可靠地評判角色扮演。如何彌補差距?強化“推理”是關鍵,而非“投喂”角色知識。

既然發(fā)現(xiàn)了問題,那該如何解決?

論文作者進一步探索了兩種常見的模型提升策略:

  • 訓練時適配(Training-time Adaptation):通過在角色扮演的語料上進行微調(fine-tuning),向模型“注入”更多角色知識。
  • 測試時計算(Test-time Compute):在推理階段通過少樣本提示(few-shot prompting)或自洽性(self-consistency)等方法來提升表現(xiàn)。

結果再次出人意料。研究發(fā)現(xiàn),對模型進行角色相關的微調,不僅沒有提升其角色識別能力,反而可能導致性能下降。這可能是因為死記硬背的角色知識干擾了模型更底層的、通用的推理能力。



△圖4:在角色數(shù)據(jù)上微調后(粉色柱),模型性能反而下降

與此同時,測試時計算的方法顯示出更大的潛力,特別是那些為“推理”而生的模型,表現(xiàn)出了明顯的優(yōu)勢。例如,專為推理任務優(yōu)化的DeepSeek-R1和QwQ-32B等模型,在基準測試中名列前茅。

這表明,想要打造一個好的“AI裁判”,關鍵不在于灌輸更多的角色知識,而在于提升模型本身強大、穩(wěn)健、具有上下文感知能力的推理引擎。

該論文揭示了當前流行的“LLM-as-a-judge”評估范式在一個基礎卻被忽視的維度上的嚴重缺陷。

這項研究不僅為我們提供了一個寶貴的評估工具,更促使我們重新思考如何構建真正與人類價值觀和判斷力對齊的AI系統(tǒng)。

未來的研究或許可以深入分析模型做出錯誤判斷的“思考路徑”,從而開發(fā)出更有效的、以推理為導向的提升方法。PersonaEval,正在朝著這個目標邁進。

最終,我們希望AI不僅能“扮演”人類,更能真正“理解”人類的互動方式。

作者簡介

論文第一作者是上海交通大學博士研究生周凌楓,主要研究大模型智能體、人工智能賦能的社會科學等方向。



論文的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉。本科畢業(yè)于復旦大學,博士畢業(yè)于加州大學伯克利分校,師從Trevor Darrell教授。近五年論文谷歌學術總引用次數(shù) 12000 余次,H-index 22。

項目鏈接:https://github.com/maple-zhou/PersonaEval

論文地址:https://arxiv.org/abs/2508.10014

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
矛頭直指裁判!斯洛文尼亞主帥:第三節(jié)發(fā)生了一些奇怪的事情

矛頭直指裁判!斯洛文尼亞主帥:第三節(jié)發(fā)生了一些奇怪的事情

雷速體育
2025-08-29 06:49:03
中方主力突然出現(xiàn)在仁愛礁,菲司令一聲令下,要求菲軍死磕到底

中方主力突然出現(xiàn)在仁愛礁,菲司令一聲令下,要求菲軍死磕到底

空天力量
2025-08-28 17:19:08
阿卡送蛋德約丟盤,九種子爆冷出局,梅總遭罰30萬,薩巴搶七贏球

阿卡送蛋德約丟盤,九種子爆冷出局,梅總遭罰30萬,薩巴搶七贏球

網球之家
2025-08-28 13:07:47
一場0-2,讓中國金花全部淘汰!王欣瑜輸球原因曝光,真是打不過

一場0-2,讓中國金花全部淘汰!王欣瑜輸球原因曝光,真是打不過

侃球熊弟
2025-08-29 00:14:38
又一全新汽車品牌成立!

又一全新汽車品牌成立!

電動知家
2025-08-27 21:10:46
廣州:即日起一個月 每周五全市大掃除

廣州:即日起一個月 每周五全市大掃除

財聯(lián)社
2025-08-28 19:31:25
半路殺出一個程咬金,王祉怡0-2負前世錦賽冠軍,安洗瑩都要小心

半路殺出一個程咬金,王祉怡0-2負前世錦賽冠軍,安洗瑩都要小心

真理是我親戚
2025-08-28 20:08:22
從“保定一哥”到破產重整:魏少軍千億豪賭,如何輸光籌碼?

從“保定一哥”到破產重整:魏少軍千億豪賭,如何輸光籌碼?

一號位故事
2025-08-28 15:46:55
《肖申克》的逆襲:票房慘敗,屁獎沒有,怎么就成了影史第一?

《肖申克》的逆襲:票房慘敗,屁獎沒有,怎么就成了影史第一?

TVB的四小花
2025-08-22 01:22:18
愛民如子朱元璋

愛民如子朱元璋

我是歷史其實挺有趣
2025-08-26 20:05:48
表面上是有錢人,實際全是偽豪門,求求這4個男人別再裝了

表面上是有錢人,實際全是偽豪門,求求這4個男人別再裝了

可樂談情感
2025-08-01 02:50:46
16個外甥一頓吃200個水餃,挑扁擔買菜的重慶“宇宙舅舅”:孩子們開學離開,心里空落落的

16個外甥一頓吃200個水餃,挑扁擔買菜的重慶“宇宙舅舅”:孩子們開學離開,心里空落落的

極目新聞
2025-08-27 20:09:39
俄羅斯最可怕敵人出現(xiàn)!卡德羅夫完成車臣家天下,普京也無力削藩

俄羅斯最可怕敵人出現(xiàn)!卡德羅夫完成車臣家天下,普京也無力削藩

牛鍋巴小釩
2025-08-28 13:31:11
浙江紹興魯迅故里景區(qū)門前游客打卡依舊,工作人員明確告知:魯迅“夾煙”形象墻畫不會換

浙江紹興魯迅故里景區(qū)門前游客打卡依舊,工作人員明確告知:魯迅“夾煙”形象墻畫不會換

極目新聞
2025-08-27 08:10:40
鏡報:阿莫林將在國際比賽日與曼聯(lián)高層對話,解雇時間表已確定

鏡報:阿莫林將在國際比賽日與曼聯(lián)高層對話,解雇時間表已確定

直播吧
2025-08-29 00:45:40
女網紅泡溫泉臉被水狂噴!狼狽模樣全網笑翻

女網紅泡溫泉臉被水狂噴!狼狽模樣全網笑翻

葫蘆哥愛吐槽
2025-08-27 17:01:18
杰倫威:全明星改的有點過猛了 比賽關鍵在于球員能不能打得更拼

杰倫威:全明星改的有點過猛了 比賽關鍵在于球員能不能打得更拼

直播吧
2025-08-29 07:52:33
金某估計腸子都悔青了!不是后悔打得太狠,而是忘了親媽也會坐牢

金某估計腸子都悔青了!不是后悔打得太狠,而是忘了親媽也會坐牢

青青子衿
2025-08-25 23:30:15
辟謠:為什么說三星堆不能再挖了?再挖下去人類文明恐將被顛覆?

辟謠:為什么說三星堆不能再挖了?再挖下去人類文明恐將被顛覆?

蜉蝣說
2025-08-24 17:42:54
3-1!21歲香港新星攜5連勝進32強,成中國獨苗+追平美網最佳戰(zhàn)績

3-1!21歲香港新星攜5連勝進32強,成中國獨苗+追平美網最佳戰(zhàn)績

我愛英超
2025-08-29 03:21:29
2025-08-29 08:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11204文章數(shù) 176257關注度
往期回顧 全部

科技要聞

英偉達,被中國市場“反殺”

頭條要聞

26位外國領導人將看閱兵 金正恩首次參加多邊外交活動

頭條要聞

26位外國領導人將看閱兵 金正恩首次參加多邊外交活動

體育要聞

33歲,癌癥+白血病,他還不想放棄籃球

娛樂要聞

馬伊琍回應婚變:痛苦源于文章

財經要聞

生死淘汰賽 "新能源三劍客"負債6.56萬億

汽車要聞

全新設計更運動/純電續(xù)航125km 吉利銀河星耀6曝光

態(tài)度原創(chuàng)

藝術
數(shù)碼
本地
旅游
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

Counterpoint報告2025Q2全球智能手表出貨量:華為首超蘋果成第一

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 性中国XXⅩ| 国产成人综合亚洲看片| 人妻少妇456在线视频| 激情无码网站| 性高湖久久久久久久久| XXXXav视频| 99偷拍精品视频| 亚洲 欧美精品suv| 欧美主播一区二区| 白浆视频在线观看| 亚洲色欲一区二区三区| 成人午夜在线观看日韩| 亚洲无码看片| 亚洲色一色噜一噜噜噜| 亚洲毛片大全| 懂色aⅴ一区二区三区免费| 强奷漂亮少妇高潮麻豆| 欧美性爱视频xxxx| 好吊妞欧美视频免费观看| 不卡色老大久久综合网| 丰满少妇人妻无码| 加勒比无码不卡| 久久精品一品道久久精品| 中文有码一区| 精品国产品香蕉在线| 又湿又紧又大又爽又a视频| 欧美性猛交aaaa片黑人| 综合色综合色综合色综合| 日本免费一区二区三区最新vr| 国产特级毛片AAAAAA喷潮| 欧洲精品一卡2卡三卡4卡影视| 中文字幕亚洲乱码熟女游戏| 网友自拍超碰| 亚洲视频小说之无码| 色翁荡息又大又硬又粗又视频图片| 久热精品视频| 亚洲最大的熟女水蜜桃AV网站| 伦理一区二区三区| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲熟女乱综合一区二区在线| 美国男女交配黄色片|