夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI胡說(shuō)八道這事,終于有人管了?

0
分享至



機(jī)器之心報(bào)道

編輯:+0、張倩

想象一下,如果 ChatGPT 等 AI 大模型在生成的時(shí)候,能把自己不確定的地方都標(biāo)記出來(lái),你會(huì)不會(huì)對(duì)它們生成的答案放心很多?



上周末,OpenAI 發(fā)的一篇論文引爆了社區(qū)。這篇論文系統(tǒng)性地揭示了幻覺(jué)的根源,指出問(wèn)題出在獎(jiǎng)勵(lì)上 —— 標(biāo)準(zhǔn)的訓(xùn)練和評(píng)估程序更傾向于對(duì)猜測(cè)進(jìn)行獎(jiǎng)勵(lì),而不是在模型勇于承認(rèn)不確定時(shí)給予獎(jiǎng)勵(lì)??赡芫褪且?yàn)橐庾R(shí)到了這個(gè)問(wèn)題,并找出了針對(duì)性的解法,GPT-5 的幻覺(jué)率大幅降低。

隨著 AI 大模型在醫(yī)療咨詢、法律建議等高風(fēng)險(xiǎn)領(lǐng)域的應(yīng)用不斷深入,幻覺(jué)問(wèn)題會(huì)變得越來(lái)越棘手,因此不少研究者都在往這一方向發(fā)力。除了像 OpenAI 那樣尋找幻覺(jué)原因,還有不少人在研究幻覺(jué)檢測(cè)技術(shù)。然而,現(xiàn)有的幻覺(jué)檢測(cè)技術(shù)在實(shí)際應(yīng)用中面臨瓶頸,通常僅適用于簡(jiǎn)短的事實(shí)性查詢,或需要借助昂貴的外部資源進(jìn)行驗(yàn)證。

針對(duì)這一挑戰(zhàn),來(lái)自蘇黎世聯(lián)邦理工學(xué)院(ETH)和 MATS 的一項(xiàng)新研究提出了一種低成本、可擴(kuò)展的檢測(cè)方法,能夠實(shí)時(shí)識(shí)別長(zhǎng)篇內(nèi)容中的「幻覺(jué) token」,并成功應(yīng)用于高達(dá) 700 億(70B)參數(shù)的大型模型。





  • 論文標(biāo)題:Real-Time Detection of Hallucinated Entities in Long-Form Generation
  • 論文地址:https://arxiv.org/abs/2509.03531
  • 代碼地址:https://github.com/obalcells/hallucination_probes
  • 項(xiàng)目地址:https://www.hallucination-probes.com/
  • 代碼和數(shù)據(jù)集:https://github.com/obalcells/hallucination_probes

該方法的核心是精準(zhǔn)識(shí)別實(shí)體級(jí)幻覺(jué),例如捏造的人名、日期或引文,而非判斷整個(gè)陳述的真?zhèn)?。這種策略使其能夠自然地映射到 token 級(jí)別的標(biāo)簽,從而實(shí)現(xiàn)實(shí)時(shí)流式檢測(cè)。



通過(guò) token 級(jí)探針檢測(cè)幻覺(jué)實(shí)體。在長(zhǎng)文本生成場(chǎng)景(Long Fact、HealthBench)中,線性探針的性能遠(yuǎn)超基于不確定性的基線方法,而 LoRA 探針則進(jìn)一步提升了性能。該探針同樣在短文本場(chǎng)景(TriviaQA)以及分布外推理領(lǐng)域(MATH)中表現(xiàn)出色。圖中展示的是 Llama-3.3-70B 模型的結(jié)果。

為實(shí)現(xiàn)這一目標(biāo),研究人員開(kāi)發(fā)了一種高效的標(biāo)注流程。他們利用網(wǎng)絡(luò)搜索來(lái)驗(yàn)證模型生成內(nèi)容中的實(shí)體,并為每一個(gè) token 標(biāo)注是否有事實(shí)依據(jù)?;谶@個(gè)專門構(gòu)建的數(shù)據(jù)集,研究人員通過(guò)線性探針(linear probes)等簡(jiǎn)潔高效的技術(shù),成功訓(xùn)練出精準(zhǔn)的幻覺(jué)分類器。





在對(duì)四種主流模型家族的評(píng)估中,該分類器的表現(xiàn)全面超越了現(xiàn)有基準(zhǔn)方法。尤其是在處理長(zhǎng)篇回復(fù)時(shí),其效果遠(yuǎn)勝于語(yǔ)義熵(semantic entropy)等計(jì)算成本更高的方法。例如,在 Llama-3.3-70B 模型上,該方法的 AUC(分類器性能指標(biāo))達(dá)到了 0.90,而基準(zhǔn)方法僅為 0.71。此外,它在短式問(wèn)答場(chǎng)景中也展現(xiàn)出優(yōu)越的性能。

值得注意的是,盡管該分類器僅使用實(shí)體級(jí)標(biāo)簽進(jìn)行訓(xùn)練,它卻能有效識(shí)別數(shù)學(xué)推理任務(wù)中的錯(cuò)誤答案。這一發(fā)現(xiàn)表明,該方法具備了超越實(shí)體檢測(cè)的泛化能力,能夠識(shí)別更廣泛的邏輯錯(cuò)誤。



雖然原始數(shù)據(jù)集的標(biāo)注成本高昂,但研究發(fā)現(xiàn),基于一個(gè)模型標(biāo)注的數(shù)據(jù)可被復(fù)用于訓(xùn)練針對(duì)其他模型的有效分類器。因此,研究團(tuán)隊(duì)已公開(kāi)發(fā)布此數(shù)據(jù)集,以推動(dòng)社區(qū)的后續(xù)研究。

方法概覽

用于 token 級(jí)幻覺(jué)檢測(cè)的數(shù)據(jù)集構(gòu)建

為了訓(xùn)練能夠在 token 級(jí)別檢測(cè)幻覺(jué)的分類器,研究者需要一個(gè)對(duì)長(zhǎng)文本中的幻覺(jué)內(nèi)容有精確標(biāo)注的數(shù)據(jù)集。這個(gè)過(guò)程分為兩步:(1) 生成包含事實(shí)與幻覺(jué)內(nèi)容的混合文本 ;(2) 對(duì)這些文本進(jìn)行準(zhǔn)確的 token 級(jí)標(biāo)注,以識(shí)別哪些 token 屬于被捏造的實(shí)體。下圖展示了該標(biāo)注流程。



token 級(jí)標(biāo)注流水線。

  • 數(shù)據(jù)生成

研究者在 LongFact 數(shù)據(jù)集的基礎(chǔ)上,創(chuàng)建了一個(gè)規(guī)模擴(kuò)大 10 倍、領(lǐng)域更多樣化的提示集LongFact++

LongFact++ 包含主題查詢、名人傳記、引文生成和法律案件等四類提示,旨在誘導(dǎo)大語(yǔ)言模型生成富含實(shí)體的長(zhǎng)文本,作為后續(xù)標(biāo)注的原材料。

  • token 級(jí)標(biāo)注

與傳統(tǒng)方法將文本分解為 atomic claims 不同,該研究專注于標(biāo)注實(shí)體(如人名、日期、引文等),因?yàn)閷?shí)體有明確的 token 邊界,易于進(jìn)行流式檢測(cè)。他們使用帶有網(wǎng)絡(luò)搜索功能的 Claude 4 Sonnet 模型來(lái)自動(dòng)完成標(biāo)注流程。

該系統(tǒng)會(huì)識(shí)別文本中的實(shí)體,通過(guò)網(wǎng)絡(luò)搜索驗(yàn)證其真實(shí)性,并將其標(biāo)記為「Supported」(有證據(jù)支持)、「Not Supported」(被證實(shí)是捏造的)或「Insufficient Information」(信息不足)。

  • 標(biāo)簽質(zhì)量

為驗(yàn)證標(biāo)注質(zhì)量,研究者進(jìn)行了兩項(xiàng)檢查。首先,人類標(biāo)注員的標(biāo)注結(jié)果與大模型自動(dòng)標(biāo)注結(jié)果的一致性為 84%。其次,在一個(gè)包含已知錯(cuò)誤(人工注入)的受控?cái)?shù)據(jù)集中,該標(biāo)注流程的召回率為 80.6%,假陽(yáng)性率為 15.8% 。

訓(xùn)練 token 級(jí)探針



實(shí)驗(yàn)結(jié)果

在長(zhǎng)文本設(shè)置中(LongFact 和 HealthBench),token 級(jí)探針在兩個(gè)主要模型上的表現(xiàn)都顯著優(yōu)于基線方法(表 1)。簡(jiǎn)單的線性探針始終實(shí)現(xiàn)了 0.85 以上的 AUC 值,而 LoRA 探針進(jìn)一步提升了性能,將 AUC 推高到 0.89 以上。



相比之下,基于不確定性的基線方法表現(xiàn)均不佳,AUC 值均未超過(guò) 0.76。在短文本設(shè)置中(TriviaQA),基線方法比長(zhǎng)文本設(shè)置中表現(xiàn)更強(qiáng),但探針仍然領(lǐng)先。LoRA 探針始終實(shí)現(xiàn)了超過(guò) 0.96 的 AUC 值,線性探針也表現(xiàn)良好。值得注意的是,本文提出的探針在 MATH 數(shù)據(jù)集上也取得了強(qiáng)勁的結(jié)果。這種分布外的性能表明,本文提出的方法捕獲了正確性的信號(hào),這些信號(hào)的泛化性超出了其最初針對(duì)的虛構(gòu)實(shí)體。

作者在三個(gè)次要模型上復(fù)制了長(zhǎng)文本結(jié)果,每個(gè)模型僅使用 2000 個(gè)其自身長(zhǎng)文本生成的注釋樣本進(jìn)行訓(xùn)練。結(jié)果是相似的:LoRA 探針再次優(yōu)于線性探針,在 LongFact 生成上的 AUC 值在 0.87-0.90 之間。次要模型的完整結(jié)果顯示在表 5 中。



雖然 LoRA 探針的 AUC 值在多個(gè)設(shè)置中接近或超過(guò) 0.9,但長(zhǎng)文本上的 R@0.1 最高約為 0.7,即在 10% 假陽(yáng)性率下,檢測(cè)器能夠識(shí)別出大約三分之二的幻覺(jué)實(shí)體。這些結(jié)果既突出了相對(duì)于標(biāo)準(zhǔn)基于不確定性基線方法的實(shí)際收益,也表明在這類方法能夠廣泛應(yīng)用于高風(fēng)險(xiǎn)場(chǎng)景之前,仍有進(jìn)一步改進(jìn)的空間。

更多細(xì)節(jié)請(qǐng)參見(jiàn)原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2025年金球獎(jiǎng)第11名:22歲巴薩中場(chǎng)佩德里,生涯第二次提名

2025年金球獎(jiǎng)第11名:22歲巴薩中場(chǎng)佩德里,生涯第二次提名

直播吧
2025-09-23 01:40:02
新加坡總理罕見(jiàn)打破中立姿態(tài):臺(tái)海一旦爆發(fā)沖突,全亞洲都會(huì)卷入

新加坡總理罕見(jiàn)打破中立姿態(tài):臺(tái)海一旦爆發(fā)沖突,全亞洲都會(huì)卷入

大道無(wú)形我有型
2025-09-21 19:35:46
首秀38+8三分無(wú)愧第一尖刀!1.78米小李夢(mèng)早有MVP傍身 李導(dǎo)沒(méi)走眼

首秀38+8三分無(wú)愧第一尖刀!1.78米小李夢(mèng)早有MVP傍身 李導(dǎo)沒(méi)走眼

顏小白的籃球夢(mèng)
2025-09-22 20:46:32
旅行社知情人士披露始祖鳥(niǎo)煙花燃放地處置后續(xù):村里開(kāi)始清理

旅行社知情人士披露始祖鳥(niǎo)煙花燃放地處置后續(xù):村里開(kāi)始清理

南方都市報(bào)
2025-09-22 22:11:22
C919被連續(xù)曝出零訂單新聞!這背后原因到底是什么?

C919被連續(xù)曝出零訂單新聞!這背后原因到底是什么?

翻開(kāi)歷史和現(xiàn)實(shí)
2025-09-22 09:18:27
俄羅斯在我國(guó)發(fā)熊貓債,由誰(shuí)來(lái)買單?

俄羅斯在我國(guó)發(fā)熊貓債,由誰(shuí)來(lái)買單?

史政先鋒
2025-09-21 15:43:03
回顧:蘇享茂哥哥怒曝翟欣欣聊天記錄,內(nèi)容下流至極,看完三觀盡毀

回顧:蘇享茂哥哥怒曝翟欣欣聊天記錄,內(nèi)容下流至極,看完三觀盡毀

動(dòng)物奇奇怪怪
2025-09-22 11:18:56
真沒(méi)想到!電影《731》上映數(shù)日,炸出的“精日分子”竟越來(lái)越多

真沒(méi)想到!電影《731》上映數(shù)日,炸出的“精日分子”竟越來(lái)越多

剛哥說(shuō)法365
2025-09-23 02:18:58
香蕉便宜的真相:從農(nóng)藥污染到工人不育,你吃的多廉價(jià)?

香蕉便宜的真相:從農(nóng)藥污染到工人不育,你吃的多廉價(jià)?

花心電影
2025-09-21 23:38:14
徹底沒(méi)救了,中東3國(guó)聯(lián)手?jǐn)懒税<疤岚?,氣的塞西飯都沒(méi)吃就走了

徹底沒(méi)救了,中東3國(guó)聯(lián)手?jǐn)懒税<疤岚?,氣的塞西飯都沒(méi)吃就走了

潮鹿逐夢(mèng)
2025-09-21 15:49:30
“吃飯七分飽”被推翻了?醫(yī)生:過(guò)了65歲,吃飯盡量要做到這9點(diǎn)

“吃飯七分飽”被推翻了?醫(yī)生:過(guò)了65歲,吃飯盡量要做到這9點(diǎn)

朗威游戲說(shuō)
2025-09-19 10:17:41
西貝的神操作!充卡時(shí)送了4個(gè)月餅,退卡后要扣除78元的月餅錢

西貝的神操作!充卡時(shí)送了4個(gè)月餅,退卡后要扣除78元的月餅錢

星河也燦爛
2025-09-22 10:40:15
宋祖兒再次被實(shí)名舉報(bào)!

宋祖兒再次被實(shí)名舉報(bào)!

八卦瘋叔
2025-09-21 09:40:03
申花球迷組織藍(lán)魔青年軍宣布解散:預(yù)祝申花能在本賽季奪得冠軍

申花球迷組織藍(lán)魔青年軍宣布解散:預(yù)祝申花能在本賽季奪得冠軍

直播吧
2025-09-22 21:32:02
有錢了?具俊曄開(kāi)237萬(wàn)奔馳去看大S,臺(tái)媒曝其在金寶山買千萬(wàn)豪宅

有錢了?具俊曄開(kāi)237萬(wàn)奔馳去看大S,臺(tái)媒曝其在金寶山買千萬(wàn)豪宅

洲洲影視娛評(píng)
2025-09-22 19:30:43
性生活誰(shuí)才是真正在受益者?

性生活誰(shuí)才是真正在受益者?

詩(shī)意世界
2025-09-19 20:25:01
46歲吳佩慈變樣:顴骨突出法令紋明顯,獨(dú)自帶四娃,明顯老了不少

46歲吳佩慈變樣:顴骨突出法令紋明顯,獨(dú)自帶四娃,明顯老了不少

探源歷史
2025-09-08 14:05:44
臺(tái)灣名嘴來(lái)大陸旅游,走出地鐵后全員震驚:這是媒體說(shuō)的大陸

臺(tái)灣名嘴來(lái)大陸旅游,走出地鐵后全員震驚:這是媒體說(shuō)的大陸

今天說(shuō)故事
2025-09-16 18:29:22
87歲李雙江天山旅游,夢(mèng)鴿隨行顯老態(tài),李天一近照曝光成熟又老實(shí)

87歲李雙江天山旅游,夢(mèng)鴿隨行顯老態(tài),李天一近照曝光成熟又老實(shí)

娛樂(lè)壹點(diǎn)半
2025-09-21 23:56:06
程青松和辛奇的瓜!

程青松和辛奇的瓜!

八卦瘋叔
2025-09-21 09:10:05
2025-09-23 03:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11334文章數(shù) 142454關(guān)注度
往期回顧 全部

科技要聞

iPhone Air主要芯片全自研,蘋果野心曝光

頭條要聞

17級(jí)“風(fēng)王”來(lái)襲:體型面積超整個(gè)廣東 將現(xiàn)13米狂浪

頭條要聞

17級(jí)“風(fēng)王”來(lái)襲:體型面積超整個(gè)廣東 將現(xiàn)13米狂浪

體育要聞

曼城擺出大巴車,阿爾特塔:師父你變了!

娛樂(lè)要聞

巴圖:不怨父親英達(dá) 不嫉妒弟弟英如鏑

財(cái)經(jīng)要聞

信號(hào)巨大!潘功勝、吳清等重磅發(fā)聲

汽車要聞

外觀/性能/智能全面升級(jí) 第三代領(lǐng)克03靜態(tài)評(píng)測(cè)

態(tài)度原創(chuàng)

數(shù)碼
本地
教育
旅游
軍事航空

數(shù)碼要聞

罕見(jiàn)蘋果Apple-1電腦拍出47.5萬(wàn)美元高價(jià),超預(yù)估價(jià)近60%

本地新聞

大學(xué)生軍訓(xùn)哪家強(qiáng),廣西申請(qǐng)“出戰(zhàn)”!

教育要聞

兩道初中物理熱學(xué)題!暴露真正嚴(yán)謹(jǐn)做題的初中生少之又少!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

金正恩:朝鮮和韓國(guó)絕對(duì)不會(huì)合并成一個(gè)國(guó)家

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 一本精品中文字幕在线| 国产AV淫荡| 天天躁夜夜躁狠狠躁2021| 久久婷婷五月综合色一区二区| 人人谢人人插| 国产一区二区在线有码| av最新网站| 国产精品欧美久久久久久日本一道| 国产精品xxx在线| 久欠精品国产77777| 国产无套无码AⅤ在线观看| 久久WWW成人免费观看| 亚洲国产精品久久久久4婷婷| 四库影院成人无码精品| 天天躁日日躁狠狠躁日日躁| 欧美亚洲综合免费精品高清在线观看| 玖玖熟妇与熟女裸舞按摩| 欧美性爱免费论坛| 久久超乳爆乳中文字幕| 久久精品中文字幕无码绿巨人| 国产精品一区二区,动漫| 亚洲高清一区二区三区电影| 欧美gv在线观看| 高清日韩一区二区视频| 久久99精品久久久66| XXXX互换人妻中国69| 高清有码国产一区二区| 精品久久久久久久久久久αⅤ| 国产老熟女91| 中国真实处破女WWW出血| 欧美怡春院一区二区三区| 无码人妻丰妇满熟妇| 国模冰莲大胆自慰难受| 偷久久久无码精品亚洲| 成人免费视频无码专区| 中国精品人妻| 国产精品一级久久黄色片| 欧美疯狂做受xxxx高潮| 久久综合网欧美色妞网| 久久精品免费一区二区| 久久亚洲精品ab无码播放|