網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

蘋果再發(fā)論文：精準(zhǔn)定位LLM幻覺，GPT-5、o3都辦不到

2025-10-06 17:02:00　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：機(jī)器之心報(bào)道

機(jī)器之心編輯部

蘋果這幾天真是進(jìn)入了論文高產(chǎn)期，時(shí)不時(shí)就有新的研究發(fā)布出來。

就在近日，蘋果又發(fā)布了一篇引發(fā)學(xué)界與業(yè)界關(guān)注的重磅論文。

這篇論文非常有意思，它用強(qiáng)化學(xué)習(xí)訓(xùn)練模型，讓模型能夠準(zhǔn)確標(biāo)出答案中哪些部分是幻覺（hallucinated）。

其核心突破在于：模型不再只是籠統(tǒng)地提示有錯(cuò)誤，而是能直接指出具體哪一段文字是錯(cuò)誤的。這對(duì)于需要修改輸出或進(jìn)行事實(shí)審查的用戶來說，大大節(jié)省了時(shí)間。

論文提出的方法名為 RL4HS，它使用了片段級(jí)獎(jiǎng)勵(lì)（span-level rewards）和類別感知的 GRPO（Class-Aware Group Relative Policy Optimization），從而避免模型偷懶、只輸出無錯(cuò)誤預(yù)測。

該方法在片段級(jí)幻覺檢測任務(wù)上，甚至超過了 GPT-5 和 o3。

總體而言，片段級(jí)獎(jiǎng)勵(lì) + 類別平衡機(jī)制讓模型真正學(xué)會(huì)了核查依據(jù)并精確指出錯(cuò)誤內(nèi)容，這是讓大語言模型更可靠、更可審計(jì)的重要一步。

來源：https://x.com/rohanpaul_ai/status/1974652007068967315

接下來我們看看論文內(nèi)容。

論文摘要部分，作者表示大語言模型常常會(huì)生成幻覺內(nèi)容，即與事實(shí)不符、缺乏支持的信息，這會(huì)削弱模型輸出的可靠性。以往的大多數(shù)研究都將幻覺檢測視為一個(gè)二分類任務(wù)（即判斷是否存在幻覺），但在許多實(shí)際應(yīng)用中，人們需要識(shí)別具體的幻覺片段（hallucinated spans），這實(shí)際上是一個(gè)多步驟決策過程。

這自然引出了一個(gè)關(guān)鍵問題：顯式推理是否能幫助完成幻覺片段檢測這一復(fù)雜任務(wù)？

為了解答這個(gè)問題，來自蘋果等機(jī)構(gòu)的研究者首先對(duì)有無思維鏈推理的預(yù)訓(xùn)練模型進(jìn)行了評(píng)估，結(jié)果表明：具備 CoT 推理的模型在多次采樣時(shí)，往往能至少生成一個(gè)正確答案。

受到這一發(fā)現(xiàn)的啟發(fā)，研究者提出了一個(gè)新的框架 RL4HS（Reinforcement Learning for Hallucination Span detection）。

該框架通過強(qiáng)化學(xué)習(xí)機(jī)制，利用片段級(jí)（span-level）獎(jiǎng)勵(lì)函數(shù)來激勵(lì)模型進(jìn)行推理。RL4HS 基于組相對(duì)策略優(yōu)化（GRPO）方法構(gòu)建，并引入了類別感知策略優(yōu)化，以緩解獎(jiǎng)勵(lì)不平衡問題。

在 RAGTruth 基準(zhǔn)測試集（涵蓋摘要生成、問答、數(shù)據(jù)到文本等任務(wù)）上的實(shí)驗(yàn)結(jié)果顯示：

RL4HS 的表現(xiàn)優(yōu)于預(yù)訓(xùn)練的推理模型與傳統(tǒng)監(jiān)督微調(diào)方法；
這表明，對(duì)于幻覺片段檢測任務(wù)，基于片段級(jí)獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)機(jī)制是必要且有效的。

論文地址：https://arxiv.org/pdf/2510.02173
論文標(biāo)題：Learning to Reason for Hallucination Span Detection

RL4HS 框架

本研究的核心問題之一是：顯式推理是否有助于識(shí)別幻覺片段。

作為初步實(shí)驗(yàn)，研究者選取了 Qwen2.5-7B 和 Qwen3-8B 兩種模型，在是否啟用思維鏈兩種模式下進(jìn)行評(píng)估。研究者讓大模型（Qwen 系列）分別在先推理后判斷和直接判斷兩種模式下工作。

針對(duì)每個(gè)輸入，本文對(duì)模型進(jìn)行 K 次采樣，并根據(jù) Span-F1 指標(biāo)選擇最佳預(yù)測結(jié)果。相應(yīng)的 Span-F1@K 結(jié)果如圖 1 所示。

結(jié)果顯示，當(dāng) K=1 時(shí)，思維鏈推理對(duì) Qwen2.5-7B 模型沒有帶來性能提升，對(duì) Qwen3-8B 模型的提升也較為有限。然而隨著 K 值增大，Span-F1@K 指標(biāo)的差距顯著擴(kuò)大，這證明思維鏈推理在多次采樣時(shí)至少能產(chǎn)生一次準(zhǔn)確預(yù)測的潛力。這些結(jié)果為采用強(qiáng)化學(xué)習(xí)方法來激發(fā)大語言模型在幻覺片段檢測方面的推理能力提供了明確依據(jù)。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也進(jìn)行了相同實(shí)驗(yàn)，觀察到了類似現(xiàn)象。

此外，本文還采用了 GRPO，其學(xué)習(xí)目標(biāo)定義如下：

盡管 GRPO 在組內(nèi)對(duì)優(yōu)勢值進(jìn)行了標(biāo)準(zhǔn)化處理，但本文發(fā)現(xiàn)預(yù)測類型會(huì)顯著影響優(yōu)勢值的大小，如圖 3 所示。

這種偏差源于獎(jiǎng)勵(lì)函數(shù) r_span 固有的不對(duì)稱性。在非幻覺類別中，模型只需預(yù)測一個(gè)空片段列表即可獲得高獎(jiǎng)勵(lì)；而在幻覺類別中，模型必須精確定位并輸出正確的片段范圍。后者是更困難的目標(biāo)，細(xì)微誤差就會(huì)導(dǎo)致基于 F1 的獎(jiǎng)勵(lì)大幅降低。因此，GRPO 會(huì)過度激勵(lì)模型做出非幻覺預(yù)測，最終形成高精確率但召回率被抑制的偏差行為。

為了解決這種不平衡問題，本文提出了類別感知策略優(yōu)化（Class-Aware Policy Optimization，簡稱 CAPO）。該方法為非幻覺類別的樣本引入一個(gè)縮放因子 α，用于調(diào)整其對(duì)應(yīng)的優(yōu)勢值，從而緩解獎(jiǎng)勵(lì)偏差。本實(shí)驗(yàn)中使用 α = 0.5。

實(shí)驗(yàn)

實(shí)驗(yàn)數(shù)據(jù)集如下所示：

實(shí)驗(yàn)主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為基礎(chǔ)模型。

作為對(duì)比，本文還評(píng)估了以下幾類模型：

預(yù)訓(xùn)練推理模型：Qwen3-8B、Qwen3-14B 和 QwQ-32B；
商用推理模型：GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini。

表 1 報(bào)告了 RAGTruth 在摘要、問答和數(shù)據(jù)轉(zhuǎn)文本等任務(wù)中的幻覺檢測結(jié)果。

預(yù)訓(xùn)練指令微調(diào)模型： Qwen2.5-7B/14B-Instruct（無論是否使用 CoT）在任務(wù)中的表現(xiàn)都較差，F(xiàn)1 分?jǐn)?shù)低于 30，這表明僅依靠提示并不足以實(shí)現(xiàn)精確的片段級(jí)定位。
預(yù)訓(xùn)練推理模型：具備推理能力的模型（如 QwQ-32B、Qwen3-8B、Qwen3-14B）在幻覺檢測任務(wù)中能夠遷移部分推理能力。例如，Qwen3-14B 在摘要任務(wù)上的 F1 提升至 35.8，而 Qwen2.5-14B-Instruct 僅為 32.9。然而，這些模型的表現(xiàn)仍落后于微調(diào)模型，這說明僅具備一般推理能力還不足以勝任片段級(jí)幻覺檢測任務(wù)。
微調(diào)基線模型：監(jiān)督微調(diào)顯著提升了性能，在 14B 規(guī)模下 F1 達(dá)到 55.4。
RL4HS 模型：RL4HS 在所有基線模型之上表現(xiàn)出一致的優(yōu)勢，包括專有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三個(gè)任務(wù)上的平均 F1 達(dá)到 55.9，顯著優(yōu)于 SFT 的 50.1。在 14B 規(guī)模下，RL4HS-14B 在摘要、問答和數(shù)據(jù)到文本任務(wù)上分別取得 57.6、54.8 和 62.6 的成績，超越了 Qwen3 系列以及表現(xiàn)最強(qiáng)的 GPT-5 和 o3 模型。

下圖表明 CAPO 有效地解決了優(yōu)勢分布分析中揭示的不平衡問題。

為了更好地理解 RL4HS 所學(xué)習(xí)到的推理行為，本文在 RAGTruth 數(shù)據(jù)集上進(jìn)行了定性結(jié)果分析（見表 3）。這一示例聚焦于一個(gè)具體的不一致問題。

預(yù)訓(xùn)練模型。在微調(diào)之前，預(yù)訓(xùn)練模型未能識(shí)別這一不一致。雖然它檢查了結(jié)構(gòu)化的營業(yè)時(shí)間和用戶評(píng)價(jià)，但忽略了一個(gè)關(guān)鍵事實(shí)：結(jié)構(gòu)化數(shù)據(jù)中并沒有任何與餐飲服務(wù)相關(guān)的屬性。因此，模型未標(biāo)注出任何幻覺片段。

RL4HS。相比之下，RL4HS 成功識(shí)別出了提供餐飲服務(wù)這一聲明是幻覺內(nèi)容。其推理過程與人工設(shè)計(jì)的啟發(fā)式檢測流程高度一致

這一案例表明，RL4HS 的推理不僅停留在表面解釋層面。不同于生成籠統(tǒng)或無關(guān)的說明，它能夠執(zhí)行系統(tǒng)化的、一致性檢驗(yàn)式的推理，與傳統(tǒng)幻覺檢測流程中使用的啟發(fā)式規(guī)則高度契合。這說明在片段級(jí)獎(jiǎng)勵(lì)機(jī)制下，RL4HS 所學(xué)到的推理行為是真實(shí)的、可靠的。

了解更多內(nèi)容，請(qǐng)參考原論文。

閱讀最新前沿科技趨勢報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫是“ 歐米伽未來研究所”建立的在線知識(shí)庫平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.