來源:機(jī)器之心報(bào)道
機(jī)器之心編輯部
蘋果這幾天真是進(jìn)入了論文高產(chǎn)期,時(shí)不時(shí)就有新的研究發(fā)布出來。
就在近日,蘋果又發(fā)布了一篇引發(fā)學(xué)界與業(yè)界關(guān)注的重磅論文。
這篇論文非常有意思,它用強(qiáng)化學(xué)習(xí)訓(xùn)練模型,讓模型能夠準(zhǔn)確標(biāo)出答案中哪些部分是幻覺(hallucinated)。
其核心突破在于:模型不再只是籠統(tǒng)地提示有錯(cuò)誤,而是能直接指出具體哪一段文字是錯(cuò)誤的。這對(duì)于需要修改輸出或進(jìn)行事實(shí)審查的用戶來說,大大節(jié)省了時(shí)間。
論文提出的方法名為 RL4HS,它使用了片段級(jí)獎(jiǎng)勵(lì)(span-level rewards)和類別感知的 GRPO(Class-Aware Group Relative Policy Optimization),從而避免模型偷懶、只輸出無錯(cuò)誤預(yù)測。
該方法在片段級(jí)幻覺檢測任務(wù)上,甚至超過了 GPT-5 和 o3。
總體而言,片段級(jí)獎(jiǎng)勵(lì) + 類別平衡機(jī)制讓模型真正學(xué)會(huì)了核查依據(jù)并精確指出錯(cuò)誤內(nèi)容,這是讓大語言模型更可靠、更可審計(jì)的重要一步。
來源:https://x.com/rohanpaul_ai/status/1974652007068967315
接下來我們看看論文內(nèi)容。
論文摘要部分,作者表示大語言模型常常會(huì)生成幻覺內(nèi)容,即與事實(shí)不符、缺乏支持的信息,這會(huì)削弱模型輸出的可靠性。以往的大多數(shù)研究都將幻覺檢測視為一個(gè)二分類任務(wù)(即判斷是否存在幻覺),但在許多實(shí)際應(yīng)用中,人們需要識(shí)別具體的幻覺片段(hallucinated spans),這實(shí)際上是一個(gè)多步驟決策過程。
這自然引出了一個(gè)關(guān)鍵問題:顯式推理是否能幫助完成幻覺片段檢測這一復(fù)雜任務(wù)?
為了解答這個(gè)問題,來自蘋果等機(jī)構(gòu)的研究者首先對(duì)有無思維鏈推理的預(yù)訓(xùn)練模型進(jìn)行了評(píng)估,結(jié)果表明:具備 CoT 推理的模型在多次采樣時(shí),往往能至少生成一個(gè)正確答案。
受到這一發(fā)現(xiàn)的啟發(fā),研究者提出了一個(gè)新的框架 RL4HS(Reinforcement Learning for Hallucination Span detection)。
該框架通過強(qiáng)化學(xué)習(xí)機(jī)制,利用片段級(jí)(span-level)獎(jiǎng)勵(lì)函數(shù)來激勵(lì)模型進(jìn)行推理。RL4HS 基于組相對(duì)策略優(yōu)化(GRPO)方法構(gòu)建,并引入了類別感知策略優(yōu)化,以緩解獎(jiǎng)勵(lì)不平衡問題。
在 RAGTruth 基準(zhǔn)測試集(涵蓋摘要生成、問答、數(shù)據(jù)到文本等任務(wù))上的實(shí)驗(yàn)結(jié)果顯示:
RL4HS 的表現(xiàn)優(yōu)于預(yù)訓(xùn)練的推理模型與傳統(tǒng)監(jiān)督微調(diào)方法;
這表明,對(duì)于幻覺片段檢測任務(wù),基于片段級(jí)獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)機(jī)制是必要且有效的。
論文地址:https://arxiv.org/pdf/2510.02173
論文標(biāo)題:Learning to Reason for Hallucination Span Detection
RL4HS 框架
本研究的核心問題之一是:顯式推理是否有助于識(shí)別幻覺片段。
作為初步實(shí)驗(yàn),研究者選取了 Qwen2.5-7B 和 Qwen3-8B 兩種模型,在是否啟用思維鏈兩種模式下進(jìn)行評(píng)估。研究者讓大模型(Qwen 系列)分別在先推理后判斷和直接判斷兩種模式下工作。
針對(duì)每個(gè)輸入,本文對(duì)模型進(jìn)行 K 次采樣,并根據(jù) Span-F1 指標(biāo)選擇最佳預(yù)測結(jié)果。相應(yīng)的 Span-F1@K 結(jié)果如圖 1 所示。
結(jié)果顯示,當(dāng) K=1 時(shí),思維鏈推理對(duì) Qwen2.5-7B 模型沒有帶來性能提升,對(duì) Qwen3-8B 模型的提升也較為有限。然而隨著 K 值增大,Span-F1@K 指標(biāo)的差距顯著擴(kuò)大,這證明思維鏈推理在多次采樣時(shí)至少能產(chǎn)生一次準(zhǔn)確預(yù)測的潛力。這些結(jié)果為采用強(qiáng)化學(xué)習(xí)方法來激發(fā)大語言模型在幻覺片段檢測方面的推理能力提供了明確依據(jù)。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也進(jìn)行了相同實(shí)驗(yàn),觀察到了類似現(xiàn)象。
此外,本文還采用了 GRPO,其學(xué)習(xí)目標(biāo)定義如下:
盡管 GRPO 在組內(nèi)對(duì)優(yōu)勢值進(jìn)行了標(biāo)準(zhǔn)化處理,但本文發(fā)現(xiàn)預(yù)測類型會(huì)顯著影響優(yōu)勢值的大小,如圖 3 所示。
這種偏差源于獎(jiǎng)勵(lì)函數(shù) r_span 固有的不對(duì)稱性。在非幻覺類別中,模型只需預(yù)測一個(gè)空片段列表即可獲得高獎(jiǎng)勵(lì);而在幻覺類別中,模型必須精確定位并輸出正確的片段范圍。后者是更困難的目標(biāo),細(xì)微誤差就會(huì)導(dǎo)致基于 F1 的獎(jiǎng)勵(lì)大幅降低。因此,GRPO 會(huì)過度激勵(lì)模型做出非幻覺預(yù)測,最終形成高精確率但召回率被抑制的偏差行為。
為了解決這種不平衡問題,本文提出了類別感知策略優(yōu)化(Class-Aware Policy Optimization,簡稱 CAPO)。該方法為非幻覺類別的樣本引入一個(gè)縮放因子 α,用于調(diào)整其對(duì)應(yīng)的優(yōu)勢值,從而緩解獎(jiǎng)勵(lì)偏差。本實(shí)驗(yàn)中使用 α = 0.5。
實(shí)驗(yàn)
實(shí)驗(yàn)數(shù)據(jù)集如下所示:
實(shí)驗(yàn)主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為基礎(chǔ)模型。
作為對(duì)比,本文還評(píng)估了以下幾類模型:
預(yù)訓(xùn)練推理模型:Qwen3-8B、Qwen3-14B 和 QwQ-32B;
商用推理模型:GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini。
表 1 報(bào)告了 RAGTruth 在摘要、問答和數(shù)據(jù)轉(zhuǎn)文本等任務(wù)中的幻覺檢測結(jié)果。
預(yù)訓(xùn)練指令微調(diào)模型: Qwen2.5-7B/14B-Instruct(無論是否使用 CoT)在任務(wù)中的表現(xiàn)都較差,F(xiàn)1 分?jǐn)?shù)低于 30,這表明僅依靠提示并不足以實(shí)現(xiàn)精確的片段級(jí)定位。
預(yù)訓(xùn)練推理模型:具備推理能力的模型(如 QwQ-32B、Qwen3-8B、Qwen3-14B)在幻覺檢測任務(wù)中能夠遷移部分推理能力。例如,Qwen3-14B 在摘要任務(wù)上的 F1 提升至 35.8,而 Qwen2.5-14B-Instruct 僅為 32.9。然而,這些模型的表現(xiàn)仍落后于微調(diào)模型,這說明僅具備一般推理能力還不足以勝任片段級(jí)幻覺檢測任務(wù)。
微調(diào)基線模型:監(jiān)督微調(diào)顯著提升了性能,在 14B 規(guī)模下 F1 達(dá)到 55.4。
RL4HS 模型:RL4HS 在所有基線模型之上表現(xiàn)出一致的優(yōu)勢,包括專有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三個(gè)任務(wù)上的平均 F1 達(dá)到 55.9,顯著優(yōu)于 SFT 的 50.1。在 14B 規(guī)模下,RL4HS-14B 在摘要、問答和數(shù)據(jù)到文本任務(wù)上分別取得 57.6、54.8 和 62.6 的成績,超越了 Qwen3 系列以及表現(xiàn)最強(qiáng)的 GPT-5 和 o3 模型。
下圖表明 CAPO 有效地解決了優(yōu)勢分布分析中揭示的不平衡問題。
為了更好地理解 RL4HS 所學(xué)習(xí)到的推理行為,本文在 RAGTruth 數(shù)據(jù)集上進(jìn)行了定性結(jié)果分析(見表 3)。這一示例聚焦于一個(gè)具體的不一致問題。
預(yù)訓(xùn)練模型。在微調(diào)之前,預(yù)訓(xùn)練模型未能識(shí)別這一不一致。雖然它檢查了結(jié)構(gòu)化的營業(yè)時(shí)間和用戶評(píng)價(jià),但忽略了一個(gè)關(guān)鍵事實(shí):結(jié)構(gòu)化數(shù)據(jù)中并沒有任何與餐飲服務(wù)相關(guān)的屬性。因此,模型未標(biāo)注出任何幻覺片段。
RL4HS。相比之下,RL4HS 成功識(shí)別出了提供餐飲服務(wù)這一聲明是幻覺內(nèi)容。其推理過程與人工設(shè)計(jì)的啟發(fā)式檢測流程高度一致
這一案例表明,RL4HS 的推理不僅停留在表面解釋層面。不同于生成籠統(tǒng)或無關(guān)的說明,它能夠執(zhí)行系統(tǒng)化的、一致性檢驗(yàn)式的推理,與傳統(tǒng)幻覺檢測流程中使用的啟發(fā)式規(guī)則高度契合。這說明在片段級(jí)獎(jiǎng)勵(lì)機(jī)制下,RL4HS 所學(xué)到的推理行為是真實(shí)的、可靠的。
了解更多內(nèi)容,請(qǐng)參考原論文。
閱讀最新前沿科技趨勢報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”
https://wx.zsxq.com/group/454854145828
未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.