網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

螞蟻安全團(tuán)隊(duì)新范式Agentic Deep Research，推理能力顯著提升

2025-08-27 15:16:38　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

盡管 LLM 的能力與日俱增，但其在復(fù)雜任務(wù)上的表現(xiàn)仍受限于靜態(tài)的內(nèi)部知識(shí)。為從根本上解決這一限制，突破 AI 能力界限，業(yè)界研究者們提出了 Agentic Deep Research 系統(tǒng)，在該系統(tǒng)中基于 LLM 的 Agent 通過自主推理、調(diào)用搜索引擎和迭代地整合信息來給出全面、有深度且正確性有保障的解決方案。

OpenAI 和 Google 的研究者們總結(jié)了 Agentic Deep Researcher 的幾大優(yōu)勢(shì)：（1）深入的問題理解能力（Comprehensive Understanding）：能夠處理復(fù)雜、多跳的用戶提問；（2）強(qiáng)大的信息整合能力（Enhanced Synthesis）：能夠?qū)V泛甚至沖突的信息源整合為合理的輸出；（3）減輕用戶的認(rèn)知負(fù)擔(dān)（Reduced User Effort）：整個(gè) research 過程完全自主，不需要用戶的過多干預(yù)。

現(xiàn)存最先進(jìn)的 Agentic Deep Research 系統(tǒng)往往基于由可驗(yàn)證結(jié)果獎(jiǎng)勵(lì)指導(dǎo)的強(qiáng)化學(xué)習(xí)訓(xùn)練，盡管該訓(xùn)練范式帶來了顯著的性能收益，但仍存在以下核心問題：

梯度沖突（Gradients Conflicts）：在基于可驗(yàn)證結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)范式中，即使中間的推理過程或研究策略是有效的，只要最終答案錯(cuò)誤，整個(gè)推理軌跡都會(huì)受到懲罰。這種粗粒度的獎(jiǎng)勵(lì)設(shè)計(jì)在中間推理步驟與最終答案之間引入了潛在的梯度沖突，阻礙了模型發(fā)現(xiàn)更優(yōu)的推理能力和研究策略，從而限制了其泛化能力
獎(jiǎng)勵(lì)稀疏（Reward sparsity）：基于結(jié)果的強(qiáng)化學(xué)習(xí)僅依賴最終答案生成獎(jiǎng)勵(lì)，導(dǎo)致每個(gè)訓(xùn)練樣本只能提供稀疏的反饋信號(hào)。這嚴(yán)重限制了策略優(yōu)化的效率，因?yàn)樗黾恿藢?duì)更大規(guī)模訓(xùn)練數(shù)據(jù)和更長(zhǎng)訓(xùn)練周期的依賴。

以上兩個(gè)限制限制了 Agentic Deep Research 系統(tǒng)的性能上線，為決解這兩大限制，來自螞蟻安全與智能實(shí)驗(yàn)室團(tuán)隊(duì)提出了 Atom-Searcher，進(jìn)一步推動(dòng)了 Agentic Deep Research 系統(tǒng)的性能邊界。

論文標(biāo)題：Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
論文：https://arxiv.org/abs/2508.12800
Github: https://github.com/antgroup/Research-Venus
Huggingface: https://huggingface.co/dikw/Atom-Searcher

方法介紹

本研究提出了一種創(chuàng)新性的 Agentic Deep Research 系統(tǒng)訓(xùn)練框架 Atom-Searcher，結(jié)合監(jiān)督微調(diào)（SFT）與基于細(xì)粒度獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)構(gòu)建強(qiáng)大的 Agentic Deep Research 系統(tǒng)。

與現(xiàn)存 Agentic Deep Research 訓(xùn)練框架相比，Atom-Searcher 創(chuàng)新地提出了 Atomic Thought 推理范式，引導(dǎo) LLM 進(jìn)行更加深入、可信和可解釋的推理；然后引入 Reasoning Reward Model（RRM）對(duì) Atomic Thought 式的推理過程進(jìn)行監(jiān)督，構(gòu)建細(xì)粒度的 Atomic Thought Reward（ATR）；進(jìn)而提出一種課程學(xué)習(xí)啟發(fā)的獎(jiǎng)勵(lì)融合策略將 ATR 與可驗(yàn)證結(jié)果獎(jiǎng)勵(lì)進(jìn)行聚合；最后基于聚合獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。

Atomic Thought 推理范式

細(xì)粒度 Atomic Thought Reward 構(gòu)建

課程學(xué)習(xí)啟發(fā)的獎(jiǎng)勵(lì)聚合策略

基于可驗(yàn)證結(jié)果的獎(jiǎng)勵(lì)的 Agentic Deep Research 系統(tǒng)之所以存在梯度沖突問題，是由于基于結(jié)果的獎(jiǎng)勵(lì)在 token 級(jí)別的獎(jiǎng)勵(lì)分配上過于粗糙。具體來說，它將中間推理步驟的正確性完全歸因于最終答案，常常在不考慮各步驟實(shí)際貢獻(xiàn)的情況下對(duì)其進(jìn)行獎(jiǎng)勵(lì)或懲罰。這種錯(cuò)位在優(yōu)化過程中會(huì)引發(fā)梯度沖突。為解決這一問題，我們將 ATR 與結(jié)果獎(jiǎng)勵(lì)相結(jié)合，利用 ATR 作為輔助信號(hào)來校準(zhǔn)結(jié)果獎(jiǎng)勵(lì)，從而緩解梯度沖突。

然而，使用靜態(tài)的獎(jiǎng)勵(lì)加權(quán)系數(shù)無法與訓(xùn)練動(dòng)態(tài)保持一致。具體而言，在訓(xùn)練初期，模型能力尚有限，難以生成完全正確的答案，但更有可能探索出對(duì)最終正確解有貢獻(xiàn)的有用 “原子思維”。如果此階段僅依賴基于結(jié)果的獎(jiǎng)勵(lì)，這些有益的原子思維可能因最終答案錯(cuò)誤而遭到不公正的懲罰；相反，一些有害的原子思維也可能被錯(cuò)誤地強(qiáng)化，導(dǎo)致嚴(yán)重的梯度沖突，因而需要 ATR 進(jìn)行較強(qiáng)的校準(zhǔn)。隨著訓(xùn)練的推進(jìn)，模型能力逐步提升，其推理軌跡與正確答案的對(duì)齊程度也日益提高。因此，梯度沖突逐漸減弱，而來自 ATR 的過度校準(zhǔn)可能會(huì)引入不必要的噪聲，反而損害最終的準(zhǔn)確性。

強(qiáng)化學(xué)習(xí)訓(xùn)練

基于混合獎(jiǎng)勵(lì)，本文采用了 GRPO 算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。并使用了 Loss Masking 策略保證訓(xùn)練的穩(wěn)定性。具體而言，在原始的 GRPO 框架中，損失函數(shù)會(huì)計(jì)算整個(gè)推理路徑中所有 token 的梯度。但在 Atom-Searcher 中，模型的輸出路徑包含由外部環(huán)境檢索得到的內(nèi)容（如搜索結(jié)果），這些內(nèi)容不是模型生成的，也不可訓(xùn)練。為了避免模型在訓(xùn)練時(shí)被這些靜態(tài)、不可控的內(nèi)容誤導(dǎo)，本文采用了 Loss Masking 機(jī)制，將檢索結(jié)果部分的 token 排除在損失計(jì)算之外。

實(shí)驗(yàn)效果

主實(shí)驗(yàn)

Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表現(xiàn)均十分亮眼。在 In-Domain Benchmarks （NQ、 TQ、HotpotQA、2Wiki）上 Atom-Searcher 相較于最優(yōu) baseline——DeepResearcher 取得了 8.5% 的平均性能提升，在 Out-of-Domain Benchmarks（Musique、 Bamboogle、 PopQA）上 Atom-Searcher 相較于最優(yōu) baseline——DeepResearcher 取得了 2.5% 的性能提升。

消融實(shí)驗(yàn)

作者們證明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的貢獻(xiàn)，并證明了相較于傳統(tǒng)的 < think > 推理范式 Atomic Thought 范式為 RRM 提供了有效的監(jiān)督錨點(diǎn)，從而帶來了性能提升

案例分析

作者們通過案例分析對(duì)比了 Atom-Searcher 與最優(yōu) baseline——DeepResearcher 的推理過程。展示了 Atom-Searcher 的優(yōu)勢(shì)：（1）Atom-Searcher 在其推理過程中自主生成了 Atomic Thoughts，展現(xiàn)出更接近人類的認(rèn)知行為，例如問題分析、提出解決方案假設(shè)、預(yù)測(cè)錯(cuò)誤以及規(guī)劃下一步操作，使其推理過程更加深入且清晰；（2）Atom-Searcher 會(huì)觸發(fā)更多的搜索調(diào)用，從而獲取更豐富的外部信息，以確保答案的正確性。這些優(yōu)勢(shì)表明，Atom-Searcher 在更復(fù)雜的 Deep Research 任務(wù)中具有巨大潛力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.