夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

螞蟻安全團(tuán)隊(duì)新范式Agentic Deep Research,推理能力顯著提升

0
分享至



盡管 LLM 的能力與日俱增,但其在復(fù)雜任務(wù)上的表現(xiàn)仍受限于靜態(tài)的內(nèi)部知識(shí)。為從根本上解決這一限制,突破 AI 能力界限,業(yè)界研究者們提出了 Agentic Deep Research 系統(tǒng),在該系統(tǒng)中基于 LLM 的 Agent 通過自主推理、調(diào)用搜索引擎和迭代地整合信息來給出全面、有深度且正確性有保障的解決方案。

OpenAI 和 Google 的研究者們總結(jié)了 Agentic Deep Researcher 的幾大優(yōu)勢(shì):(1)深入的問題理解能力(Comprehensive Understanding):能夠處理復(fù)雜、多跳的用戶提問;(2)強(qiáng)大的信息整合能力(Enhanced Synthesis):能夠?qū)V泛甚至沖突的信息源整合為合理的輸出;(3)減輕用戶的認(rèn)知負(fù)擔(dān)(Reduced User Effort):整個(gè) research 過程完全自主,不需要用戶的過多干預(yù)。

現(xiàn)存最先進(jìn)的 Agentic Deep Research 系統(tǒng)往往基于由可驗(yàn)證結(jié)果獎(jiǎng)勵(lì)指導(dǎo)的強(qiáng)化學(xué)習(xí)訓(xùn)練,盡管該訓(xùn)練范式帶來了顯著的性能收益,但仍存在以下核心問題:

  • 梯度沖突(Gradients Conflicts):在基于可驗(yàn)證結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)范式中,即使中間的推理過程或研究策略是有效的,只要最終答案錯(cuò)誤,整個(gè)推理軌跡都會(huì)受到懲罰。這種粗粒度的獎(jiǎng)勵(lì)設(shè)計(jì)在中間推理步驟與最終答案之間引入了潛在的梯度沖突,阻礙了模型發(fā)現(xiàn)更優(yōu)的推理能力和研究策略,從而限制了其泛化能力
  • 獎(jiǎng)勵(lì)稀疏(Reward sparsity):基于結(jié)果的強(qiáng)化學(xué)習(xí)僅依賴最終答案生成獎(jiǎng)勵(lì),導(dǎo)致每個(gè)訓(xùn)練樣本只能提供稀疏的反饋信號(hào)。這嚴(yán)重限制了策略優(yōu)化的效率,因?yàn)樗黾恿藢?duì)更大規(guī)模訓(xùn)練數(shù)據(jù)和更長(zhǎng)訓(xùn)練周期的依賴。

以上兩個(gè)限制限制了 Agentic Deep Research 系統(tǒng)的性能上線,為決解這兩大限制,來自螞蟻安全與智能實(shí)驗(yàn)室團(tuán)隊(duì)提出了 Atom-Searcher,進(jìn)一步推動(dòng)了 Agentic Deep Research 系統(tǒng)的性能邊界。



  • 論文標(biāo)題:Atom-Searcher: Enhancing Agentic Deep Research via Fine-Grained Atomic Thought Reward
  • 論文:https://arxiv.org/abs/2508.12800
  • Github: https://github.com/antgroup/Research-Venus
  • Huggingface: https://huggingface.co/dikw/Atom-Searcher



方法介紹

本研究提出了一種創(chuàng)新性的 Agentic Deep Research 系統(tǒng)訓(xùn)練框架 Atom-Searcher,結(jié)合監(jiān)督微調(diào)(SFT)與基于細(xì)粒度獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)構(gòu)建強(qiáng)大的 Agentic Deep Research 系統(tǒng)。

與現(xiàn)存 Agentic Deep Research 訓(xùn)練框架相比,Atom-Searcher 創(chuàng)新地提出了 Atomic Thought 推理范式,引導(dǎo) LLM 進(jìn)行更加深入、可信和可解釋的推理;然后引入 Reasoning Reward Model(RRM)對(duì) Atomic Thought 式的推理過程進(jìn)行監(jiān)督,構(gòu)建細(xì)粒度的 Atomic Thought Reward(ATR);進(jìn)而提出一種課程學(xué)習(xí)啟發(fā)的獎(jiǎng)勵(lì)融合策略將 ATR 與可驗(yàn)證結(jié)果獎(jiǎng)勵(lì)進(jìn)行聚合;最后基于聚合獎(jiǎng)勵(lì)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。



Atomic Thought 推理范式





細(xì)粒度 Atomic Thought Reward 構(gòu)建



課程學(xué)習(xí)啟發(fā)的獎(jiǎng)勵(lì)聚合策略

基于可驗(yàn)證結(jié)果的獎(jiǎng)勵(lì)的 Agentic Deep Research 系統(tǒng)之所以存在梯度沖突問題,是由于基于結(jié)果的獎(jiǎng)勵(lì)在 token 級(jí)別的獎(jiǎng)勵(lì)分配上過于粗糙。具體來說,它將中間推理步驟的正確性完全歸因于最終答案,常常在不考慮各步驟實(shí)際貢獻(xiàn)的情況下對(duì)其進(jìn)行獎(jiǎng)勵(lì)或懲罰。這種錯(cuò)位在優(yōu)化過程中會(huì)引發(fā)梯度沖突。為解決這一問題,我們將 ATR 與結(jié)果獎(jiǎng)勵(lì)相結(jié)合,利用 ATR 作為輔助信號(hào)來校準(zhǔn)結(jié)果獎(jiǎng)勵(lì),從而緩解梯度沖突。

然而,使用靜態(tài)的獎(jiǎng)勵(lì)加權(quán)系數(shù)無法與訓(xùn)練動(dòng)態(tài)保持一致。具體而言,在訓(xùn)練初期,模型能力尚有限,難以生成完全正確的答案,但更有可能探索出對(duì)最終正確解有貢獻(xiàn)的有用 “原子思維”。如果此階段僅依賴基于結(jié)果的獎(jiǎng)勵(lì),這些有益的原子思維可能因最終答案錯(cuò)誤而遭到不公正的懲罰;相反,一些有害的原子思維也可能被錯(cuò)誤地強(qiáng)化,導(dǎo)致嚴(yán)重的梯度沖突,因而需要 ATR 進(jìn)行較強(qiáng)的校準(zhǔn)。隨著訓(xùn)練的推進(jìn),模型能力逐步提升,其推理軌跡與正確答案的對(duì)齊程度也日益提高。因此,梯度沖突逐漸減弱,而來自 ATR 的過度校準(zhǔn)可能會(huì)引入不必要的噪聲,反而損害最終的準(zhǔn)確性。

強(qiáng)化學(xué)習(xí)訓(xùn)練

基于混合獎(jiǎng)勵(lì),本文采用了 GRPO 算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。并使用了 Loss Masking 策略保證訓(xùn)練的穩(wěn)定性。具體而言,在原始的 GRPO 框架中,損失函數(shù)會(huì)計(jì)算整個(gè)推理路徑中所有 token 的梯度。但在 Atom-Searcher 中,模型的輸出路徑包含由外部環(huán)境檢索得到的內(nèi)容(如搜索結(jié)果),這些內(nèi)容不是模型生成的,也不可訓(xùn)練。為了避免模型在訓(xùn)練時(shí)被這些靜態(tài)、不可控的內(nèi)容誤導(dǎo),本文采用了 Loss Masking 機(jī)制,將檢索結(jié)果部分的 token 排除在損失計(jì)算之外。

實(shí)驗(yàn)效果

主實(shí)驗(yàn)

Atom-Searcher 在 In-Domain 和 Out-of-Domain 上的性能表現(xiàn)均十分亮眼。在 In-Domain Benchmarks (NQ、 TQ、HotpotQA、2Wiki)上 Atom-Searcher 相較于最優(yōu) baseline——DeepResearcher 取得了 8.5% 的平均性能提升,在 Out-of-Domain Benchmarks(Musique、 Bamboogle、 PopQA)上 Atom-Searcher 相較于最優(yōu) baseline——DeepResearcher 取得了 2.5% 的性能提升。



消融實(shí)驗(yàn)

作者們證明了 Atom-Searcher 中 Atomic Thought 范式和 ATR 的貢獻(xiàn),并證明了相較于傳統(tǒng)的 < think > 推理范式 Atomic Thought 范式為 RRM 提供了有效的監(jiān)督錨點(diǎn),從而帶來了性能提升



案例分析

作者們通過案例分析對(duì)比了 Atom-Searcher 與最優(yōu) baseline——DeepResearcher 的推理過程。展示了 Atom-Searcher 的優(yōu)勢(shì):(1)Atom-Searcher 在其推理過程中自主生成了 Atomic Thoughts,展現(xiàn)出更接近人類的認(rèn)知行為,例如問題分析、提出解決方案假設(shè)、預(yù)測(cè)錯(cuò)誤以及規(guī)劃下一步操作,使其推理過程更加深入且清晰;(2)Atom-Searcher 會(huì)觸發(fā)更多的搜索調(diào)用,從而獲取更豐富的外部信息,以確保答案的正確性。這些優(yōu)勢(shì)表明,Atom-Searcher 在更復(fù)雜的 Deep Research 任務(wù)中具有巨大潛力。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
房地產(chǎn)反洗錢新規(guī)9月起實(shí)施:房企、中介需保存客戶資料不少于十年,對(duì)拒不配合客戶可拒絕提供服務(wù)

房地產(chǎn)反洗錢新規(guī)9月起實(shí)施:房企、中介需保存客戶資料不少于十年,對(duì)拒不配合客戶可拒絕提供服務(wù)

每日經(jīng)濟(jì)新聞
2025-08-27 19:11:04
45歲男子每天大便四五次,幾次醫(yī)院檢查都正常,換個(gè)醫(yī)院真相大白

45歲男子每天大便四五次,幾次醫(yī)院檢查都正常,換個(gè)醫(yī)院真相大白

凱裕說故事
2025-08-11 16:23:43
中共中央、國(guó)務(wù)院:支持有條件的城市承擔(dān)重大外事外交活動(dòng),吸引有影響力國(guó)際組織落戶

中共中央、國(guó)務(wù)院:支持有條件的城市承擔(dān)重大外事外交活動(dòng),吸引有影響力國(guó)際組織落戶

界面新聞
2025-08-28 19:08:39
小學(xué)生“畫下媽媽睡姿”走紅,畫面過于寫實(shí),老師不得不打滿分

小學(xué)生“畫下媽媽睡姿”走紅,畫面過于寫實(shí),老師不得不打滿分

熙熙說教
2025-08-24 21:20:14
正式轉(zhuǎn)投上海男籃!張鎮(zhèn)麟為了自己的家庭,告別遼寧男籃!

正式轉(zhuǎn)投上海男籃!張鎮(zhèn)麟為了自己的家庭,告別遼寧男籃!

德譯洋洋
2025-08-28 14:41:49
這一珍貴畫面,在云南拍到了!

這一珍貴畫面,在云南拍到了!

開屏新聞客戶端
2025-08-28 22:05:45
《舉起手來3》籌拍!導(dǎo)演馮小寧:主拍攝地仍放在新鄉(xiāng)南太行

《舉起手來3》籌拍!導(dǎo)演馮小寧:主拍攝地仍放在新鄉(xiāng)南太行

大象新聞
2025-08-27 17:44:21
韓磊私生活曝光:7情婦、400萬撫養(yǎng)費(fèi),孩子生活費(fèi)被斷

韓磊私生活曝光:7情婦、400萬撫養(yǎng)費(fèi),孩子生活費(fèi)被斷

花間悅語
2025-08-29 03:10:11
紳士們喜歡的TOP30名日本演員女優(yōu)!

紳士們喜歡的TOP30名日本演員女優(yōu)!

素然追光
2025-08-28 05:00:03
新兵被開除軍籍,問連長(zhǎng)知道他爺爺是誰嗎,連長(zhǎng)譏笑:誰都沒用

新兵被開除軍籍,問連長(zhǎng)知道他爺爺是誰嗎,連長(zhǎng)譏笑:誰都沒用

第四思維
2025-08-25 22:11:33
土耳其懵圈了!殲-35竟然裝了“防盜鎖”,200億大單怕是要打水漂

土耳其懵圈了!殲-35竟然裝了“防盜鎖”,200億大單怕是要打水漂

風(fēng)眼軍情
2025-08-27 20:10:06
白酒再次成為關(guān)注中心!醫(yī)生發(fā)現(xiàn):糖尿病喝白酒時(shí),多留意8點(diǎn)!

白酒再次成為關(guān)注中心!醫(yī)生發(fā)現(xiàn):糖尿病喝白酒時(shí),多留意8點(diǎn)!

素衣讀史
2025-08-28 13:45:54
阿賈克斯主帥:好簽,想晉級(jí)就得在主場(chǎng)拿分

阿賈克斯主帥:好簽,想晉級(jí)就得在主場(chǎng)拿分

雷速體育
2025-08-29 01:50:08
楊穎,姚晨,何晟銘,馬天宇,HK老歌手睡已婚粉,錘爺回復(fù)爆料貼

楊穎,姚晨,何晟銘,馬天宇,HK老歌手睡已婚粉,錘爺回復(fù)爆料貼

十錘星人
2025-08-28 23:05:57
合肥一居委會(huì)主任被查

合肥一居委會(huì)主任被查

魯中晨報(bào)
2025-08-28 18:36:03
廈門航空一航班起飛前充電寶疑著火致延誤兩小時(shí),客艙內(nèi)煙霧繚繞“刺鼻”,多方回應(yīng)

廈門航空一航班起飛前充電寶疑著火致延誤兩小時(shí),客艙內(nèi)煙霧繚繞“刺鼻”,多方回應(yīng)

瀟湘晨報(bào)
2025-08-28 17:38:26
不識(shí)抬舉?韓國(guó)降格回應(yīng)中方93閱兵邀請(qǐng),韓媒:李在明確定不參加

不識(shí)抬舉?韓國(guó)降格回應(yīng)中方93閱兵邀請(qǐng),韓媒:李在明確定不參加

阿天愛旅行
2025-08-29 04:01:11
大暴雨+9級(jí)大風(fēng)!熱帶低壓預(yù)計(jì)將于12小時(shí)內(nèi)生成!未來廣州天氣→

大暴雨+9級(jí)大風(fēng)!熱帶低壓預(yù)計(jì)將于12小時(shí)內(nèi)生成!未來廣州天氣→

羊城攻略
2025-08-28 23:21:29
楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

楊蘭蘭保鏢身份疑曝光:姓胡、江西人,曾服役武警特勤,身手不凡

公子麥少
2025-08-10 17:04:40
主動(dòng)退出奧運(yùn)申辦!中國(guó)這一招,讓西方媒體無話可說

主動(dòng)退出奧運(yùn)申辦!中國(guó)這一招,讓西方媒體無話可說

青梅侃史啊
2025-08-18 16:14:26
2025-08-29 06:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11181文章數(shù) 142426關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá),被中國(guó)市場(chǎng)“反殺”

頭條要聞

媒體:宗馥莉終于徹底告別宗慶后

頭條要聞

媒體:宗馥莉終于徹底告別宗慶后

體育要聞

33歲,癌癥+白血病,他還不想放棄籃球

娛樂要聞

馬伊琍回應(yīng)婚變:痛苦源于文章

財(cái)經(jīng)要聞

生死淘汰賽 "新能源三劍客"負(fù)債6.56萬億

汽車要聞

全新設(shè)計(jì)更運(yùn)動(dòng)/純電續(xù)航125km 吉利銀河星耀6曝光

態(tài)度原創(chuàng)

親子
數(shù)碼
健康
公開課
軍事航空

親子要聞

寶媽必學(xué),你能做到對(duì)這位媽媽認(rèn)同、共情和思考嗎?

數(shù)碼要聞

DJI Mic 3首發(fā)評(píng)測(cè):機(jī)身mini體驗(yàn)旗艦,無線麥克風(fēng)新標(biāo)桿?

精神科專家解答學(xué)習(xí)困難七大問題

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京、金正恩等將出席九三閱兵

無障礙瀏覽 進(jìn)入關(guān)懷版 国产 精品 无码 在线| 国产区精品一区二区不卡中文| 国产69精品久久久久99尤物| 日韩福利免费在线| 97se婷婷激情| 久久国产亚洲一区二区三区| 18禁超污无遮挡无码免费动态图| 亚洲色在线v中文字幕| 日韩有码中文字幕国产| 夜夜做夜夜爽| 精品丝袜二区电影| 深夜福利啪啪片| 黑人与亚洲A级黄片| 国产99人人| 欧美一区二区三区香蕉视| 久久青青熟女| 老太婆性杂交欧美肥老太| 国产区免费精品视频| AV无码XXX| 国产精品自产拍高潮在线观看| 醉酒后少妇被疯狂内射视频| 大乱交第五页在线观看| 亚洲一区观看| 中文字母AV| www.libeier.cn| 女人与公拘交酡全过女免费| 久久久久亚洲AV无码专区蜜芽| 国精产品一区一区三区有限在线| 国产A熟女一区=区三区| 国产精品一99| 中文字幕日韩国产精品| 国产精品JIZZ天美传媒| 放荡开放的人妻穿丁字裤凹| 人妻体验按摩到忍不住哀求继续 | 国产成人一区二区三区影院爱豆| 中文人妻无码一区二区三区在线| 色欲一级毛片爽免费看| 精品少妇无码在线| 亚洲国产精品一区二区高清无码久久| 国产亚洲精品精华液| avav日韩在线蜜桃|