夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

經(jīng)驗記憶黑科技:LightSearcher讓AI工具調用減39.6%推理快48.6%

0
分享至



如今,以 DeepSeek-R1 為代表的深度思考大模型能夠處理復雜的推理任務,而DeepSearch 作為深度思考大模型的核心搜索器,在推理過程中通過迭代調用外部搜索工具,訪問參數(shù)邊界之外的最新、領域特定知識,從而提升推理的深度和事實可靠性。

然而,現(xiàn)有的 RL 驅動的深度思考大模型系統(tǒng)常常面臨準確率與效率的「蹺蹺板」困境:頻繁調用搜索工具提升準確性,卻帶來計算開銷和效率低下。具體而言,高頻調用外部搜索工具雖能補充實時信息、提升推理準確率,但使得推理延遲大幅升高,等待時間可達幾十秒至幾分鐘。從用戶體驗角度來看,若信息加載時間超過 10 秒,50% 的移動用戶會放棄訪問。

北郵百家 AI 團隊提出 LightSearcher 框架,首創(chuàng)基于經(jīng)驗記憶的高效 RL 優(yōu)化技術,通過引入文本化經(jīng)驗記憶和自適應獎勵塑造機制,巧妙解決了這一痛點。

在保持與 SOTA 基線 ReSearch 相當準確率的同時,搜索工具調用和模型回復時間顯著縮短,搜索工具調用次數(shù)減少 39.6%,推理時間縮短 48.6%,Token 消耗降低 21.2%,在保持模型效果的同時顯著提升了工具調用效率。



  • 論文標題:LightSearcher: Efficient DeepSearch via Experiential Memory
  • 論文鏈接:https://arxiv.org/abs/2512.06653
  • 百家 AI 主頁:https://baijia.online/homepage/index

引言

如何教會深度思考大模型策略性地控制搜索工具的使用,優(yōu)化何時以及如何查詢外部知識源,是深度思考大模型亟待解決的問題?,F(xiàn)有方法存在以下顯著缺陷:

  1. 提示工程或監(jiān)督學習方法依賴人工標注,成本高且泛化差;RL 驅動方法雖能自主優(yōu)化,但獎勵偏重準確性,導致模型為確保正確而頻繁調用工具,造成冗余開銷;
  2. 工具調用「過度依賴」,現(xiàn)有模型往往不分難易,對簡單查詢也反復檢索,導致推理時間延長、token 消耗激增;
  3. 準確性與效率失衡,部分方法雖提升準確率,但犧牲效率;另一些雖減少調用,卻降低答案質量,無法兼顧雙重目標。

這些問題導致現(xiàn)有模型要么答案不準、可靠性差,要么工具調用過多、效率低下,難以同時滿足推理準確和高效執(zhí)行的核心需求。

LightSearcher 框架

為解決上述缺陷,北郵百家 AI 團隊提出基于經(jīng)驗記憶的高效 DeepSearch 框架(LightSearcher),核心思路是在大模型強化推理過程中,通過「對比經(jīng)驗學習」將隱性推理軌跡轉化為顯性指導經(jīng)驗,并結合自適應獎勵優(yōu)化工具調用,具體包含三大關鍵組件:

  1. 對比經(jīng)驗推理機制(Contrastive Experiential Reasoning):收集高低質量推理軌跡,通過 LLM 生成成功模式的自然語言總結(如「簡單查詢優(yōu)先用內部知識」),構建動態(tài)經(jīng)驗記憶庫;
  2. 自適應獎勵塑造機制(Adaptive Reward Shaping):引入最小工具調用基準,僅在答案正確時懲罰冗余調用,使用指數(shù)衰減函數(shù)動態(tài)平衡準確性和效率,避免盲目優(yōu)化;
  3. 基于經(jīng)驗的 RL 訓練機制:采用 GRPO 算法,將積累經(jīng)驗和少樣本示例融入提示模板,指導模型生成高效軌跡,確保探索與利用的均衡。



模型最終優(yōu)化目標為多目標獎勵函數(shù)的加權和,確保工具調用精簡與答案質量的協(xié)同提升。

實驗

研究團隊在四個多跳 QA 基準數(shù)據(jù)集(NQ、HotpotQA、Musique、2WikiMultihopQA)上進行了全面評估,對比了多種主流 DeepSearch 方法。

3.1 主實驗結果



實驗結果顯示:

  • 模型準確性保持頂尖:LightSearcher 在 F1 分數(shù)和 LLM 評判上與 SOTA 基線 ReSearch 相當,甚至在部分數(shù)據(jù)集上優(yōu)于 ReSearch;
  • 效率顯著提升:工具調用減少 39.6%,推理時間縮短 48.6%,token 消耗降低 21.2%;
  • 泛化能力強:在不同難度的查詢(易 / 難)上均表現(xiàn)穩(wěn)定,即使在域外測試集也能超越依賴固定檢索的迭代方法。

3.2 消融實驗

移除經(jīng)驗導致 F1 下降 7.2%,證明其核心作用。



LightSearcher 框架通過「經(jīng)驗記憶」這一核心理念,為構建高效、可靠的深度推理系統(tǒng)提供了新路徑。盡管目前限于多跳 QA,未來可擴展到代碼合成、策略規(guī)劃等領域。論文成功解決了現(xiàn)有 DeepSearch 的關鍵痛點:

  • 從隱性到顯性:將對比軌跡轉化為可解釋的推理指導
  • 精準平衡:通過自適應獎勵確保工具調用最小化
  • 效率優(yōu)先:利用 RL 訓練維持準確與開銷的連貫性
  • 雙重優(yōu)化:同時提升推理質量和執(zhí)行效率,而非顧此失彼

最后,大模型的 DeepSearch 能力需設計有效的經(jīng)驗機制。相比于復雜的手動標注,LightSearcher 通過其「對比經(jīng)驗」的設計思想,在推理過程依賴可靠的外部知識調用,為構建更加高效、可靠的 AI 深度思考系統(tǒng)提供了重要的技術路徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
每體:邁阿密國際拒絕簽萊萬,續(xù)約蘇亞雷斯的優(yōu)先級更高

每體:邁阿密國際拒絕簽萊萬,續(xù)約蘇亞雷斯的優(yōu)先級更高

懂球帝
2025-12-17 19:03:21
輸球后提醒隊友致謝球迷,付豪守住遼寧體面,更顯得楊鳴像個小丑

輸球后提醒隊友致謝球迷,付豪守住遼寧體面,更顯得楊鳴像個小丑

后仰大風車
2025-12-18 07:15:06
每天堅持5個動作勝過跑步1小時,消除腹部贅肉、腰背酸痛也改善了

每天堅持5個動作勝過跑步1小時,消除腹部贅肉、腰背酸痛也改善了

瑜伽解剖學
2025-12-16 12:23:11
離隊倒計時!遼籃新援幾乎被棄用 上場1分半鐘 楊鳴還要忍多久

離隊倒計時!遼籃新援幾乎被棄用 上場1分半鐘 楊鳴還要忍多久

胖子噴球
2025-12-17 21:57:36
A股突然亢奮起來

A股突然亢奮起來

隔壁老投
2025-12-17 14:51:31
官宣,免職,王勵勤離任,上海官宣,此前擔任主任,妻子清空社媒

官宣,免職,王勵勤離任,上海官宣,此前擔任主任,妻子清空社媒

樂聊球
2025-12-17 08:43:42
黑色幽默!電詐園區(qū)辦公室中文標語,簡直是天大的諷刺

黑色幽默!電詐園區(qū)辦公室中文標語,簡直是天大的諷刺

麥大人
2025-11-06 08:32:30
2026央視春晚期待名單出爐,網(wǎng)友質疑春晚混子為何又入選

2026央視春晚期待名單出爐,網(wǎng)友質疑春晚混子為何又入選

荒野老五
2025-12-17 19:35:06
孟晚舟卸任大反轉,后續(xù)來了!

孟晚舟卸任大反轉,后續(xù)來了!

互聯(lián)網(wǎng)品牌官
2025-12-17 11:29:28
小米粥再次被關注,調查發(fā)現(xiàn):高血糖患者喝小米粥,或有6大改善

小米粥再次被關注,調查發(fā)現(xiàn):高血糖患者喝小米粥,或有6大改善

健康之光
2025-12-17 09:09:08
他是家喻戶曉著名演員,兒子繼承了英俊外貌,卻成他這輩子的心病

他是家喻戶曉著名演員,兒子繼承了英俊外貌,卻成他這輩子的心病

白面書誏
2025-12-17 17:20:50
史上最硬核的反詐行動——泰柬沖突

史上最硬核的反詐行動——泰柬沖突

楓冷慕詩
2025-12-17 11:52:37
教育部發(fā)文減負,中小學考試“大瘦身”!孩子終于能喘口氣了!

教育部發(fā)文減負,中小學考試“大瘦身”!孩子終于能喘口氣了!

教師吧
2025-12-17 14:47:40
2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

歷史龍元閣
2025-12-03 13:50:04
文班亞馬賽后鼻子都哭紅了!美記曝他祖母去世 低迷真因找到了?

文班亞馬賽后鼻子都哭紅了!美記曝他祖母去世 低迷真因找到了?

顏小白的籃球夢
2025-12-17 14:58:47
能往地上投影的車燈,真能讓開車變安全嗎?

能往地上投影的車燈,真能讓開車變安全嗎?

差評XPIN
2025-12-18 00:14:28
男性長期禁欲,性能力會更加強?醫(yī)生提醒:可能要付出這幾個代價

男性長期禁欲,性能力會更加強?醫(yī)生提醒:可能要付出這幾個代價

醫(yī)者榮耀
2025-12-17 12:05:09
一個都跑不掉!華為600萬年薪高管,帶13人偷芯片,如今下場解氣

一個都跑不掉!華為600萬年薪高管,帶13人偷芯片,如今下場解氣

涵豆說娛
2025-11-07 17:47:01
泰國軍方發(fā)言人:鏟平所有電詐園區(qū)

泰國軍方發(fā)言人:鏟平所有電詐園區(qū)

Ck的蜜糖
2025-12-16 15:25:09
拜登露面再稱“美國要繼續(xù)領導世界”還提到中俄,網(wǎng)民質疑:是領導還是誤導?

拜登露面再稱“美國要繼續(xù)領導世界”還提到中俄,網(wǎng)民質疑:是領導還是誤導?

環(huán)球網(wǎng)資訊
2025-12-17 21:11:15
2025-12-18 09:56:50
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11943文章數(shù) 142512關注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽

頭條要聞

為高市早苗站臺接連造謠 日本副外相"刪號跑路"

頭條要聞

為高市早苗站臺接連造謠 日本副外相"刪號跑路"

體育要聞

短短一年,從爭冠到0勝墊底...

娛樂要聞

狗仔曝熱播劇姐弟戀真談了???

財經(jīng)要聞

重大改革,身關14億人的政策徹底變了!

汽車要聞

一車多動力+雙姿態(tài) 長城歐拉5上市 限時9.18萬元起

態(tài)度原創(chuàng)

手機
藝術
家居
數(shù)碼
軍事航空

手機要聞

果粉情何以堪!蘋果將對iPhone 18外形大調整:棄藥丸狀挖孔 改用左上角單打孔

藝術要聞

毛主席鮮為人知的兩幅書法作品,細節(jié)之美令人贊嘆!

家居要聞

溫馨獨棟 駝色與淺色碰撞

數(shù)碼要聞

極空間新版「HDMI桌面」上線,增加緩存清理機制等

軍事要聞

最新現(xiàn)場:山東艦完成年度最后一次海上訓練

無障礙瀏覽 進入關懷版 九色AV台湾| 护士脱了内裤让我爽了一夜视频| 亚洲熟女AV和综合熟女AV | 美女露出粉嫩小奶头在视频18禁| 日韩 无码 一区 二区 三区| 成人无码视频在线观看大全| 中文字幕av资源| 92久久人妻| 熟妇人妻中文字幕| 日本亚洲黄色色图视频| 精品少妇无码在线| 蜜臀98精品国产免费观看| 九九av一区九九av二区九九av三区 | 国产在线精品一区二区不卡顿| 成人免费毛片网址| 免费网禁国产you女网站下载| 国产女人高潮抽搐叫床视频| 老太太一级毛片| 欧美码日本视频| 国产成人无码精品久久99| 在线A久青草视频在线观看| 国产精品福利自产拍在线观看 | 97夜夜澡人人爽人人| 国产xxxx做受性欧美88| 久青草无码视频在线播放| 五月丁香之婷婷| 成人sm调教视频免费观看| 国产在线无码不卡影视影院| 国产精品视频伦| 丰满老熟好大bbb| 国产成人精品亚洲日本| 国产精品一线二线三线区| 69xxxx中国| 精品偷自拍另类在线观看| 亚洲中文字幕无码天然素人在线 | 欧美性爱一级视频| 99久热免费视频| 亚洲AV午夜电影在线观看| 熟妇高潮喷沈阳45熟| 亚洲国产AV一区二区三区丶| 亚a∨国av综av涩涩涩|