夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型亂試錯、盲調(diào)用?KnowSelf讓智能體有「知識邊界感知」能力

0
分享至




在 AI 領(lǐng)域,大模型智能體的發(fā)展日新月異。我們今天要介紹的這篇 ACL 2025 論文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能體的「知識邊界感知」能力,使其在復(fù)雜任務(wù)規(guī)劃中更加得心應(yīng)手,為智能體的可靠應(yīng)用提供了新思路。



  • 論文標(biāo)題:Agentic Knowledgeable Self-awareness
  • 論文鏈接:https://arxiv.org/abs/2504.03553
  • 代碼鏈接:https://github.com/zjunlp/KnowSelf

30 秒速讀版本

KnowSelf 聚焦于大模型智能體在決策過程中所面臨的「知識邊界感知」問題。受人類決策機制啟發(fā),本文指出智能體應(yīng)具備三類行為模式的自主決策能力:快速反應(yīng)(快思考)、深度推理(慢思考),以及主動調(diào)用外部工具(本文以外部知識增強為例)。

KnowSelf 通過學(xué)習(xí)自身的知識邊界,使智能體能在不同情境下自主判斷是否具備足夠知識進行生成和推理,以減少無效試錯與知識濫用。實驗表明,KnowSelf 可提升智能體的知識調(diào)用準(zhǔn)確率、任務(wù)規(guī)劃效率和跨任務(wù)泛化能力。

研究背景:智能體規(guī)劃的困境

大模型智能體在諸多領(lǐng)域展現(xiàn)出巨大潛力,但現(xiàn)有智能體規(guī)劃方法存在弊端。傳統(tǒng)方法多采用「盲目灌輸」模式,將標(biāo)準(zhǔn)軌跡、外部反饋和領(lǐng)域知識無差別地注入智能體模型,完全忽視了人類決策過程中至關(guān)重要的「自我認(rèn)知」原則。

這種「無腦式」灌輸導(dǎo)致智能體在面對意外信號時極易崩潰,陷入模式崩塌困境,且過度試錯與盲目知識融合在實際場景中往往不可行,還會大幅推高模型推理成本。

人類在決策時,會根據(jù)面臨的情境動態(tài)評估自身狀態(tài),靈活調(diào)整策略。比如,當(dāng)我們遇到簡單問題時,能迅速做出判斷并行動;遇到棘手問題,會放慢思考節(jié)奏,深入分析;而面對超出自身能力范圍的問題,會主動尋求外部知識或幫助。

然而,當(dāng)前大模型智能體普遍缺乏這種「知識邊界感知」能力,導(dǎo)致規(guī)劃行為低效且脆弱。

核心方法:KnowSelf 框架

為破解這一難題,論文提出了智能體「知識邊界感知」的思路,并基于此設(shè)計了數(shù)據(jù)驅(qū)動 KnowSelf 方法,讓大模型智能體能夠自主調(diào)節(jié)知識的運用。



  • 知識系統(tǒng)構(gòu)建

對于外部工具(知識),并采用了一種簡單高效知識收集方法,以極低成本完成知識庫的離線構(gòu)建。該知識系統(tǒng)由知識庫和知識選擇模塊組成,其中知識庫包含一系列知識條目,知識選擇模塊能依據(jù)智能體歷史軌跡從知識庫中精準(zhǔn)挑選所需知識。這種設(shè)計兼顧了知識系統(tǒng)的實用性和高效性。

  • 情境判斷標(biāo)準(zhǔn)

論文基于智能體的能力,將情境劃分為三類:快速思考(Fast Thinking)、慢速思考(Slow Thinking)和知識型思考(Knowledgeable Thinking)。并提出了啟發(fā)式情境判斷標(biāo)準(zhǔn),用于標(biāo)記智能體自我探索軌跡中的特殊標(biāo)記,從而針對智能體的能力構(gòu)建出訓(xùn)練數(shù)據(jù),為后續(xù)訓(xùn)練奠定基礎(chǔ)。

  • 快思考:智能體無需多慮,能直接給出正確行動
  • 慢思考:智能體雖能給出正確行動,但需經(jīng)過多步思考與反思
  • 知識型思考:智能體自身無法提供正確行動,必須借助外部知識輔助思考
  • 自我認(rèn)知訓(xùn)練

KnowSelf 采用雙階段訓(xùn)練過程,先通過監(jiān)督式微調(diào)(SFT),讓智能體模型初步掌握自我認(rèn)知規(guī)劃模式;再引入 RPO 損失函數(shù),進一步強化自我認(rèn)知能力。在這一體系下,智能體會生成特定特殊標(biāo)記,表明其對情境的判斷,在推理過程中實現(xiàn)知識查詢與反思的精準(zhǔn)調(diào)控。

實驗成果

本文在兩個模擬大模型智能體規(guī)劃數(shù)據(jù)集 ALFWorld 和 WebShop 上,對 KnowSelf 進行了全面評估,涵蓋 Llama-8B 和 Gemma-2B 兩個不同規(guī)模的模型。實驗結(jié)果顯示,KnowSelf 憑借極少的反思和知識使用,性能優(yōu)于多種基線方法。





與無知識基線方法對比,KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展現(xiàn)出卓越性能。與知識增強型基線方法相比,KnowSelf 僅用少量知識,就超越了所有的 100% 知識增強基線方法,充分證明了并非知識越多越好,精準(zhǔn)的知識引入機制才是關(guān)鍵。

進一步分析:深入探索智能體自我認(rèn)知

  • 智能體規(guī)劃模式過擬合



本文通過消融實驗,發(fā)現(xiàn)僅在標(biāo)準(zhǔn)軌跡上訓(xùn)練的模型更易陷入模式擬合,而引入反思和知識邊界感知后,智能體規(guī)劃能力提升。這表明,在許多情況下,智能體并非不能做出正確決策,而是受限于規(guī)劃模式。此外,過度引入知識可能會對性能產(chǎn)生負(fù)面影響,因此凸顯了精準(zhǔn)知識引入機制的重要性。

  • 智能體規(guī)劃泛化能力



在泛化能力測試中,KnowSelf 在 ALFWorld 的三項挑戰(zhàn)性任務(wù)上表現(xiàn)優(yōu)異,優(yōu)于基于提示的基線方法 Reflexion。這表明 KnowSelf 能有效打破傳統(tǒng)規(guī)劃軌跡訓(xùn)練的局限,使模型具備跨任務(wù)情境感知能力,在未見過的任務(wù)上能靈活運用反思和知識引入策略。

  • 模型與數(shù)據(jù)規(guī)模影響



隨著模型規(guī)模擴大和自我認(rèn)知訓(xùn)練數(shù)據(jù)量增加,KnowSelf 性能穩(wěn)步提升。當(dāng)自我認(rèn)知訓(xùn)練數(shù)據(jù)相對比例低于 40% 時,模型性能可能出現(xiàn)波動甚至下降,推測模型需達到一定自我認(rèn)知水平才能穩(wěn)定發(fā)揮效能。

  • 智能體自我認(rèn)知機制機理



本文在 Transformer 模型的各層計算不同情境標(biāo)記的平均概率,發(fā)現(xiàn) Reflection 標(biāo)記概率始終為零,Knowledge 標(biāo)記和 Action 標(biāo)記在模型最后幾層才出現(xiàn)。這表明智能體在內(nèi)部決策時,僅在最后幾層隱藏層才決定是否調(diào)用外部知識,且調(diào)用知識的決策可能更晚出現(xiàn),暗示智能體在 Token 空間內(nèi)通過隱式獎勵引導(dǎo)進行探索,最終做出決策。

結(jié)論與展望

本文提出的 KnowSelf 方法為智能體規(guī)劃提供了新思路,初步探索了智能體知識邊界感知這一問題。在后 R1 時代,隨著 Search-R1、ReSearch、Deep Researcher 等工作的出現(xiàn),基于 RL 的智能體自主知識獲取工作展現(xiàn)了巨大的前景,KnowSelf 還只是在這個時代之前的初步產(chǎn)物,相信隨著技術(shù)的發(fā)展,基于 RL 的智能體自我認(rèn)知能迸發(fā)更大的活力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
公務(wù)員錄用體檢標(biāo)準(zhǔn)放寬

公務(wù)員錄用體檢標(biāo)準(zhǔn)放寬

政知新媒體
2025-11-14 21:48:35
戴旭:中國從來沒有單獨徹底戰(zhàn)勝過日本,未來一戰(zhàn)永絕后患

戴旭:中國從來沒有單獨徹底戰(zhàn)勝過日本,未來一戰(zhàn)永絕后患

boss外傳
2025-11-01 12:00:03
干練與松弛如何共存?深棕色背心搭瑜伽褲,小姐姐一看就是女強人

干練與松弛如何共存?深棕色背心搭瑜伽褲,小姐姐一看就是女強人

小喬古裝漢服
2025-11-11 13:22:57
放棄庫里,安德瑪斷臂求生

放棄庫里,安德瑪斷臂求生

體育產(chǎn)業(yè)生態(tài)圈
2025-11-14 19:16:44
香港知名男星低調(diào)再婚,棄影從商做紙板生意,移居內(nèi)地生活20多年

香港知名男星低調(diào)再婚,棄影從商做紙板生意,移居內(nèi)地生活20多年

胡一舸南游y
2025-11-14 19:10:21
臺獨急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺辦一句話戳破真相

臺獨急先鋒賴清德突然改口:兩岸可以統(tǒng)一,國臺辦一句話戳破真相

文史旺旺旺
2025-11-13 20:17:18
“詩與遠方”圓夢,林高遠/劉詩雯摘得全運會乒乓球混雙金牌

“詩與遠方”圓夢,林高遠/劉詩雯摘得全運會乒乓球混雙金牌

澎湃新聞
2025-11-14 23:34:28
27歲靠一首歌火遍全國,37歲高齡產(chǎn)子,和前夫離婚后如今她怎樣了

27歲靠一首歌火遍全國,37歲高齡產(chǎn)子,和前夫離婚后如今她怎樣了

冷紫葉
2025-11-13 16:37:48
原價1.8萬的華為折疊屏,如今1折都不要!搭載麒麟9000芯片

原價1.8萬的華為折疊屏,如今1折都不要!搭載麒麟9000芯片

閑搞機
2025-11-13 11:06:43
人心大快!小S被曝已沒收入,節(jié)目嘉賓罷錄,遭反噬代言全掉光

人心大快!小S被曝已沒收入,節(jié)目嘉賓罷錄,遭反噬代言全掉光

八星人
2025-11-14 10:47:02
經(jīng)典黑白配還能這么穿?小姐姐的白背心黑瑜伽褲,成熟嫵媚又舒適

經(jīng)典黑白配還能這么穿?小姐姐的白背心黑瑜伽褲,成熟嫵媚又舒適

小喬古裝漢服
2025-11-10 13:44:01
全運會最新金牌獎牌榜15日賽程,山東一日無金,江浙狂飆緊追廣東

全運會最新金牌獎牌榜15日賽程,山東一日無金,江浙狂飆緊追廣東

天涯遠行人
2025-11-15 01:40:20
4-1!550萬人口小國沸騰了:世預(yù)賽7戰(zhàn)全勝領(lǐng)跑!近乎直通世界杯

4-1!550萬人口小國沸騰了:世預(yù)賽7戰(zhàn)全勝領(lǐng)跑!近乎直通世界杯

球場沒跑道
2025-11-14 09:00:30
剛威脅驅(qū)逐中國外交官,日本就收到"大禮":隱身無人機攜殲20現(xiàn)身

剛威脅驅(qū)逐中國外交官,日本就收到"大禮":隱身無人機攜殲20現(xiàn)身

一個有靈魂的作者
2025-11-14 20:35:41
游樂場里寶媽走光了自己卻沒察覺?這場景看著尷尬

游樂場里寶媽走光了自己卻沒察覺?這場景看著尷尬

沒有偏旁的常慶
2025-10-31 07:20:21
死得絕望!搖滾女歌手阿珍離世,長得漂亮!遭座椅擠壓,肋骨斷裂

死得絕望!搖滾女歌手阿珍離世,長得漂亮!遭座椅擠壓,肋骨斷裂

鋭娛之樂
2025-11-14 13:51:56
美預(yù)言家朱迪再爆猛料:美日中命運已定,此島將首遭災(zāi)

美預(yù)言家朱迪再爆猛料:美日中命運已定,此島將首遭災(zāi)

心靈短笛
2025-05-15 15:12:03
官方披露:夏某受境外組織派遣,以“提供醫(yī)療援助”等名義為掩護,深入我西南山區(qū),暗中搜集軍事管理區(qū)數(shù)據(jù)

官方披露:夏某受境外組織派遣,以“提供醫(yī)療援助”等名義為掩護,深入我西南山區(qū),暗中搜集軍事管理區(qū)數(shù)據(jù)

魯中晨報
2025-11-13 15:59:03
上海已確認(rèn):又一區(qū)發(fā)"房票"+15%補貼!市民期盼

上海已確認(rèn):又一區(qū)發(fā)"房票"+15%補貼!市民期盼

看看新聞Knews
2025-11-14 18:32:08
我業(yè)績第一年終獎5000,同事摸魚拿5萬,我辭職走人后主管傻眼了

我業(yè)績第一年終獎5000,同事摸魚拿5萬,我辭職走人后主管傻眼了

農(nóng)村情感故事
2025-11-08 15:18:49
2025-11-15 06:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11720文章數(shù) 142505關(guān)注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長了嗎?

頭條要聞

中方連發(fā)六張雙語海報@高市早苗 媒體:總該看懂了吧

頭條要聞

中方連發(fā)六張雙語海報@高市早苗 媒體:總該看懂了吧

體育要聞

7-0狂勝!15萬人口小島離世界杯只差1分

娛樂要聞

王家衛(wèi)讓古二替秦雯寫劇情主線?

財經(jīng)要聞

財政部:加強逆周期和跨周期調(diào)節(jié)

汽車要聞

小鵬X9超級增程動態(tài)評測全網(wǎng)首發(fā) 高速實測車內(nèi)65分貝

態(tài)度原創(chuàng)

教育
旅游
親子
家居
游戲

教育要聞

為什么說留英真正的紅利被嚴(yán)重低估了?

旅游要聞

避開人潮!5 個零商業(yè)化冷門地,藏著中國最本真的詩和遠方

親子要聞

細(xì)思極恐!全球1.14億孩子患高血壓,3大原因你娃可能都有!

家居要聞

現(xiàn)代簡逸 尋找生活的光

遲遲沒有Switch2版!這三款任天堂第一方游戲太可惜

無障礙瀏覽 進入關(guān)懷版 99久久九九免费观看| 精品久久久久久中文字幕无码vr| 视频一区二区三区高清在线| 国产农村妇女三级片在线观看| 桃色av.com| 久久精品WWW人人做人人爽| 美国熟妇色XXXXXXXXXXXXXX| 国产成人精品一区二区秒播| 欧美亚洲国产不卡在线| 亚洲国产精品久久久就秋霞| 人人艹艹人人| 亚洲国产精品久久久就秋霞| 人人摸人人操人人玩| 国产精品久久久久久久久果冻| 位美女人人操人人7| 亚洲欭美日韩颜射在线| 日韩亚AV无码一区二区三区| 色哟永久免费| 亚洲色欲天天天堂色欲网| 一区国产高潮| 黄片一区二区三区| 啊V视频免费在线观看| 蜜臀AV一区二区三区张婉莹| 丰满大乳 国产精品| 丝袜老师办公室里做好紧好爽| 中文无码av一区二区三区| 久久亚洲中文字幕无码| 亚洲一区二区精品久久AV乱码| 99热这只有精品| 淫荡少妇娇妻| 日本一道区蜜桃| 毛茸茸黑浓毛熟女| 最新日本中文字幕在线| 奇米四色888| 国产日韩欧美不卡在线| 51福利国产在线观看午夜天堂| 日韩AV无遮挡污污在线播放| 国产精品你懂得| 工具好湿 好紧 好多水喷水| 亚洲欧美太紧了| 精品熟女AV|