夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

微調(diào)已死?Agentic上下文工程登場(chǎng),無需微調(diào)實(shí)現(xiàn)模型進(jìn)化

0
分享至



機(jī)器之心報(bào)道

編輯:Panda

是什么,讓一位 AI 自動(dòng)化架構(gòu)師發(fā)出了「微調(diào)已死」的感慨?



一篇來自斯坦福大學(xué)、SambaNova、UC 伯克利的論文近日引發(fā)了廣泛討論。他們提出了一種名為Agentic Context Engineering(智能體 / 主動(dòng)式上下文工程)的技術(shù),讓語言模型無需微調(diào)也能實(shí)現(xiàn)自我提升!



  • 論文標(biāo)題:Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
  • 論文地址:https://www.arxiv.org/abs/2510.04618

一切要從上下文適應(yīng)說起

當(dāng)代基于大型語言模型(LLM)的 AI 系統(tǒng)(如 LLM 智能體與復(fù)合式 AI 系統(tǒng))越來越依賴于上下文自適應(yīng)(context adaptation)

具體來說,上下文自適應(yīng)是在模型訓(xùn)練完成后,通過在輸入中引入更明確的指令、結(jié)構(gòu)化的推理步驟或領(lǐng)域特定的輸入格式,從而提升模型性能。很顯然,這與直接修改模型參數(shù)的微調(diào)方法大不相同。

我們知道,上下文構(gòu)成了眾多 AI 系統(tǒng)組件的基礎(chǔ),包括:引導(dǎo)下游任務(wù)的系統(tǒng)提示詞、承載既往事實(shí)與經(jīng)驗(yàn)的記憶機(jī)制以及用于減少幻覺、補(bǔ)充知識(shí)的事實(shí)證據(jù)。

而與參數(shù)更新相比,通過上下文進(jìn)行適應(yīng)具有若干核心優(yōu)勢(shì):上下文對(duì)于用戶與開發(fā)者而言更具可解釋性;能夠在運(yùn)行時(shí)快速整合新知識(shí);并且可以在復(fù)合系統(tǒng)的多個(gè)模型或模塊之間共享。與此同時(shí),長(zhǎng)上下文語言模型的進(jìn)展以及高效推理機(jī)制(如 KV 緩存復(fù)用)也使基于上下文的方法愈發(fā)具有現(xiàn)實(shí)可行性。因此,上下文自適應(yīng)正逐漸成為構(gòu)建高性能、可擴(kuò)展且具備自我改進(jìn)能力的 AI 系統(tǒng)的核心范式。

然而,現(xiàn)有上下文自適應(yīng)方法仍存在兩大局限。

其一是「簡(jiǎn)約偏置」(brevity bias):許多提示詞優(yōu)化器傾向于追求簡(jiǎn)潔、普適的指令,而忽略了知識(shí)的充分積累。例如,GEPA 將簡(jiǎn)短視為優(yōu)點(diǎn),但這種抽象化可能遺漏實(shí)踐中至關(guān)重要的領(lǐng)域啟發(fā)式規(guī)則、工具使用指南或常見錯(cuò)誤模式。此類優(yōu)化目標(biāo)雖能在部分指標(biāo)上奏效,卻常無法捕捉智能體或知識(shí)密集型應(yīng)用所需的細(xì)節(jié)策略。

其二是「上下文塌縮」(context collapse):依賴 LLM 對(duì)整體提示進(jìn)行重寫的方式,往往會(huì)隨著時(shí)間推移退化為更短、更模糊的摘要,從而造成性能驟降(見圖 2)。在諸如交互式智能體、領(lǐng)域特定編程、以及金融或法律分析等任務(wù)中,系統(tǒng)性能依賴于保留細(xì)致的、任務(wù)相關(guān)的知識(shí),而非將其壓縮掉。



隨著智能體與知識(shí)密集型推理對(duì)可靠性的要求不斷提高,近期研究逐漸轉(zhuǎn)向構(gòu)建「信息飽和」的上下文,也就是借助長(zhǎng)上下文 LLM 的進(jìn)展來容納更多潛在有用信息。

但這個(gè)斯坦福大學(xué)、SambaNova、UC 伯克利聯(lián)合團(tuán)隊(duì)認(rèn)為:上下文不應(yīng)是簡(jiǎn)短的摘要,而應(yīng)成為全面、動(dòng)態(tài)演化的「作戰(zhàn)手冊(cè)(playbooks)」—— 內(nèi)容詳實(shí)、包容、富含領(lǐng)域洞見。與人類不同,LLM 在提供長(zhǎng)而細(xì)致的上下文時(shí)表現(xiàn)更好,并能自主提煉關(guān)鍵信息。因此,與其壓縮領(lǐng)域啟發(fā)與策略,不如將其保留,讓模型在推理時(shí)自行決定哪些信息最為重要。

在這一見解的基礎(chǔ)上,主動(dòng)式上下文工程(ACE)應(yīng)運(yùn)而生。

主動(dòng)式上下文工程(ACE)

該團(tuán)隊(duì)提出的 ACE(Agentic Context Engineering) 框架能夠?qū)崿F(xiàn)可擴(kuò)展且高效的上下文自適應(yīng),并且離線(如系統(tǒng)提示優(yōu)化)與在線(如測(cè)試時(shí)記憶自適應(yīng))場(chǎng)景都適用。

與以往將知識(shí)蒸餾為簡(jiǎn)短摘要或靜態(tài)指令的方法不同,ACE 是將上下文視為不斷演化的作戰(zhàn)手冊(cè),能夠持續(xù)積累、蒸餾與組織策略。

基于 Dynamic Cheatsheet(參閱 arXiv:2504.07952)的 agentic 架構(gòu),ACE 引入三種協(xié)作角色:

  • 生成器(Generator):生成推理軌跡;
  • 反思器(Reflector):從成功與錯(cuò)誤中蒸餾具體洞見;
  • 整編器(Curator):將這些洞見整合進(jìn)結(jié)構(gòu)化的上下文更新。



這一設(shè)計(jì)模仿了人類的學(xué)習(xí)方式,即「實(shí)驗(yàn)–反思–整合」,同時(shí)可避免讓單一模型承擔(dān)所有職能所導(dǎo)致的瓶頸。

為應(yīng)對(duì)前文提到的簡(jiǎn)約偏置與上下文塌縮問題,ACE 引入了三項(xiàng)關(guān)鍵創(chuàng)新:

  • 專職反思者模塊:將評(píng)估與洞見提取與整編(curation)過程解耦,提高上下文質(zhì)量與下游性能;
  • 增量式 Delta 更新機(jī)制:以局部編輯替代整體重寫,顯著降低延遲與計(jì)算開銷;
  • grow-and-refine 機(jī)制:在持續(xù)擴(kuò)充的同時(shí)抑制冗余,實(shí)現(xiàn)上下文的穩(wěn)態(tài)演化。

在工作流程上,生成器首先會(huì)針對(duì)新任務(wù)生成推理軌跡,揭示出有效策略與常見陷阱;反思器對(duì)這些軌跡進(jìn)行評(píng)析,提煉經(jīng)驗(yàn)并可多輪迭代優(yōu)化;整編器再將這些經(jīng)驗(yàn)整合為緊湊的增量條目(delta entries),并通過輕量的、非 LLM 的邏輯機(jī)制合并至現(xiàn)有上下文中。

由于更新項(xiàng)是局部化的,多個(gè)增量可并行合并,從而實(shí)現(xiàn)批量適應(yīng)與擴(kuò)展。ACE 還支持多輪(multi-epoch)自適應(yīng),使相同任務(wù)可被多次重訪以持續(xù)強(qiáng)化上下文。

增量式 Delta 更新

ACE 的核心設(shè)計(jì)理念是:將上下文表示為結(jié)構(gòu)化的條目集合(bullets),而非單一的整體提示詞

每個(gè)條目包含兩部分:

  • 元數(shù)據(jù)(metadata):唯一標(biāo)識(shí)符,以及「有用 / 有害」計(jì)數(shù)器;
  • 內(nèi)容(content):比如可復(fù)用策略、領(lǐng)域概念或常見錯(cuò)誤模式。

在解決新問題時(shí),生成器會(huì)標(biāo)記哪些條目起到了幫助或誤導(dǎo)作用,從而為反思器提供改進(jìn)依據(jù)。

這種條目化設(shè)計(jì)帶來了三大特性:

  • 局部化(localization):只更新相關(guān)條目;
  • 細(xì)粒度檢索:生成器可聚焦于最相關(guān)的知識(shí);
  • 增量式適應(yīng):推理時(shí)可高效進(jìn)行合并、剪枝與去重。

ACE 不會(huì)重寫整個(gè)上下文,而是生成緊湊的增量上下文(delta contexts):由反思器提煉、整編器整合的一小組候選條目。

這種方式既避免了整體重寫的高計(jì)算成本與延遲,又能保持舊知識(shí)并持續(xù)吸收新見解。隨著上下文的增長(zhǎng),該機(jī)制為長(zhǎng)周期或高知識(shí)密度的任務(wù)提供了必要的可擴(kuò)展性。

Grow-and-Refine

在持續(xù)增長(zhǎng)的基礎(chǔ)上,ACE 通過定期或延遲蒸餾來確保上下文保持緊湊與相關(guān)性。

在 Grow-and-Refine 過程中,新條目會(huì)被追加到上下文中,而已有條目則通過元數(shù)據(jù)更新(如計(jì)數(shù)器遞增)進(jìn)行原地修訂。

去重步驟則通過語義嵌入比較條目相似度來消除冗余。

該過程可在每次增量更新后主動(dòng)執(zhí)行,也可在上下文窗口超限時(shí)被動(dòng)觸發(fā),具體取決于延遲與精度要求。

增量更新與 Grow-and-Refine 機(jī)制共同維持了上下文的動(dòng)態(tài)可擴(kuò)展性與高相關(guān)性。

ACE 的效果如何?

該團(tuán)隊(duì)進(jìn)行了實(shí)驗(yàn),對(duì)新提出的方法進(jìn)行了驗(yàn)證。

具體來說,他們?cè)趦深惾蝿?wù)上進(jìn)行了實(shí)驗(yàn):智能體類任務(wù)與領(lǐng)域特定任務(wù)。

  • 智能體任務(wù)采用 AppWorld 基準(zhǔn),該基準(zhǔn)涵蓋多輪推理、工具調(diào)用與環(huán)境交互等復(fù)雜行為,包含不同難度的場(chǎng)景(普通與挑戰(zhàn)模式),并設(shè)有公開排行榜以評(píng)估智能體的真實(shí)表現(xiàn)。
  • 領(lǐng)域特定任務(wù)則聚焦于金融分析,使用 FiNER 與 Formula 兩個(gè)數(shù)據(jù)集:前者要求識(shí)別 XBRL 財(cái)報(bào)文檔中的細(xì)粒度實(shí)體類型,后者則考察模型在結(jié)構(gòu)化財(cái)報(bào)中的數(shù)值推理與計(jì)算能力。

而作為對(duì)比的基線方法則包括以下幾種:

  • ICL(In-Context Learning):通過在輸入中提供示例演示實(shí)現(xiàn)少樣本學(xué)習(xí);
  • MIPROv2GEPA:兩種主流提示優(yōu)化算法,分別基于貝葉斯優(yōu)化與反思進(jìn)化策略;
  • Dynamic Cheatsheet(DC):一種測(cè)試時(shí)自適應(yīng)記憶機(jī)制,可積累可復(fù)用的策略與知識(shí)。

相比之下,ACE 在相同基模型與運(yùn)行條件下,通過其「生成–反思–整合」的主動(dòng)上下文工程框架,實(shí)現(xiàn)了更高的準(zhǔn)確度、更快的適應(yīng)速度以及更低的計(jì)算成本。

實(shí)驗(yàn)下來,ACE 表現(xiàn)優(yōu)異,下圖給出了其整體表現(xiàn) —— 毫無疑問地優(yōu)勢(shì)明顯。



首先,ACE 確實(shí)能實(shí)現(xiàn)高性能、自我改進(jìn)的智能體。



通過動(dòng)態(tài)優(yōu)化輸入上下文,ACE 實(shí)現(xiàn)了智能體的自我改進(jìn)。在 AppWorld 基準(zhǔn)上,ACE 在無需標(biāo)注數(shù)據(jù)的情況下,僅憑執(zhí)行反饋就能提升性能高達(dá) 17.1%,使開源小模型的表現(xiàn)接近最強(qiáng)商用系統(tǒng)。

下圖展示了在 AppWorld 基準(zhǔn)上,ACE 生成的上下文示例(部分)。可以看到,ACE 生成的上下文包含了詳細(xì)的、領(lǐng)域特定的洞見,以及可直接使用的工具與代碼,構(gòu)成了一個(gè)面向大型語言模型應(yīng)用的完整「作戰(zhàn)手冊(cè)」。



同時(shí),ACE 也能大幅提升在領(lǐng)域特定任務(wù)上的表現(xiàn):在復(fù)雜的金融推理任務(wù)中,ACE 通過構(gòu)建含豐富領(lǐng)域知識(shí)的「作戰(zhàn)手冊(cè)」,平均性能提升 8.6%。



該團(tuán)隊(duì)也通過消融實(shí)驗(yàn)驗(yàn)證了其新設(shè)計(jì)的有效性,結(jié)果表明:反思器與多輪蒸餾等組件對(duì)性能提升至關(guān)重要。



最后,該團(tuán)隊(duì)也分析了 ACE 的成本與延遲,發(fā)現(xiàn)這兩個(gè)指標(biāo)都有顯著下降:ACE 通過增量更新與輕量化合并機(jī)制,使適應(yīng)延遲平均降低 86.9%,并減少了生成消耗。



至于 ACE 究竟能否做到讓「微調(diào)已死」,還需要讀者您自己判斷,畢竟該研究也在網(wǎng)上遭到了一些批評(píng)。



結(jié)語

該團(tuán)隊(duì)總結(jié)道:「長(zhǎng)上下文 ≠ 更高 Serving 成本。」盡管 ACE 生成的上下文比 GEPA 等方法更長(zhǎng),但并不會(huì)導(dǎo)致推理成本或顯存使用線性增加。

現(xiàn)代 serving 基礎(chǔ)設(shè)施已通過 KV 緩存復(fù)用、壓縮與卸載等機(jī)制,對(duì)長(zhǎng)上下文負(fù)載進(jìn)行了優(yōu)化,使得常用的上下文片段可被緩存,避免重復(fù)計(jì)算。隨著系統(tǒng)層優(yōu)化的持續(xù)進(jìn)步,長(zhǎng)上下文方法(如 ACE)的實(shí)際部署成本將進(jìn)一步下降。

同時(shí),該團(tuán)隊(duì)還分析了這項(xiàng)研究對(duì)在線與持續(xù)學(xué)習(xí)帶來的啟示。

在線學(xué)習(xí)與持續(xù)學(xué)習(xí)是應(yīng)對(duì)分布漂移(distribution shifts)與訓(xùn)練數(shù)據(jù)有限性的重要方向。ACE 為傳統(tǒng)模型微調(diào)提供了一種靈活且高效的替代方案:更新上下文通常比更新模型參數(shù)更低成本,同時(shí)具備可解釋性,還可能實(shí)現(xiàn)選擇性遺忘(selective unlearning)—— 這可用于隱私保護(hù)、合規(guī)以及剔除錯(cuò)誤或過時(shí)信息。

該團(tuán)隊(duì)認(rèn)為,ACE 未來有望成為推動(dòng)持續(xù)學(xué)習(xí)與負(fù)責(zé)任學(xué)習(xí)的核心機(jī)制之一

你覺得這項(xiàng)技術(shù)的潛力如何?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山姆退卡潮愈演愈烈!阿里高管遭全網(wǎng)抵制,員工哭訴天塌了

山姆退卡潮愈演愈烈!阿里高管遭全網(wǎng)抵制,員工哭訴天塌了

吃瓜局
2025-11-06 20:33:10
82歲妓女離世前捐出60萬,離世后無人送葬,鄰居打開遺物后傻眼了

82歲妓女離世前捐出60萬,離世后無人送葬,鄰居打開遺物后傻眼了

溫情郵局
2025-10-21 11:39:29
“第一公子”顏值崩塌!19歲巴倫發(fā)福變油膩,為追女神封鎖整層樓

“第一公子”顏值崩塌!19歲巴倫發(fā)福變油膩,為追女神封鎖整層樓

小張帥
2025-10-18 13:36:44
泰國王攜王后訪華,背后原因不簡(jiǎn)單

泰國王攜王后訪華,背后原因不簡(jiǎn)單

亞太觀瀾
2025-11-07 20:55:03
已進(jìn)入高發(fā)期!河南一醫(yī)院兩天門診量超4000人,醫(yī)生提醒:起病急、易反復(fù),這些情況應(yīng)及時(shí)就醫(yī)

已進(jìn)入高發(fā)期!河南一醫(yī)院兩天門診量超4000人,醫(yī)生提醒:起病急、易反復(fù),這些情況應(yīng)及時(shí)就醫(yī)

極目新聞
2025-11-05 17:22:26
老干媽放棄遵義椒始末:立善立德不立威的陶華碧輸給了人性

老干媽放棄遵義椒始末:立善立德不立威的陶華碧輸給了人性

詩意世界
2025-11-07 09:35:12
荷蘭政府發(fā)聲明,聞泰科技接近漲停!但沒有實(shí)質(zhì)利好!

荷蘭政府發(fā)聲明,聞泰科技接近漲停!但沒有實(shí)質(zhì)利好!

芯智訊
2025-11-07 17:34:22
女子大鬧航班要挨男友坐!哭吼揪空乘衣服致延誤2小時(shí),網(wǎng)友:太丟人!

女子大鬧航班要挨男友坐!哭吼揪空乘衣服致延誤2小時(shí),網(wǎng)友:太丟人!

緬甸中文網(wǎng)
2025-11-07 13:07:34
苦等一年!上海這里,終于要拆了!

苦等一年!上海這里,終于要拆了!

新浪財(cái)經(jīng)
2025-11-07 20:08:21
豐田新車曝光:11月10日,全球首發(fā)!

豐田新車曝光:11月10日,全球首發(fā)!

高科技愛好者
2025-11-06 23:01:56
英偉達(dá)CEO黃仁勛評(píng)馬斯克建芯片廠計(jì)劃:你很難達(dá)到臺(tái)積電的水平

英偉達(dá)CEO黃仁勛評(píng)馬斯克建芯片廠計(jì)劃:你很難達(dá)到臺(tái)積電的水平

IT之家
2025-11-07 22:21:10
央視直播8日全運(yùn)會(huì)乒乓球賽程,黃鎮(zhèn)廷杜凱琹對(duì)周雨臧小桐

央視直播8日全運(yùn)會(huì)乒乓球賽程,黃鎮(zhèn)廷杜凱琹對(duì)周雨臧小桐

乒乓球球
2025-11-08 00:01:52
172cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭暈了…

172cmD杯女孩,撩走肌肉猛男,網(wǎng)友:沒X生活的我哭暈了…

健身迷
2025-10-16 10:10:40
關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

關(guān)于楊蘭蘭,終于破解出幾條她的關(guān)鍵信息

熱點(diǎn)菌本君
2025-10-01 17:24:05
安理會(huì)14票贊成解除敘利亞新總統(tǒng)制裁,中國棄權(quán),為何不一票否決

安理會(huì)14票贊成解除敘利亞新總統(tǒng)制裁,中國棄權(quán),為何不一票否決

男女那點(diǎn)事兒兒
2025-11-07 10:14:08
一個(gè)男人的崩潰,從800元開始!表弟,第5次找我借錢了

一個(gè)男人的崩潰,從800元開始!表弟,第5次找我借錢了

特約前排觀眾
2025-11-08 00:05:09
中國的安排太妙了:福建艦入列當(dāng)天,10名日本軍官正在中國參觀

中國的安排太妙了:福建艦入列當(dāng)天,10名日本軍官正在中國參觀

千里持劍
2025-11-07 13:55:34
動(dòng)真格了?普京下令不惜一切代價(jià),降低對(duì)中國的依賴,事情不簡(jiǎn)單

動(dòng)真格了?普京下令不惜一切代價(jià),降低對(duì)中國的依賴,事情不簡(jiǎn)單

小影的娛樂
2025-11-07 04:20:36
國臺(tái)辦就“武統(tǒng)”表態(tài)后,鄭麗文不再偽裝,鄭麗文高聲誓以武守臺(tái)

國臺(tái)辦就“武統(tǒng)”表態(tài)后,鄭麗文不再偽裝,鄭麗文高聲誓以武守臺(tái)

一口娛樂
2025-11-08 01:48:21
小米“先收錢后造車”引眾怒!20萬訂單壓垮產(chǎn)能,律師:涉嫌欺詐

小米“先收錢后造車”引眾怒!20萬訂單壓垮產(chǎn)能,律師:涉嫌欺詐

吃瓜局
2025-11-05 15:25:33
2025-11-08 03:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11672文章數(shù) 142500關(guān)注度
往期回顧 全部

科技要聞

75%贊成!特斯拉股東同意馬斯克天價(jià)薪酬

頭條要聞

奧巴馬意外現(xiàn)身 慶祝勝利

頭條要聞

奧巴馬意外現(xiàn)身 慶祝勝利

體育要聞

是天才更是強(qiáng)者,18歲的全紅嬋邁過三道坎

娛樂要聞

王家衛(wèi)的“看人下菜碟”?

財(cái)經(jīng)要聞

荷蘭政府:安世中國將很快恢復(fù)芯片供應(yīng)

汽車要聞

美式豪華就是舒適省心 林肯航海家場(chǎng)地試駕

態(tài)度原創(chuàng)

數(shù)碼
時(shí)尚
旅游
親子
公開課

數(shù)碼要聞

微軟首款硬件Z - 80 SoftCard:80年代的意外“吸金王”

“這條圍巾”才是今年的頂流單品,時(shí)髦的女人都有它

旅游要聞

稻城亞丁沖古寺看仙乃日雪山的最佳角度在哪? 看完這篇你就明白了

親子要聞

教育部等三部門:科學(xué)保護(hù)兒童遠(yuǎn)視儲(chǔ)備量

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 人妻无码中文字幕免费视频蜜桃| 玩弄寡妇丰满肉体视频| 国产VA精品在线电影| 国产又色又爽又黄的免费| 手机看爱爱喷水视频| 天天做天天爱夜夜爽导航| 欧产日产国产精品| 女班长裸体扒开两腿让我桶| 美国农夫导航AV| 欧美成人精品福利视频| 婷婷五月在线激情| 国产精品久久久久免费观看| 强九九热久久| 欧美大bbb毛多| 天天做天天刁| 97日日碰曰曰摸日日澡| 亚洲综合成人在线观看| 欧美三级不卡在线观看| 俺来也最新网址| 五月丁香av婷婷| 久久香蕉国产线熟妇人妻| 人妻短裙丝袜美腿扛起来挺进| 久久综合亚洲鲁鲁九月天 | 欧美性猛交xxxx免费看| 国产精品一区二区高清在线| 欧美国产日本图色福利影视| 久久久久久精品人妻网| 国产真人做受视频在线观看| 亚洲最大的福利视频| 就爱看就爱干| 操大肥屄视频| 国产高潮抽搐喷水高清| 麻豆果冻传媒精品国产av| www.日韩精品| 午夜福利无码一区二区| 在线无码不卡app| 无码www亚洲| 亚洲av日韩av综合在线观看 | 亚洲国产精品无码影视| 福利视频午夜1000| 国产真实乱伦一区二区三区|