夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微調(diào)已死?Agentic上下文工程登場,無需微調(diào)實現(xiàn)模型進化

0
分享至



機器之心報道

編輯:Panda

是什么,讓一位 AI 自動化架構(gòu)師發(fā)出了「微調(diào)已死」的感慨?



一篇來自斯坦福大學(xué)、SambaNova、UC 伯克利的論文近日引發(fā)了廣泛討論。他們提出了一種名為Agentic Context Engineering(智能體 / 主動式上下文工程)的技術(shù),讓語言模型無需微調(diào)也能實現(xiàn)自我提升!



  • 論文標(biāo)題:Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
  • 論文地址:https://www.arxiv.org/abs/2510.04618

一切要從上下文適應(yīng)說起

當(dāng)代基于大型語言模型(LLM)的 AI 系統(tǒng)(如 LLM 智能體與復(fù)合式 AI 系統(tǒng))越來越依賴于上下文自適應(yīng)(context adaptation)

具體來說,上下文自適應(yīng)是在模型訓(xùn)練完成后,通過在輸入中引入更明確的指令、結(jié)構(gòu)化的推理步驟或領(lǐng)域特定的輸入格式,從而提升模型性能。很顯然,這與直接修改模型參數(shù)的微調(diào)方法大不相同。

我們知道,上下文構(gòu)成了眾多 AI 系統(tǒng)組件的基礎(chǔ),包括:引導(dǎo)下游任務(wù)的系統(tǒng)提示詞、承載既往事實與經(jīng)驗的記憶機制以及用于減少幻覺、補充知識的事實證據(jù)。

而與參數(shù)更新相比,通過上下文進行適應(yīng)具有若干核心優(yōu)勢:上下文對于用戶與開發(fā)者而言更具可解釋性;能夠在運行時快速整合新知識;并且可以在復(fù)合系統(tǒng)的多個模型或模塊之間共享。與此同時,長上下文語言模型的進展以及高效推理機制(如 KV 緩存復(fù)用)也使基于上下文的方法愈發(fā)具有現(xiàn)實可行性。因此,上下文自適應(yīng)正逐漸成為構(gòu)建高性能、可擴展且具備自我改進能力的 AI 系統(tǒng)的核心范式。

然而,現(xiàn)有上下文自適應(yīng)方法仍存在兩大局限。

其一是「簡約偏置」(brevity bias):許多提示詞優(yōu)化器傾向于追求簡潔、普適的指令,而忽略了知識的充分積累。例如,GEPA 將簡短視為優(yōu)點,但這種抽象化可能遺漏實踐中至關(guān)重要的領(lǐng)域啟發(fā)式規(guī)則、工具使用指南或常見錯誤模式。此類優(yōu)化目標(biāo)雖能在部分指標(biāo)上奏效,卻常無法捕捉智能體或知識密集型應(yīng)用所需的細節(jié)策略。

其二是「上下文塌縮」(context collapse):依賴 LLM 對整體提示進行重寫的方式,往往會隨著時間推移退化為更短、更模糊的摘要,從而造成性能驟降(見圖 2)。在諸如交互式智能體、領(lǐng)域特定編程、以及金融或法律分析等任務(wù)中,系統(tǒng)性能依賴于保留細致的、任務(wù)相關(guān)的知識,而非將其壓縮掉。



隨著智能體與知識密集型推理對可靠性的要求不斷提高,近期研究逐漸轉(zhuǎn)向構(gòu)建「信息飽和」的上下文,也就是借助長上下文 LLM 的進展來容納更多潛在有用信息。

但這個斯坦福大學(xué)、SambaNova、UC 伯克利聯(lián)合團隊認為:上下文不應(yīng)是簡短的摘要,而應(yīng)成為全面、動態(tài)演化的「作戰(zhàn)手冊(playbooks)」—— 內(nèi)容詳實、包容、富含領(lǐng)域洞見。與人類不同,LLM 在提供長而細致的上下文時表現(xiàn)更好,并能自主提煉關(guān)鍵信息。因此,與其壓縮領(lǐng)域啟發(fā)與策略,不如將其保留,讓模型在推理時自行決定哪些信息最為重要。

在這一見解的基礎(chǔ)上,主動式上下文工程(ACE)應(yīng)運而生。

主動式上下文工程(ACE)

該團隊提出的 ACE(Agentic Context Engineering) 框架能夠?qū)崿F(xiàn)可擴展且高效的上下文自適應(yīng),并且離線(如系統(tǒng)提示優(yōu)化)與在線(如測試時記憶自適應(yīng))場景都適用。

與以往將知識蒸餾為簡短摘要或靜態(tài)指令的方法不同,ACE 是將上下文視為不斷演化的作戰(zhàn)手冊,能夠持續(xù)積累、蒸餾與組織策略。

基于 Dynamic Cheatsheet(參閱 arXiv:2504.07952)的 agentic 架構(gòu),ACE 引入三種協(xié)作角色:

  • 生成器(Generator):生成推理軌跡;
  • 反思器(Reflector):從成功與錯誤中蒸餾具體洞見;
  • 整編器(Curator):將這些洞見整合進結(jié)構(gòu)化的上下文更新。



這一設(shè)計模仿了人類的學(xué)習(xí)方式,即「實驗–反思–整合」,同時可避免讓單一模型承擔(dān)所有職能所導(dǎo)致的瓶頸。

為應(yīng)對前文提到的簡約偏置與上下文塌縮問題,ACE 引入了三項關(guān)鍵創(chuàng)新:

  • 專職反思者模塊:將評估與洞見提取與整編(curation)過程解耦,提高上下文質(zhì)量與下游性能;
  • 增量式 Delta 更新機制:以局部編輯替代整體重寫,顯著降低延遲與計算開銷;
  • grow-and-refine 機制:在持續(xù)擴充的同時抑制冗余,實現(xiàn)上下文的穩(wěn)態(tài)演化。

在工作流程上,生成器首先會針對新任務(wù)生成推理軌跡,揭示出有效策略與常見陷阱;反思器對這些軌跡進行評析,提煉經(jīng)驗并可多輪迭代優(yōu)化;整編器再將這些經(jīng)驗整合為緊湊的增量條目(delta entries),并通過輕量的、非 LLM 的邏輯機制合并至現(xiàn)有上下文中。

由于更新項是局部化的,多個增量可并行合并,從而實現(xiàn)批量適應(yīng)與擴展。ACE 還支持多輪(multi-epoch)自適應(yīng),使相同任務(wù)可被多次重訪以持續(xù)強化上下文。

增量式 Delta 更新

ACE 的核心設(shè)計理念是:將上下文表示為結(jié)構(gòu)化的條目集合(bullets),而非單一的整體提示詞

每個條目包含兩部分:

  • 元數(shù)據(jù)(metadata):唯一標(biāo)識符,以及「有用 / 有害」計數(shù)器;
  • 內(nèi)容(content):比如可復(fù)用策略、領(lǐng)域概念或常見錯誤模式。

在解決新問題時,生成器會標(biāo)記哪些條目起到了幫助或誤導(dǎo)作用,從而為反思器提供改進依據(jù)。

這種條目化設(shè)計帶來了三大特性:

  • 局部化(localization):只更新相關(guān)條目;
  • 細粒度檢索:生成器可聚焦于最相關(guān)的知識;
  • 增量式適應(yīng):推理時可高效進行合并、剪枝與去重。

ACE 不會重寫整個上下文,而是生成緊湊的增量上下文(delta contexts):由反思器提煉、整編器整合的一小組候選條目。

這種方式既避免了整體重寫的高計算成本與延遲,又能保持舊知識并持續(xù)吸收新見解。隨著上下文的增長,該機制為長周期或高知識密度的任務(wù)提供了必要的可擴展性。

Grow-and-Refine

在持續(xù)增長的基礎(chǔ)上,ACE 通過定期或延遲蒸餾來確保上下文保持緊湊與相關(guān)性。

在 Grow-and-Refine 過程中,新條目會被追加到上下文中,而已有條目則通過元數(shù)據(jù)更新(如計數(shù)器遞增)進行原地修訂。

去重步驟則通過語義嵌入比較條目相似度來消除冗余。

該過程可在每次增量更新后主動執(zhí)行,也可在上下文窗口超限時被動觸發(fā),具體取決于延遲與精度要求。

增量更新與 Grow-and-Refine 機制共同維持了上下文的動態(tài)可擴展性與高相關(guān)性。

ACE 的效果如何?

該團隊進行了實驗,對新提出的方法進行了驗證。

具體來說,他們在兩類任務(wù)上進行了實驗:智能體類任務(wù)與領(lǐng)域特定任務(wù)。

  • 智能體任務(wù)采用 AppWorld 基準(zhǔn),該基準(zhǔn)涵蓋多輪推理、工具調(diào)用與環(huán)境交互等復(fù)雜行為,包含不同難度的場景(普通與挑戰(zhàn)模式),并設(shè)有公開排行榜以評估智能體的真實表現(xiàn)。
  • 領(lǐng)域特定任務(wù)則聚焦于金融分析,使用 FiNER 與 Formula 兩個數(shù)據(jù)集:前者要求識別 XBRL 財報文檔中的細粒度實體類型,后者則考察模型在結(jié)構(gòu)化財報中的數(shù)值推理與計算能力。

而作為對比的基線方法則包括以下幾種:

  • ICL(In-Context Learning):通過在輸入中提供示例演示實現(xiàn)少樣本學(xué)習(xí);
  • MIPROv2GEPA:兩種主流提示優(yōu)化算法,分別基于貝葉斯優(yōu)化與反思進化策略;
  • Dynamic Cheatsheet(DC):一種測試時自適應(yīng)記憶機制,可積累可復(fù)用的策略與知識。

相比之下,ACE 在相同基模型與運行條件下,通過其「生成–反思–整合」的主動上下文工程框架,實現(xiàn)了更高的準(zhǔn)確度、更快的適應(yīng)速度以及更低的計算成本。

實驗下來,ACE 表現(xiàn)優(yōu)異,下圖給出了其整體表現(xiàn) —— 毫無疑問地優(yōu)勢明顯。



首先,ACE 確實能實現(xiàn)高性能、自我改進的智能體。



通過動態(tài)優(yōu)化輸入上下文,ACE 實現(xiàn)了智能體的自我改進。在 AppWorld 基準(zhǔn)上,ACE 在無需標(biāo)注數(shù)據(jù)的情況下,僅憑執(zhí)行反饋就能提升性能高達 17.1%,使開源小模型的表現(xiàn)接近最強商用系統(tǒng)。

下圖展示了在 AppWorld 基準(zhǔn)上,ACE 生成的上下文示例(部分)。可以看到,ACE 生成的上下文包含了詳細的、領(lǐng)域特定的洞見,以及可直接使用的工具與代碼,構(gòu)成了一個面向大型語言模型應(yīng)用的完整「作戰(zhàn)手冊」。



同時,ACE 也能大幅提升在領(lǐng)域特定任務(wù)上的表現(xiàn):在復(fù)雜的金融推理任務(wù)中,ACE 通過構(gòu)建含豐富領(lǐng)域知識的「作戰(zhàn)手冊」,平均性能提升 8.6%。



該團隊也通過消融實驗驗證了其新設(shè)計的有效性,結(jié)果表明:反思器與多輪蒸餾等組件對性能提升至關(guān)重要。



最后,該團隊也分析了 ACE 的成本與延遲,發(fā)現(xiàn)這兩個指標(biāo)都有顯著下降:ACE 通過增量更新與輕量化合并機制,使適應(yīng)延遲平均降低 86.9%,并減少了生成消耗。



至于 ACE 究竟能否做到讓「微調(diào)已死」,還需要讀者您自己判斷,畢竟該研究也在網(wǎng)上遭到了一些批評。



結(jié)語

該團隊總結(jié)道:「長上下文 ≠ 更高 Serving 成本。」盡管 ACE 生成的上下文比 GEPA 等方法更長,但并不會導(dǎo)致推理成本或顯存使用線性增加。

現(xiàn)代 serving 基礎(chǔ)設(shè)施已通過 KV 緩存復(fù)用、壓縮與卸載等機制,對長上下文負載進行了優(yōu)化,使得常用的上下文片段可被緩存,避免重復(fù)計算。隨著系統(tǒng)層優(yōu)化的持續(xù)進步,長上下文方法(如 ACE)的實際部署成本將進一步下降。

同時,該團隊還分析了這項研究對在線與持續(xù)學(xué)習(xí)帶來的啟示。

在線學(xué)習(xí)與持續(xù)學(xué)習(xí)是應(yīng)對分布漂移(distribution shifts)與訓(xùn)練數(shù)據(jù)有限性的重要方向。ACE 為傳統(tǒng)模型微調(diào)提供了一種靈活且高效的替代方案:更新上下文通常比更新模型參數(shù)更低成本,同時具備可解釋性,還可能實現(xiàn)選擇性遺忘(selective unlearning)—— 這可用于隱私保護、合規(guī)以及剔除錯誤或過時信息。

該團隊認為,ACE 未來有望成為推動持續(xù)學(xué)習(xí)與負責(zé)任學(xué)習(xí)的核心機制之一

你覺得這項技術(shù)的潛力如何?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
打火箭拿下20+,打馬刺再拿20+,爵士5號秀的成熟度遠超預(yù)期?

打火箭拿下20+,打馬刺再拿20+,爵士5號秀的成熟度遠超預(yù)期?

稻谷與小麥
2025-10-12 01:44:13
榴蓮大亨怒斥出軌兒子:從懸賞教訓(xùn)到宣布斷絕關(guān)系

榴蓮大亨怒斥出軌兒子:從懸賞教訓(xùn)到宣布斷絕關(guān)系

新民周刊
2025-10-10 20:24:57
6000噸!大陸緊急叫停對臺稀土供應(yīng),臺學(xué)者呼吁直接統(tǒng)一效果最佳

6000噸!大陸緊急叫停對臺稀土供應(yīng),臺學(xué)者呼吁直接統(tǒng)一效果最佳

文史旺旺旺
2025-10-10 21:32:02
1928年,楊宇霆被槍決前和張學(xué)良合影,注意看站姿,早已分道揚鑣

1928年,楊宇霆被槍決前和張學(xué)良合影,注意看站姿,早已分道揚鑣

文史微鑒
2025-10-11 17:25:03
白鹿回應(yīng)暴瘦到86斤:整個8月都在生病,沒有確定病因,無力絕望吃不下東西

白鹿回應(yīng)暴瘦到86斤:整個8月都在生病,沒有確定病因,無力絕望吃不下東西

魯中晨報
2025-10-10 21:20:01
美國發(fā)動關(guān)稅戰(zhàn),中國面臨的問題非常大,最需要解決的是兩個問題

美國發(fā)動關(guān)稅戰(zhàn),中國面臨的問題非常大,最需要解決的是兩個問題

阿胡
2025-04-12 11:59:35
短短十年不到,甘肅白銀已經(jīng)三次登上全國媒體頭條

短短十年不到,甘肅白銀已經(jīng)三次登上全國媒體頭條

清暉有墨
2025-10-11 09:01:28
原國務(wù)院總理李鵬坦言:外界傳聞我是周恩來養(yǎng)子的說法,并不確切

原國務(wù)院總理李鵬坦言:外界傳聞我是周恩來養(yǎng)子的說法,并不確切

鶴羽說個事
2025-10-11 14:33:43
氛圍真好!楊瀚森第3節(jié)天神下凡,誰注意比盧普斯和隊友的動作

氛圍真好!楊瀚森第3節(jié)天神下凡,誰注意比盧普斯和隊友的動作

體壇小李
2025-10-11 17:53:32
馬科斯陣營內(nèi)訌,菲總統(tǒng)怎么也沒料到,彈劾自己的第一槍來自背后

馬科斯陣營內(nèi)訌,菲總統(tǒng)怎么也沒料到,彈劾自己的第一槍來自背后

阿晪美食
2025-10-10 20:39:43
國際油價大跌5%

國際油價大跌5%

每日經(jīng)濟新聞
2025-10-11 08:48:11
稀土加工:北方稀土,中國稀土,金力永磁,盛和資源,誰的潛力大

稀土加工:北方稀土,中國稀土,金力永磁,盛和資源,誰的潛力大

王二哥老搞笑
2025-10-11 15:21:35
梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
湖北省規(guī)模較大的20所縣醫(yī)院

湖北省規(guī)模較大的20所縣醫(yī)院

朗威游戲說
2025-10-11 09:00:08
隨著廣州豹4-1大勝,鐵人2-1,銅梁龍2-0,中甲最新積分榜出爐了

隨著廣州豹4-1大勝,鐵人2-1,銅梁龍2-0,中甲最新積分榜出爐了

小火箭愛體育
2025-10-11 21:36:22
太開心了!哈登再次遇到了貴人,想在快船奪冠不是夢,西部顫抖吧

太開心了!哈登再次遇到了貴人,想在快船奪冠不是夢,西部顫抖吧

生活新鮮市
2025-10-11 11:50:01
我一朋友,40來歲,每年從股市提走上千萬。

我一朋友,40來歲,每年從股市提走上千萬。

悠閑葡萄
2025-10-02 06:58:21
壽宴上遭惡意糾纏拍攝視頻、合影,101歲院士發(fā)聲明維權(quán)

壽宴上遭惡意糾纏拍攝視頻、合影,101歲院士發(fā)聲明維權(quán)

南方都市報
2025-10-11 16:29:28
中方反對外部勢力干預(yù)委內(nèi)瑞拉內(nèi)政

中方反對外部勢力干預(yù)委內(nèi)瑞拉內(nèi)政

界面新聞
2025-10-11 08:10:47
只給2天時間考慮 美國要求中國航司禁飛俄領(lǐng)空

只給2天時間考慮 美國要求中國航司禁飛俄領(lǐng)空

看看新聞Knews
2025-10-10 21:39:10
2025-10-12 04:36:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11437文章數(shù) 142477關(guān)注度
往期回顧 全部

科技要聞

在中國打不贏,還想在全球贏?

頭條要聞

16歲少年在未管所被打死 家屬:打人的孩子也是受害者

頭條要聞

16歲少年在未管所被打死 家屬:打人的孩子也是受害者

體育要聞

王牌對王牌,阿德巴約終究還是高攀了

娛樂要聞

《向往》收視創(chuàng)新低!節(jié)目氛圍遭吐槽

財經(jīng)要聞

從稀土到高通 中國72小時連出10記重拳

汽車要聞

純電續(xù)航215km 全新阿爾法T5增程版10月底將上市

態(tài)度原創(chuàng)

家居
教育
親子
旅游
公開課

家居要聞

空間藝術(shù) 星河宇宙之旅

教育要聞

開學(xué)僅30天,東北61年小學(xué)消失!初中調(diào)整倒計時,教師群體何處去

親子要聞

家長一定要警惕這4個幼兒急癥!危急時刻可能要了命

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 精品熟女少妇一区二区三区| 中字幕视频在线永久在线| 爽到高潮无码视频在线观看| 国产一级av在线播放| 国产精品视频xxx| 日韩精品亚洲精品第一页| av免费网站无码| 18亚洲AV无码成人国产| 波多也节衣中文字幕一区二区三区 | 人妻少妇看A偷人无码精品视频| 在线观看国产一区亚洲bd| www.久久| 精品偷拍一区二区三区在线看 | 成人午夜看黄在线尤物成人| B真人三级片A| 黑人太粗太深太硬受不了了| 黑人大粗又爽又黄大片视频| 久久精品亚洲熟妇少妇任你| 天堂中文精品资源| 在线免费观看a视频| 亚洲一卡二卡无码| 蜜桃国际精品乱码一区二区三区| 黄网站色成年片大免费高清| 91精品aⅴ无码中文字字幕蜜桃| 乌克兰精品在线观看| 一区二区成人影院| 国产午夜无码片在线观看网站| 国内高清久久久久久| 无码精品国产va在线观看| 毛片一区二区三区无码| 黑人大战亚洲女| 国产老肥熟女一区二区三区| 无码福利一区二区三区| 丁香五月天亚洲综合4438网| 天天综合网 天天| 狠狠色噜噜狠狠狠8888米奇| 无码视频免费| 国产精品超清白人精品av| 国内精品综合久久久40p| 夜先锋av资源网站| 色欲国产精品|