時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
是時候為傳統(tǒng)微調(diào)獻上挽歌了。
一項全新研究,剛剛又給微調(diào)致命一擊。
來自斯坦福大學、SambaNova Systems公司和加州大學伯克利分校的研究人員,在新論文中證明:
依靠上下文工程,無需調(diào)整任何權(quán)重,模型也能不斷變聰明。
他們提出的方法名為智能體上下文工程ACE。
ACE不依賴模型重新訓練,而是讓上下文自主進化,通過反復生成、反思并編輯自己的提示,直至成為一個自我完善的系統(tǒng)。
在智能體和特定領(lǐng)域的基準測試中,ACE能同時優(yōu)化離線上下文(如system prompt)和在線上下文(如agent memory),并穩(wěn)定優(yōu)于強力基線模型。
下面具體來看。
ACE框架
現(xiàn)在很多AI應(yīng)用(比如自動處理財務(wù)數(shù)據(jù)的工具、能調(diào)用APP的智能助手)都靠 “上下文適配” 來提升能力。
簡單來說,就是不給模型改底層參數(shù),而是在輸入里加指令、策略或證據(jù),但老方法有兩個大問題:
簡潔偏置
為了讓輸入簡短,把關(guān)鍵細節(jié)丟了。比如只說 “處理財務(wù)數(shù)據(jù)”,卻沒說 “要按XBRL格式核對數(shù)值”,導致模型犯錯。
上下文崩潰
反復修改輸入時,模型會把之前積累的有用信息越改越短、越改越?jīng)]用。比如原本有1.8萬個token的實用策略,準確率為66.7,改一次就剩122個token,效果卻下降到57.1。
ACE就是為了解決這兩個問題來的,與將知識壓縮為簡短摘要或靜態(tài)指令的方法不同,它將上下文視為不斷演化的操作手冊,能夠隨時間不斷累積、優(yōu)化并組織策略。
基于Dynamic Cheatsheet的智能體設(shè)計,ACE把模型的 “上下文優(yōu)化” 拆成分工明確的三個角色。
- 生成器(Generator):負責生成推理軌跡;
- 反思器(Reflector):負責從成功和錯誤中提煉具體見解;
- 整理器(Curator):負責將這些見解整合到結(jié)構(gòu)化的上下文更新中。
如上圖所示,工作流程首先由生成器針對新查詢生成推理軌跡,這些軌跡既能呈現(xiàn)有效策略,也會暴露常見錯誤。
隨后,反思器對這些軌跡進行評析,從中提煉出經(jīng)驗教訓,并可選擇通過多輪迭代加以優(yōu)化。
接著,整理器將這些經(jīng)驗合成為簡潔的增量條目,再經(jīng)由輕量級的非LLM邏輯,以確定性的方式將其合并至現(xiàn)有上下文中。
由于更新內(nèi)容被逐項分解并局部化,多個增量得以并行合并,從而實現(xiàn)大規(guī)模的批量適應(yīng)。
此外,ACE還支持多輪次適應(yīng)機制,即對同一組查詢進行反復學習,逐步強化上下文質(zhì)量。
ACE在兩大場景中全面超越基線
實驗結(jié)果表明,在智能體和財務(wù)分析兩大場景中,ACE穩(wěn)定優(yōu)于Base LLM(無適配)、ICL(少樣本演示)、GEPA(主流prompt優(yōu)化)、Dynamic Cheatsheet(動態(tài)備忘單)等方法。
在智能體測試中,研究團隊采用的是AppWorld,它是一套自主智能體任務(wù)集合,涵蓋API理解、代碼生成和環(huán)境交互。
結(jié)果顯示,ReAct+ACE相比ReAct+ICL和ReAct+GEPA分別領(lǐng)先12.3%和11.9%,優(yōu)勢顯著。這表明,與固定的演示示例或單一優(yōu)化指令提示相比,結(jié)構(gòu)化、可演進且精細化的上下文能夠更有效地促進智能體學習。
這一優(yōu)勢在在線場景中同樣得以延續(xù):ACE平均以7.6%的性能提升領(lǐng)先于Dynamic Cheatsheet等現(xiàn)有自適應(yīng)方法。
在財務(wù)分析中,研究者選用FiNER和Formula來測評模型的金融推理能力,其任務(wù)依賴可擴展商業(yè)報告語言(XBRL)。
- FiNER要求對XBRL財務(wù)文檔中的token進行標注,將其歸類為139種細粒度實體類型之一,這是在受監(jiān)管領(lǐng)域進行金融信息抽取的關(guān)鍵步驟。
- Formula則側(cè)重于從結(jié)構(gòu)化XBRL報告中提取數(shù)值,并通過計算回答金融查詢,即進行數(shù)值推理任務(wù)。
在離線環(huán)境下,當模型獲得訓練集中的真實答案作為輸入時,ACE以平均10.9%的優(yōu)勢明顯超越了ICL、MIPROv2和GEPA。
此外,ACE在降低自適應(yīng)成本(如嘗試次數(shù)和token輸入/生成的費用)與延遲方面展現(xiàn)出顯著優(yōu)勢。
具體而言,在AppWorld的離線自適應(yīng)任務(wù)中,與GEPA相比,ACE將自適應(yīng)延遲降低了82.3%,并將嘗試次數(shù)減少了75.1%。
在FiNER的在線自適應(yīng)場景中,與DC相比,ACE實現(xiàn)了91.5%的自適應(yīng)延遲降低,并在token輸入與生成的相關(guān)費用上節(jié)省了83.6%。
華人出品
這項研究的兩位一作都是華人。
Qizheng Zhang,斯坦福大學計算機科學系四年級博士生。此前在芝加哥大學獲得了數(shù)學、計算機科學和統(tǒng)計學三個專業(yè)的學士學位。
本科期間,他就與Junchen Jiang和Ravi Netravali兩位教授合作開展計算機網(wǎng)絡(luò)研究,專注于面向視頻流與分析的網(wǎng)絡(luò)系統(tǒng)設(shè)計。
此外,他還在美國阿貢國家實驗室數(shù)學與計算機科學部(MCS)和微軟研究院實習過。
Changran Hu,本科畢業(yè)于清華大學,碩士畢業(yè)于加州大學伯克利分校。
20歲時,他就成為了一家AI音樂生成公司DeepMusic的聯(lián)合創(chuàng)始人,成功獲得來自中國頂級企業(yè)的1000萬美元投資,并與多位中國流行歌手(如周杰倫、李健)建立合作。
隨后,他以應(yīng)用科學家實習生的身份加入微軟,并于2021年成為Sambanova Systems研究工程師,隨后晉升為技術(shù)主管兼經(jīng)理,主要負責模型后訓練與智能體AI相關(guān)研發(fā)工作。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.