機(jī)器之心報(bào)道
編輯:張倩、澤南
從數(shù)據(jù)時(shí)代到經(jīng)驗(yàn)時(shí)代,怎么平滑過(guò)渡?Meta提出了新見(jiàn)解。
前段時(shí)間,圖靈獎(jiǎng)得主 Richard Sutton 與谷歌 RL 大佬 David Silver 合作撰寫(xiě)的《Welcome to the Era of Experience(歡迎來(lái)到經(jīng)驗(yàn)時(shí)代)引發(fā)了廣泛關(guān)注。他們?cè)谖闹兄赋?,人類?shù)據(jù)已接近極限,AI 智能體若想突破天花板,必須像人類和動(dòng)物一樣,通過(guò)與環(huán)境持續(xù)互動(dòng)生成「經(jīng)驗(yàn)流」,并通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自主提升。也就是說(shuō),AI 智能體將迎來(lái)「經(jīng)驗(yàn)時(shí)代」,這是重大的范式轉(zhuǎn)變。
然而,在許多環(huán)境中,基于經(jīng)驗(yàn)數(shù)據(jù)使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練智能體仍然面臨挑戰(zhàn)。一方面,這些環(huán)境往往缺乏可驗(yàn)證或密集的獎(jiǎng)勵(lì)信號(hào) —— 尤其是在開(kāi)放式場(chǎng)景中(例如網(wǎng)頁(yè)環(huán)境通常不會(huì)返回明確的任務(wù)反饋);另一方面,智能體可能需要在長(zhǎng)時(shí)間跨度內(nèi)進(jìn)行低效的探索與泛化,例如跨多輪的工具使用或復(fù)雜交互流程。
目前大多數(shù)語(yǔ)言智能體采用監(jiān)督微調(diào)(SFT)從專家示范中學(xué)習(xí),以避免依賴獎(jiǎng)勵(lì)信號(hào)。雖然這種方法訓(xùn)練高效,但缺乏環(huán)境交互,無(wú)法從失敗中學(xué)習(xí)或主動(dòng)探索,同時(shí)對(duì)高質(zhì)量專家數(shù)據(jù)依賴強(qiáng)、成本高、泛化性有限。因此,一個(gè)關(guān)鍵問(wèn)題浮出水面:如何讓智能體在沒(méi)有外部獎(jiǎng)勵(lì)的情況下,從自身經(jīng)驗(yàn)中學(xué)習(xí)成長(zhǎng)?
上周末,一篇來(lái)自 META 超級(jí)智能實(shí)驗(yàn)室(MSL)、FAIR、俄亥俄州立大學(xué)的研究為該問(wèn)題提供了一種解法。
他們創(chuàng)新性地嘗試使用一種介于模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的中間范式來(lái)解決上述問(wèn)題,它被稱為「早期經(jīng)驗(yàn)」:智能體不僅從人工整理的數(shù)據(jù)中學(xué)習(xí),還從自身在環(huán)境中執(zhí)行動(dòng)作后產(chǎn)生的未來(lái)狀態(tài)中學(xué)習(xí)。這些未來(lái)狀態(tài)代表著智能體的「自身經(jīng)驗(yàn)」,可以被轉(zhuǎn)化為監(jiān)督信號(hào),使其能夠直接從行動(dòng)后果中成長(zhǎng),而無(wú)需依賴外部獎(jiǎng)勵(lì)。
在這個(gè)范式中,研究人員探索了兩種使用此類數(shù)據(jù)的策略:
- 隱式的世界建模,它使用收集到的狀態(tài)作為環(huán)境動(dòng)態(tài)策略的基礎(chǔ);
- 自我反思,智能體從其次優(yōu)行為中學(xué)習(xí),以改進(jìn)推理和決策。
基于這一方法,Meta 成功地將智能體完成任務(wù)的成功率提升了 9.6%,分布外泛化能力提升了 9.4%。這為后續(xù) RL 繼續(xù)突破人類天花板鋪了一條快速通道。
- 論文標(biāo)題:Agent Learning via Early Experience
- 論文鏈接:https://arxiv.org/abs/2510.08558
方法概覽
為了幫助大家理解早期經(jīng)驗(yàn)范式,研究者在論文中給出了一個(gè)例子:想象一個(gè)語(yǔ)言智能體要學(xué)習(xí)如何在網(wǎng)頁(yè)上預(yù)訂航班。在傳統(tǒng)的模仿學(xué)習(xí)中,它只能看到專家成功預(yù)訂的示范過(guò)程。而在「早期經(jīng)驗(yàn)范式」中,智能體還會(huì)探索當(dāng)它點(diǎn)擊不同的按鈕或錯(cuò)誤填寫(xiě)表單時(shí)會(huì)發(fā)生什么,觀察錯(cuò)誤提示、頁(yè)面跳轉(zhuǎn)以及其他結(jié)果。這些觀察會(huì)成為無(wú)需顯式獎(jiǎng)勵(lì)的學(xué)習(xí)信號(hào)。從專家軌跡出發(fā),智能體在每一個(gè)訪問(wèn)到的狀態(tài)下都會(huì)嘗試提出自己的行動(dòng),通過(guò)探索來(lái)收集額外的環(huán)境反饋。
下圖 2 展示了兩種「早期經(jīng)驗(yàn)」方法:
- 隱式世界建模(左圖)通過(guò)為專家軌跡添加替代動(dòng)作及其預(yù)測(cè)的下一個(gè)狀態(tài),使策略在部署前就能夠內(nèi)化環(huán)境的轉(zhuǎn)移動(dòng)態(tài)。
- 自我反思(右圖)則在專家動(dòng)作的基礎(chǔ)上加入智能體自生成的解釋 c_1,讓策略學(xué)會(huì)推理并修正自身決策。
這兩種方法都使用由初始策略(LLM)提出的替代動(dòng)作。替代動(dòng)作的數(shù)量(K)是一個(gè)超參數(shù);為簡(jiǎn)潔起見(jiàn),圖中僅展示了一個(gè)示例。
隱式世界建模
作者將世界建模表述為一項(xiàng)輔助預(yù)測(cè)任務(wù),它能幫助智能體從自身早期經(jīng)驗(yàn)中內(nèi)化環(huán)境動(dòng)態(tài)。在本文的設(shè)定中,狀態(tài)完全以自然語(yǔ)言來(lái)表示,這使作者能夠?qū)⑾乱粻顟B(tài)預(yù)測(cè)建模為標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)目標(biāo)。受先前關(guān)于將 LLM 訓(xùn)練為世界模型的研究的啟發(fā),他們使用從 rollout 數(shù)據(jù)集 D_rollout 中獲得的下一個(gè)狀態(tài),作為語(yǔ)言智能體策略 π_θ 的直接訓(xùn)練信號(hào)。
例如,在網(wǎng)上預(yù)訂航班時(shí),模型可能會(huì)預(yù)測(cè)輸入無(wú)效日期后的頁(yè)面狀態(tài),并從文本錯(cuò)誤信息中學(xué)習(xí),將其作為下一狀態(tài)的自然語(yǔ)言表示。這種設(shè)計(jì)無(wú)需單獨(dú)的模塊,并且自然地融入了大型語(yǔ)言模型的微調(diào)范式。
這一訓(xùn)練目標(biāo)鼓勵(lì)模型去捕捉環(huán)境行為中的規(guī)律,包括常見(jiàn)的狀態(tài)轉(zhuǎn)移、附帶效應(yīng)以及無(wú)效動(dòng)作的結(jié)果。不同于推理時(shí)用于規(guī)劃的顯式世界模型,本文中的隱式建模方式將預(yù)測(cè)信號(hào)直接整合進(jìn)策略學(xué)習(xí)中,作為監(jiān)督學(xué)習(xí)或后續(xù)優(yōu)化前的輕量級(jí)「預(yù)熱」階段。
這種方法讓智能體能夠接觸到多樣的、非專家的行為數(shù)據(jù),從而提升對(duì)分布變化的魯棒性,并減少對(duì)脆弱的專家軌跡的依賴。實(shí)踐中,rollout 數(shù)據(jù)的規(guī)模通常比專家數(shù)據(jù)集 D_expert 大一個(gè)數(shù)量級(jí)。作者采用兩階段訓(xùn)練流程:首先利用 L_IWM(隱式世界建模)來(lái)學(xué)習(xí)環(huán)境的粗略動(dòng)態(tài),然后在 D_expert 上進(jìn)行微調(diào)(即 L_IL 階段)。
自我反思
作者將「自我反思」形式化為一種機(jī)制,使智能體能夠從自身的探索結(jié)果中學(xué)習(xí)。與僅依賴專家的狀態(tài) — 動(dòng)作對(duì)不同,智能體在每個(gè)狀態(tài)下會(huì)將專家動(dòng)作與從自身策略中采樣得到的替代動(dòng)作進(jìn)行比較,并根據(jù)它們產(chǎn)生的后續(xù)狀態(tài),用自然語(yǔ)言生成解釋,說(shuō)明為何專家的選擇更優(yōu)。這些解釋比單純的專家動(dòng)作提供了更豐富、可遷移的監(jiān)督信號(hào),借助大語(yǔ)言模型在語(yǔ)言處理方面的優(yōu)勢(shì),使智能體能夠內(nèi)化可在不同任務(wù)間泛化的決策原則。
在實(shí)踐中,作者將自我反思數(shù)據(jù)集 D_refl 與專家數(shù)據(jù)集 D_expert 混合,并使用標(biāo)準(zhǔn)的「下一個(gè) token 預(yù)測(cè)」損失進(jìn)行訓(xùn)練。在自我反思訓(xùn)練數(shù)據(jù)上會(huì)生成鏈?zhǔn)剿季S鏈推理,而在 D_expert 中,只要專家軌跡自帶推理過(guò)程,作者就保留原有的思維鏈思維文本。 這種聯(lián)合訓(xùn)練方式在示范數(shù)據(jù)帶來(lái)的扎實(shí)決策信號(hào)與探索數(shù)據(jù)帶來(lái)的對(duì)比性洞見(jiàn)之間實(shí)現(xiàn)了平衡。
從這兩類數(shù)據(jù)中同時(shí)學(xué)習(xí),有助于模型超越機(jī)械模仿,發(fā)展出更具泛化性的決策準(zhǔn)則。例如,在 WebShop 環(huán)境中,專家動(dòng)作是「點(diǎn)擊 15 美元的藍(lán)色襯衫」,而替代動(dòng)作可能是「點(diǎn)擊 30 美元的紅色襯衫」。模型生成的反思可能是:「雖然紅色襯衫符合顏色偏好,但它超出了查詢中指定的 20 美元預(yù)算限制;藍(lán)色襯衫同時(shí)滿足了風(fēng)格要求和預(yù)算約束?!惯@樣的訓(xùn)練教會(huì)模型在決策中優(yōu)先考慮約束條件,這種經(jīng)驗(yàn)可以泛化到其他任務(wù)和情境中。
下圖展示了作者在不同環(huán)境中使用的提示模板。
隱式世界建模與自我反思遵循相同的核心原則:都將智能體自身的動(dòng)作及其導(dǎo)致的未來(lái)狀態(tài)轉(zhuǎn)化為可擴(kuò)展的監(jiān)督信號(hào),從而訓(xùn)練出更具泛化能力的語(yǔ)言智能體策略。
實(shí)驗(yàn)結(jié)果
Meta 列出了基準(zhǔn)測(cè)試的結(jié)果,所有數(shù)值均為成功率(%)。Prompt 表示指令調(diào)優(yōu)模型的性能表現(xiàn)。IWM 和 SR 分別代表隱式世界建模與自我反思。
可見(jiàn),在幾乎所有場(chǎng)景和兩種模型規(guī)模下,早期經(jīng)驗(yàn)的提升效果都優(yōu)于模仿學(xué)習(xí)。隱式世界建模(IWM)在結(jié)構(gòu)化模擬器和交易類網(wǎng)站中表現(xiàn)穩(wěn)定,自我反思(SR)則在需要多步驟推理和約束滿足的任務(wù)中進(jìn)步最大。
分布外評(píng)估結(jié)果(%)。綠色部分顯示了相較于模仿學(xué)習(xí)的改進(jìn)情況。Prompt 表示指令模型的性能表現(xiàn)。IWM 和 SR 分別指隱性世界建模和自我反思。
在分布外(OOD)數(shù)據(jù)集環(huán)境中,盡管所有任務(wù)上的分?jǐn)?shù)均有所下降,但早期經(jīng)驗(yàn)方法始終可以顯著減小差距。這表明將自身訓(xùn)練結(jié)果轉(zhuǎn)化為監(jiān)督信息,能有效幫助策略適應(yīng)演示數(shù)據(jù)未覆蓋的場(chǎng)景。
綜上所述,從早期經(jīng)驗(yàn)開(kāi)始訓(xùn)練始終能獲得更高的后強(qiáng)化學(xué)習(xí)上限。而且在某些場(chǎng)景中,這種性能差距會(huì)隨著訓(xùn)練而持續(xù)擴(kuò)大。
Meta 認(rèn)為,早期經(jīng)驗(yàn)在人類數(shù)據(jù)時(shí)代與經(jīng)驗(yàn)時(shí)代之間起到了中期訓(xùn)練橋梁的作用。它產(chǎn)生的策略即使沒(méi)有獎(jiǎng)勵(lì)也能表現(xiàn)出色,并放大了后續(xù)強(qiáng)化學(xué)習(xí)的益處。在相同的強(qiáng)化學(xué)習(xí)方案下,早期經(jīng)驗(yàn)開(kāi)始時(shí)就能實(shí)現(xiàn)更高的最終性能。這些結(jié)果表明,一旦 RL 基礎(chǔ)設(shè)施在新環(huán)境中可用,早期的經(jīng)驗(yàn)可以立即解鎖進(jìn)一步的收益,而無(wú)需從頭開(kāi)始重新訓(xùn)練。
更多內(nèi)容請(qǐng)參閱論文原文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.