夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

改變強(qiáng)化學(xué)習(xí)范式,Meta新作呼應(yīng)Sutton「經(jīng)驗(yàn)時(shí)代」預(yù)言

0
分享至



機(jī)器之心報(bào)道

編輯:張倩、澤南

從數(shù)據(jù)時(shí)代到經(jīng)驗(yàn)時(shí)代,怎么平滑過(guò)渡?Meta提出了新見(jiàn)解。

前段時(shí)間,圖靈獎(jiǎng)得主 Richard Sutton 與谷歌 RL 大佬 David Silver 合作撰寫(xiě)的《Welcome to the Era of Experience(歡迎來(lái)到經(jīng)驗(yàn)時(shí)代)引發(fā)了廣泛關(guān)注。他們?cè)谖闹兄赋?,人類?shù)據(jù)已接近極限,AI 智能體若想突破天花板,必須像人類和動(dòng)物一樣,通過(guò)與環(huán)境持續(xù)互動(dòng)生成「經(jīng)驗(yàn)流」,并通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)自主提升。也就是說(shuō),AI 智能體將迎來(lái)「經(jīng)驗(yàn)時(shí)代」,這是重大的范式轉(zhuǎn)變。

然而,在許多環(huán)境中,基于經(jīng)驗(yàn)數(shù)據(jù)使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練智能體仍然面臨挑戰(zhàn)。一方面,這些環(huán)境往往缺乏可驗(yàn)證或密集的獎(jiǎng)勵(lì)信號(hào) —— 尤其是在開(kāi)放式場(chǎng)景中(例如網(wǎng)頁(yè)環(huán)境通常不會(huì)返回明確的任務(wù)反饋);另一方面,智能體可能需要在長(zhǎng)時(shí)間跨度內(nèi)進(jìn)行低效的探索與泛化,例如跨多輪的工具使用或復(fù)雜交互流程。

目前大多數(shù)語(yǔ)言智能體采用監(jiān)督微調(diào)(SFT)從專家示范中學(xué)習(xí),以避免依賴獎(jiǎng)勵(lì)信號(hào)。雖然這種方法訓(xùn)練高效,但缺乏環(huán)境交互,無(wú)法從失敗中學(xué)習(xí)或主動(dòng)探索,同時(shí)對(duì)高質(zhì)量專家數(shù)據(jù)依賴強(qiáng)、成本高、泛化性有限。因此,一個(gè)關(guān)鍵問(wèn)題浮出水面:如何讓智能體在沒(méi)有外部獎(jiǎng)勵(lì)的情況下,從自身經(jīng)驗(yàn)中學(xué)習(xí)成長(zhǎng)?

上周末,一篇來(lái)自 META 超級(jí)智能實(shí)驗(yàn)室(MSL)、FAIR、俄亥俄州立大學(xué)的研究為該問(wèn)題提供了一種解法。

他們創(chuàng)新性地嘗試使用一種介于模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)之間的中間范式來(lái)解決上述問(wèn)題,它被稱為「早期經(jīng)驗(yàn)」:智能體不僅從人工整理的數(shù)據(jù)中學(xué)習(xí),還從自身在環(huán)境中執(zhí)行動(dòng)作后產(chǎn)生的未來(lái)狀態(tài)中學(xué)習(xí)。這些未來(lái)狀態(tài)代表著智能體的「自身經(jīng)驗(yàn)」,可以被轉(zhuǎn)化為監(jiān)督信號(hào),使其能夠直接從行動(dòng)后果中成長(zhǎng),而無(wú)需依賴外部獎(jiǎng)勵(lì)。

在這個(gè)范式中,研究人員探索了兩種使用此類數(shù)據(jù)的策略:

  • 隱式的世界建模,它使用收集到的狀態(tài)作為環(huán)境動(dòng)態(tài)策略的基礎(chǔ);
  • 自我反思,智能體從其次優(yōu)行為中學(xué)習(xí),以改進(jìn)推理和決策。

基于這一方法,Meta 成功地將智能體完成任務(wù)的成功率提升了 9.6%,分布外泛化能力提升了 9.4%。這為后續(xù) RL 繼續(xù)突破人類天花板鋪了一條快速通道。



  • 論文標(biāo)題:Agent Learning via Early Experience
  • 論文鏈接:https://arxiv.org/abs/2510.08558

方法概覽

為了幫助大家理解早期經(jīng)驗(yàn)范式,研究者在論文中給出了一個(gè)例子:想象一個(gè)語(yǔ)言智能體要學(xué)習(xí)如何在網(wǎng)頁(yè)上預(yù)訂航班。在傳統(tǒng)的模仿學(xué)習(xí)中,它只能看到專家成功預(yù)訂的示范過(guò)程。而在「早期經(jīng)驗(yàn)范式」中,智能體還會(huì)探索當(dāng)它點(diǎn)擊不同的按鈕或錯(cuò)誤填寫(xiě)表單時(shí)會(huì)發(fā)生什么,觀察錯(cuò)誤提示、頁(yè)面跳轉(zhuǎn)以及其他結(jié)果。這些觀察會(huì)成為無(wú)需顯式獎(jiǎng)勵(lì)的學(xué)習(xí)信號(hào)。從專家軌跡出發(fā),智能體在每一個(gè)訪問(wèn)到的狀態(tài)下都會(huì)嘗試提出自己的行動(dòng),通過(guò)探索來(lái)收集額外的環(huán)境反饋。



下圖 2 展示了兩種「早期經(jīng)驗(yàn)」方法:

  • 隱式世界建模(左圖)通過(guò)為專家軌跡添加替代動(dòng)作及其預(yù)測(cè)的下一個(gè)狀態(tài),使策略在部署前就能夠內(nèi)化環(huán)境的轉(zhuǎn)移動(dòng)態(tài)。
  • 自我反思(右圖)則在專家動(dòng)作的基礎(chǔ)上加入智能體自生成的解釋 c_1,讓策略學(xué)會(huì)推理并修正自身決策。

這兩種方法都使用由初始策略(LLM)提出的替代動(dòng)作。替代動(dòng)作的數(shù)量(K)是一個(gè)超參數(shù);為簡(jiǎn)潔起見(jiàn),圖中僅展示了一個(gè)示例。



隱式世界建模

作者將世界建模表述為一項(xiàng)輔助預(yù)測(cè)任務(wù),它能幫助智能體從自身早期經(jīng)驗(yàn)中內(nèi)化環(huán)境動(dòng)態(tài)。在本文的設(shè)定中,狀態(tài)完全以自然語(yǔ)言來(lái)表示,這使作者能夠?qū)⑾乱粻顟B(tài)預(yù)測(cè)建模為標(biāo)準(zhǔn)的下一個(gè) token 預(yù)測(cè)目標(biāo)。受先前關(guān)于將 LLM 訓(xùn)練為世界模型的研究的啟發(fā),他們使用從 rollout 數(shù)據(jù)集 D_rollout 中獲得的下一個(gè)狀態(tài),作為語(yǔ)言智能體策略 π_θ 的直接訓(xùn)練信號(hào)。

例如,在網(wǎng)上預(yù)訂航班時(shí),模型可能會(huì)預(yù)測(cè)輸入無(wú)效日期后的頁(yè)面狀態(tài),并從文本錯(cuò)誤信息中學(xué)習(xí),將其作為下一狀態(tài)的自然語(yǔ)言表示。這種設(shè)計(jì)無(wú)需單獨(dú)的模塊,并且自然地融入了大型語(yǔ)言模型的微調(diào)范式。

這一訓(xùn)練目標(biāo)鼓勵(lì)模型去捕捉環(huán)境行為中的規(guī)律,包括常見(jiàn)的狀態(tài)轉(zhuǎn)移、附帶效應(yīng)以及無(wú)效動(dòng)作的結(jié)果。不同于推理時(shí)用于規(guī)劃的顯式世界模型,本文中的隱式建模方式將預(yù)測(cè)信號(hào)直接整合進(jìn)策略學(xué)習(xí)中,作為監(jiān)督學(xué)習(xí)或后續(xù)優(yōu)化前的輕量級(jí)「預(yù)熱」階段。

這種方法讓智能體能夠接觸到多樣的、非專家的行為數(shù)據(jù),從而提升對(duì)分布變化的魯棒性,并減少對(duì)脆弱的專家軌跡的依賴。實(shí)踐中,rollout 數(shù)據(jù)的規(guī)模通常比專家數(shù)據(jù)集 D_expert 大一個(gè)數(shù)量級(jí)。作者采用兩階段訓(xùn)練流程:首先利用 L_IWM(隱式世界建模)來(lái)學(xué)習(xí)環(huán)境的粗略動(dòng)態(tài),然后在 D_expert 上進(jìn)行微調(diào)(即 L_IL 階段)。

自我反思

作者將「自我反思」形式化為一種機(jī)制,使智能體能夠從自身的探索結(jié)果中學(xué)習(xí)。與僅依賴專家的狀態(tài) — 動(dòng)作對(duì)不同,智能體在每個(gè)狀態(tài)下會(huì)將專家動(dòng)作與從自身策略中采樣得到的替代動(dòng)作進(jìn)行比較,并根據(jù)它們產(chǎn)生的后續(xù)狀態(tài),用自然語(yǔ)言生成解釋,說(shuō)明為何專家的選擇更優(yōu)。這些解釋比單純的專家動(dòng)作提供了更豐富、可遷移的監(jiān)督信號(hào),借助大語(yǔ)言模型在語(yǔ)言處理方面的優(yōu)勢(shì),使智能體能夠內(nèi)化可在不同任務(wù)間泛化的決策原則。

在實(shí)踐中,作者將自我反思數(shù)據(jù)集 D_refl 與專家數(shù)據(jù)集 D_expert 混合,并使用標(biāo)準(zhǔn)的「下一個(gè) token 預(yù)測(cè)」損失進(jìn)行訓(xùn)練。在自我反思訓(xùn)練數(shù)據(jù)上會(huì)生成鏈?zhǔn)剿季S鏈推理,而在 D_expert 中,只要專家軌跡自帶推理過(guò)程,作者就保留原有的思維鏈思維文本。 這種聯(lián)合訓(xùn)練方式在示范數(shù)據(jù)帶來(lái)的扎實(shí)決策信號(hào)與探索數(shù)據(jù)帶來(lái)的對(duì)比性洞見(jiàn)之間實(shí)現(xiàn)了平衡。

從這兩類數(shù)據(jù)中同時(shí)學(xué)習(xí),有助于模型超越機(jī)械模仿,發(fā)展出更具泛化性的決策準(zhǔn)則。例如,在 WebShop 環(huán)境中,專家動(dòng)作是「點(diǎn)擊 15 美元的藍(lán)色襯衫」,而替代動(dòng)作可能是「點(diǎn)擊 30 美元的紅色襯衫」。模型生成的反思可能是:「雖然紅色襯衫符合顏色偏好,但它超出了查詢中指定的 20 美元預(yù)算限制;藍(lán)色襯衫同時(shí)滿足了風(fēng)格要求和預(yù)算約束?!惯@樣的訓(xùn)練教會(huì)模型在決策中優(yōu)先考慮約束條件,這種經(jīng)驗(yàn)可以泛化到其他任務(wù)和情境中。

下圖展示了作者在不同環(huán)境中使用的提示模板。



隱式世界建模與自我反思遵循相同的核心原則:都將智能體自身的動(dòng)作及其導(dǎo)致的未來(lái)狀態(tài)轉(zhuǎn)化為可擴(kuò)展的監(jiān)督信號(hào),從而訓(xùn)練出更具泛化能力的語(yǔ)言智能體策略。

實(shí)驗(yàn)結(jié)果

Meta 列出了基準(zhǔn)測(cè)試的結(jié)果,所有數(shù)值均為成功率(%)。Prompt 表示指令調(diào)優(yōu)模型的性能表現(xiàn)。IWM 和 SR 分別代表隱式世界建模與自我反思。



可見(jiàn),在幾乎所有場(chǎng)景和兩種模型規(guī)模下,早期經(jīng)驗(yàn)的提升效果都優(yōu)于模仿學(xué)習(xí)。隱式世界建模(IWM)在結(jié)構(gòu)化模擬器和交易類網(wǎng)站中表現(xiàn)穩(wěn)定,自我反思(SR)則在需要多步驟推理和約束滿足的任務(wù)中進(jìn)步最大。



分布外評(píng)估結(jié)果(%)。綠色部分顯示了相較于模仿學(xué)習(xí)的改進(jìn)情況。Prompt 表示指令模型的性能表現(xiàn)。IWM 和 SR 分別指隱性世界建模和自我反思。

在分布外(OOD)數(shù)據(jù)集環(huán)境中,盡管所有任務(wù)上的分?jǐn)?shù)均有所下降,但早期經(jīng)驗(yàn)方法始終可以顯著減小差距。這表明將自身訓(xùn)練結(jié)果轉(zhuǎn)化為監(jiān)督信息,能有效幫助策略適應(yīng)演示數(shù)據(jù)未覆蓋的場(chǎng)景。



綜上所述,從早期經(jīng)驗(yàn)開(kāi)始訓(xùn)練始終能獲得更高的后強(qiáng)化學(xué)習(xí)上限。而且在某些場(chǎng)景中,這種性能差距會(huì)隨著訓(xùn)練而持續(xù)擴(kuò)大。

Meta 認(rèn)為,早期經(jīng)驗(yàn)在人類數(shù)據(jù)時(shí)代與經(jīng)驗(yàn)時(shí)代之間起到了中期訓(xùn)練橋梁的作用。它產(chǎn)生的策略即使沒(méi)有獎(jiǎng)勵(lì)也能表現(xiàn)出色,并放大了后續(xù)強(qiáng)化學(xué)習(xí)的益處。在相同的強(qiáng)化學(xué)習(xí)方案下,早期經(jīng)驗(yàn)開(kāi)始時(shí)就能實(shí)現(xiàn)更高的最終性能。這些結(jié)果表明,一旦 RL 基礎(chǔ)設(shè)施在新環(huán)境中可用,早期的經(jīng)驗(yàn)可以立即解鎖進(jìn)一步的收益,而無(wú)需從頭開(kāi)始重新訓(xùn)練。

更多內(nèi)容請(qǐng)參閱論文原文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
196:148,高市敗選已定?日本黨魁向中國(guó)示好,東京還有大雷沒(méi)爆

196:148,高市敗選已定?日本黨魁向中國(guó)示好,東京還有大雷沒(méi)爆

南宗歷史
2025-10-13 11:09:57
全運(yùn)會(huì)10米氣步槍神仙打架!浙江隊(duì)韓佳予摘金,黃雨婷僅獲第8名

全運(yùn)會(huì)10米氣步槍神仙打架!浙江隊(duì)韓佳予摘金,黃雨婷僅獲第8名

全景體育V
2025-10-13 15:18:04
縱覽熱點(diǎn)|貴州黔南州一珠寶店價(jià)值百萬(wàn)黃金被盜?店方:900多克黃金被竊,價(jià)值90余萬(wàn);警方:嫌疑人已落網(wǎng)

縱覽熱點(diǎn)|貴州黔南州一珠寶店價(jià)值百萬(wàn)黃金被盜?店方:900多克黃金被竊,價(jià)值90余萬(wàn);警方:嫌疑人已落網(wǎng)

縱覽新聞
2025-10-13 20:22:09
秋天“造血果”大量上市!女性多吃,脾胃舒服了,氣血也足起來(lái)!

秋天“造血果”大量上市!女性多吃,脾胃舒服了,氣血也足起來(lái)!

江江食研社
2025-10-12 20:30:03
寧波一特斯拉銷售員試駕展示車輛功能撞上橋墩,致車內(nèi)4名客戶受傷?回應(yīng):店長(zhǎng)在處理

寧波一特斯拉銷售員試駕展示車輛功能撞上橋墩,致車內(nèi)4名客戶受傷?回應(yīng):店長(zhǎng)在處理

瀟湘晨報(bào)
2025-10-13 17:03:39
《科學(xué)》重磅!最新研究發(fā)現(xiàn)長(zhǎng)壽關(guān)鍵基因,我真可以再活500年?

《科學(xué)》重磅!最新研究發(fā)現(xiàn)長(zhǎng)壽關(guān)鍵基因,我真可以再活500年?

徐德文科學(xué)頻道
2025-10-11 21:14:35
真激烈!掘金102-94擊敗快船,這一戰(zhàn),我不得不承認(rèn)6個(gè)現(xiàn)實(shí)

真激烈!掘金102-94擊敗快船,這一戰(zhàn),我不得不承認(rèn)6個(gè)現(xiàn)實(shí)

毒舌NBA
2025-10-13 12:07:29
反轉(zhuǎn)來(lái)了,中方否認(rèn)禁止出口,特朗普改對(duì)華限制令,美企將被淘汰

反轉(zhuǎn)來(lái)了,中方否認(rèn)禁止出口,特朗普改對(duì)華限制令,美企將被淘汰

吳欣純Deborah
2025-10-12 19:00:07
廣州氣溫即將驟降至“1字頭”!何時(shí)能領(lǐng)“秋季體驗(yàn)卡”?

廣州氣溫即將驟降至“1字頭”!何時(shí)能領(lǐng)“秋季體驗(yàn)卡”?

極目新聞
2025-10-13 20:55:18
20年以上才結(jié)果!廣東男子18年前種下約1000畝,如今只有2棵結(jié)果

20年以上才結(jié)果!廣東男子18年前種下約1000畝,如今只有2棵結(jié)果

攬星河的筆記
2025-10-13 18:37:28
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
哈馬斯創(chuàng)始人馬爾祖克對(duì)記者說(shuō):去死吧!哈馬斯可能提前釋放人質(zhì)

哈馬斯創(chuàng)始人馬爾祖克對(duì)記者說(shuō):去死吧!哈馬斯可能提前釋放人質(zhì)

老王說(shuō)正義
2025-10-13 00:07:20
領(lǐng)益智造:預(yù)計(jì)2025年前三季度凈利潤(rùn)為18.9億元~21.2億元,同比增長(zhǎng)34.1%~50.42%

領(lǐng)益智造:預(yù)計(jì)2025年前三季度凈利潤(rùn)為18.9億元~21.2億元,同比增長(zhǎng)34.1%~50.42%

每日經(jīng)濟(jì)新聞
2025-10-13 18:58:05
鄭麗文尷尬了,中方警告后,高市早苗放棄例行參拜靖國(guó)神社

鄭麗文尷尬了,中方警告后,高市早苗放棄例行參拜靖國(guó)神社

議紀(jì)史
2025-10-12 20:05:03
許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

許家印為保命爆出三大靠山!百億房東浮出水面,抱得美人歸引熱議

詩(shī)意世界
2025-09-26 10:31:06
51歲貝嫂打臉現(xiàn)場(chǎng)!每年虧損1億,強(qiáng)撐有錢(qián)人設(shè),用盡了所有力氣

51歲貝嫂打臉現(xiàn)場(chǎng)!每年虧損1億,強(qiáng)撐有錢(qián)人設(shè),用盡了所有力氣

觀察鑒娛
2025-10-12 17:10:35
省安委會(huì)掛牌督辦!深圳大鵬一產(chǎn)業(yè)園發(fā)生一起事故,3人死亡

省安委會(huì)掛牌督辦!深圳大鵬一產(chǎn)業(yè)園發(fā)生一起事故,3人死亡

南方都市報(bào)
2025-10-11 20:55:22
格魯吉亞抖出真相

格魯吉亞抖出真相

求實(shí)處
2025-10-12 19:26:05
張本宇開(kāi)心極了!不是一雙兒女亞錦賽大獲全勝,而是因?yàn)檫@兩點(diǎn)!

張本宇開(kāi)心極了!不是一雙兒女亞錦賽大獲全勝,而是因?yàn)檫@兩點(diǎn)!

田先生籃球
2025-10-13 08:49:27
為打造全球最大臀部,她常年做高風(fēng)險(xiǎn)手術(shù),從美女整成了半人馬.... 這??

為打造全球最大臀部,她常年做高風(fēng)險(xiǎn)手術(shù),從美女整成了半人馬.... 這??

英國(guó)那些事兒
2025-10-12 23:11:23
2025-10-13 21:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11450文章數(shù) 142478關(guān)注度
往期回顧 全部

科技要聞

楊強(qiáng)院士:AGI真正到來(lái)時(shí) 人與AI將和諧共生

頭條要聞

大疆降價(jià) 影石CEO致歉:曬訂單證明可獲無(wú)門(mén)檻代金券

頭條要聞

大疆降價(jià) 影石CEO致歉:曬訂單證明可獲無(wú)門(mén)檻代金券

體育要聞

29+12后24+10:韋爾生涯第二年沖MIP

娛樂(lè)要聞

王詩(shī)齡16歲生日:李湘王岳倫同框

財(cái)經(jīng)要聞

2025諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng):創(chuàng)新、毀滅與增長(zhǎng)

汽車要聞

小米SU7高速碰撞后起火 事發(fā)前速度或超200km/h

態(tài)度原創(chuàng)

藝術(shù)
手機(jī)
親子
旅游
房產(chǎn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

手機(jī)要聞

vivo X300 Pro 專業(yè)影像手柄套裝公布:699 元起,10 月底開(kāi)售

親子要聞

誰(shuí)懂這一刻的含金量!

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

房產(chǎn)要聞

全國(guó)首個(gè)!三亞超級(jí)IP+1!HelloKitty真的來(lái)了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 久久综合色av| 91娇喘视频| 国产极品美女高潮无套久久99| Free欧美丰滿| 国产精品一区AV| 久久中文无码精品| 囯产无卡毛片一二三四区| 国产精品国产三级国产av品爱网| 久久久久女人精品毛片| 午夜伊人影院| 人人肏人人插| 久久不见久久见免费影院www日本| www.蜜桃av.com| 观看在线人视频| 国产另类视频| 韩国午夜理伦三级在线观看仙踪林| 亚洲综合另类小说色区色噜噜| 欧美人与性动交α欧美精品| 国产成人综合欧美精品久久| 60岁老女人毛茸茸| 国产偷国产偷在线高清| 成人爽a毛片在线视频| 97久久精品人人澡人人爽| 操肥逼X一区| 久久精品国产亚洲av高| 特级毛片a级毛片免费观看网站 | 亚洲第一区欧美国产综合| 久久久久久久久久午夜免费福利片| 亚洲无码中文字幕在线播放| 国产AV无码专区久久精品国产| 国产suv高清一区二三| 麻花传媒剧国产mv高清播放| 亚洲无码精品酒店| 孕妇仑乱a级毛片免费看| 欧美色色色色包色| 九月丁香av| 色婷婷老汉国产AV| 国产乱人乱偷精品视频网站| 国产中文综合无码视频| 丰满的临时工熟女| 成人乱码一区二区三区四区|