網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，Meta風(fēng)雨飄搖中發(fā)了篇重量級(jí)論文，作者幾乎全是華人

2025-10-11 20:02:21　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：艾倫

【新智元導(dǎo)讀】風(fēng)雨飄搖中的Meta，于昨天發(fā)布了一篇重量級(jí)論文，提出了一種被稱作「早期經(jīng)驗(yàn)」（Early Experience）的全新范式，讓AI智能體「無師自通」，為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。

Meta自從Alexandr Wang加入后混亂不堪，人心惶惶，Yann LeCun也公開表達(dá)出走意愿。

但就在昨天，他們發(fā)了一篇大論文《Agent Learning via Early Experience》，提出了一種被稱作「早期經(jīng)驗(yàn)」（Early Experience）的全新范式，讓AI智能體「無師自通」，為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。

https://arxiv.org/abs/2510.08558

論文作者絕大多數(shù)都是華人。默默做事的，永遠(yuǎn)是華人。

研究背景與問題

在現(xiàn)實(shí)場(chǎng)景中訓(xùn)練語言智能體常常面臨一個(gè)兩難困境：

強(qiáng)化學(xué)習(xí)需要明確的環(huán)境獎(jiǎng)勵(lì)信號(hào)，但許多真實(shí)環(huán)境缺乏可驗(yàn)證的獎(jiǎng)勵(lì)反饋，或者任務(wù)跨度很長(zhǎng)導(dǎo)致信用分配（credit assignment）困難；

而模仿學(xué)習(xí)（通常采取監(jiān)督微調(diào)）則依賴昂貴且有限的專家演示數(shù)據(jù)，模型在訓(xùn)練中無法與環(huán)境交互，因而難以從失敗中學(xué)習(xí)，遇到新情況時(shí)泛化能力差。

要么沒有獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)習(xí)，要么只有少量人類示范可供模仿，智能體的自主成長(zhǎng)因此受限。

目前大多數(shù)語言智能體采取監(jiān)督微調(diào)的范式：在靜態(tài)的專家軌跡數(shù)據(jù)上訓(xùn)練策略，將環(huán)境狀態(tài)映射到人類給定的動(dòng)作序列。

這種方法雖然訓(xùn)練方便，卻存在明顯局限：智能體訓(xùn)練時(shí)不與環(huán)境互動(dòng)，看不到自己動(dòng)作導(dǎo)致的結(jié)果，無法「知錯(cuò)就改」，也很難推廣到訓(xùn)練數(shù)據(jù)覆蓋不到的新情境。

此外，高質(zhì)量專家示范數(shù)據(jù)獲取成本高昂，難以大規(guī)模擴(kuò)充。

另一方面，理想情況下我們希望讓智能體像人一樣通過自身經(jīng)驗(yàn)不斷成長(zhǎng)，但是傳統(tǒng)強(qiáng)化學(xué)習(xí)在缺少獎(jiǎng)勵(lì)的環(huán)境中難以奏效。

面對(duì)缺乏獎(jiǎng)勵(lì)信號(hào)且示范數(shù)據(jù)有限的困境，我們亟需新的訓(xùn)練范式來讓智能體完成自主學(xué)習(xí)。

方法框架：「早期經(jīng)驗(yàn)范式」

針對(duì)上述難題，該論文提出了一種折中的新范式，稱為「早期經(jīng)驗(yàn)」（Early Experience）。

這一范式定位于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的中間地帶：智能體在訓(xùn)練過程中不再僅依賴人類示范數(shù)據(jù)，還引入自身動(dòng)作所產(chǎn)生的后續(xù)狀態(tài)作為訓(xùn)練信號(hào)。

該范式是讓智能體在沒有外部獎(jiǎng)勵(lì)的情況下，通過嘗試動(dòng)作->觀察結(jié)果->將結(jié)果轉(zhuǎn)化為監(jiān)督，來直接從自己行為的后果中獲取經(jīng)驗(yàn)教訓(xùn)。

這一過程無需環(huán)境提供獎(jiǎng)勵(lì)，利用的完全是智能體探索所產(chǎn)生的數(shù)據(jù)，可視作在人工演示（無獎(jiǎng)勵(lì)但數(shù)據(jù)有限）和強(qiáng)化學(xué)習(xí)（有獎(jiǎng)勵(lì)但探索困難）之間架起的一座橋梁。

論文具體探討了在「早期經(jīng)驗(yàn)」范式下的兩種核心訓(xùn)練策略：

隱式世界建模（Implicit World Modeling, IWM）：該策略讓智能體利用收集到的環(huán)境狀態(tài)序列來建立內(nèi)部的環(huán)境動(dòng)態(tài)模型。
做法是讓智能體在一些決策點(diǎn)嘗試由其策略自主提出的替代動(dòng)作，然后記錄執(zhí)行這些動(dòng)作后環(huán)境的狀態(tài)變化，將這些「未來狀態(tài)」作為額外訓(xùn)練信號(hào)。
通過學(xué)習(xí)預(yù)測(cè)動(dòng)作將帶來怎樣的狀態(tài)轉(zhuǎn)變，智能體逐漸內(nèi)化環(huán)境的因果規(guī)律，提升對(duì)環(huán)境動(dòng)態(tài)的理解和決策的穩(wěn)健性。
這種隱式建模有點(diǎn)類似于人類在腦海中模擬「如果我這么做，會(huì)發(fā)生什么」，從而讓策略對(duì)行動(dòng)后果有所預(yù)見。
自我反思（Self-Reflection, SR）：該策略旨在讓智能體從自身不理想的決策中總結(jié)經(jīng)驗(yàn)教訓(xùn)。
智能體會(huì)將自己的動(dòng)作與專家示范進(jìn)行對(duì)比，識(shí)別哪些決策是次優(yōu)的或錯(cuò)誤的，并為此生成一段反思性的思維鏈說明，即一個(gè)自我分析的內(nèi)在獨(dú)白。
這些由智能體生成的反思性解釋將作為訓(xùn)練數(shù)據(jù)的一部分，指導(dǎo)模型在相似情境下做出更優(yōu)選擇。
例如，在購(gòu)物網(wǎng)站任務(wù)中，如果智能體原本選擇了一個(gè)超出預(yù)算的商品，一個(gè)可能的自我反思是：
「這個(gè)紅色襯衫雖然符合顏色偏好，但價(jià)格超出預(yù)算，上述選擇不合理，應(yīng)該考慮價(jià)格更低的藍(lán)襯衫。」
這樣，智能體通過反思約束條件，理解了自己決策的不足。
在訓(xùn)練中，研究者將這些反思解說與正確動(dòng)作一起加入訓(xùn)練，使模型學(xué)會(huì)根據(jù)上下文進(jìn)行推理并修正決策。
自我反思策略相當(dāng)于給予智能體一個(gè)自我導(dǎo)師：讓它自己說明哪里做錯(cuò)了，以及正確的思路是什么，從而內(nèi)化細(xì)粒度的經(jīng)驗(yàn)教訓(xùn)。

這兩種策略都遵循同一原則：即使沒有外部獎(jiǎng)勵(lì)，智能體「自我探索」所產(chǎn)生的動(dòng)作-結(jié)果數(shù)據(jù)本身就能提供高質(zhì)量的監(jiān)督信號(hào)。

通過將自身行為引起的未來狀態(tài)轉(zhuǎn)換成學(xué)習(xí)信號(hào)，語言智能體無需額外的人類獎(jiǎng)勵(lì)標(biāo)注也可以不斷改進(jìn)。

早期經(jīng)驗(yàn)范式可以無縫集成到現(xiàn)有訓(xùn)練流程中：先用少量專家數(shù)據(jù)進(jìn)行基本模仿學(xué)習(xí)初始化策略，然后讓智能體展開受控的探索（產(chǎn)生「早期經(jīng)驗(yàn)」數(shù)據(jù)），再用上述隱式世界建模和自我反思策略提取的監(jiān)督信號(hào)對(duì)策略進(jìn)行強(qiáng)化訓(xùn)練。

這一過程實(shí)現(xiàn)了從「人教模型」向「模型自學(xué)」的轉(zhuǎn)變。

實(shí)驗(yàn)驗(yàn)證：八大環(huán)境的評(píng)估表現(xiàn)

作者在八個(gè)多樣化環(huán)境中對(duì)早期經(jīng)驗(yàn)范式進(jìn)行了全面評(píng)估，涵蓋實(shí)體導(dǎo)航、網(wǎng)頁(yè)瀏覽、多輪工具使用、長(zhǎng)序列規(guī)劃以及多領(lǐng)域API調(diào)用等任務(wù)類型。

這些環(huán)境包括例如：文本版的室內(nèi)導(dǎo)航和操作（如ALFWorld）、在線購(gòu)物網(wǎng)頁(yè)（WebShop）、科學(xué)實(shí)驗(yàn)?zāi)M環(huán)境（ScienceWorld）、旅行規(guī)劃對(duì)話任務(wù)（TravelPlanner）等等，既有需要在虛擬空間中行動(dòng)的執(zhí)行型任務(wù)，也有需要多步推理規(guī)劃的認(rèn)知型任務(wù)。

同時(shí)，模型基座涵蓋了不同規(guī)模和架構(gòu)的大語言模型（如不同參數(shù)規(guī)模的Llama系模型等），以測(cè)試方法對(duì)模型尺寸的適應(yīng)性。

實(shí)驗(yàn)結(jié)果顯示，引入「早期經(jīng)驗(yàn)」后的智能體表現(xiàn)顯著優(yōu)于純模仿學(xué)習(xí)基線。

在所有測(cè)試環(huán)境中，無論采用隱式世界建模還是自我反思，兩種方法都取得了一致的提升：任務(wù)成功率平均提升了約9.6個(gè)百分點(diǎn)，遷移到域外新情境的泛化成功率提升約9.4個(gè)百分點(diǎn)。

這表明早期經(jīng)驗(yàn)范式不僅提高了智能體在已知任務(wù)上的效率，還大幅增強(qiáng)了其應(yīng)對(duì)未知場(chǎng)景的泛化能力。

例如，在要求滿足多重約束的長(zhǎng)鏈推理任務(wù)中（如旅行規(guī)劃需要兼顧時(shí)間與預(yù)算），自我反思策略帶來了超過10個(gè)百分點(diǎn)的成功率躍升，體現(xiàn)出對(duì)復(fù)雜推理任務(wù)的特別優(yōu)勢(shì)。

而在需要與環(huán)境反復(fù)交互嘗試的任務(wù)中（如網(wǎng)頁(yè)購(gòu)物需要點(diǎn)擊不同頁(yè)面），隱式世界建模有效讓智能體掌握了環(huán)境狀態(tài)轉(zhuǎn)移規(guī)律，也取得了兩位數(shù)的成功率提升。

此外，作者還考察了該范式的數(shù)據(jù)效率和模型可擴(kuò)展性：令人驚喜的是，即使將專家演示數(shù)據(jù)量減少一半，引入早期經(jīng)驗(yàn)訓(xùn)練后模型仍能達(dá)到甚至超過使用全部專家數(shù)據(jù)時(shí)的性能。

這說明早期經(jīng)驗(yàn)提供了額外且多樣的訓(xùn)練信號(hào)，可以在一定程度上替代昂貴的人工示范數(shù)據(jù)，提高數(shù)據(jù)利用效率。

同時(shí)，將這一方法應(yīng)用到更大規(guī)模的模型上，同樣取得了穩(wěn)定增益——早期經(jīng)驗(yàn)范式在不同模型大小上效果保持一致，不存在隨模型變大而效果遞減的問題。

這表明該方法具有良好的橫向與縱向可擴(kuò)展性：既能拓展到更廣的任務(wù)領(lǐng)域，又能適用于更強(qiáng)大的模型。

另一個(gè)關(guān)鍵實(shí)驗(yàn)是驗(yàn)證早期經(jīng)驗(yàn)作為強(qiáng)化學(xué)習(xí)的預(yù)熱（warm-start）是否能夠進(jìn)一步提升最終表現(xiàn)。

作者在其中3個(gè)具有明確獎(jiǎng)勵(lì)的環(huán)境中先用模仿學(xué)習(xí)、隱式世界建模、自我反思分別訓(xùn)練初始策略，然后再在相同條件下繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。

結(jié)果發(fā)現(xiàn)：以早期經(jīng)驗(yàn)（隱式世界建?；蜃晕曳此迹┏跏蓟牟呗越?jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化后達(dá)到了最高的最終成功率，相比直接用模仿學(xué)習(xí)初始化的策略最終成功率最高提升了約6.4個(gè)百分點(diǎn)。

這說明，早期經(jīng)驗(yàn)階段帶來的性能增益可以持續(xù)到最終的強(qiáng)化學(xué)習(xí)訓(xùn)練成果中。

一些環(huán)境中，早期經(jīng)驗(yàn)組與普通組的差距在強(qiáng)化學(xué)習(xí)過程中甚至進(jìn)一步拉大（例如ALFWorld環(huán)境），證明早期經(jīng)驗(yàn)為后續(xù)強(qiáng)化學(xué)習(xí)提供了更高的上限起點(diǎn)。

在有獎(jiǎng)勵(lì)和無獎(jiǎng)勵(lì)場(chǎng)景下，早期經(jīng)驗(yàn)訓(xùn)練都展示出優(yōu)異表現(xiàn)，架起了一座從模仿學(xué)習(xí)通向完全自主強(qiáng)化學(xué)習(xí)的實(shí)踐之橋。

分析與亮點(diǎn)

通讀論文后，我們認(rèn)為該論文有一些顯著的亮點(diǎn)。

無獎(jiǎng)勵(lì)下的高質(zhì)量監(jiān)督信號(hào)

早期經(jīng)驗(yàn)范式的最大亮點(diǎn)在于即便沒有環(huán)境獎(jiǎng)勵(lì)，也能為智能體提供有效的學(xué)習(xí)信號(hào)。

傳統(tǒng)強(qiáng)化學(xué)習(xí)需要獎(jiǎng)勵(lì)來評(píng)價(jià)行為好壞，而早期經(jīng)驗(yàn)通過「自身行為的后果」來指導(dǎo)策略改進(jìn)。

智能體探索產(chǎn)生的未來狀態(tài)本身就是監(jiān)督——成功也好，失誤也罷，這些經(jīng)驗(yàn)片段都成為訓(xùn)練素材。

例如，隱式世界建模讓模型直接預(yù)測(cè)環(huán)境響應(yīng)，自我反思讓模型檢討錯(cuò)誤決策的原因，兩者都為智能體提供了稠密而豐富的反饋（哪怕這種反饋不以數(shù)值獎(jiǎng)勵(lì)呈現(xiàn)）。

實(shí)驗(yàn)已經(jīng)證明，這種沒有顯式獎(jiǎng)勵(lì)的監(jiān)督信號(hào)依然可以將模型性能推向新的高度。

相比之下，單純依賴專家示范的監(jiān)督信號(hào)是靜態(tài)且狹窄的，而早期經(jīng)驗(yàn)信號(hào)來自智能體主動(dòng)探索，覆蓋了更廣的狀態(tài)-動(dòng)作空間，這正是其泛化能力大幅提升的原因之一。

泛化能力與可擴(kuò)展性

由于引入了智能體自己探索得到的大量多樣化軌跡，模型不再局限于人類示范所涵蓋的有限情景，從而在未知環(huán)境下表現(xiàn)更穩(wěn)健。

作者的域外測(cè)試顯示，早期經(jīng)驗(yàn)訓(xùn)練的智能體在任務(wù)變種或新場(chǎng)景中的成功率遠(yuǎn)超僅有模仿學(xué)習(xí)的基線，證明了其跨域遷移能力。

此外，從可擴(kuò)展性看，早期經(jīng)驗(yàn)范式具有良好的數(shù)據(jù)與模型擴(kuò)展效果：

它可以利用相同環(huán)境，讓智能體反復(fù)生成海量的訓(xùn)練數(shù)據(jù)（因?yàn)椴恍枰斯?biāo)注獎(jiǎng)勵(lì)），大幅降低了對(duì)人工數(shù)據(jù)的依賴；

同時(shí)無論模型參數(shù)規(guī)模增加還是減小，方法的收益都基本保持，展示出跨模型規(guī)模的一致性。

這一點(diǎn)非常關(guān)鍵，因?yàn)楹芏喾椒ㄔ谛∧Ｐ蜕嫌行У珨U(kuò)展到大模型時(shí)效果不明顯，而早期經(jīng)驗(yàn)方法在不同規(guī)模的模型上都取得了顯著而穩(wěn)定的提升。

早期經(jīng)驗(yàn)不僅拓寬了智能體「見過」的世界，也為大模型時(shí)代的持續(xù)改進(jìn)提供了一種數(shù)據(jù)可伸縮的方案。

對(duì)比其他方法（STaR、長(zhǎng)鏈推理等）

早期經(jīng)驗(yàn)范式與現(xiàn)有一些讓模型自我提升的思路有所不同，提供了更具「現(xiàn)實(shí)檢驗(yàn)」的學(xué)習(xí)信號(hào)。

例如，Zelikman等人提出的STaR（Self-Taught Reasoner，自學(xué)推理器）方法讓模型為已有示范生成推理過程并自我過濾。

但這種方法面對(duì)復(fù)雜環(huán)境時(shí)遇到兩個(gè)問題：

模型產(chǎn)生的解說未經(jīng)過環(huán)境驗(yàn)證，可能并不正確；
為保證動(dòng)作正確性常需要丟棄大量不匹配專家的解說數(shù)據(jù)，導(dǎo)致可用訓(xùn)練樣本很少。

作者在文中復(fù)現(xiàn)了STaR風(fēng)格的數(shù)據(jù)生成，發(fā)現(xiàn)模型為專家動(dòng)作生成的推理鏈中，只有極少比例能匹配專家決策，篩選后幾乎沒剩下多少有用數(shù)據(jù)，而且這些推理因?yàn)閺奈凑嬲c環(huán)境交互，往往是假想的、不可靠的。

相比之下，早期經(jīng)驗(yàn)方法中智能體每一次生成的動(dòng)作和反思都直接基于實(shí)際環(huán)境反饋：不論是隱式建模獲取的狀態(tài)轉(zhuǎn)移，還是自我反思產(chǎn)生的教訓(xùn)，都源自真實(shí)行動(dòng)的結(jié)果，因而信息含量更高、指導(dǎo)性更強(qiáng)。

針對(duì)需要長(zhǎng)鏈推理的任務(wù)，簡(jiǎn)單地讓模型生成更長(zhǎng)的思考鏈（例如調(diào)優(yōu)提示詞或控制思考步數(shù)）只能帶來有限的改善，而早期經(jīng)驗(yàn)中的自我反思相當(dāng)于讓模型親身實(shí)踐再反思，其對(duì)于復(fù)雜推理任務(wù)的提升要顯著得多。

在作者的實(shí)驗(yàn)中，自我反思策略在需要多步規(guī)劃和約束滿足的任務(wù)上取得了最大的增益（如旅行規(guī)劃任務(wù)成功率提高十多個(gè)百分點(diǎn))，這也從側(cè)面證明了相比靜態(tài)的CoT方法，讓模型「做過再想」效果更加突出。

方法適用范圍

早期經(jīng)驗(yàn)范式的一大優(yōu)點(diǎn)在于其通用性。

論文結(jié)果表明，無論是具身環(huán)境（如機(jī)器人操作）還是數(shù)字環(huán)境（如網(wǎng)頁(yè)、API交互），無論任務(wù)需要感知行動(dòng)還是邏輯推理，該方法都能帶來一致收益。

這說明將「自己探索」融入訓(xùn)練的思路具有很強(qiáng)的普適性，不局限于某一類任務(wù)。

同時(shí)，隱式世界建模和自我反思兩種策略各有側(cè)重又能相輔相成：

隱式世界建模更側(cè)重環(huán)境動(dòng)力學(xué)，適用于需要試錯(cuò)探索的場(chǎng)景；

自我反思側(cè)重策略優(yōu)化和約束滿足，對(duì)多步驟推理任務(wù)幫助更大。

兩者共享早期經(jīng)驗(yàn)的框架，可以根據(jù)任務(wù)特點(diǎn)選擇使用，從而靈活地提高智能體性能。

總結(jié)

《Agent Learning via Early Experience》提出了一種創(chuàng)新的語言智能體訓(xùn)練范式，成功彌合了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的鴻溝。

主要貢獻(xiàn)

早期經(jīng)驗(yàn)范式的提出：
正式提出并定義了「早期經(jīng)驗(yàn)」這一訓(xùn)練新范式，為在無外部獎(jiǎng)勵(lì)信號(hào)的條件下讓智能體從自身經(jīng)驗(yàn)中學(xué)習(xí)提供了可行方案。
這一范式可被視為從依賴人類數(shù)據(jù)的模仿學(xué)習(xí)邁向完全自主強(qiáng)化學(xué)習(xí)的實(shí)用且可擴(kuò)展的橋梁。
兩大訓(xùn)練策略（隱式世界建模和自我反思）：
設(shè)計(jì)并系統(tǒng)研究了在早期經(jīng)驗(yàn)范式下的兩種具體策略：
一是通過隱式世界建模讓智能體學(xué)會(huì)預(yù)測(cè)環(huán)境變化，從而增強(qiáng)決策的環(huán)境扎根性；
二是通過自我反思促使智能體從自身行動(dòng)中提煉細(xì)粒度教訓(xùn)，提升推理和決策能力。
這兩種策略證明了即使沒有獎(jiǎng)勵(lì)，智能體也能將「探索-反饋」循環(huán)轉(zhuǎn)化為有效學(xué)習(xí)信號(hào)。
實(shí)驗(yàn)與效果：
在八個(gè)多樣環(huán)境和多種模型架構(gòu)上進(jìn)行了綜合評(píng)測(cè)，結(jié)果顯示早期經(jīng)驗(yàn)方法在任務(wù)成功率、跨域泛化以及后續(xù)強(qiáng)化學(xué)習(xí)表現(xiàn)等方面均有顯著提升。
在若干基準(zhǔn)上，該方法取得了SOTA，并通過消融和分析實(shí)驗(yàn)提供了有益的洞察。
例如，早期經(jīng)驗(yàn)?zāi)Ｐ鸵愿俚臄?shù)據(jù)達(dá)到甚至超過基線效果，且能提升最終的強(qiáng)化學(xué)習(xí)訓(xùn)練上限。

當(dāng)前方法的局限與未來方向

目前的隱式建模和自我反思主要著眼于短跨度的經(jīng)驗(yàn)片段，對(duì)于那些超長(zhǎng)序列規(guī)劃任務(wù)中的信用分配問題，如果沒有顯式獎(jiǎng)勵(lì)仍然是一個(gè)挑戰(zhàn)。
未來的研究可以探索如何讓早期經(jīng)驗(yàn)范式也能處理更長(zhǎng)鏈條的決策優(yōu)化。
結(jié)合自監(jiān)督目標(biāo)是一個(gè)有前景的方向——可以考慮引入豐富的自監(jiān)督學(xué)習(xí)信號(hào)（如預(yù)測(cè)下一個(gè)子目標(biāo)等），進(jìn)一步提升無獎(jiǎng)勵(lì)環(huán)境下的訓(xùn)練效果。
將早期經(jīng)驗(yàn)與強(qiáng)化學(xué)習(xí)在持續(xù)學(xué)習(xí)框架下結(jié)合，也是作者設(shè)想的方向之一。
例如，在有了環(huán)境獎(jiǎng)勵(lì)后，讓模型接著用RL微調(diào)，或在訓(xùn)練過程中逐步引入獎(jiǎng)勵(lì)信號(hào)，檢驗(yàn)兩者的協(xié)同作用。
還可以探索更多形式的早期經(jīng)驗(yàn)（不限于論文提出的兩種），比如不同的自我監(jiān)督策略，乃至讓智能體自己生成新的訓(xùn)練目標(biāo)等。
作者也提到希望將該范式拓展到更大規(guī)模的真實(shí)應(yīng)用中，在真實(shí)線上環(huán)境中持續(xù)收集智能體的交互數(shù)據(jù)，進(jìn)行有機(jī)的持續(xù)優(yōu)化。
這將是真正邁向「經(jīng)驗(yàn)時(shí)代」的一步——讓智能體在真實(shí)世界中邊運(yùn)行邊成長(zhǎng)。

Early Experience為訓(xùn)練更自主、更智能的語言代理打開了一扇新的大門。

在獎(jiǎng)勵(lì)稀缺甚至缺失的廣闊應(yīng)用場(chǎng)景下，它提供了一種高效利用自身經(jīng)驗(yàn)的學(xué)習(xí)機(jī)制。

隨著這一范式與強(qiáng)化學(xué)習(xí)、自監(jiān)督等方法的融合，以及在長(zhǎng)期規(guī)劃任務(wù)上的突破，我們有理由期待下一代智能體將能夠更充分地自我進(jìn)化，朝著真正的通用智能體邁進(jìn)。

顯然，屬于AI智能體的「早期經(jīng)驗(yàn)」時(shí)代或許才剛剛開始。

目前的這些成果可能是幾個(gè)月甚至更久之前就在進(jìn)行的，而Meta的新時(shí)代能否保持住這種學(xué)術(shù)產(chǎn)出質(zhì)量，仍有待觀察。

參考資料：

https://arxiv.org/abs/2510.08558

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.