夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,Meta風(fēng)雨飄搖中發(fā)了篇重量級(jí)論文,作者幾乎全是華人

0
分享至


新智元報(bào)道

編輯:艾倫

【新智元導(dǎo)讀】風(fēng)雨飄搖中的Meta,于昨天發(fā)布了一篇重量級(jí)論文,提出了一種被稱作「早期經(jīng)驗(yàn)」(Early Experience)的全新范式,讓AI智能體「無師自通」,為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。

Meta自從Alexandr Wang加入后混亂不堪,人心惶惶,Yann LeCun也公開表達(dá)出走意愿。

但就在昨天,他們發(fā)了一篇大論文《Agent Learning via Early Experience》,提出了一種被稱作「早期經(jīng)驗(yàn)」(Early Experience)的全新范式,讓AI智能體「無師自通」,為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。


https://arxiv.org/abs/2510.08558

論文作者絕大多數(shù)都是華人。默默做事的,永遠(yuǎn)是華人。

研究背景與問題

在現(xiàn)實(shí)場(chǎng)景中訓(xùn)練語言智能體常常面臨一個(gè)兩難困境:

強(qiáng)化學(xué)習(xí)需要明確的環(huán)境獎(jiǎng)勵(lì)信號(hào),但許多真實(shí)環(huán)境缺乏可驗(yàn)證的獎(jiǎng)勵(lì)反饋,或者任務(wù)跨度很長(zhǎng)導(dǎo)致信用分配(credit assignment)困難;

而模仿學(xué)習(xí)(通常采取監(jiān)督微調(diào))則依賴昂貴且有限的專家演示數(shù)據(jù),模型在訓(xùn)練中無法與環(huán)境交互,因而難以從失敗中學(xué)習(xí),遇到新情況時(shí)泛化能力差。

要么沒有獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)習(xí),要么只有少量人類示范可供模仿,智能體的自主成長(zhǎng)因此受限。

目前大多數(shù)語言智能體采取監(jiān)督微調(diào)的范式:在靜態(tài)的專家軌跡數(shù)據(jù)上訓(xùn)練策略,將環(huán)境狀態(tài)映射到人類給定的動(dòng)作序列。

這種方法雖然訓(xùn)練方便,卻存在明顯局限:智能體訓(xùn)練時(shí)不與環(huán)境互動(dòng),看不到自己動(dòng)作導(dǎo)致的結(jié)果,無法「知錯(cuò)就改」,也很難推廣到訓(xùn)練數(shù)據(jù)覆蓋不到的新情境。

此外,高質(zhì)量專家示范數(shù)據(jù)獲取成本高昂,難以大規(guī)模擴(kuò)充。

另一方面,理想情況下我們希望讓智能體像人一樣通過自身經(jīng)驗(yàn)不斷成長(zhǎng),但是傳統(tǒng)強(qiáng)化學(xué)習(xí)在缺少獎(jiǎng)勵(lì)的環(huán)境中難以奏效。

面對(duì)缺乏獎(jiǎng)勵(lì)信號(hào)且示范數(shù)據(jù)有限的困境,我們亟需新的訓(xùn)練范式來讓智能體完成自主學(xué)習(xí)。

方法框架:「早期經(jīng)驗(yàn)范式」

針對(duì)上述難題,該論文提出了一種折中的新范式,稱為「早期經(jīng)驗(yàn)」(Early Experience)。

這一范式定位于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的中間地帶:智能體在訓(xùn)練過程中不再僅依賴人類示范數(shù)據(jù),還引入自身動(dòng)作所產(chǎn)生的后續(xù)狀態(tài)作為訓(xùn)練信號(hào)。

該范式是讓智能體在沒有外部獎(jiǎng)勵(lì)的情況下,通過嘗試動(dòng)作->觀察結(jié)果->將結(jié)果轉(zhuǎn)化為監(jiān)督,來直接從自己行為的后果中獲取經(jīng)驗(yàn)教訓(xùn)。

這一過程無需環(huán)境提供獎(jiǎng)勵(lì),利用的完全是智能體探索所產(chǎn)生的數(shù)據(jù),可視作在人工演示(無獎(jiǎng)勵(lì)但數(shù)據(jù)有限)和強(qiáng)化學(xué)習(xí)(有獎(jiǎng)勵(lì)但探索困難)之間架起的一座橋梁。

論文具體探討了在「早期經(jīng)驗(yàn)」范式下的兩種核心訓(xùn)練策略:

  • 隱式世界建模(Implicit World Modeling, IWM):該策略讓智能體利用收集到的環(huán)境狀態(tài)序列來建立內(nèi)部的環(huán)境動(dòng)態(tài)模型。

    做法是讓智能體在一些決策點(diǎn)嘗試由其策略自主提出的替代動(dòng)作,然后記錄執(zhí)行這些動(dòng)作后環(huán)境的狀態(tài)變化,將這些「未來狀態(tài)」作為額外訓(xùn)練信號(hào)。

    通過學(xué)習(xí)預(yù)測(cè)動(dòng)作將帶來怎樣的狀態(tài)轉(zhuǎn)變,智能體逐漸內(nèi)化環(huán)境的因果規(guī)律,提升對(duì)環(huán)境動(dòng)態(tài)的理解和決策的穩(wěn)健性。

    這種隱式建模有點(diǎn)類似于人類在腦海中模擬「如果我這么做,會(huì)發(fā)生什么」,從而讓策略對(duì)行動(dòng)后果有所預(yù)見。

  • 自我反思(Self-Reflection, SR):該策略旨在讓智能體從自身不理想的決策中總結(jié)經(jīng)驗(yàn)教訓(xùn)。

    智能體會(huì)將自己的動(dòng)作與專家示范進(jìn)行對(duì)比,識(shí)別哪些決策是次優(yōu)的或錯(cuò)誤的,并為此生成一段反思性的思維鏈說明,即一個(gè)自我分析的內(nèi)在獨(dú)白。

    這些由智能體生成的反思性解釋將作為訓(xùn)練數(shù)據(jù)的一部分,指導(dǎo)模型在相似情境下做出更優(yōu)選擇。

    例如,在購(gòu)物網(wǎng)站任務(wù)中,如果智能體原本選擇了一個(gè)超出預(yù)算的商品,一個(gè)可能的自我反思是:

    「這個(gè)紅色襯衫雖然符合顏色偏好,但價(jià)格超出預(yù)算,上述選擇不合理,應(yīng)該考慮價(jià)格更低的藍(lán)襯衫。」

    這樣,智能體通過反思約束條件,理解了自己決策的不足。

    在訓(xùn)練中,研究者將這些反思解說與正確動(dòng)作一起加入訓(xùn)練,使模型學(xué)會(huì)根據(jù)上下文進(jìn)行推理并修正決策。

    自我反思策略相當(dāng)于給予智能體一個(gè)自我導(dǎo)師:讓它自己說明哪里做錯(cuò)了,以及正確的思路是什么,從而內(nèi)化細(xì)粒度的經(jīng)驗(yàn)教訓(xùn)。


這兩種策略都遵循同一原則:即使沒有外部獎(jiǎng)勵(lì),智能體「自我探索」所產(chǎn)生的動(dòng)作-結(jié)果數(shù)據(jù)本身就能提供高質(zhì)量的監(jiān)督信號(hào)。

通過將自身行為引起的未來狀態(tài)轉(zhuǎn)換成學(xué)習(xí)信號(hào),語言智能體無需額外的人類獎(jiǎng)勵(lì)標(biāo)注也可以不斷改進(jìn)。

早期經(jīng)驗(yàn)范式可以無縫集成到現(xiàn)有訓(xùn)練流程中:先用少量專家數(shù)據(jù)進(jìn)行基本模仿學(xué)習(xí)初始化策略,然后讓智能體展開受控的探索(產(chǎn)生「早期經(jīng)驗(yàn)」數(shù)據(jù)),再用上述隱式世界建模和自我反思策略提取的監(jiān)督信號(hào)對(duì)策略進(jìn)行強(qiáng)化訓(xùn)練。

這一過程實(shí)現(xiàn)了從「人教模型」向「模型自學(xué)」的轉(zhuǎn)變。

實(shí)驗(yàn)驗(yàn)證:八大環(huán)境的評(píng)估表現(xiàn)

作者在八個(gè)多樣化環(huán)境中對(duì)早期經(jīng)驗(yàn)范式進(jìn)行了全面評(píng)估,涵蓋實(shí)體導(dǎo)航、網(wǎng)頁(yè)瀏覽、多輪工具使用、長(zhǎng)序列規(guī)劃以及多領(lǐng)域API調(diào)用等任務(wù)類型。

這些環(huán)境包括例如:文本版的室內(nèi)導(dǎo)航和操作(如ALFWorld)、在線購(gòu)物網(wǎng)頁(yè)(WebShop)、科學(xué)實(shí)驗(yàn)?zāi)M環(huán)境(ScienceWorld)、旅行規(guī)劃對(duì)話任務(wù)(TravelPlanner)等等,既有需要在虛擬空間中行動(dòng)的執(zhí)行型任務(wù),也有需要多步推理規(guī)劃的認(rèn)知型任務(wù)。

同時(shí),模型基座涵蓋了不同規(guī)模和架構(gòu)的大語言模型(如不同參數(shù)規(guī)模的Llama系模型等),以測(cè)試方法對(duì)模型尺寸的適應(yīng)性。

實(shí)驗(yàn)結(jié)果顯示,引入「早期經(jīng)驗(yàn)」后的智能體表現(xiàn)顯著優(yōu)于純模仿學(xué)習(xí)基線。


在所有測(cè)試環(huán)境中,無論采用隱式世界建模還是自我反思,兩種方法都取得了一致的提升:任務(wù)成功率平均提升了約9.6個(gè)百分點(diǎn),遷移到域外新情境的泛化成功率提升約9.4個(gè)百分點(diǎn)。

這表明早期經(jīng)驗(yàn)范式不僅提高了智能體在已知任務(wù)上的效率,還大幅增強(qiáng)了其應(yīng)對(duì)未知場(chǎng)景的泛化能力。

例如,在要求滿足多重約束的長(zhǎng)鏈推理任務(wù)中(如旅行規(guī)劃需要兼顧時(shí)間與預(yù)算),自我反思策略帶來了超過10個(gè)百分點(diǎn)的成功率躍升,體現(xiàn)出對(duì)復(fù)雜推理任務(wù)的特別優(yōu)勢(shì)。

而在需要與環(huán)境反復(fù)交互嘗試的任務(wù)中(如網(wǎng)頁(yè)購(gòu)物需要點(diǎn)擊不同頁(yè)面),隱式世界建模有效讓智能體掌握了環(huán)境狀態(tài)轉(zhuǎn)移規(guī)律,也取得了兩位數(shù)的成功率提升。

此外,作者還考察了該范式的數(shù)據(jù)效率和模型可擴(kuò)展性:令人驚喜的是,即使將專家演示數(shù)據(jù)量減少一半,引入早期經(jīng)驗(yàn)訓(xùn)練后模型仍能達(dá)到甚至超過使用全部專家數(shù)據(jù)時(shí)的性能。

這說明早期經(jīng)驗(yàn)提供了額外且多樣的訓(xùn)練信號(hào),可以在一定程度上替代昂貴的人工示范數(shù)據(jù),提高數(shù)據(jù)利用效率。

同時(shí),將這一方法應(yīng)用到更大規(guī)模的模型上,同樣取得了穩(wěn)定增益——早期經(jīng)驗(yàn)范式在不同模型大小上效果保持一致,不存在隨模型變大而效果遞減的問題。

這表明該方法具有良好的橫向與縱向可擴(kuò)展性:既能拓展到更廣的任務(wù)領(lǐng)域,又能適用于更強(qiáng)大的模型。

另一個(gè)關(guān)鍵實(shí)驗(yàn)是驗(yàn)證早期經(jīng)驗(yàn)作為強(qiáng)化學(xué)習(xí)的預(yù)熱(warm-start)是否能夠進(jìn)一步提升最終表現(xiàn)。

作者在其中3個(gè)具有明確獎(jiǎng)勵(lì)的環(huán)境中先用模仿學(xué)習(xí)、隱式世界建模、自我反思分別訓(xùn)練初始策略,然后再在相同條件下繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。

結(jié)果發(fā)現(xiàn):以早期經(jīng)驗(yàn)(隱式世界建?;蜃晕曳此迹┏跏蓟牟呗越?jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化后達(dá)到了最高的最終成功率,相比直接用模仿學(xué)習(xí)初始化的策略最終成功率最高提升了約6.4個(gè)百分點(diǎn)。


這說明,早期經(jīng)驗(yàn)階段帶來的性能增益可以持續(xù)到最終的強(qiáng)化學(xué)習(xí)訓(xùn)練成果中。

一些環(huán)境中,早期經(jīng)驗(yàn)組與普通組的差距在強(qiáng)化學(xué)習(xí)過程中甚至進(jìn)一步拉大(例如ALFWorld環(huán)境),證明早期經(jīng)驗(yàn)為后續(xù)強(qiáng)化學(xué)習(xí)提供了更高的上限起點(diǎn)。

在有獎(jiǎng)勵(lì)和無獎(jiǎng)勵(lì)場(chǎng)景下,早期經(jīng)驗(yàn)訓(xùn)練都展示出優(yōu)異表現(xiàn),架起了一座從模仿學(xué)習(xí)通向完全自主強(qiáng)化學(xué)習(xí)的實(shí)踐之橋。

分析與亮點(diǎn)

通讀論文后,我們認(rèn)為該論文有一些顯著的亮點(diǎn)。


無獎(jiǎng)勵(lì)下的高質(zhì)量監(jiān)督信號(hào)

早期經(jīng)驗(yàn)范式的最大亮點(diǎn)在于即便沒有環(huán)境獎(jiǎng)勵(lì),也能為智能體提供有效的學(xué)習(xí)信號(hào)。

傳統(tǒng)強(qiáng)化學(xué)習(xí)需要獎(jiǎng)勵(lì)來評(píng)價(jià)行為好壞,而早期經(jīng)驗(yàn)通過「自身行為的后果」來指導(dǎo)策略改進(jìn)。

智能體探索產(chǎn)生的未來狀態(tài)本身就是監(jiān)督——成功也好,失誤也罷,這些經(jīng)驗(yàn)片段都成為訓(xùn)練素材。

例如,隱式世界建模讓模型直接預(yù)測(cè)環(huán)境響應(yīng),自我反思讓模型檢討錯(cuò)誤決策的原因,兩者都為智能體提供了稠密而豐富的反饋(哪怕這種反饋不以數(shù)值獎(jiǎng)勵(lì)呈現(xiàn))。

實(shí)驗(yàn)已經(jīng)證明,這種沒有顯式獎(jiǎng)勵(lì)的監(jiān)督信號(hào)依然可以將模型性能推向新的高度。

相比之下,單純依賴專家示范的監(jiān)督信號(hào)是靜態(tài)且狹窄的,而早期經(jīng)驗(yàn)信號(hào)來自智能體主動(dòng)探索,覆蓋了更廣的狀態(tài)-動(dòng)作空間,這正是其泛化能力大幅提升的原因之一。


泛化能力與可擴(kuò)展性

由于引入了智能體自己探索得到的大量多樣化軌跡,模型不再局限于人類示范所涵蓋的有限情景,從而在未知環(huán)境下表現(xiàn)更穩(wěn)健。

作者的域外測(cè)試顯示,早期經(jīng)驗(yàn)訓(xùn)練的智能體在任務(wù)變種或新場(chǎng)景中的成功率遠(yuǎn)超僅有模仿學(xué)習(xí)的基線,證明了其跨域遷移能力。

此外,從可擴(kuò)展性看,早期經(jīng)驗(yàn)范式具有良好的數(shù)據(jù)與模型擴(kuò)展效果:

它可以利用相同環(huán)境,讓智能體反復(fù)生成海量的訓(xùn)練數(shù)據(jù)(因?yàn)椴恍枰斯?biāo)注獎(jiǎng)勵(lì)),大幅降低了對(duì)人工數(shù)據(jù)的依賴;

同時(shí)無論模型參數(shù)規(guī)模增加還是減小,方法的收益都基本保持,展示出跨模型規(guī)模的一致性。


這一點(diǎn)非常關(guān)鍵,因?yàn)楹芏喾椒ㄔ谛∧P蜕嫌行У珨U(kuò)展到大模型時(shí)效果不明顯,而早期經(jīng)驗(yàn)方法在不同規(guī)模的模型上都取得了顯著而穩(wěn)定的提升。

早期經(jīng)驗(yàn)不僅拓寬了智能體「見過」的世界,也為大模型時(shí)代的持續(xù)改進(jìn)提供了一種數(shù)據(jù)可伸縮的方案。


對(duì)比其他方法(STaR、長(zhǎng)鏈推理等)

早期經(jīng)驗(yàn)范式與現(xiàn)有一些讓模型自我提升的思路有所不同,提供了更具「現(xiàn)實(shí)檢驗(yàn)」的學(xué)習(xí)信號(hào)。

例如,Zelikman等人提出的STaR(Self-Taught Reasoner,自學(xué)推理器)方法讓模型為已有示范生成推理過程并自我過濾。

但這種方法面對(duì)復(fù)雜環(huán)境時(shí)遇到兩個(gè)問題:

  • 模型產(chǎn)生的解說未經(jīng)過環(huán)境驗(yàn)證,可能并不正確;

  • 為保證動(dòng)作正確性常需要丟棄大量不匹配專家的解說數(shù)據(jù),導(dǎo)致可用訓(xùn)練樣本很少。

作者在文中復(fù)現(xiàn)了STaR風(fēng)格的數(shù)據(jù)生成,發(fā)現(xiàn)模型為專家動(dòng)作生成的推理鏈中,只有極少比例能匹配專家決策,篩選后幾乎沒剩下多少有用數(shù)據(jù),而且這些推理因?yàn)閺奈凑嬲c環(huán)境交互,往往是假想的、不可靠的。


相比之下,早期經(jīng)驗(yàn)方法中智能體每一次生成的動(dòng)作和反思都直接基于實(shí)際環(huán)境反饋:不論是隱式建模獲取的狀態(tài)轉(zhuǎn)移,還是自我反思產(chǎn)生的教訓(xùn),都源自真實(shí)行動(dòng)的結(jié)果,因而信息含量更高、指導(dǎo)性更強(qiáng)。

針對(duì)需要長(zhǎng)鏈推理的任務(wù),簡(jiǎn)單地讓模型生成更長(zhǎng)的思考鏈(例如調(diào)優(yōu)提示詞或控制思考步數(shù))只能帶來有限的改善,而早期經(jīng)驗(yàn)中的自我反思相當(dāng)于讓模型親身實(shí)踐再反思,其對(duì)于復(fù)雜推理任務(wù)的提升要顯著得多。

在作者的實(shí)驗(yàn)中,自我反思策略在需要多步規(guī)劃和約束滿足的任務(wù)上取得了最大的增益(如旅行規(guī)劃任務(wù)成功率提高十多個(gè)百分點(diǎn)),這也從側(cè)面證明了相比靜態(tài)的CoT方法,讓模型「做過再想」效果更加突出。



方法適用范圍

早期經(jīng)驗(yàn)范式的一大優(yōu)點(diǎn)在于其通用性。

論文結(jié)果表明,無論是具身環(huán)境(如機(jī)器人操作)還是數(shù)字環(huán)境(如網(wǎng)頁(yè)、API交互),無論任務(wù)需要感知行動(dòng)還是邏輯推理,該方法都能帶來一致收益。

這說明將「自己探索」融入訓(xùn)練的思路具有很強(qiáng)的普適性,不局限于某一類任務(wù)。

同時(shí),隱式世界建模和自我反思兩種策略各有側(cè)重又能相輔相成:

隱式世界建模更側(cè)重環(huán)境動(dòng)力學(xué),適用于需要試錯(cuò)探索的場(chǎng)景;

自我反思側(cè)重策略優(yōu)化和約束滿足,對(duì)多步驟推理任務(wù)幫助更大。

兩者共享早期經(jīng)驗(yàn)的框架,可以根據(jù)任務(wù)特點(diǎn)選擇使用,從而靈活地提高智能體性能。

總結(jié)

《Agent Learning via Early Experience》提出了一種創(chuàng)新的語言智能體訓(xùn)練范式,成功彌合了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的鴻溝。


主要貢獻(xiàn)

  • 早期經(jīng)驗(yàn)范式的提出:

    正式提出并定義了「早期經(jīng)驗(yàn)」這一訓(xùn)練新范式,為在無外部獎(jiǎng)勵(lì)信號(hào)的條件下讓智能體從自身經(jīng)驗(yàn)中學(xué)習(xí)提供了可行方案。

    這一范式可被視為從依賴人類數(shù)據(jù)的模仿學(xué)習(xí)邁向完全自主強(qiáng)化學(xué)習(xí)的實(shí)用且可擴(kuò)展的橋梁。

  • 兩大訓(xùn)練策略(隱式世界建模和自我反思):

    設(shè)計(jì)并系統(tǒng)研究了在早期經(jīng)驗(yàn)范式下的兩種具體策略:

    一是通過隱式世界建模讓智能體學(xué)會(huì)預(yù)測(cè)環(huán)境變化,從而增強(qiáng)決策的環(huán)境扎根性;

    二是通過自我反思促使智能體從自身行動(dòng)中提煉細(xì)粒度教訓(xùn),提升推理和決策能力。

    這兩種策略證明了即使沒有獎(jiǎng)勵(lì),智能體也能將「探索-反饋」循環(huán)轉(zhuǎn)化為有效學(xué)習(xí)信號(hào)。

  • 實(shí)驗(yàn)與效果:

    在八個(gè)多樣環(huán)境和多種模型架構(gòu)上進(jìn)行了綜合評(píng)測(cè),結(jié)果顯示早期經(jīng)驗(yàn)方法在任務(wù)成功率、跨域泛化以及后續(xù)強(qiáng)化學(xué)習(xí)表現(xiàn)等方面均有顯著提升。

    在若干基準(zhǔn)上,該方法取得了SOTA,并通過消融和分析實(shí)驗(yàn)提供了有益的洞察。

    例如,早期經(jīng)驗(yàn)?zāi)P鸵愿俚臄?shù)據(jù)達(dá)到甚至超過基線效果,且能提升最終的強(qiáng)化學(xué)習(xí)訓(xùn)練上限。



當(dāng)前方法的局限與未來方向

  • 目前的隱式建模和自我反思主要著眼于短跨度的經(jīng)驗(yàn)片段,對(duì)于那些超長(zhǎng)序列規(guī)劃任務(wù)中的信用分配問題,如果沒有顯式獎(jiǎng)勵(lì)仍然是一個(gè)挑戰(zhàn)。

    未來的研究可以探索如何讓早期經(jīng)驗(yàn)范式也能處理更長(zhǎng)鏈條的決策優(yōu)化。

  • 結(jié)合自監(jiān)督目標(biāo)是一個(gè)有前景的方向——可以考慮引入豐富的自監(jiān)督學(xué)習(xí)信號(hào)(如預(yù)測(cè)下一個(gè)子目標(biāo)等),進(jìn)一步提升無獎(jiǎng)勵(lì)環(huán)境下的訓(xùn)練效果。

  • 將早期經(jīng)驗(yàn)與強(qiáng)化學(xué)習(xí)在持續(xù)學(xué)習(xí)框架下結(jié)合,也是作者設(shè)想的方向之一。

    例如,在有了環(huán)境獎(jiǎng)勵(lì)后,讓模型接著用RL微調(diào),或在訓(xùn)練過程中逐步引入獎(jiǎng)勵(lì)信號(hào),檢驗(yàn)兩者的協(xié)同作用。

  • 還可以探索更多形式的早期經(jīng)驗(yàn)(不限于論文提出的兩種),比如不同的自我監(jiān)督策略,乃至讓智能體自己生成新的訓(xùn)練目標(biāo)等。

  • 作者也提到希望將該范式拓展到更大規(guī)模的真實(shí)應(yīng)用中,在真實(shí)線上環(huán)境中持續(xù)收集智能體的交互數(shù)據(jù),進(jìn)行有機(jī)的持續(xù)優(yōu)化。

    這將是真正邁向「經(jīng)驗(yàn)時(shí)代」的一步——讓智能體在真實(shí)世界中邊運(yùn)行邊成長(zhǎng)。

Early Experience為訓(xùn)練更自主、更智能的語言代理打開了一扇新的大門。

在獎(jiǎng)勵(lì)稀缺甚至缺失的廣闊應(yīng)用場(chǎng)景下,它提供了一種高效利用自身經(jīng)驗(yàn)的學(xué)習(xí)機(jī)制。

隨著這一范式與強(qiáng)化學(xué)習(xí)、自監(jiān)督等方法的融合,以及在長(zhǎng)期規(guī)劃任務(wù)上的突破,我們有理由期待下一代智能體將能夠更充分地自我進(jìn)化,朝著真正的通用智能體邁進(jìn)。

顯然,屬于AI智能體的「早期經(jīng)驗(yàn)」時(shí)代或許才剛剛開始。

目前的這些成果可能是幾個(gè)月甚至更久之前就在進(jìn)行的,而Meta的新時(shí)代能否保持住這種學(xué)術(shù)產(chǎn)出質(zhì)量,仍有待觀察。

參考資料:

https://arxiv.org/abs/2510.08558

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男子給女尸配陰婚,豈料合葬時(shí)女尸躺在身旁突然開口:我跟你了

男子給女尸配陰婚,豈料合葬時(shí)女尸躺在身旁突然開口:我跟你了

古怪奇談錄
2025-10-11 11:46:05
趕不上了:航炮其實(shí)是中國(guó)航空永遠(yuǎn)的痛苦,這份痛揮之不去又如何

趕不上了:航炮其實(shí)是中國(guó)航空永遠(yuǎn)的痛苦,這份痛揮之不去又如何

軍武數(shù)據(jù)庫(kù)
2025-10-14 16:27:18
公務(wù)員“小寒冬”將至?年終獎(jiǎng)停發(fā)、待遇下調(diào),鐵飯碗還香嗎?

公務(wù)員“小寒冬”將至?年終獎(jiǎng)停發(fā)、待遇下調(diào),鐵飯碗還香嗎?

慧眼看世界哈哈
2025-10-14 11:51:21
中、美、歐、日等紛紛行動(dòng),ASML公開表態(tài),外媒:唯獨(dú)中國(guó)不可以

中、美、歐、日等紛紛行動(dòng),ASML公開表態(tài),外媒:唯獨(dú)中國(guó)不可以

百態(tài)人間
2025-10-14 10:42:30
研究發(fā)現(xiàn):老年人頻繁吃花生,用不了多久,身體或會(huì)有這幾樣變化

研究發(fā)現(xiàn):老年人頻繁吃花生,用不了多久,身體或會(huì)有這幾樣變化

詩(shī)意世界
2025-09-30 23:50:26
微信員工回應(yīng)好友互刪后互動(dòng)清除:一直都是這樣

微信員工回應(yīng)好友互刪后互動(dòng)清除:一直都是這樣

界面新聞
2025-10-13 15:43:26
太慘!4年跌54%!西安這一板塊房?jī)r(jià)“大跳水”

太慘!4年跌54%!西安這一板塊房?jī)r(jià)“大跳水”

石辰搞笑日常
2025-10-15 01:07:27
無卡化時(shí)代 聯(lián)通eSIM預(yù)約僅3.9萬,移動(dòng)4小時(shí)15萬的差距藏著什么

無卡化時(shí)代 聯(lián)通eSIM預(yù)約僅3.9萬,移動(dòng)4小時(shí)15萬的差距藏著什么

Thurman在昆明
2025-10-14 16:19:12
我“斷崖式”戒煙得來的經(jīng)驗(yàn):想要戒煙的煙民,可以借鑒參考一下

我“斷崖式”戒煙得來的經(jīng)驗(yàn):想要戒煙的煙民,可以借鑒參考一下

神牛
2025-08-29 16:23:01
黃金周酒店亂象:1千多一晚亞朵全季,他們選擇在景區(qū)扎帳篷

黃金周酒店亂象:1千多一晚亞朵全季,他們選擇在景區(qū)扎帳篷

顯微故事
2025-10-13 11:04:04
徹底不演了!《暴風(fēng)圈》導(dǎo)演支持抵制中國(guó)游客,網(wǎng)友呼吁全面禁韓

徹底不演了!《暴風(fēng)圈》導(dǎo)演支持抵制中國(guó)游客,網(wǎng)友呼吁全面禁韓

小椰的奶奶
2025-10-12 11:38:32
失業(yè)在家,躺平132天,悟出了幾個(gè)道理:1.有靠山,千萬別辭職

失業(yè)在家,躺平132天,悟出了幾個(gè)道理:1.有靠山,千萬別辭職

一口娛樂
2025-10-12 14:12:01
C羅創(chuàng)紀(jì)錄!一夜進(jìn)2球+葡萄牙2-2遭絕平差2分出線,1豪門提前晉級(jí)

C羅創(chuàng)紀(jì)錄!一夜進(jìn)2球+葡萄牙2-2遭絕平差2分出線,1豪門提前晉級(jí)

體育知多少
2025-10-15 06:24:57
圖赫爾:我接受球迷這場(chǎng)比賽對(duì)我的取笑,這是很棒的英式幽默

圖赫爾:我接受球迷這場(chǎng)比賽對(duì)我的取笑,這是很棒的英式幽默

懂球帝
2025-10-15 06:43:09
1961年,馬步芳對(duì)18歲五姨太說:把你媽媽和兩個(gè)妹妹叫來伺候我!

1961年,馬步芳對(duì)18歲五姨太說:把你媽媽和兩個(gè)妹妹叫來伺候我!

百態(tài)人間
2025-10-10 15:21:00
澳洲華人的內(nèi)卷大戰(zhàn),正在學(xué)校假期里打響

澳洲華人的內(nèi)卷大戰(zhàn),正在學(xué)校假期里打響

澳洲財(cái)經(jīng)見聞
2025-10-15 03:49:31
冷空氣來襲!今起北京迎降雨降溫 明天夜間為降雨明顯時(shí)段

冷空氣來襲!今起北京迎降雨降溫 明天夜間為降雨明顯時(shí)段

北青網(wǎng)-北京青年報(bào)
2025-10-15 08:04:02
“我這輩子什么的男人都試過”,一句話激起千層浪

“我這輩子什么的男人都試過”,一句話激起千層浪

西方尋史
2025-09-18 17:47:04
S15瑞士輪對(duì)陣公布,AL首輪打韓國(guó)隊(duì),BLG抽到好簽,TES面臨考驗(yàn)

S15瑞士輪對(duì)陣公布,AL首輪打韓國(guó)隊(duì),BLG抽到好簽,TES面臨考驗(yàn)

天下游戲吧
2025-10-14 20:40:38
7輪0首發(fā)!曼聯(lián)太子慘遭阿莫林冷落淪為雞肋,兩個(gè)新東家已經(jīng)浮現(xiàn)

7輪0首發(fā)!曼聯(lián)太子慘遭阿莫林冷落淪為雞肋,兩個(gè)新東家已經(jīng)浮現(xiàn)

零度眼看球
2025-10-15 09:11:14
2025-10-15 10:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13617文章數(shù) 66214關(guān)注度
往期回顧 全部

科技要聞

蔡國(guó)祥:AI眼鏡將成為人類的“外掛大腦”

頭條要聞

美財(cái)長(zhǎng):相信中國(guó)愿對(duì)話 就算沒有我們也有足夠多手段

頭條要聞

美財(cái)長(zhǎng):相信中國(guó)愿對(duì)話 就算沒有我們也有足夠多手段

體育要聞

45歲姚明可以領(lǐng)養(yǎng)老金了 但福利還不止這些

娛樂要聞

劉濤女兒漂亮到認(rèn)不出

財(cái)經(jīng)要聞

美國(guó)又對(duì)數(shù)百萬中國(guó)電子產(chǎn)品做"大掃除"

汽車要聞

還是那么激進(jìn),大眾安徽與眾07現(xiàn)身申報(bào)目錄

態(tài)度原創(chuàng)

房產(chǎn)
游戲
手機(jī)
本地
公開課

房產(chǎn)要聞

買家出現(xiàn)!4月內(nèi)第3次賣地,白龍北終于要爆發(fā)了!

《寶可夢(mèng)傳說 Z-A》畫質(zhì)對(duì)比引眾怒:就這點(diǎn)提升?

手機(jī)要聞

努比亞Z80 Ultra手機(jī)官宣搭載“天空全面屏”,號(hào)稱如天空般無瑕

本地新聞

云游中國(guó)|闖進(jìn)霸州煙火晨景!練劍唱戲超有范兒

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 另类老熟女hd| 色婷婷久久久久久久久久| 久久精品成人免费观看| 国产成人精品亚洲精品夜夜嗨| av亚欧洲日产国码无码| 中文字幕日韩人妻在线视频 | 99re久热996| 好了av在线播放| 超碰97conper| 国产偷窥熟女高潮精品视频| 欧美一区二区三曲的| 亚洲欧美成人a∨观看| 亚洲AV免费在线看| 尺度av无码专区| a毛片免费观看香港| 免费a级毛片18禁网站app| 国自产拍亚洲免费视频| 亚洲综合无码一区二区痴汉 | 无码人妻精品一区二区三区视频 | 欧美国产成人免费播放| 妓女在线浏览器| 日本少妇毛茸茸高潮| 久久传媒视频| 麻豆国产97在线 | 中文| 无码任你躁久久久久久老妇| 精品一区二区三区鸳鸯网| 亚洲AV无码一区二区三区精品| 一区国产高潮| 国产日韩亚洲大尺度高清| 久久精品无码鲁网中文电影| 欧美亚洲色大成网站| 少妇精品揄拍高潮少妇| 三年高清视频大全| 国产毛片基地| 福利无码在线视频| 欧美不卡123| 欧美视频xxxxx| 欧美a级情欲片在线观看免费| 色五月婷婷俺也去| 无码精品一区二区三区四区色| 国产按头口爆吞精在线视频|