新智元報(bào)道
編輯:艾倫
【新智元導(dǎo)讀】風(fēng)雨飄搖中的Meta,于昨天發(fā)布了一篇重量級(jí)論文,提出了一種被稱作「早期經(jīng)驗(yàn)」(Early Experience)的全新范式,讓AI智能體「無師自通」,為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。
Meta自從Alexandr Wang加入后混亂不堪,人心惶惶,Yann LeCun也公開表達(dá)出走意愿。
但就在昨天,他們發(fā)了一篇大論文《Agent Learning via Early Experience》,提出了一種被稱作「早期經(jīng)驗(yàn)」(Early Experience)的全新范式,讓AI智能體「無師自通」,為突破強(qiáng)化學(xué)習(xí)瓶頸提供了一種新思路。
https://arxiv.org/abs/2510.08558
論文作者絕大多數(shù)都是華人。默默做事的,永遠(yuǎn)是華人。
研究背景與問題
在現(xiàn)實(shí)場(chǎng)景中訓(xùn)練語言智能體常常面臨一個(gè)兩難困境:
強(qiáng)化學(xué)習(xí)需要明確的環(huán)境獎(jiǎng)勵(lì)信號(hào),但許多真實(shí)環(huán)境缺乏可驗(yàn)證的獎(jiǎng)勵(lì)反饋,或者任務(wù)跨度很長(zhǎng)導(dǎo)致信用分配(credit assignment)困難;
而模仿學(xué)習(xí)(通常采取監(jiān)督微調(diào))則依賴昂貴且有限的專家演示數(shù)據(jù),模型在訓(xùn)練中無法與環(huán)境交互,因而難以從失敗中學(xué)習(xí),遇到新情況時(shí)泛化能力差。
要么沒有獎(jiǎng)勵(lì)信號(hào)指導(dǎo)學(xué)習(xí),要么只有少量人類示范可供模仿,智能體的自主成長(zhǎng)因此受限。
目前大多數(shù)語言智能體采取監(jiān)督微調(diào)的范式:在靜態(tài)的專家軌跡數(shù)據(jù)上訓(xùn)練策略,將環(huán)境狀態(tài)映射到人類給定的動(dòng)作序列。
這種方法雖然訓(xùn)練方便,卻存在明顯局限:智能體訓(xùn)練時(shí)不與環(huán)境互動(dòng),看不到自己動(dòng)作導(dǎo)致的結(jié)果,無法「知錯(cuò)就改」,也很難推廣到訓(xùn)練數(shù)據(jù)覆蓋不到的新情境。
此外,高質(zhì)量專家示范數(shù)據(jù)獲取成本高昂,難以大規(guī)模擴(kuò)充。
另一方面,理想情況下我們希望讓智能體像人一樣通過自身經(jīng)驗(yàn)不斷成長(zhǎng),但是傳統(tǒng)強(qiáng)化學(xué)習(xí)在缺少獎(jiǎng)勵(lì)的環(huán)境中難以奏效。
面對(duì)缺乏獎(jiǎng)勵(lì)信號(hào)且示范數(shù)據(jù)有限的困境,我們亟需新的訓(xùn)練范式來讓智能體完成自主學(xué)習(xí)。
方法框架:「早期經(jīng)驗(yàn)范式」
針對(duì)上述難題,該論文提出了一種折中的新范式,稱為「早期經(jīng)驗(yàn)」(Early Experience)。
這一范式定位于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的中間地帶:智能體在訓(xùn)練過程中不再僅依賴人類示范數(shù)據(jù),還引入自身動(dòng)作所產(chǎn)生的后續(xù)狀態(tài)作為訓(xùn)練信號(hào)。
該范式是讓智能體在沒有外部獎(jiǎng)勵(lì)的情況下,通過嘗試動(dòng)作->觀察結(jié)果->將結(jié)果轉(zhuǎn)化為監(jiān)督,來直接從自己行為的后果中獲取經(jīng)驗(yàn)教訓(xùn)。
這一過程無需環(huán)境提供獎(jiǎng)勵(lì),利用的完全是智能體探索所產(chǎn)生的數(shù)據(jù),可視作在人工演示(無獎(jiǎng)勵(lì)但數(shù)據(jù)有限)和強(qiáng)化學(xué)習(xí)(有獎(jiǎng)勵(lì)但探索困難)之間架起的一座橋梁。
論文具體探討了在「早期經(jīng)驗(yàn)」范式下的兩種核心訓(xùn)練策略:
隱式世界建模(Implicit World Modeling, IWM):該策略讓智能體利用收集到的環(huán)境狀態(tài)序列來建立內(nèi)部的環(huán)境動(dòng)態(tài)模型。
做法是讓智能體在一些決策點(diǎn)嘗試由其策略自主提出的替代動(dòng)作,然后記錄執(zhí)行這些動(dòng)作后環(huán)境的狀態(tài)變化,將這些「未來狀態(tài)」作為額外訓(xùn)練信號(hào)。
通過學(xué)習(xí)預(yù)測(cè)動(dòng)作將帶來怎樣的狀態(tài)轉(zhuǎn)變,智能體逐漸內(nèi)化環(huán)境的因果規(guī)律,提升對(duì)環(huán)境動(dòng)態(tài)的理解和決策的穩(wěn)健性。
這種隱式建模有點(diǎn)類似于人類在腦海中模擬「如果我這么做,會(huì)發(fā)生什么」,從而讓策略對(duì)行動(dòng)后果有所預(yù)見。
自我反思(Self-Reflection, SR):該策略旨在讓智能體從自身不理想的決策中總結(jié)經(jīng)驗(yàn)教訓(xùn)。
智能體會(huì)將自己的動(dòng)作與專家示范進(jìn)行對(duì)比,識(shí)別哪些決策是次優(yōu)的或錯(cuò)誤的,并為此生成一段反思性的思維鏈說明,即一個(gè)自我分析的內(nèi)在獨(dú)白。
這些由智能體生成的反思性解釋將作為訓(xùn)練數(shù)據(jù)的一部分,指導(dǎo)模型在相似情境下做出更優(yōu)選擇。
例如,在購(gòu)物網(wǎng)站任務(wù)中,如果智能體原本選擇了一個(gè)超出預(yù)算的商品,一個(gè)可能的自我反思是:
「這個(gè)紅色襯衫雖然符合顏色偏好,但價(jià)格超出預(yù)算,上述選擇不合理,應(yīng)該考慮價(jià)格更低的藍(lán)襯衫。」
這樣,智能體通過反思約束條件,理解了自己決策的不足。
在訓(xùn)練中,研究者將這些反思解說與正確動(dòng)作一起加入訓(xùn)練,使模型學(xué)會(huì)根據(jù)上下文進(jìn)行推理并修正決策。
自我反思策略相當(dāng)于給予智能體一個(gè)自我導(dǎo)師:讓它自己說明哪里做錯(cuò)了,以及正確的思路是什么,從而內(nèi)化細(xì)粒度的經(jīng)驗(yàn)教訓(xùn)。
這兩種策略都遵循同一原則:即使沒有外部獎(jiǎng)勵(lì),智能體「自我探索」所產(chǎn)生的動(dòng)作-結(jié)果數(shù)據(jù)本身就能提供高質(zhì)量的監(jiān)督信號(hào)。
通過將自身行為引起的未來狀態(tài)轉(zhuǎn)換成學(xué)習(xí)信號(hào),語言智能體無需額外的人類獎(jiǎng)勵(lì)標(biāo)注也可以不斷改進(jìn)。
早期經(jīng)驗(yàn)范式可以無縫集成到現(xiàn)有訓(xùn)練流程中:先用少量專家數(shù)據(jù)進(jìn)行基本模仿學(xué)習(xí)初始化策略,然后讓智能體展開受控的探索(產(chǎn)生「早期經(jīng)驗(yàn)」數(shù)據(jù)),再用上述隱式世界建模和自我反思策略提取的監(jiān)督信號(hào)對(duì)策略進(jìn)行強(qiáng)化訓(xùn)練。
這一過程實(shí)現(xiàn)了從「人教模型」向「模型自學(xué)」的轉(zhuǎn)變。
實(shí)驗(yàn)驗(yàn)證:八大環(huán)境的評(píng)估表現(xiàn)
作者在八個(gè)多樣化環(huán)境中對(duì)早期經(jīng)驗(yàn)范式進(jìn)行了全面評(píng)估,涵蓋實(shí)體導(dǎo)航、網(wǎng)頁(yè)瀏覽、多輪工具使用、長(zhǎng)序列規(guī)劃以及多領(lǐng)域API調(diào)用等任務(wù)類型。
這些環(huán)境包括例如:文本版的室內(nèi)導(dǎo)航和操作(如ALFWorld)、在線購(gòu)物網(wǎng)頁(yè)(WebShop)、科學(xué)實(shí)驗(yàn)?zāi)M環(huán)境(ScienceWorld)、旅行規(guī)劃對(duì)話任務(wù)(TravelPlanner)等等,既有需要在虛擬空間中行動(dòng)的執(zhí)行型任務(wù),也有需要多步推理規(guī)劃的認(rèn)知型任務(wù)。
同時(shí),模型基座涵蓋了不同規(guī)模和架構(gòu)的大語言模型(如不同參數(shù)規(guī)模的Llama系模型等),以測(cè)試方法對(duì)模型尺寸的適應(yīng)性。
實(shí)驗(yàn)結(jié)果顯示,引入「早期經(jīng)驗(yàn)」后的智能體表現(xiàn)顯著優(yōu)于純模仿學(xué)習(xí)基線。
在所有測(cè)試環(huán)境中,無論采用隱式世界建模還是自我反思,兩種方法都取得了一致的提升:任務(wù)成功率平均提升了約9.6個(gè)百分點(diǎn),遷移到域外新情境的泛化成功率提升約9.4個(gè)百分點(diǎn)。
這表明早期經(jīng)驗(yàn)范式不僅提高了智能體在已知任務(wù)上的效率,還大幅增強(qiáng)了其應(yīng)對(duì)未知場(chǎng)景的泛化能力。
例如,在要求滿足多重約束的長(zhǎng)鏈推理任務(wù)中(如旅行規(guī)劃需要兼顧時(shí)間與預(yù)算),自我反思策略帶來了超過10個(gè)百分點(diǎn)的成功率躍升,體現(xiàn)出對(duì)復(fù)雜推理任務(wù)的特別優(yōu)勢(shì)。
而在需要與環(huán)境反復(fù)交互嘗試的任務(wù)中(如網(wǎng)頁(yè)購(gòu)物需要點(diǎn)擊不同頁(yè)面),隱式世界建模有效讓智能體掌握了環(huán)境狀態(tài)轉(zhuǎn)移規(guī)律,也取得了兩位數(shù)的成功率提升。
此外,作者還考察了該范式的數(shù)據(jù)效率和模型可擴(kuò)展性:令人驚喜的是,即使將專家演示數(shù)據(jù)量減少一半,引入早期經(jīng)驗(yàn)訓(xùn)練后模型仍能達(dá)到甚至超過使用全部專家數(shù)據(jù)時(shí)的性能。
這說明早期經(jīng)驗(yàn)提供了額外且多樣的訓(xùn)練信號(hào),可以在一定程度上替代昂貴的人工示范數(shù)據(jù),提高數(shù)據(jù)利用效率。
同時(shí),將這一方法應(yīng)用到更大規(guī)模的模型上,同樣取得了穩(wěn)定增益——早期經(jīng)驗(yàn)范式在不同模型大小上效果保持一致,不存在隨模型變大而效果遞減的問題。
這表明該方法具有良好的橫向與縱向可擴(kuò)展性:既能拓展到更廣的任務(wù)領(lǐng)域,又能適用于更強(qiáng)大的模型。
另一個(gè)關(guān)鍵實(shí)驗(yàn)是驗(yàn)證早期經(jīng)驗(yàn)作為強(qiáng)化學(xué)習(xí)的預(yù)熱(warm-start)是否能夠進(jìn)一步提升最終表現(xiàn)。
作者在其中3個(gè)具有明確獎(jiǎng)勵(lì)的環(huán)境中先用模仿學(xué)習(xí)、隱式世界建模、自我反思分別訓(xùn)練初始策略,然后再在相同條件下繼續(xù)進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)。
結(jié)果發(fā)現(xiàn):以早期經(jīng)驗(yàn)(隱式世界建?;蜃晕曳此迹┏跏蓟牟呗越?jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化后達(dá)到了最高的最終成功率,相比直接用模仿學(xué)習(xí)初始化的策略最終成功率最高提升了約6.4個(gè)百分點(diǎn)。
這說明,早期經(jīng)驗(yàn)階段帶來的性能增益可以持續(xù)到最終的強(qiáng)化學(xué)習(xí)訓(xùn)練成果中。
一些環(huán)境中,早期經(jīng)驗(yàn)組與普通組的差距在強(qiáng)化學(xué)習(xí)過程中甚至進(jìn)一步拉大(例如ALFWorld環(huán)境),證明早期經(jīng)驗(yàn)為后續(xù)強(qiáng)化學(xué)習(xí)提供了更高的上限起點(diǎn)。
在有獎(jiǎng)勵(lì)和無獎(jiǎng)勵(lì)場(chǎng)景下,早期經(jīng)驗(yàn)訓(xùn)練都展示出優(yōu)異表現(xiàn),架起了一座從模仿學(xué)習(xí)通向完全自主強(qiáng)化學(xué)習(xí)的實(shí)踐之橋。
分析與亮點(diǎn)
通讀論文后,我們認(rèn)為該論文有一些顯著的亮點(diǎn)。
無獎(jiǎng)勵(lì)下的高質(zhì)量監(jiān)督信號(hào)
早期經(jīng)驗(yàn)范式的最大亮點(diǎn)在于即便沒有環(huán)境獎(jiǎng)勵(lì),也能為智能體提供有效的學(xué)習(xí)信號(hào)。
傳統(tǒng)強(qiáng)化學(xué)習(xí)需要獎(jiǎng)勵(lì)來評(píng)價(jià)行為好壞,而早期經(jīng)驗(yàn)通過「自身行為的后果」來指導(dǎo)策略改進(jìn)。
智能體探索產(chǎn)生的未來狀態(tài)本身就是監(jiān)督——成功也好,失誤也罷,這些經(jīng)驗(yàn)片段都成為訓(xùn)練素材。
例如,隱式世界建模讓模型直接預(yù)測(cè)環(huán)境響應(yīng),自我反思讓模型檢討錯(cuò)誤決策的原因,兩者都為智能體提供了稠密而豐富的反饋(哪怕這種反饋不以數(shù)值獎(jiǎng)勵(lì)呈現(xiàn))。
實(shí)驗(yàn)已經(jīng)證明,這種沒有顯式獎(jiǎng)勵(lì)的監(jiān)督信號(hào)依然可以將模型性能推向新的高度。
相比之下,單純依賴專家示范的監(jiān)督信號(hào)是靜態(tài)且狹窄的,而早期經(jīng)驗(yàn)信號(hào)來自智能體主動(dòng)探索,覆蓋了更廣的狀態(tài)-動(dòng)作空間,這正是其泛化能力大幅提升的原因之一。
泛化能力與可擴(kuò)展性
由于引入了智能體自己探索得到的大量多樣化軌跡,模型不再局限于人類示范所涵蓋的有限情景,從而在未知環(huán)境下表現(xiàn)更穩(wěn)健。
作者的域外測(cè)試顯示,早期經(jīng)驗(yàn)訓(xùn)練的智能體在任務(wù)變種或新場(chǎng)景中的成功率遠(yuǎn)超僅有模仿學(xué)習(xí)的基線,證明了其跨域遷移能力。
此外,從可擴(kuò)展性看,早期經(jīng)驗(yàn)范式具有良好的數(shù)據(jù)與模型擴(kuò)展效果:
它可以利用相同環(huán)境,讓智能體反復(fù)生成海量的訓(xùn)練數(shù)據(jù)(因?yàn)椴恍枰斯?biāo)注獎(jiǎng)勵(lì)),大幅降低了對(duì)人工數(shù)據(jù)的依賴;
同時(shí)無論模型參數(shù)規(guī)模增加還是減小,方法的收益都基本保持,展示出跨模型規(guī)模的一致性。
這一點(diǎn)非常關(guān)鍵,因?yàn)楹芏喾椒ㄔ谛∧P蜕嫌行У珨U(kuò)展到大模型時(shí)效果不明顯,而早期經(jīng)驗(yàn)方法在不同規(guī)模的模型上都取得了顯著而穩(wěn)定的提升。
早期經(jīng)驗(yàn)不僅拓寬了智能體「見過」的世界,也為大模型時(shí)代的持續(xù)改進(jìn)提供了一種數(shù)據(jù)可伸縮的方案。
對(duì)比其他方法(STaR、長(zhǎng)鏈推理等)
早期經(jīng)驗(yàn)范式與現(xiàn)有一些讓模型自我提升的思路有所不同,提供了更具「現(xiàn)實(shí)檢驗(yàn)」的學(xué)習(xí)信號(hào)。
例如,Zelikman等人提出的STaR(Self-Taught Reasoner,自學(xué)推理器)方法讓模型為已有示范生成推理過程并自我過濾。
但這種方法面對(duì)復(fù)雜環(huán)境時(shí)遇到兩個(gè)問題:
模型產(chǎn)生的解說未經(jīng)過環(huán)境驗(yàn)證,可能并不正確;
為保證動(dòng)作正確性常需要丟棄大量不匹配專家的解說數(shù)據(jù),導(dǎo)致可用訓(xùn)練樣本很少。
作者在文中復(fù)現(xiàn)了STaR風(fēng)格的數(shù)據(jù)生成,發(fā)現(xiàn)模型為專家動(dòng)作生成的推理鏈中,只有極少比例能匹配專家決策,篩選后幾乎沒剩下多少有用數(shù)據(jù),而且這些推理因?yàn)閺奈凑嬲c環(huán)境交互,往往是假想的、不可靠的。
相比之下,早期經(jīng)驗(yàn)方法中智能體每一次生成的動(dòng)作和反思都直接基于實(shí)際環(huán)境反饋:不論是隱式建模獲取的狀態(tài)轉(zhuǎn)移,還是自我反思產(chǎn)生的教訓(xùn),都源自真實(shí)行動(dòng)的結(jié)果,因而信息含量更高、指導(dǎo)性更強(qiáng)。
針對(duì)需要長(zhǎng)鏈推理的任務(wù),簡(jiǎn)單地讓模型生成更長(zhǎng)的思考鏈(例如調(diào)優(yōu)提示詞或控制思考步數(shù))只能帶來有限的改善,而早期經(jīng)驗(yàn)中的自我反思相當(dāng)于讓模型親身實(shí)踐再反思,其對(duì)于復(fù)雜推理任務(wù)的提升要顯著得多。
在作者的實(shí)驗(yàn)中,自我反思策略在需要多步規(guī)劃和約束滿足的任務(wù)上取得了最大的增益(如旅行規(guī)劃任務(wù)成功率提高十多個(gè)百分點(diǎn)),這也從側(cè)面證明了相比靜態(tài)的CoT方法,讓模型「做過再想」效果更加突出。
方法適用范圍
早期經(jīng)驗(yàn)范式的一大優(yōu)點(diǎn)在于其通用性。
論文結(jié)果表明,無論是具身環(huán)境(如機(jī)器人操作)還是數(shù)字環(huán)境(如網(wǎng)頁(yè)、API交互),無論任務(wù)需要感知行動(dòng)還是邏輯推理,該方法都能帶來一致收益。
這說明將「自己探索」融入訓(xùn)練的思路具有很強(qiáng)的普適性,不局限于某一類任務(wù)。
同時(shí),隱式世界建模和自我反思兩種策略各有側(cè)重又能相輔相成:
隱式世界建模更側(cè)重環(huán)境動(dòng)力學(xué),適用于需要試錯(cuò)探索的場(chǎng)景;
自我反思側(cè)重策略優(yōu)化和約束滿足,對(duì)多步驟推理任務(wù)幫助更大。
兩者共享早期經(jīng)驗(yàn)的框架,可以根據(jù)任務(wù)特點(diǎn)選擇使用,從而靈活地提高智能體性能。
總結(jié)
《Agent Learning via Early Experience》提出了一種創(chuàng)新的語言智能體訓(xùn)練范式,成功彌合了模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)之間的鴻溝。
主要貢獻(xiàn)
早期經(jīng)驗(yàn)范式的提出:
正式提出并定義了「早期經(jīng)驗(yàn)」這一訓(xùn)練新范式,為在無外部獎(jiǎng)勵(lì)信號(hào)的條件下讓智能體從自身經(jīng)驗(yàn)中學(xué)習(xí)提供了可行方案。
這一范式可被視為從依賴人類數(shù)據(jù)的模仿學(xué)習(xí)邁向完全自主強(qiáng)化學(xué)習(xí)的實(shí)用且可擴(kuò)展的橋梁。
兩大訓(xùn)練策略(隱式世界建模和自我反思):
設(shè)計(jì)并系統(tǒng)研究了在早期經(jīng)驗(yàn)范式下的兩種具體策略:
一是通過隱式世界建模讓智能體學(xué)會(huì)預(yù)測(cè)環(huán)境變化,從而增強(qiáng)決策的環(huán)境扎根性;
二是通過自我反思促使智能體從自身行動(dòng)中提煉細(xì)粒度教訓(xùn),提升推理和決策能力。
這兩種策略證明了即使沒有獎(jiǎng)勵(lì),智能體也能將「探索-反饋」循環(huán)轉(zhuǎn)化為有效學(xué)習(xí)信號(hào)。
實(shí)驗(yàn)與效果:
在八個(gè)多樣環(huán)境和多種模型架構(gòu)上進(jìn)行了綜合評(píng)測(cè),結(jié)果顯示早期經(jīng)驗(yàn)方法在任務(wù)成功率、跨域泛化以及后續(xù)強(qiáng)化學(xué)習(xí)表現(xiàn)等方面均有顯著提升。
在若干基準(zhǔn)上,該方法取得了SOTA,并通過消融和分析實(shí)驗(yàn)提供了有益的洞察。
例如,早期經(jīng)驗(yàn)?zāi)P鸵愿俚臄?shù)據(jù)達(dá)到甚至超過基線效果,且能提升最終的強(qiáng)化學(xué)習(xí)訓(xùn)練上限。
當(dāng)前方法的局限與未來方向
目前的隱式建模和自我反思主要著眼于短跨度的經(jīng)驗(yàn)片段,對(duì)于那些超長(zhǎng)序列規(guī)劃任務(wù)中的信用分配問題,如果沒有顯式獎(jiǎng)勵(lì)仍然是一個(gè)挑戰(zhàn)。
未來的研究可以探索如何讓早期經(jīng)驗(yàn)范式也能處理更長(zhǎng)鏈條的決策優(yōu)化。
結(jié)合自監(jiān)督目標(biāo)是一個(gè)有前景的方向——可以考慮引入豐富的自監(jiān)督學(xué)習(xí)信號(hào)(如預(yù)測(cè)下一個(gè)子目標(biāo)等),進(jìn)一步提升無獎(jiǎng)勵(lì)環(huán)境下的訓(xùn)練效果。
將早期經(jīng)驗(yàn)與強(qiáng)化學(xué)習(xí)在持續(xù)學(xué)習(xí)框架下結(jié)合,也是作者設(shè)想的方向之一。
例如,在有了環(huán)境獎(jiǎng)勵(lì)后,讓模型接著用RL微調(diào),或在訓(xùn)練過程中逐步引入獎(jiǎng)勵(lì)信號(hào),檢驗(yàn)兩者的協(xié)同作用。
還可以探索更多形式的早期經(jīng)驗(yàn)(不限于論文提出的兩種),比如不同的自我監(jiān)督策略,乃至讓智能體自己生成新的訓(xùn)練目標(biāo)等。
作者也提到希望將該范式拓展到更大規(guī)模的真實(shí)應(yīng)用中,在真實(shí)線上環(huán)境中持續(xù)收集智能體的交互數(shù)據(jù),進(jìn)行有機(jī)的持續(xù)優(yōu)化。
這將是真正邁向「經(jīng)驗(yàn)時(shí)代」的一步——讓智能體在真實(shí)世界中邊運(yùn)行邊成長(zhǎng)。
Early Experience為訓(xùn)練更自主、更智能的語言代理打開了一扇新的大門。
在獎(jiǎng)勵(lì)稀缺甚至缺失的廣闊應(yīng)用場(chǎng)景下,它提供了一種高效利用自身經(jīng)驗(yàn)的學(xué)習(xí)機(jī)制。
隨著這一范式與強(qiáng)化學(xué)習(xí)、自監(jiān)督等方法的融合,以及在長(zhǎng)期規(guī)劃任務(wù)上的突破,我們有理由期待下一代智能體將能夠更充分地自我進(jìn)化,朝著真正的通用智能體邁進(jìn)。
顯然,屬于AI智能體的「早期經(jīng)驗(yàn)」時(shí)代或許才剛剛開始。
目前的這些成果可能是幾個(gè)月甚至更久之前就在進(jìn)行的,而Meta的新時(shí)代能否保持住這種學(xué)術(shù)產(chǎn)出質(zhì)量,仍有待觀察。
參考資料:
https://arxiv.org/abs/2510.08558
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.