夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

0
分享至

機(jī)器之心報道

機(jī)器之心編輯部

AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰(zhàn)是讓智能體在數(shù)百步的探索中依然保持清晰的推理與穩(wěn)健的決策。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架在幾十步內(nèi)尚能應(yīng)付,但一旦任務(wù)延展至數(shù)百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

為了應(yīng)對這些挑戰(zhàn),來自卡內(nèi)基梅隆大學(xué)、香港大學(xué)等機(jī)構(gòu)的研究者提出了 Verlog ,試圖打破這一困境。

具體而言,Verlog 是一個多輪強(qiáng)化學(xué)習(xí)框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務(wù)而設(shè)計。

它在繼承 VeRL 和 BALROG 的基礎(chǔ)上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設(shè)計原則,引入了一系列專門優(yōu)化手段,從而在任務(wù)跨度從短暫交互到數(shù)百回合時,依然能夠?qū)崿F(xiàn)穩(wěn)定而高效的訓(xùn)練。

以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務(wù),verl-agent 則可擴(kuò)展至 50 回合。而 Verlog 則被設(shè)計用于超過 400 回合的環(huán)境,使其在復(fù)雜的長期決策任務(wù)中具備獨特優(yōu)勢。

這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領(lǐng)域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰(zhàn)的環(huán)境中,Verlog 都能夠開箱即用地展現(xiàn)出強(qiáng)勁的性能。



  • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
  • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



方法介紹

基礎(chǔ)模型

在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構(gòu)建。

這樣做主要有兩個原因:

一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準(zhǔn)測試中零樣本性能的框架);

其次,它允許研究者可以直接使用基準(zhǔn)測試提示,而無需太多修改。



BabyAI 使用的提示模板

記憶機(jī)制

本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

這樣做帶來的影響是,對于 3B 參數(shù)的 Qwen 模型,性能在 n = 1 或 2 時達(dá)到峰值,而當(dāng) n 增加到 4 或 8 時性能下降。

作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當(dāng) n = 8 時,提示詞長度約為 4600 個 token。

不過,這一趨勢是否適用于更大規(guī)模的模型,仍待研究。

Dual Discounting GAE 算法





此外,本文 GAE 是遞歸計算的:



其中,



遞歸從最后一輪的最后一個 token 開始,向后進(jìn)行。處理完最后一輪的所有 token 后,移至倒數(shù)第二輪的最后一個 token,并繼續(xù)遞歸執(zhí)行此過程。在此過程中,所有狀態(tài) token 都會被跳過。

實驗結(jié)果

該研究在三個頗具挑戰(zhàn)性的基準(zhǔn)上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗?zāi)P桶?Qwen2.5-Instruct 。



在 Crafter 環(huán)境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓(xùn)練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環(huán)境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓(xùn)練約 24 小時。

三個實驗環(huán)境表明,Verlog 展現(xiàn)出穩(wěn)定的訓(xùn)練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應(yīng)從短周期到超長周期多回合任務(wù)的規(guī)?;?xùn)練。

總結(jié)

Verlog 針對在構(gòu)建長時程、多回合任務(wù)的 LLM Agent 時面臨的若干核心工程挑戰(zhàn),提出了系統(tǒng)性的解決方案,包括:

  • 長交互歷史的處理:通過記憶機(jī)制和回合級抽象來管理歷史信息。
  • 稀疏獎勵下的訓(xùn)練穩(wěn)定性:結(jié)合 dual-discounting GAE 和價值函數(shù)預(yù)訓(xùn)練來增強(qiáng)穩(wěn)定性。
  • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
  • 提升動作有效性:利用針對性的提示工程和默認(rèn)動作替換,使訓(xùn)練過程中 >95% 的動作均為有效動作。

作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強(qiáng)化學(xué)習(xí)的發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
嚴(yán)學(xué)峰涉嫌違紀(jì)被調(diào)查,將對宗馥莉及背后娃哈哈集團(tuán)帶來什么影響?

嚴(yán)學(xué)峰涉嫌違紀(jì)被調(diào)查,將對宗馥莉及背后娃哈哈集團(tuán)帶來什么影響?

回旋鏢
2025-10-08 10:16:12
千萬粉絲網(wǎng)紅“猴哥說車”官宣離婚,曾被贊“網(wǎng)紅神仙眷侶”:緣分盡了,和平離婚

千萬粉絲網(wǎng)紅“猴哥說車”官宣離婚,曾被贊“網(wǎng)紅神仙眷侶”:緣分盡了,和平離婚

揚(yáng)子晚報
2025-10-08 21:39:04
泡沫破了!大批文旅項目開始批量倒閉

泡沫破了!大批文旅項目開始批量倒閉

新浪財經(jīng)
2025-10-08 18:08:10
曝普京倆兒子的照片首次被公開!目前隔離居住

曝普京倆兒子的照片首次被公開!目前隔離居住

項鵬飛
2025-10-08 21:25:34
時隔2個多月,楊蘭蘭的身份終于被撕開一角

時隔2個多月,楊蘭蘭的身份終于被撕開一角

麥大人
2025-10-08 21:18:53
被包圍了!俄軍高層這次厲害了激戰(zhàn)3年半:第一次合圍烏軍3個整旅

被包圍了!俄軍高層這次厲害了激戰(zhàn)3年半:第一次合圍烏軍3個整旅

南權(quán)先生
2025-10-08 12:44:17
民主黨到底怎么了?

民主黨到底怎么了?

九萬里
2025-10-08 09:00:46
哈馬斯證實達(dá)成加沙?;饏f(xié)議,呼吁特朗普及擔(dān)保國確保以色列執(zhí)行

哈馬斯證實達(dá)成加沙?;饏f(xié)議,呼吁特朗普及擔(dān)保國確保以色列執(zhí)行

界面新聞
2025-10-09 07:26:07
10月7日,哈馬斯慶??植酪u擊兩周年

10月7日,哈馬斯慶??植酪u擊兩周年

近距離
2025-10-08 08:03:39
因CEO發(fā)表“反華言論”!清華大學(xué)物理系高材生從Anthropic離職,加盟谷歌DeepMind

因CEO發(fā)表“反華言論”!清華大學(xué)物理系高材生從Anthropic離職,加盟谷歌DeepMind

TOP大學(xué)來了
2025-10-08 20:30:07
日本又炸了!74歲科學(xué)瘋子靠“免疫剎車”拿下諾貝爾獎,全國沸騰

日本又炸了!74歲科學(xué)瘋子靠“免疫剎車”拿下諾貝爾獎,全國沸騰

日本物語
2025-10-06 20:31:22
人不會無緣無故患上糖尿??!研究發(fā)現(xiàn):患糖尿病,多半愛干這8事

人不會無緣無故患上糖尿??!研究發(fā)現(xiàn):患糖尿病,多半愛干這8事

荷蘭豆愛健康
2025-10-07 12:32:19
全場判3個點球!世預(yù)賽爭議3-2,國足苦主接近出線,印尼晉級難了

全場判3個點球!世預(yù)賽爭議3-2,國足苦主接近出線,印尼晉級難了

侃球熊弟
2025-10-09 05:35:47
已證實!多名中國公民身亡!中國游客攻占全球,官方發(fā)布緊急警告

已證實!多名中國公民身亡!中國游客攻占全球,官方發(fā)布緊急警告

每日一見
2025-10-09 01:16:03
被富二代玩壞了的上海女孩們

被富二代玩壞了的上海女孩們

道術(shù)意義
2025-10-08 07:23:40
楊蘭蘭現(xiàn)狀:不上課、不社交、吃米其林,只買最貴,Ins賬號曝光

楊蘭蘭現(xiàn)狀:不上課、不社交、吃米其林,只買最貴,Ins賬號曝光

公子麥少
2025-10-07 14:45:28
工業(yè)落后卻一周工作4天,歐洲人高福利背后,是中美俄輸了30年血

工業(yè)落后卻一周工作4天,歐洲人高福利背后,是中美俄輸了30年血

百科密碼
2025-09-29 16:28:34
iPhone17ProMax徹底輸了,讓我心服口服!

iPhone17ProMax徹底輸了,讓我心服口服!

搞機(jī)小帝
2025-10-07 00:04:47
事業(yè)單位最閑的崗位是啥?網(wǎng)友:氣象局的人看到這個真是笑了

事業(yè)單位最閑的崗位是啥?網(wǎng)友:氣象局的人看到這個真是笑了

解讀熱點事件
2025-10-08 00:20:03
珠峰暴雪中,向?qū)б蝗艘还穾习偃顺冯x,有人轉(zhuǎn)賬5000元感謝,本人回應(yīng):是有個狗狗跟著進(jìn)山,從業(yè)十幾年沒見過這么大的雪

珠峰暴雪中,向?qū)б蝗艘还穾习偃顺冯x,有人轉(zhuǎn)賬5000元感謝,本人回應(yīng):是有個狗狗跟著進(jìn)山,從業(yè)十幾年沒見過這么大的雪

揚(yáng)子晚報
2025-10-07 20:33:54
2025-10-09 08:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11418文章數(shù) 142470關(guān)注度
往期回顧 全部

科技要聞

為何說2025化學(xué)諾獎應(yīng)用很可能會在中國先落地

頭條要聞

贊比亞總統(tǒng):沒在北京反美也沒在華盛頓反華 求別脫鉤

頭條要聞

贊比亞總統(tǒng):沒在北京反美也沒在華盛頓反華 求別脫鉤

體育要聞

阿爾巴退役,他是巴薩隊史第一左后衛(wèi)嗎

娛樂要聞

許凱復(fù)出拍戲 疑資本力保網(wǎng)友怒斥頭鐵

財經(jīng)要聞

假期外圍市場太熱鬧!A股明天怎么走?

汽車要聞

家用SUV的越級感 8萬級的全新博越就能擁有

態(tài)度原創(chuàng)

家居
藝術(shù)
時尚
教育
公開課

家居要聞

南沙之濱 越秀城市藝術(shù)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

到了秋天才知道,年紀(jì)大的女人要告別“小腳褲”,這樣穿顯瘦

教育要聞

十月量變到質(zhì)變復(fù)習(xí)規(guī)劃。

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 婷婷四虎东京热无码群交双飞视频| 久久久无码中文字幕久...| 黄页网站18以下勿看| 国产成人精品无人一区二区三区| 国产极品白嫩| 日韩 色 结衣| FREE性玩弄少妇HD性老妇| gv资源在线观看| 五月天俺也去婷婷| 激情文学欧美一区二区| www.99热国产粉嫩| 久久性av导航| 99kkj色| 国产自产视频| 成人黄色在线观看视频| 八戒理论片午影院无码爱恋| 欧美人操超碰| 在线 国产 欧美 专区| 久久人人爽人人爽人人av东京热| 国产一区二区一卡二卡| 欧美乱婬交换粗大视频| 国产乱xxxxx97国语对白| 亚洲AV无码成人网站WWW| 久久久亚洲AV成人网站| 日韩精品一区二区三区色欲av | 99热这里只有精品国产免费免费| 国产精品久久大屁股白浆黑人| 97国产成人无码精品久久久| 丝袜一区在线| 国产毛片片精品天天看视频| 玩弄放荡人妻少妇系列视频| 一区二区三区色| 国产有粗有大有爽免费视频| 欧洲精品欧美一区区好区aaa| 嫩草研究院久久久精品| 久久无码中文字幕| 亚洲色拍拍噜噜噜最新网站| 激情五月婷婷色| 国产成人欧美日韩在线电影| 99国产精品久久久久99打野战| 日韩免费码中文在线观看|