夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

強化學(xué)習(xí)的兩個「大坑」,終于被兩篇ICLR論文給解決了

0
分享至

機器之心報道

編輯:陳陳

實時強化學(xué)習(xí)來了!AI 再也不怕「卡頓」。

設(shè)想這樣一個未來場景:多個廚師機器人正在協(xié)作制作煎蛋卷。雖然我們希望這些機器人能使用最強大可靠的智能模型,但更重要的是它們必須跟上瞬息萬變的節(jié)奏 —— 食材需要在精準(zhǔn)時機添加,煎蛋過程需要實時監(jiān)控以確保受熱均勻。只要機器人動作稍有延遲,蛋卷必定焦糊。它們還必須應(yīng)對協(xié)作伙伴動作的不確定性,并做出即時適應(yīng)性調(diào)整。



實時強化學(xué)習(xí)

然而,現(xiàn)有的強化學(xué)習(xí)算法多基于一種理想化的交互模式:環(huán)境與智能體輪流「暫?!挂缘却龑Ψ酵瓿捎嬎慊蝽憫?yīng)。具體表現(xiàn)為:

環(huán)境暫停假設(shè):當(dāng)智能體進行計算決策和經(jīng)驗學(xué)習(xí)時,環(huán)境狀態(tài)保持靜止;

智能體暫停假設(shè):當(dāng)環(huán)境狀態(tài)發(fā)生轉(zhuǎn)移時,智能體暫停其決策過程。

這種類似「回合制游戲」的假設(shè),嚴重脫離現(xiàn)實,難以應(yīng)對持續(xù)變化、延遲敏感的真實環(huán)境。



下圖突出顯示了智能體在實時環(huán)境中出現(xiàn)的兩個關(guān)鍵困難,而這些在標(biāo)準(zhǔn)的回合制 RL 研究中是不會遇到的。

首先,由于動作推理時間較長,智能體可能不會在環(huán)境的每一步都采取動作。這可能導(dǎo)致智能體采用一種新的次優(yōu)性策略,稱之為無動作遺憾(inaction regret)。

第二個困難是,動作是基于過去的狀態(tài)計算的,因而動作會在環(huán)境中產(chǎn)生延遲影響。這導(dǎo)致另一個新的次優(yōu)性來源,這在隨機環(huán)境中尤為突出,稱之為延遲遺憾(delay regret)。

在這樣的背景下,Mila 實驗室兩篇 ICLR 2025 論文提出了一種全新的實時強化學(xué)習(xí)框架,旨在解決當(dāng)前強化學(xué)習(xí)系統(tǒng)在部署過程中面臨的推理延遲和動作缺失問題,使得大模型也能在高頻、連續(xù)的任務(wù)中實現(xiàn)即時響應(yīng)。

第一篇論文提出了一種最小化無動作遺憾的解決方案,第二篇提出了一種最小化延遲遺憾的解決方案。



最小化無動作:交錯推理

第一篇論文基于這樣一個事實:在標(biāo)準(zhǔn)的回合制強化學(xué)習(xí)交互范式中,隨著模型參數(shù)數(shù)量的增加,智能體無動作的程度也會隨之增加。因此,強化學(xué)習(xí)社區(qū)必須考慮一種新的部署框架,以便在現(xiàn)實世界中實現(xiàn)基礎(chǔ)模型規(guī)?;膹娀瘜W(xué)習(xí)。為此,本文提出了一個用于異步多過程推理和學(xué)習(xí)的框架。



  • 論文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代碼地址 https://github.com/CERC-AAI/realtime_rl
  • 論文標(biāo)題: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在該框架中,允許智能體充分利用其可用算力進行異步推理與學(xué)習(xí)。具體而言,本文提出了兩種交錯式推理算法,其核心思想是通過自適應(yīng)調(diào)整并行推理過程的時序偏移,使智能體能夠以更快的固定間隔在環(huán)境中執(zhí)行動作。

本文證明:只要計算資源足夠,無論模型有多大、推理時間有多長,使用任意一種算法都可以做到在每一個環(huán)境步都執(zhí)行動作,從而完全消除無動作遺憾。

本文在 Game Boy 和 Atari 實時模擬中測試了提出的新框架,這些模擬的幀率和交互協(xié)議與人類在主機上實際玩這些游戲時所體驗到的幀率和交互協(xié)議同步。

論文重點介紹了異步推理和學(xué)習(xí)在《寶可夢:藍》游戲中使用一個擁有 1 億參數(shù)的模型成功捕捉寶可夢時所展現(xiàn)的卓越性能。需要注意的是,智能體不僅必須快速行動,還必須不斷適應(yīng)新的場景才能取得進展。



此外,論文還重點介紹了該框架在像俄羅斯方塊這樣注重反應(yīng)時間的實時游戲中的表現(xiàn)。結(jié)果證明,在使用異步推理和學(xué)習(xí)時,模型規(guī)模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延遲遺憾效應(yīng)尚未得到解決。

用單個神經(jīng)網(wǎng)絡(luò)最小化無動作和延遲遺憾



  • 論文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 項目地址:https://github.com/avecplezir/realtime-agent
  • 論文標(biāo)題: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇論文提出了一種架構(gòu)解決方案,用于在實時環(huán)境中部署神經(jīng)網(wǎng)絡(luò)時最大限度地減少無響應(yīng)和延遲,因為在實時環(huán)境中,交錯推理并非可行。順序計算在深度網(wǎng)絡(luò)中效率低下,因為深度網(wǎng)絡(luò)中每一層的執(zhí)行時間大致相同。因此,總延遲會隨著網(wǎng)絡(luò)深度的增加而成比例增加,從而導(dǎo)致響應(yīng)緩慢。

這一局限性與早期 CPU 架構(gòu)的缺陷如出一轍 —— 當(dāng)指令只能串行處理時,會導(dǎo)致計算資源利用率低下且執(zhí)行時間延長。現(xiàn)代 CPU 采用 pipelining 技術(shù)成功解決了這一問題,該技術(shù)允許多條指令的不同階段并行執(zhí)行。

受此啟發(fā),本文在神經(jīng)網(wǎng)絡(luò)中引入了并行計算機制:通過一次計算所有網(wǎng)絡(luò)層,有效降低了無動作遺憾。

為了進一步減少延遲,本文引入了時序跳躍連接(temporal skip connections),使得新的觀測信息可以更快地傳遞到更深的網(wǎng)絡(luò)層,而無需逐層傳遞。

該研究的核心貢獻在于:將并行計算與時序跳躍連接相結(jié)合,從而在實時系統(tǒng)中同時降低無動作遺憾和延遲遺憾。

下圖對此進行了說明。圖中縱軸表示網(wǎng)絡(luò)層的深度,從初始觀測開始,依次經(jīng)過第一層、第二層的表示,最終到達動作輸出;橫軸表示時間。因此,每一條箭頭代表一層的計算過程,所需時間為 δ 秒。

在基線方法中(左圖),一個新的觀測必須依次穿過全部 N 層網(wǎng)絡(luò),因此動作的輸出需要 N × δ 秒才能獲得。

通過對各層進行并行計算(中圖),可以將推理吞吐量從每 Nδ 秒一次提高到每 δ 秒一次,從而減少無動作遺憾。

最終,時序跳躍連接(如右圖所示)將總延遲從 Nδ 降低至 δ—— 其機制是讓最新觀測值僅需單次 δ 延遲即可傳遞至輸出層。從設(shè)計理念來看,該方案通過在網(wǎng)絡(luò)表達能力與時效信息整合需求之間進行權(quán)衡,從根本上解決了延遲問題。



此外,用過去的動作 / 狀態(tài)來增強輸入可以恢復(fù)馬爾可夫特性,即使在存在延遲的情況下也能提高學(xué)習(xí)穩(wěn)定性。正如結(jié)果所示,這既減少了延遲,也減少了與優(yōu)化相關(guān)的遺憾。



兩者結(jié)合使用

交錯式異步推理與時序跳躍連接是彼此獨立的技術(shù),但具有互補性。時序跳躍連接可減少模型內(nèi)部從觀測到動作之間的延遲,而交錯推理則確保即使在使用大模型時,也能持續(xù)穩(wěn)定地輸出動作。

兩者結(jié)合使用,可以將模型規(guī)模與交互延遲解耦,從而使在實時環(huán)境中部署既具有強表達能力、又響應(yīng)迅速的智能體成為可能。這對于機器人、自動駕駛、金融交易等高度依賴響應(yīng)速度的關(guān)鍵領(lǐng)域具有重要意義。

通過使大模型在不犧牲表達能力的前提下實現(xiàn)高頻率決策,這些方法為強化學(xué)習(xí)在現(xiàn)實世界的延遲敏感型應(yīng)用中落地邁出了關(guān)鍵一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
新聞周刊:中國足協(xié)并未就日本提議合辦世界杯對外發(fā)表具體觀點

新聞周刊:中國足協(xié)并未就日本提議合辦世界杯對外發(fā)表具體觀點

直播吧
2025-08-02 19:53:10
武漢大學(xué)不會開除楊景媛,不會撤銷肖同學(xué)的處分,更不會道歉

武漢大學(xué)不會開除楊景媛,不會撤銷肖同學(xué)的處分,更不會道歉

小小河
2025-08-02 00:06:20
70歲晚節(jié)不保!袁立不再隱瞞,張國立丑聞曝光,該慌的不止章子怡

70歲晚節(jié)不保!袁立不再隱瞞,張國立丑聞曝光,該慌的不止章子怡

山河月明史
2025-08-02 15:18:46
今晚6點愛奇藝獨播!雙平臺預(yù)約420萬的古裝懸疑探案劇來了!

今晚6點愛奇藝獨播!雙平臺預(yù)約420萬的古裝懸疑探案劇來了!

情感大頭說說
2025-08-02 01:20:01
祁同偉自殺前一刻,沙瑞金接到京城99道命令慌了:祁廳長恢復(fù)職位

祁同偉自殺前一刻,沙瑞金接到京城99道命令慌了:祁廳長恢復(fù)職位

第四思維
2025-07-28 17:28:36
萬萬沒想到!網(wǎng)傳釋永信與孟廣美發(fā)生緋聞,揭露“開光改運”騙局

萬萬沒想到!網(wǎng)傳釋永信與孟廣美發(fā)生緋聞,揭露“開光改運”騙局

火山詩話
2025-07-31 20:35:26
上海這家老字號吃飯,好吃不貴,經(jīng)濟實惠,跟隨鏡頭來看看!

上海這家老字號吃飯,好吃不貴,經(jīng)濟實惠,跟隨鏡頭來看看!

房產(chǎn)衫哥
2025-08-02 14:19:57
安徽抗癌人韓燦去世,生前不抽煙喝酒,不熬夜確診腎癌且全身轉(zhuǎn)移

安徽抗癌人韓燦去世,生前不抽煙喝酒,不熬夜確診腎癌且全身轉(zhuǎn)移

振華觀史
2025-08-02 12:37:20
俄第20近衛(wèi)集團軍嘩變,損失慘重,拒絕執(zhí)行指揮官命令?

俄第20近衛(wèi)集團軍嘩變,損失慘重,拒絕執(zhí)行指揮官命令?

井普椿的獨白
2025-07-25 14:47:48
遼寧鐵人2-2廣州豹,若昂-卡洛斯點射,劉浪舟爭議絕平

遼寧鐵人2-2廣州豹,若昂-卡洛斯點射,劉浪舟爭議絕平

懂球帝
2025-08-02 21:20:06
被包圍了?臺灣尚未統(tǒng)一,中國海軍被美日韓封鎖圍堵,咋破局?

被包圍了?臺灣尚未統(tǒng)一,中國海軍被美日韓封鎖圍堵,咋破局?

古事尋蹤記
2025-08-01 07:32:38
普京開始一網(wǎng)打盡,紹伊古的老班底,全成了網(wǎng)里的“大魚小蝦”

普京開始一網(wǎng)打盡,紹伊古的老班底,全成了網(wǎng)里的“大魚小蝦”

議紀史
2025-08-01 19:20:02
盛夏中的香港浸會大學(xué)校董們,可能正在瑟瑟發(fā)抖

盛夏中的香港浸會大學(xué)校董們,可能正在瑟瑟發(fā)抖

李老逵亂擺龍門陣
2025-08-01 09:33:04
民調(diào)出爐,盧秀燕這回尷尬了,為綠發(fā)聲自食其果,臺媒一語道破!

民調(diào)出爐,盧秀燕這回尷尬了,為綠發(fā)聲自食其果,臺媒一語道破!

陳博世財經(jīng)
2025-08-02 14:11:47
為什么教堂不收費,寺廟和道觀卻收費?原因其實很簡單

為什么教堂不收費,寺廟和道觀卻收費?原因其實很簡單

平說財經(jīng)
2025-08-02 14:30:33
中國武警鎮(zhèn)守的寺廟,全中國只有這一家!

中國武警鎮(zhèn)守的寺廟,全中國只有這一家!

中國藝術(shù)家
2025-07-26 05:24:34
游泳世錦賽第7日綜述:中國隊0獎牌,美國奪3金+接力破世界紀錄

游泳世錦賽第7日綜述:中國隊0獎牌,美國奪3金+接力破世界紀錄

燒體壇
2025-08-02 21:04:03
特朗普稱印度將不再購買俄石油,印方表示“還在買”

特朗普稱印度將不再購買俄石油,印方表示“還在買”

參考消息
2025-08-02 18:06:11
貨車司機車內(nèi)死亡,發(fā)現(xiàn)時遺體悶熟,一地尸水,知情人曝死亡真相

貨車司機車內(nèi)死亡,發(fā)現(xiàn)時遺體悶熟,一地尸水,知情人曝死亡真相

鋭娛之樂
2025-08-01 09:54:07
勵志!生涯前4年才首發(fā)30次,默默無聞的他,卻在28歲徹底爆發(fā)!

勵志!生涯前4年才首發(fā)30次,默默無聞的他,卻在28歲徹底爆發(fā)!

大衛(wèi)的籃球故事
2025-08-02 17:51:31
2025-08-02 21:43:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11002文章數(shù) 142408關(guān)注度
往期回顧 全部

科技要聞

自動駕駛致命車禍,特斯拉被判賠2.4億美元

頭條要聞

被亮證當(dāng)事人:負責(zé)人說奔馳女沒用警務(wù)通查我信息

頭條要聞

被亮證當(dāng)事人:負責(zé)人說奔馳女沒用警務(wù)通查我信息

體育要聞

山東遼寧這場群毆,代價何其慘重

娛樂要聞

孫儷曬四口海邊照,等等身高直追爸爸

財經(jīng)要聞

杜建英子女在美國或另有信托

汽車要聞

零重力座椅+大角度躺靠的后排 啟源A06內(nèi)飾首曝

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
親子
手機
公開課

數(shù)碼要聞

R7-7735HS + 雙網(wǎng)口,1499 元天虹 TexHoo ZHR 迷你主機配置上新

房產(chǎn)要聞

勁爆!海南又又又搶地了!

親子要聞

幼兒園的潛規(guī)則千萬別做這幾種家長

手機要聞

W30周分析:vivo又是冠軍,蘋果又墊底

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 av大帝在线| 人人操人人宝| 伊人久久久av老熟妇色| 色婷婷美国农夫综合激情亚洲| 特级婬片真人高清视频| 亚洲欧美综合中文| 国产熟女无套白浆中出视频| 国产自产视频| 青青青青久久精品国产| 欧亚欧洲码国产| 婷婷综合久久中文字幕| 亚洲高清无码人妻| av天堂免费| 无码午夜人妻一区二区三区不卡视频| 国产成人麻豆亚洲综合无码精品| 97男人操人人。| 少妇高潮久久久久久毛片 | 亚洲欧美日韩成人一区| 亚洲AV人人澡人人人夜| 午夜福利你懂的在线观看| 久9无限国产| 不卡视频在线一区二区三区| 蜜臀av色欲无码人妻精品天美| 中国老太婆野外xxxx| 国产在线线精品宅男网址| 成人福利一区二区三区| 国产97色在线 | 免| 5月6月婷婷丁香| 无遮无挡爽爽免费视频| 久久无码精品国产| 色偷偷www.8888在线观看| AV伊人久久| 亚洲欧洲无码AAA片在线观看| 色综合天天综合网天天看片| 粉色午夜视频| 国产精品无码一区二区三区电影| 亚洲日韩av一区二区三区四区| 日韩放荡少妇无码视频| 色综合色国产热无码一| 免费国产在线一区二区| 成人免费一二区|