夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

研究人員提出因果貝爾曼方程,在線上學習算法中可得到最優(yōu)智能體

0
分享至

近日,美國哥倫比亞大學李明軒博士和團隊提出一種因果貝爾曼方程,它能使用可能包含有混雜變量的觀測數(shù)據(jù)計算出最優(yōu)價值函數(shù)的理論上界。而如果使用這一理論上界設計獎勵函數(shù)的話,在一些特定的線上學習算法中可以更快速地訓練得到最優(yōu)的智能體。


圖 | 李明軒(來源:李明軒)

研究團隊預期這一成果可以被擴展到更高維的、更接近現(xiàn)實應用的機器人問題中,幫助自動化設計一些獎勵函數(shù)用于訓練機器人完成復雜的任務。而用于設計獎勵函數(shù)的數(shù)據(jù)集可以不再囿于采集自同類機器人成功完成任務的數(shù)據(jù),而是可以采集任何具有相似能力的智能體的視頻數(shù)據(jù),甚至采集人類示范的視頻數(shù)據(jù)。

在訓練智能體完成一些缺乏明確任務進度評價的任務時,人們往往需要增加很多額外的監(jiān)督信號來幫助訓練。比如,使用強化學習算法訓練控制機械手解決一個魔方時,最直觀的任務完成信號只有是否能在指定時間內(nèi)完成魔方這一非常宏觀的評價指標,任務完成過程中沒有任何具體定義步驟對錯的簡單標準。

而直接使用“任務完成與否”這一單一指標會導致強化學習算法幾乎無法得到有效的訓練數(shù)據(jù),因為在隨機探索過程中算法偶然碰撞出正確控制機械手解決魔方的概率幾乎為零。

也正因此,在 Open AI 早期訓練機械手解決魔方的論文中,他們添加了很多額外的獎勵信號用于監(jiān)督諸如機械手的手指動作是否合理,以及魔方當前狀態(tài)是否符合算法規(guī)劃的解決方案等。

另一個例子是人們在玩電子游戲的時候如果中途沒有任何任務指引或者分數(shù)反饋,只有在游戲結(jié)束才能知道是否勝利的話,人們就會覺得這個游戲很難通關,或者需要嘗試很久才能猜出正確的勝利條件。

所以,在訓練智能體過程中,研究人員往往需要針對特定任務增加很多額外的獎懲信號作為過程監(jiān)督幫助智能體學習。這樣一種增加額外獎勵信號并且不影響智能體最終能學會的最優(yōu)策略的算法叫 PBRS(Potential Based Reward Shaping),由華人學者吳恩達于 1999 年提出。

但是,這樣就會導致每碰到一個新的任務,都需要花費大量時間和人力來設計并調(diào)整獎勵信號。這樣的解決方案在現(xiàn)代社會日益增長的智能體需求下完全不具有可持續(xù)性。

所以,本次研究團隊考慮的是能否直接從現(xiàn)有數(shù)據(jù)中學習到一個合理的額外獎勵信號呢?直觀來講是可以的,即使用蒙特卡洛法估算價值函數(shù)。而每兩個狀態(tài)之間的價值差就可以作為一個額外的獎勵信號(智能體從低價值狀態(tài)轉(zhuǎn)移到高價值狀態(tài)就會得到一個正向的獎勵,反之則是懲罰)。

但是,如果數(shù)據(jù)集不是由一個性能很好的智能體產(chǎn)生的,又或者數(shù)據(jù)集里包含一些沒有被觀測到的混雜偏差呢?這時直接用蒙特卡洛法估計出來的價值函數(shù)就不再是無偏的,并且可能會和最優(yōu)價值函數(shù)相去甚遠。

于是,在本次論文里研究團隊探索了如何使用一些因果推斷的工具來自動地從多個可能有混雜偏差的數(shù)據(jù)集里學習到合理的獎勵函數(shù),并從理論上證明解釋了為何此類獎勵函數(shù)能夠顯著提高特定智能體訓練的效率,大量實驗結(jié)果也證明了本次發(fā)現(xiàn)。


(來源:https://arxiv.org/pdf/2505.11478)

曾經(jīng),李明軒并不覺得這一算法上的改進能帶來多少樣本復雜度上的改善,因為很多前輩論文已經(jīng)論證過使用吳恩達提出的 PBRS 這一特定方式增加額外獎勵信號在很多情況下并不會影響樣本復雜度。對此,李明軒的導師也曾表示感到遺憾,因為這完全解釋不了他們在實驗上觀測到的大幅性能提升。

不過在李明軒即將放棄之前,他又再次重溫了近年來一些線上探索算法的復雜度分析論文,同時這次他著重閱讀了相關論文附錄中的證明細節(jié)。就在這時,李明軒突然發(fā)現(xiàn)幾個不同論文里用到的中間結(jié)論聯(lián)系在一起,似乎正好可以幫他證明自己想要的樣本復雜度結(jié)論。

“這一瞬間的直覺后來被證明是正確的,并且結(jié)論也非常的整潔漂亮,讓我有種難以言說的巧合感。有時,偶爾能在寫代碼的間隙,體會到類似于剛找到最后一塊拼圖的證明的快樂?!彼硎?。

日前,相關論文以《從混雜離線數(shù)據(jù)中自動實現(xiàn)獎勵塑造》(Automatic Reward Shaping from Confounded Offline Data)為題被 2025 國際機器學習大會(ICML,International Conference on Machine Learning)收錄 [1]。


圖 | 相關論文(來源:https://arxiv.org/pdf/2505.11478)

目前,研究團隊正在探索如何把這一理論工作拓展到更大規(guī)模的問題中如電子游戲(atari games)以及一些需要連續(xù)狀態(tài)和動作空間的機器人控制問題之中。

參考資料:

1.https://arxiv.org/pdf/2505.11478

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
16年恩愛抵不過殘酷現(xiàn)實,64歲徐威開始衰老,44歲張怡寧依然嬌艷

16年恩愛抵不過殘酷現(xiàn)實,64歲徐威開始衰老,44歲張怡寧依然嬌艷

林輕吟
2025-08-08 09:30:02
特朗普還未訪華,美交通部長:美國正在將領空控制權(quán)交給中國

特朗普還未訪華,美交通部長:美國正在將領空控制權(quán)交給中國

兵器評論
2025-08-08 19:39:57
小鵬宣布推出“路怒消消氣”游戲功能,可向周圍車輛丟玩具包,網(wǎng)友質(zhì)疑上路安全性

小鵬宣布推出“路怒消消氣”游戲功能,可向周圍車輛丟玩具包,網(wǎng)友質(zhì)疑上路安全性

FM93浙江交通之聲
2025-08-07 21:40:38
樓市大局已定!國內(nèi)超過41.5%的家庭,或許不得不面臨3個大難題

樓市大局已定!國內(nèi)超過41.5%的家庭,或許不得不面臨3個大難題

說故事的阿襲
2025-08-08 00:19:07
戰(zhàn)友結(jié)婚我包88888,我結(jié)婚他66打發(fā),3月后收到快遞,拆開我淚崩

戰(zhàn)友結(jié)婚我包88888,我結(jié)婚他66打發(fā),3月后收到快遞,拆開我淚崩

磊子講史
2025-07-03 11:38:04
3年結(jié)了2次婚,被罵惡心的她如今卻活成了公主

3年結(jié)了2次婚,被罵惡心的她如今卻活成了公主

柴叔帶你看電影
2025-08-06 21:37:52
出大事了,以色列首都被炸,加沙領土全面告急,中方最終目標已定

出大事了,以色列首都被炸,加沙領土全面告急,中方最終目標已定

健身狂人
2025-08-08 15:22:09
中俄演習為什么要把地點設在海參崴?俄方:有特殊意義!

中俄演習為什么要把地點設在海參崴?俄方:有特殊意義!

青輝
2025-08-05 15:18:19
重慶奉節(jié)一車禍致7死3傷,調(diào)查報告:肇事貨車剎車失靈,現(xiàn)場有村民正在辦喪事

重慶奉節(jié)一車禍致7死3傷,調(diào)查報告:肇事貨車剎車失靈,現(xiàn)場有村民正在辦喪事

澎湃新聞
2025-08-07 19:40:29
郭凱敏二婚老婆露面,長相驚艷身份厲害,兒子原來是我們熟悉的他

郭凱敏二婚老婆露面,長相驚艷身份厲害,兒子原來是我們熟悉的他

查爾菲的筆記
2025-08-08 13:28:11
突發(fā)!香港浸會大學取消楊景媛博士錄取資格,該查查武大校長了

突發(fā)!香港浸會大學取消楊景媛博士錄取資格,該查查武大校長了

平老師666
2025-08-08 00:01:32
49年軍區(qū)政委返鄉(xiāng)想報殺母之仇,毛主席大手一揮:把425團帶去!

49年軍區(qū)政委返鄉(xiāng)想報殺母之仇,毛主席大手一揮:把425團帶去!

老謝談史
2025-07-08 17:05:01
人死了,就要引發(fā)變局

人死了,就要引發(fā)變局

求實處
2025-08-07 23:30:18
全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

全員“梓涵”消失不見,老師崩潰!新一批爛大街名字再次來襲

游古史
2025-08-08 14:35:22
醫(yī)保新規(guī):普通門診按人頭付費,明年執(zhí)行!

醫(yī)保新規(guī):普通門診按人頭付費,明年執(zhí)行!

梅斯醫(yī)學
2025-08-08 07:54:58
中紀委松口了:公務員可從事這7類副業(yè),不再列入紀檢嚴控!

中紀委松口了:公務員可從事這7類副業(yè),不再列入紀檢嚴控!

巢客HOME
2025-08-07 11:15:03
“不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現(xiàn)實

“不給6套房加1個億,不搬”,釘子戶張新國堅守14年,終敗給現(xiàn)實

紅夢史說
2025-07-11 11:23:39
特朗普表示可能會因中國購買俄石油對華征收次級關稅 外交部回應

特朗普表示可能會因中國購買俄石油對華征收次級關稅 外交部回應

新京報
2025-08-08 19:02:01
續(xù)航最強特斯拉登陸工信部:Model 3 新增 830km 版車型

續(xù)航最強特斯拉登陸工信部:Model 3 新增 830km 版車型

IT之家
2025-08-08 11:24:08
讀了洛克菲勒我發(fā)現(xiàn):90%的人困在底層,只因沒看透這3個邏輯

讀了洛克菲勒我發(fā)現(xiàn):90%的人困在底層,只因沒看透這3個邏輯

阿胖讀書
2025-08-06 16:06:36
2025-08-08 20:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15500文章數(shù) 513968關注度
往期回顧 全部

科技要聞

看懂GPT-5發(fā)布:屠榜、免費,但沒有"炸裂"

頭條要聞

美方或因中國購買俄石油對華征收次級關稅 外交部回應

頭條要聞

美方或因中國購買俄石油對華征收次級關稅 外交部回應

體育要聞

百年“大蝦隊”瀕臨解散,小城天塌了

娛樂要聞

小S復出之路艱難!電視臺避談具體時間

財經(jīng)要聞

釋永信海外資本局:至少4600萬流向澳洲

汽車要聞

配齊豪華車流行五件套 東風風神L8這次給得有點多

態(tài)度原創(chuàng)

游戲
藝術
教育
親子
本地

外媒:希望《羊蹄山之魂》完全不要提及境井仁

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

2025全國高考本科錄取率公布!大量考生無緣本科!現(xiàn)實很殘酷

親子要聞

奶奶鍛煉8月齡寶寶識圖,網(wǎng)友:孩子能老實坐著聽 長大就不一般。 #開心快樂的小寶貝萌萌噠 #曬曬萌娃的快樂日常 #記錄這可愛的臭寶 #記錄你的點點滴滴

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復活

無障礙瀏覽 進入關懷版 欧美图片AⅤ在线| 曰本人做爰又黄又粗视频| 日本欧美一区二区三区在线播放| 亚洲精品中国国产嫩草影院美女| 亚洲最大成人网色| 亚洲国产精品99久久| 亚洲AV无码成人精品区大猫| 国产 av 仑乱内谢| 韩国三级HD中文字幕| 日韩精品一区二区三区免费在线观看 | 国产性爱无码影院| 巨茎爆乳无码性色福利| 无码av网址| 国产精品老熟女露脸视频| 久久人人爽人人爽| 那里有国产av网站?| XXx性亚洲大i片豪放xX乂| AV 亚洲 国产 免费| 91成人在线免费观看| 久久久久资源| 国产乱子伦无套一区二区三区| 免费看a级肉片| 中文字幕人妻紧无码专区| 久久亚洲无码| 三级亚洲成人| 亚洲精品成人福利网站| 亚洲有码专区| 色8久久人人97超碰香蕉987| 欧美人善交videosg| 亚洲欧洲日产国码无码久久99| 波多野无码中文字幕AV专区| 亚洲偷自拍另类图片二区| av大战网站| 久青草精品视频在线观看| 精品国产一区久久| 天堂亚洲免费视频| 午夜无码福利| 黑人狂躁日本妞一区二区三区| 宅男影K久久| 久久精品国产亚洲av忘忧草18 | 婷婷五月亚洲综合图区|