研究人員提出因果貝爾曼方程，在線上學習算法中可得到最優(yōu)智能體

2025-07-13 16:59:42　來源: DeepTech深科技

北京舉報

分享至

近日，美國哥倫比亞大學李明軒博士和團隊提出一種因果貝爾曼方程，它能使用可能包含有混雜變量的觀測數(shù)據(jù)計算出最優(yōu)價值函數(shù)的理論上界。而如果使用這一理論上界設計獎勵函數(shù)的話，在一些特定的線上學習算法中可以更快速地訓練得到最優(yōu)的智能體。

圖 | 李明軒（來源：李明軒）

研究團隊預期這一成果可以被擴展到更高維的、更接近現(xiàn)實應用的機器人問題中，幫助自動化設計一些獎勵函數(shù)用于訓練機器人完成復雜的任務。而用于設計獎勵函數(shù)的數(shù)據(jù)集可以不再囿于采集自同類機器人成功完成任務的數(shù)據(jù)，而是可以采集任何具有相似能力的智能體的視頻數(shù)據(jù)，甚至采集人類示范的視頻數(shù)據(jù)。

在訓練智能體完成一些缺乏明確任務進度評價的任務時，人們往往需要增加很多額外的監(jiān)督信號來幫助訓練。比如，使用強化學習算法訓練控制機械手解決一個魔方時，最直觀的任務完成信號只有是否能在指定時間內(nèi)完成魔方這一非常宏觀的評價指標，任務完成過程中沒有任何具體定義步驟對錯的簡單標準。

而直接使用“任務完成與否”這一單一指標會導致強化學習算法幾乎無法得到有效的訓練數(shù)據(jù)，因為在隨機探索過程中算法偶然碰撞出正確控制機械手解決魔方的概率幾乎為零。

也正因此，在 Open AI 早期訓練機械手解決魔方的論文中，他們添加了很多額外的獎勵信號用于監(jiān)督諸如機械手的手指動作是否合理，以及魔方當前狀態(tài)是否符合算法規(guī)劃的解決方案等。

另一個例子是人們在玩電子游戲的時候如果中途沒有任何任務指引或者分數(shù)反饋，只有在游戲結(jié)束才能知道是否勝利的話，人們就會覺得這個游戲很難通關，或者需要嘗試很久才能猜出正確的勝利條件。

所以，在訓練智能體過程中，研究人員往往需要針對特定任務增加很多額外的獎懲信號作為過程監(jiān)督幫助智能體學習。這樣一種增加額外獎勵信號并且不影響智能體最終能學會的最優(yōu)策略的算法叫 PBRS（Potential Based Reward Shaping），由華人學者吳恩達于 1999 年提出。

但是，這樣就會導致每碰到一個新的任務，都需要花費大量時間和人力來設計并調(diào)整獎勵信號。這樣的解決方案在現(xiàn)代社會日益增長的智能體需求下完全不具有可持續(xù)性。

所以，本次研究團隊考慮的是能否直接從現(xiàn)有數(shù)據(jù)中學習到一個合理的額外獎勵信號呢？直觀來講是可以的，即使用蒙特卡洛法估算價值函數(shù)。而每兩個狀態(tài)之間的價值差就可以作為一個額外的獎勵信號（智能體從低價值狀態(tài)轉(zhuǎn)移到高價值狀態(tài)就會得到一個正向的獎勵，反之則是懲罰）。

但是，如果數(shù)據(jù)集不是由一個性能很好的智能體產(chǎn)生的，又或者數(shù)據(jù)集里包含一些沒有被觀測到的混雜偏差呢？這時直接用蒙特卡洛法估計出來的價值函數(shù)就不再是無偏的，并且可能會和最優(yōu)價值函數(shù)相去甚遠。

于是，在本次論文里研究團隊探索了如何使用一些因果推斷的工具來自動地從多個可能有混雜偏差的數(shù)據(jù)集里學習到合理的獎勵函數(shù)，并從理論上證明解釋了為何此類獎勵函數(shù)能夠顯著提高特定智能體訓練的效率，大量實驗結(jié)果也證明了本次發(fā)現(xiàn)。

（來源：https://arxiv.org/pdf/2505.11478）

曾經(jīng)，李明軒并不覺得這一算法上的改進能帶來多少樣本復雜度上的改善，因為很多前輩論文已經(jīng)論證過使用吳恩達提出的 PBRS 這一特定方式增加額外獎勵信號在很多情況下并不會影響樣本復雜度。對此，李明軒的導師也曾表示感到遺憾，因為這完全解釋不了他們在實驗上觀測到的大幅性能提升。

不過在李明軒即將放棄之前，他又再次重溫了近年來一些線上探索算法的復雜度分析論文，同時這次他著重閱讀了相關論文附錄中的證明細節(jié)。就在這時，李明軒突然發(fā)現(xiàn)幾個不同論文里用到的中間結(jié)論聯(lián)系在一起，似乎正好可以幫他證明自己想要的樣本復雜度結(jié)論。

“這一瞬間的直覺后來被證明是正確的，并且結(jié)論也非常的整潔漂亮，讓我有種難以言說的巧合感。有時，偶爾能在寫代碼的間隙，體會到類似于剛找到最后一塊拼圖的證明的快樂?！彼硎?。

日前，相關論文以《從混雜離線數(shù)據(jù)中自動實現(xiàn)獎勵塑造》（Automatic Reward Shaping from Confounded Offline Data）為題被 2025 國際機器學習大會（ICML，International Conference on Machine Learning）收錄 [1]。

圖 | 相關論文（來源：https://arxiv.org/pdf/2505.11478）

目前，研究團隊正在探索如何把這一理論工作拓展到更大規(guī)模的問題中如電子游戲（atari games）以及一些需要連續(xù)狀態(tài)和動作空間的機器人控制問題之中。

參考資料：

1.https://arxiv.org/pdf/2505.11478

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.