夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI已迷失方向?強(qiáng)化學(xué)習(xí)教父Sutton最新發(fā)布OaK架構(gòu),挑戰(zhàn)當(dāng)前AI范式,提出超級(jí)智能新構(gòu)想

0
分享至

作者 | 理查德·薩頓(Richard Sutton)

原標(biāo)題 | OaK 架構(gòu):一個(gè)源于經(jīng)驗(yàn)的超級(jí)智能構(gòu)想

來源 | RLC 2025 會(huì)議文章(youtu.be/gEbbGyNkR2U)

編譯 | 王啟隆

出品丨AI 科技大本營(ID:rgznai100)

隨著人工智能發(fā)展成為一個(gè)龐大的產(chǎn)業(yè),它在很大程度上已經(jīng)迷失了方向。

我們需要什么才能重回正軌,去探尋真正的智能?

我們需要能夠持續(xù)學(xué)習(xí)的智能體、世界模型和規(guī)劃能力,以及學(xué)習(xí)高層次知識(shí)和通過元學(xué)習(xí)掌握泛化的能力。

OaK 架構(gòu)正是對(duì)所有這些需求的一個(gè)系統(tǒng)性回應(yīng)。從整體上看,它是一個(gè)基于模型的強(qiáng)化學(xué)習(xí)架構(gòu),并具備三個(gè)鮮明特點(diǎn):

1)其所有組件都能持續(xù)學(xué)習(xí);

2)每一個(gè)學(xué)習(xí)到的權(quán)重,都配有一個(gè)專門的步長參數(shù),該參數(shù)通過在線交叉驗(yàn)證進(jìn)行元學(xué)習(xí);

3)狀態(tài)和時(shí)間上的抽象概念,通過一個(gè)我們稱之為 FC-STOMP 的五步演進(jìn)路徑被持續(xù)創(chuàng)造出來,即:特征構(gòu)建( F eature C onstruction)、基于特征提出子任務(wù)(posing a S ub T ask)、學(xué)習(xí)一個(gè)選項(xiàng)來解決該子任務(wù)(learning an O ption)、學(xué)習(xí)該選項(xiàng)的模型(learning a M odel)、以及使用該選項(xiàng)的模型進(jìn)行規(guī)劃( P lanning)。

OaK 架構(gòu)的內(nèi)容相當(dāng)豐富。在本文中,我們將勾勒其輪廓,并闡明那些為這一宏大構(gòu)想——即超級(jí)智能如何從智能體的經(jīng)驗(yàn)中涌現(xiàn)——做出貢獻(xiàn)的諸多既有和同期的研究工作。


引言

OaK 架構(gòu)是一個(gè)關(guān)于超級(jí)智能如何從經(jīng)驗(yàn)中誕生的構(gòu)想,它凝結(jié)了我為探尋人工智能核心問題而進(jìn)行的長期思考與探索。在深入細(xì)節(jié)之前,我想首先強(qiáng)調(diào)人工智能這項(xiàng)任務(wù)的艱巨性與重要性。

人工智能的探索,本質(zhì)上是一場偉大的遠(yuǎn)征。我們?cè)噲D理解人類心智的運(yùn)作方式,創(chuàng)造出與人類相仿的智能,并最終賦予我們自身更強(qiáng)大的力量。這無疑是一個(gè)意義深遠(yuǎn)的智力里程碑,其影響將是革命性的。盡管這一認(rèn)知已是共識(shí),但我們?nèi)杂斜匾獣r(shí)常停下腳步,去真正體味我們所從事事業(yè)的非凡難度與深遠(yuǎn)意義。從智力里程碑的意義上講,其重要性或可與地球上生命的起源相提并論——至少,當(dāng)這個(gè)星球上的智能體終于開始理解自身如何運(yùn)作、如何思考,并意識(shí)到這種理解將如何顛覆一切時(shí),其意義是同等重大的。

當(dāng)然,這也是人類文明發(fā)展歷程的自然延續(xù),只是開啟了一個(gè)更為宏大的新篇章。

我堅(jiān)信,這一進(jìn)程只會(huì)導(dǎo)向一個(gè)美好的未來。盡管許多人對(duì)此心存憂慮,但我認(rèn)為其本質(zhì)是純粹向善的。并且,最偉大的進(jìn)步仍在前方,這是一場需要耐心與毅力的馬拉松。對(duì)于強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者而言,一個(gè)值得慶幸的觀點(diǎn)是,通往完全人工智能(即強(qiáng)人工智能)的必經(jīng)之路,是強(qiáng)化學(xué)習(xí)這類經(jīng)驗(yàn)性方法,而非大語言模型等非經(jīng)驗(yàn)性路徑。然而,一個(gè)看似矛盾的現(xiàn)實(shí)是,當(dāng)前最大的瓶頸恰恰在于我們?nèi)狈ψ銐騼?yōu)秀的學(xué)習(xí)算法。人們或許會(huì)認(rèn)為,擁有了深度學(xué)習(xí),我們最擅長的領(lǐng)域便是學(xué)習(xí)算法。但在我看來,事實(shí)遠(yuǎn)非如此。我們現(xiàn)有的算法還相當(dāng)粗糙,亟待改進(jìn),而這,正應(yīng)是我們?nèi)σ愿暗姆较颉?/p>

在過去半個(gè)世紀(jì)對(duì)智能本質(zhì)的持續(xù)探索中,我每一天都在科研一線,致力于為強(qiáng)化學(xué)習(xí)、為從經(jīng)驗(yàn)中學(xué)習(xí),設(shè)計(jì)更優(yōu)的算法。我的研究遵循著《阿爾伯塔人工智能研究計(jì)劃》的指引——那是我與 Michael Bowling 和 Patrick Pilarski 在幾年前共同制定的藍(lán)圖。

今天,我將要探討的 OaK 架構(gòu),正是一個(gè)旨在構(gòu)建通用人工智能智能體的整體性構(gòu)想。我深信,它為我們指明了一條通往“理解心智”這一終極目標(biāo)的清晰路徑。

OaK 架構(gòu):命名與愿景

讓我們從 OaK 這個(gè)名字開始。這個(gè)名字源于兩個(gè)核心概念:“選項(xiàng)”( O ptions)和“知識(shí)”( K nowledge)。


在座的許多研究者都對(duì)“選項(xiàng)”這一概念非常熟悉。通常,一個(gè)選項(xiàng)被定義為一個(gè)三元組,但經(jīng)過我過去二十年的研究演進(jìn),我已經(jīng)舍棄了起始集(initiation set)的設(shè)定。

因此,對(duì)我而言,選項(xiàng)是一個(gè)更為簡潔的組合,僅包含一個(gè)策略(policy)——即一種行為方式,和一個(gè)終止條件(termination condition)——即決定何時(shí)停止該行為的方式。在 OaK 架構(gòu)中,智能體的核心構(gòu)成是海量的選項(xiàng),而它的“知識(shí)”,則具體表現(xiàn)為關(guān)于執(zhí)行某個(gè)選項(xiàng)后世界會(huì)發(fā)生何種變化的知識(shí)。通過這種方式,智能體旨在學(xué)習(xí)一個(gè)關(guān)于世界的高層次轉(zhuǎn)換模型。這個(gè)模型使其能夠以更長的時(shí)間跨度進(jìn)行規(guī)劃,并有望深刻洞察世界內(nèi)在的結(jié)構(gòu),如同“庖丁解?!卑阌稳杏杏?。

這就是 OaK 名稱的由來。我認(rèn)為,我們所面對(duì)的是一項(xiàng)宏大的挑戰(zhàn),一場偉大的遠(yuǎn)征。因此,我常將其比作追尋人工智能的“圣杯”。

為了更清晰地闡述其核心理念,我們可以將其設(shè)計(jì)目標(biāo)歸納為以下三點(diǎn):

  1. 領(lǐng)域通用性(Domain-General) :該設(shè)計(jì)不應(yīng)包含任何針對(duì)特定世界的預(yù)設(shè)知識(shí),而應(yīng)具備普適性。

  2. 經(jīng)驗(yàn)性(Empirical) :心智的成長應(yīng)完全源于運(yùn)行時(shí)的經(jīng)驗(yàn)積累,而非依賴于某個(gè)特殊的訓(xùn)練階段。

  3. 開放式復(fù)雜性(Open-ended Complexity) :智能體應(yīng)能在其心智中形成處理當(dāng)前世界所必需的任何概念,其復(fù)雜性和抽象能力的上限僅受限于其計(jì)算資源。

這三大核心訴求,將是我們接下來探討的重點(diǎn)。

核心理念:運(yùn)行時(shí)學(xué)習(xí)與“大世界”視角

首先,有必要對(duì)兩個(gè)關(guān)鍵術(shù)語——“設(shè)計(jì)時(shí)”(design-time)與“運(yùn)行時(shí)”(run-time)——加以界定?!霸O(shè)計(jì)時(shí)”指代智能體在“工廠”中被構(gòu)建的階段,任何領(lǐng)域知識(shí)都應(yīng)在此時(shí)被編碼進(jìn)去。而“運(yùn)行時(shí)”則是智能體進(jìn)入真實(shí)世界后,通過與環(huán)境的實(shí)際互動(dòng)來學(xué)習(xí)、生活并制定計(jì)劃的階段。


以大語言模型為例,其幾乎所有的“智能”都在設(shè)計(jì)時(shí)完成。一旦被部署使用,它便不再從新的交互中學(xué)到任何東西。而我所倡導(dǎo)的理念恰恰相反:所有重要的事情都應(yīng)在運(yùn)行時(shí)發(fā)生,即所謂的“在線學(xué)習(xí)”、“在崗學(xué)習(xí)”。

這便引出了“大世界”(Big World)視角。


“大世界”假說,這一概念在阿爾伯塔的研究環(huán)境中已醞釀多年,并深刻地影響了我們的思維與設(shè)計(jì)方式。其核心思想十分簡單:世界遠(yuǎn)比智能體更龐大、更復(fù)雜——其程度遠(yuǎn)超想象。世界必然遠(yuǎn)大于智能體,因?yàn)樗藬?shù)十億其他智能體,以及萬物復(fù)雜的原子結(jié)構(gòu)和細(xì)節(jié)。其他智能體(無論是朋友、伙伴還是競爭對(duì)手)頭腦中的信息都與自身息息相關(guān),必須被納入考量。

由此得出的一個(gè)關(guān)鍵結(jié)論是:智能體所做的任何事都不可能是精確的、最優(yōu)的,而只能是近似的。其構(gòu)建的價(jià)值函數(shù)必然是近似價(jià)值函數(shù);其策略也不可能是最優(yōu)策略;其對(duì)世界的轉(zhuǎn)換模型,也必然是經(jīng)過高度簡化的。智能體頭腦中的世界模型,與外部那個(gè)龐大得多的真實(shí)世界相比,顯得微不足道。智能體永遠(yuǎn)無法在心智中容納世界的單個(gè)完整狀態(tài),更不用說容納其他所有智能體的心智狀態(tài)了。

這一視角最重要的推論是,世界對(duì)于智能體而言,最終將呈現(xiàn)出非平穩(wěn)性(non-stationarity)。正如我和 Dave Silver、Anna Koop 在一篇論文中所指出的,當(dāng)智能體缺乏對(duì)世界狀態(tài)的完美感知和精確模型時(shí),龐大世界中許多看似相似的區(qū)域,其實(shí)存在著函數(shù)逼近器無法捕捉的細(xì)微差別。這使得世界看起來是動(dòng)態(tài)變化的。因此,運(yùn)行時(shí)的學(xué)習(xí)和規(guī)劃變得至關(guān)重要。智能體必須具備在運(yùn)行時(shí)根據(jù)實(shí)際遭遇的情境,發(fā)現(xiàn)任何所需抽象的能力。這也意味著,在設(shè)計(jì)時(shí)預(yù)置的抽象概念,不僅是不充分的,甚至應(yīng)該被摒棄。

運(yùn)行時(shí)的學(xué)習(xí)總是優(yōu)于設(shè)計(jì)時(shí)的學(xué)習(xí),原因有三:

  1. 覆蓋范圍 :“大世界”視角決定了設(shè)計(jì)時(shí)無法預(yù)見所有可能情況。

  2. 適應(yīng)性 :運(yùn)行時(shí)學(xué)習(xí)可以針對(duì)智能體實(shí)際遇到的那部分世界進(jìn)行高度定制和優(yōu)化。

  3. 可擴(kuò)展性 :運(yùn)行時(shí)學(xué)習(xí)的能力隨可用的計(jì)算資源而擴(kuò)展,而設(shè)計(jì)時(shí)學(xué)習(xí)則受限于可用的人類專業(yè)知識(shí)?;仡櫄v史,“慘痛的教訓(xùn)”(the bitter lesson)明確指出,隨計(jì)算資源擴(kuò)展的一方終將勝出。

然而,我們必須承認(rèn),當(dāng)今的深度學(xué)習(xí)方法在持續(xù)學(xué)習(xí)(continual learning)方面表現(xiàn)不佳,這是一個(gè)亟待解決的痛點(diǎn)。此外,運(yùn)行時(shí)學(xué)習(xí)還有一個(gè)關(guān)鍵優(yōu)勢:它使得元學(xué)習(xí)(meta-learning)成為可能。元學(xué)習(xí)的精髓在于“在學(xué)習(xí)中提升學(xué)習(xí)能力”——智能體可以嘗試不同的學(xué)習(xí)策略,評(píng)估其效果,并選擇更優(yōu)者用于未來的學(xué)習(xí)。這種自我改進(jìn)的過程,要求學(xué)習(xí)本身必須是一個(gè)持續(xù)的、在運(yùn)行時(shí)發(fā)生的過程。

問題設(shè)定:強(qiáng)化學(xué)習(xí)與獎(jiǎng)勵(lì)假說

在探討解決方案之前,讓我們先明確問題的范疇。人工智能的根本問題,是設(shè)計(jì)一個(gè)能在世界中有效行動(dòng)以達(dá)成目標(biāo)的智能體。經(jīng)典的強(qiáng)化學(xué)習(xí)問題與之本質(zhì)相同,只是更具體地指出:目標(biāo)由一個(gè)稱為“獎(jiǎng)勵(lì)”(reward)的標(biāo)量信號(hào)來定義,且世界是通用的、不完全已知的。這個(gè)世界可以是任何形態(tài),從簡單的網(wǎng)格世界到復(fù)雜的人類社會(huì),它可以是隨機(jī)的、非線性的、非馬爾可夫的。在“大世界”中,狀態(tài)空間實(shí)際上是無限的,其動(dòng)態(tài)變化也呈現(xiàn)非平穩(wěn)性。

在此,我想重申“獎(jiǎng)勵(lì)假說”(The Reward Hypothesis)的重要性。這個(gè)假說并非一個(gè)草率的選擇,而是經(jīng)過深思熟慮的理論基石。它主張:我們所說的一切“目標(biāo)”和“目的”,其含義都可以被嚴(yán)謹(jǐn)?shù)乩斫鉃閷?duì)一個(gè)接收到的標(biāo)量信號(hào)(即“獎(jiǎng)勵(lì)”)的累積和的期望值的最大化。

這個(gè)定義中的“期望值”、“累積和”等設(shè)定都經(jīng)過了仔細(xì)推敲。“標(biāo)量獎(jiǎng)勵(lì)”本身是一個(gè)偉大的思想,它以一種極為清晰的方式指定了目標(biāo),并已在人工智能、經(jīng)濟(jì)學(xué)、心理學(xué)、控制論等多個(gè)學(xué)科中得到廣泛應(yīng)用。長久以來,學(xué)術(shù)界不乏對(duì)其進(jìn)行修改的嘗試,例如引入約束、多目標(biāo)、風(fēng)險(xiǎn)敏感性等概念。但我個(gè)人傾向于保持其簡潔性,因?yàn)槲易非蟮氖歉拍钌系那逦c簡約。

真正的問題是:我們是否需要這些額外的復(fù)雜性來獲得通用性?Michael Bowling 及其同事在一篇題為《為獎(jiǎng)勵(lì)假說正名》的論文中給出了有力的論證。他們證明,增加多目標(biāo)、風(fēng)險(xiǎn)敏感性或約束等機(jī)制,并不會(huì)增加通用性。這從側(cè)面驗(yàn)證了我們選擇的正確性。此外,在另一篇《獎(jiǎng)勵(lì)即足夠》的論文中,我們進(jìn)一步論證了,在一個(gè)足夠復(fù)雜的世界里,即使是簡單的獎(jiǎng)勵(lì)信號(hào)也足以引出智能的所有屬性。

OaK 架構(gòu)的解決方案

現(xiàn)在,讓我們轉(zhuǎn)向解決方案,即架構(gòu)本身。一個(gè)顯而易見的起點(diǎn)是無模型的強(qiáng)化學(xué)習(xí),智能體在運(yùn)行時(shí)構(gòu)建一個(gè)策略和一個(gè)價(jià)值函數(shù)。如果能從數(shù)據(jù)中構(gòu)建自己的狀態(tài)表示,就可以處理非馬爾可夫問題。然而,一個(gè)更優(yōu)的方案或許是建立一個(gè)世界模型,并利用該模型進(jìn)行規(guī)劃。

OaK 架構(gòu)正是在這條演進(jìn)路徑上的又一次飛躍。其核心特點(diǎn)在于引入了輔助問題(或稱子問題),并且每個(gè)子問題都擁有各自的價(jià)值函數(shù)和策略。此外,每一個(gè)子問題都將基于狀態(tài)特征表示的不同組成部分。我們可以將狀態(tài)想象成一個(gè)特征向量,而每個(gè)子問題都聚焦于該向量的不同維度。

該架構(gòu)的核心可概括為在運(yùn)行時(shí)并行完成的八個(gè)步驟。下文將對(duì)這些步驟逐一展開,并會(huì)反復(fù)審視這一整體框架。

  1. 學(xué)習(xí)主策略與價(jià)值函數(shù) :學(xué)習(xí)用于最大化主獎(jiǎng)勵(lì)信號(hào)的策略和價(jià)值函數(shù)。這類似于標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)。這一項(xiàng)可標(biāo)記為“概念上已完成,但有待工程實(shí)現(xiàn)上的完善”,因?yàn)樗蕾囉谖覀兩形赐耆鉀Q的持續(xù)深度學(xué)習(xí)問題。

  2. 生成新狀態(tài)特征 :從現(xiàn)有特征中生成新的、可能更有用的狀態(tài)特征。這是一個(gè)核心挑戰(zhàn),我們稍后會(huì)詳細(xì)討論。

  3. 對(duì)特征進(jìn)行排序 :維護(hù)關(guān)于所有特征效用的元數(shù)據(jù),并根據(jù)其重要性進(jìn)行排序。

  4. 創(chuàng)建子問題 :為排名最高的特征創(chuàng)建子問題。例如,若“身處演講廳”被評(píng)估為一個(gè)重要特征,系統(tǒng)就會(huì)創(chuàng)建一個(gè)子問題,其目標(biāo)是“在不損失過多主獎(jiǎng)勵(lì)的前提下,成功到達(dá)演講廳”。

  5. 學(xué)習(xí)選項(xiàng) :為每個(gè)子問題學(xué)習(xí)一個(gè)解決方案,這個(gè)解決方案就是一個(gè)“選項(xiàng)”(Option),即 OaK 中“O”的來源。

  6. 學(xué)習(xí)選項(xiàng)模型 :學(xué)習(xí)每個(gè)選項(xiàng)的轉(zhuǎn)換模型,即預(yù)測執(zhí)行某個(gè)選項(xiàng)后世界會(huì)發(fā)生什么。這是 OaK 中“K”(Knowledge)的體現(xiàn),構(gòu)成了高層次的世界模型。

  7. 使用模型進(jìn)行規(guī)劃 :利用學(xué)習(xí)到的選項(xiàng)模型進(jìn)行規(guī)劃,以改進(jìn)主策略和價(jià)值函數(shù)。

  8. 管理與維護(hù) :持續(xù)管理所有組件,評(píng)估其效用,淘汰無用部分,并不斷生成新的組件。

子問題、玩耍與開放式抽象

在 OaK 架構(gòu)中,子問題的創(chuàng)建是一個(gè)核心環(huán)節(jié)。智能體必須能夠自己生成子問題,這一觀點(diǎn)回應(yīng)了關(guān)于好奇心、內(nèi)在動(dòng)機(jī)和輔助任務(wù)研究中的一系列關(guān)鍵開放性問題:子問題應(yīng)該是什么?它們從何而來?智能體能否自己創(chuàng)造子問題?它們?nèi)绾螏椭鉀Q主問題?OaK 的貢獻(xiàn)在于,它對(duì)這些問題提出了一個(gè)統(tǒng)一的答案,并肯定了智能體自我創(chuàng)造子問題的能力,從而實(shí)現(xiàn)了開放式的抽象。

我們可以將其想象成一個(gè)“問題”與“解決方案”相互促進(jìn)的循環(huán):我們提出一個(gè)要解決的問題,然后去解決它;在解決問題的過程中,會(huì)創(chuàng)造出新的特征;這些新特征又成為新子問題的基礎(chǔ),而這些新子問題又必須被解決,從而催生更新的特征,如此循環(huán)往復(fù),永無止境。


自然界中的“玩?!保╬lay)行為能為我們提供生動(dòng)的啟示。一只蕩秋千的年輕猩猩,并非為了覓食,而很可能是被搖蕩時(shí)的感覺所吸引,并試圖復(fù)現(xiàn)和控制這種體驗(yàn)。一只虎鯨反復(fù)將浮標(biāo)頂?shù)奖成希诧@然是在探索和完善一個(gè)自創(chuàng)的目標(biāo)。人類嬰兒的玩耍更是如此,他們從一個(gè)物體轉(zhuǎn)向另一個(gè),了解其特性,感到厭煩,再轉(zhuǎn)向下一個(gè),逐步建立起對(duì)世界越來越豐富的理解。

這些行為的本質(zhì),可以被看作是智能體在為自己提出子問題——一些需要去了解、理解、預(yù)測和控制的事物。因此,子問題不能由設(shè)計(jì)者預(yù)先給定,它們必須由智能體在與世界的互動(dòng)中自主創(chuàng)造,因?yàn)樗鼈償?shù)量繁多且與具體環(huán)境高度相關(guān)。

那么,如何以一種領(lǐng)域無關(guān)的方式創(chuàng)造子問題呢?OaK 提出了一種具體機(jī)制,稱為“尊重獎(jiǎng)勵(lì)的特征達(dá)成子問題”(Reward-Respecting, Feature-Achieving Subproblem)。當(dāng)智能體遇到或創(chuàng)造一個(gè)新特征時(shí)(例如,聽到搖鈴的聲音),它可以將其作為子問題的基礎(chǔ)。這個(gè)子問題的目標(biāo)是: 在不損失過多主獎(jiǎng)勵(lì)的前提下,將世界驅(qū)動(dòng)到一個(gè)該特征值很高的狀態(tài)。

該目標(biāo)的數(shù)學(xué)表達(dá)如下:


在這個(gè)方程中,智能體試圖找到一個(gè)選項(xiàng)(策略 π 和終止函數(shù) γ),以最大化一個(gè)期望值。該期望值包含三部分:1)執(zhí)行選項(xiàng)期間獲得的累積獎(jiǎng)勵(lì) ∑R ;2)終止時(shí)達(dá)成特征 i 所獲得的額外獎(jiǎng)勵(lì) κ·φ?(S_T) ,其中 κ 代表對(duì)該特征的渴望程度;3)終止時(shí)所處狀態(tài)的價(jià)值 V(S_T) ,這確保了智能體不會(huì)為了達(dá)成子目標(biāo)而陷入一個(gè)長期來看很糟糕的狀態(tài)(例如,為了喝到咖啡而摔斷腿)。

FC-STOMP:從特征到規(guī)劃的演進(jìn)路徑

這個(gè)子問題創(chuàng)造機(jī)制,是 OaK 架構(gòu)中一個(gè)更宏大流程的核心。我們可以將這個(gè)流程總結(jié)為一條五步走的演進(jìn)路徑,我們稱之為 FC-STOMP

  1. 特征構(gòu)建 (Feature Construction) :感知過程負(fù)責(zé)構(gòu)建有趣的狀態(tài)特征。

  2. 提出子任務(wù) (posing a SubTask) :基于高排名的特征,構(gòu)建“尊重獎(jiǎng)勵(lì)的特征達(dá)成子問題”。

  3. 學(xué)習(xí)選項(xiàng) (learning an Option) :通過強(qiáng)化學(xué)習(xí)求解子問題,得到一個(gè)選項(xiàng)作為其解決方案。

  4. 學(xué)習(xí)模型 (learning a Model) :學(xué)習(xí)這個(gè)新選項(xiàng)的轉(zhuǎn)換模型,即預(yù)測其后果。

  5. 規(guī)劃 (Planning) :將新選項(xiàng)及其模型整合到已有的世界模型中,用于規(guī)劃,從而改進(jìn)整體策略和價(jià)值函數(shù)。

這五個(gè)步驟構(gòu)成了一個(gè)發(fā)現(xiàn)與改進(jìn)的閉環(huán)。所有依賴特征的步驟(如學(xué)習(xí)選項(xiàng)、學(xué)習(xí)模型、規(guī)劃)都會(huì)向特征構(gòu)建過程提供反饋,告知哪些特征被證明是有用的,從而引導(dǎo)新特征的生成。

在算法層面,學(xué)習(xí)選項(xiàng)的價(jià)值函數(shù)、學(xué)習(xí)選項(xiàng)模型等任務(wù),都可以利用現(xiàn)有的、成熟的離策略(off-policy)通用價(jià)值函數(shù)(GVF)學(xué)習(xí)算法,如 GTD、Emphatic TD、Retrace、ABQ 等。規(guī)劃過程則可以被視為價(jià)值迭代(value iteration)的近似。有趣的是,使用選項(xiàng)模型進(jìn)行規(guī)劃,其數(shù)學(xué)形式與傳統(tǒng)的基于單步動(dòng)作的價(jià)值迭代驚人地相似,只是將“動(dòng)作”替換為了“選項(xiàng)”,將“單步獎(jiǎng)勵(lì)”替換為了“選項(xiàng)執(zhí)行期間的累積獎(jiǎng)勵(lì)”。這使得“任何可以被學(xué)習(xí)的東西,也同樣可以被規(guī)劃”這一原則得以實(shí)現(xiàn)。

面臨的挑戰(zhàn):持續(xù)學(xué)習(xí)與特征生成

盡管 OaK 架構(gòu)為我們描繪了一幅清晰的藍(lán)圖,但仍有兩個(gè)關(guān)鍵的技術(shù)挑戰(zhàn)有待攻克。

1. 可靠的持續(xù)深度學(xué)習(xí) :OaK 的所有組件都要求能夠持續(xù)學(xué)習(xí)。在線性和表格情況下,我們已有可靠的方法。但在非線性的深度學(xué)習(xí)場景中,災(zāi)難性遺忘(catastrophic forgetting)和災(zāi)難性可塑性喪失(catastrophic loss of plasticity)等問題依然存在。盡管目前有持續(xù)反向傳播(continual backpropagation)等一系列解決方案正在涌現(xiàn),但這仍是一個(gè)活躍且尚未完全解決的研究領(lǐng)域。

2. 新狀態(tài)特征的生成 :這個(gè)問題,也被稱為“表示學(xué)習(xí)”或“新術(shù)語問題”,歷史悠久,可追溯至上世紀(jì) 60 年代。盡管反向傳播被認(rèn)為部分解決了這個(gè)問題,但它并非萬能。除梯度下降外,大多數(shù)方法都遵循“生成與測試”的范式:生成大量候選特征,然后通過評(píng)估其在解決問題中的效用來進(jìn)行篩選。我認(rèn)為,諸如 IDBD 這類根據(jù)每個(gè)特征的個(gè)體學(xué)習(xí)情況來調(diào)整其學(xué)習(xí)率的元學(xué)習(xí)算法,將是解決這一問題的關(guān)鍵部分。我相信,這個(gè)問題有望在未來幾年內(nèi)取得突破,屆時(shí)將徹底改變我們使用深度學(xué)習(xí)的方式。

結(jié)論與展望

OaK 架構(gòu)的構(gòu)想,是否成功回應(yīng)了我們最初設(shè)定的遠(yuǎn)征目標(biāo)?它在設(shè)計(jì)上是完全領(lǐng)域通用的,不包含任何針對(duì)特定世界的內(nèi)容;它完全是經(jīng)驗(yàn)性的,所有知識(shí)和能力都從運(yùn)行時(shí)經(jīng)驗(yàn)中成長;并且,它致力于實(shí)現(xiàn)無限的、開放式的抽象發(fā)現(xiàn),其唯一的限制是計(jì)算資源。

我認(rèn)為,強(qiáng)化學(xué)習(xí)與 OaK 架構(gòu)為人工智能領(lǐng)域的幾個(gè)根本性問題,提供了第一個(gè)合理的、機(jī)制性的答案:

  • 知識(shí)的起源 :高層次的知識(shí)如何從低層次的經(jīng)驗(yàn)中學(xué)習(xí)而來?

  • 概念的形成 :概念從何而來?它們可以被視為為了解決自創(chuàng)子問題而形成的內(nèi)部表示。

  • 推理的本質(zhì) :什么是推理?或許它就是基于學(xué)習(xí)到的高層次世界模型進(jìn)行的規(guī)劃。

  • 玩耍的目的 :玩耍的目的是什么?是為了發(fā)現(xiàn)和構(gòu)建認(rèn)知基石的子問題。

  • 感知的意義 :在沒有人類標(biāo)簽的情況下,感知如何運(yùn)作?感知可以是為了解決子問題而形成的概念化過程。

對(duì)于從事強(qiáng)化學(xué)習(xí)研究的 AI 科學(xué)家而言,OaK 提供了一個(gè)思考人工智能各個(gè)部分如何協(xié)同工作的框架,能夠指導(dǎo)未來的研究方向。它提出了一個(gè)關(guān)于如何用學(xué)習(xí)到的模型進(jìn)行規(guī)劃的構(gòu)想,這正是當(dāng)今 AI 所缺失的關(guān)鍵能力。它提供了一種植根于經(jīng)驗(yàn)和認(rèn)知,而非匹配人類標(biāo)簽的感知觀。最重要的是,它為強(qiáng)化學(xué)習(xí)中的“發(fā)現(xiàn)”問題——即子問題、選項(xiàng)和特征從何而來——提供了綱領(lǐng)性的答案。

綜上所述,OaK 是一個(gè)關(guān)于如何獲得一個(gè)完全從經(jīng)驗(yàn)中成長起來的、開放式的超級(jí)智能的構(gòu)想。它描繪了一個(gè)在運(yùn)行時(shí)從經(jīng)驗(yàn)中培育超級(jí)智能的藍(lán)圖,整合了行動(dòng)、學(xué)習(xí)、規(guī)劃、模型學(xué)習(xí)、子問題和選項(xiàng)等核心能力,并結(jié)合了函數(shù)逼近、部分可觀測性、非平穩(wěn)性等現(xiàn)實(shí)挑戰(zhàn)。所有這一切,都在一個(gè)良性的、開放式的發(fā)現(xiàn)循環(huán)中協(xié)同工作:狀態(tài)特征的發(fā)現(xiàn),激發(fā)了問題、選項(xiàng)和模型的發(fā)現(xiàn),而這些新產(chǎn)生的組件又反過來促進(jìn)了新的、更抽象特征的形成。作為一個(gè)完全通用、不含任何領(lǐng)域特定組件的架構(gòu),OaK 具有強(qiáng)大的可擴(kuò)展性,并有望對(duì)人工智能的未來產(chǎn)生深遠(yuǎn)而 持久的影響。

【活動(dòng)分享】2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)(ML-Summit)北京站將于 2025 年 10 月 16-17 日在北京威斯汀酒店舉辦。大會(huì)共 12 大主題、50+ 海內(nèi)外專家,聚焦大模型技術(shù)和應(yīng)用變革。詳情參考官網(wǎng): https://ml-summit.org (或點(diǎn)擊原文鏈接)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
用蘋果手機(jī)的不賣、開日本車的不賣!成都“奇葩”抄手館

用蘋果手機(jī)的不賣、開日本車的不賣!成都“奇葩”抄手館

毛起吃
2025-10-03 21:23:09
捅了馬蜂窩,美軍不宣而戰(zhàn),擊沉委內(nèi)瑞拉船,美洲10國坐不住了

捅了馬蜂窩,美軍不宣而戰(zhàn),擊沉委內(nèi)瑞拉船,美洲10國坐不住了

現(xiàn)代小青青慕慕
2025-10-04 16:37:50
陳震車禍:不負(fù)責(zé)的富人,就是窮人的瘟神

陳震車禍:不負(fù)責(zé)的富人,就是窮人的瘟神

黑糖文字局
2025-10-04 07:57:09
陜西新郎跳河,知情人:29歲大學(xué)老師很帥氣,兩年前訂婚畫面曝光

陜西新郎跳河,知情人:29歲大學(xué)老師很帥氣,兩年前訂婚畫面曝光

鋭娛之樂
2025-10-04 11:41:00
保級(jí)大戰(zhàn)白熱化!4隊(duì)只差2分,梅州躍居第13,新鵬城魔鬼賽程

保級(jí)大戰(zhàn)白熱化!4隊(duì)只差2分,梅州躍居第13,新鵬城魔鬼賽程

奧拜爾
2025-10-04 21:07:17
夢(mèng)劇場處子球!塞斯科兩場連破門,262天第一次,阿莫林揮拳慶祝

夢(mèng)劇場處子球!塞斯科兩場連破門,262天第一次,阿莫林揮拳慶祝

奧拜爾
2025-10-04 22:39:54
湖北美女毛大媛去世,人很漂亮,年僅32歲,前一天還好好的發(fā)視頻

湖北美女毛大媛去世,人很漂亮,年僅32歲,前一天還好好的發(fā)視頻

鋭娛之樂
2025-10-04 11:37:53
從斷網(wǎng)到斷聲:塔利班正在把阿富汗變成一座巨大的籠子

從斷網(wǎng)到斷聲:塔利班正在把阿富汗變成一座巨大的籠子

西域都護(hù)
2025-10-03 15:15:59
“郭靖黃蓉”亮相武漢花車巡游意外沖上熱搜,襄陽廣發(fā)英雄帖全網(wǎng)尋找最帥“靖哥哥”

“郭靖黃蓉”亮相武漢花車巡游意外沖上熱搜,襄陽廣發(fā)英雄帖全網(wǎng)尋找最帥“靖哥哥”

極目新聞
2025-10-04 08:44:31
自民黨總裁選舉爆冷!高市早苗或成首位女首相,中日關(guān)系窗口期會(huì)否收窄

自民黨總裁選舉爆冷!高市早苗或成首位女首相,中日關(guān)系窗口期會(huì)否收窄

上觀新聞
2025-10-04 18:28:03
假期披露:“80后”縣長歐明鋒被雙開

假期披露:“80后”縣長歐明鋒被雙開

魯中晨報(bào)
2025-10-04 14:17:04
陜西旬陽通報(bào)“男子婚禮當(dāng)天跳河”:因婚禮瑣事情緒失控,多部門正全力搜救

陜西旬陽通報(bào)“男子婚禮當(dāng)天跳河”:因婚禮瑣事情緒失控,多部門正全力搜救

澎湃新聞
2025-10-04 08:54:26
蘋果官宣,4款新品可國補(bǔ),直降 2000 元!

蘋果官宣,4款新品可國補(bǔ),直降 2000 元!

科技堡壘
2025-10-04 11:27:19
臺(tái)風(fēng)“麥德姆”將帶來暴雨大暴雨,最新路徑公布

臺(tái)風(fēng)“麥德姆”將帶來暴雨大暴雨,最新路徑公布

界面新聞
2025-10-04 07:14:37
越南高鐵夢(mèng)再次破碎!日本搞砸4000億高鐵項(xiàng)目,我國拒絕“接盤”

越南高鐵夢(mèng)再次破碎!日本搞砸4000億高鐵項(xiàng)目,我國拒絕“接盤”

木禾投研
2025-10-04 15:59:08
新郎跳河后續(xù):冒一下頭被沖走,新娘面相不一般,疑下車又要3萬

新郎跳河后續(xù):冒一下頭被沖走,新娘面相不一般,疑下車又要3萬

卷史
2025-10-04 13:25:38
蔣介石為何堅(jiān)決下命令處決參謀次長吳石?周總理說了6個(gè)字!

蔣介石為何堅(jiān)決下命令處決參謀次長吳石?周總理說了6個(gè)字!

凡人侃史
2025-10-03 18:19:12
最慘的演員一定是三級(jí)片演員:沒有未來,而且拍一輩子片買不起房

最慘的演員一定是三級(jí)片演員:沒有未來,而且拍一輩子片買不起房

陳赩愛體育
2025-10-04 21:55:58
這個(gè)假期太火爆!大學(xué)生當(dāng)“兼職野人”:游客太熱情,投喂太多已經(jīng)吃不下,累壞了

這個(gè)假期太火爆!大學(xué)生當(dāng)“兼職野人”:游客太熱情,投喂太多已經(jīng)吃不下,累壞了

每日經(jīng)濟(jì)新聞
2025-10-04 00:03:38
上海大師賽:商竣程2-0爆冷首勝世界前十 首進(jìn)大師賽32強(qiáng)

上海大師賽:商竣程2-0爆冷首勝世界前十 首進(jìn)大師賽32強(qiáng)

醉臥浮生
2025-10-04 22:23:47
2025-10-05 01:23:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術(shù)的創(chuàng)造者和使用者
2589文章數(shù) 7632關(guān)注度
往期回顧 全部

科技要聞

OpenAI Sora上線第4天拿下蘋果美國App頭名

頭條要聞

高市早苗當(dāng)選是否意味日本極右翼思想崛起 專家分析

頭條要聞

高市早苗當(dāng)選是否意味日本極右翼思想崛起 專家分析

體育要聞

多庫2.0,無解盤帶之外的飛躍

娛樂要聞

他們優(yōu)秀的一生,只“欠”父母

財(cái)經(jīng)要聞

不接親不主持不喝酒 年輕人“改造”婚禮

汽車要聞

一汽奧迪贈(zèng)予四川嚴(yán)重交通事故車主終身保養(yǎng)服務(wù)

態(tài)度原創(chuàng)

本地
旅游
教育
公開課
軍事航空

本地新聞

讀港校想省錢,社恐輸在起跑線

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

炫耀式父母,制造了自卑式孩子

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:以色列須立即停止轟炸加沙

無障礙瀏覽 進(jìn)入關(guān)懷版 国产女人18毛片水真多18精品 | 成人午夜无码| 人妻少妇精品系列| 女m羞辱调教视频网站| 亚洲精品国产高清久久伦理二区| 特级毛片A片全免费播放心| 亚洲人成无码网站久久| 午夜肉伦伦影院| 国产成人Av黄大片在线播放| 青青草原亚洲视频| 国产成人久久综合一区| A黄在线观看| 97超碰人人人人人人少妇| 人人摸人人澡人人| 国产乱人伦av在线a| 99精品久久精品一区二区| 久久亚洲精品无码aⅴ大香| 日韩a无v码在线播放| 熟女av九九| 欧洲亚洲清纯在线无码| 九色综合国产一区二区三区| 欧洲亚洲色一区二区色99| 久久久一起草| 亚洲AV欲女久久夜夜嗨| xxxxx二区| 成人无码国产一区二区色欲| 免费在线看a网站| 国产综合21p| 无码免费日韩人妻| 亚洲尤物在线| 老司机99精品99| 免费人成在线观看| 成品人视频ww入口| 亚洲成熟av| 一一本之道高清手机在线观看| 亚洲爆乳无码| 少妇下蹲露大唇无遮挡| 国产精品亚洲二区在线看| 国产精东天美Av影视传媒| 中文字幕久久亚洲一区| 公安局长初尝警花味|