作者 | 理查德·薩頓(Richard Sutton)
原標(biāo)題 | OaK 架構(gòu):一個(gè)源于經(jīng)驗(yàn)的超級(jí)智能構(gòu)想
來源 | RLC 2025 會(huì)議文章(youtu.be/gEbbGyNkR2U)
編譯 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
隨著人工智能發(fā)展成為一個(gè)龐大的產(chǎn)業(yè),它在很大程度上已經(jīng)迷失了方向。
我們需要什么才能重回正軌,去探尋真正的智能?
我們需要能夠持續(xù)學(xué)習(xí)的智能體、世界模型和規(guī)劃能力,以及學(xué)習(xí)高層次知識(shí)和通過元學(xué)習(xí)掌握泛化的能力。
OaK 架構(gòu)正是對(duì)所有這些需求的一個(gè)系統(tǒng)性回應(yīng)。從整體上看,它是一個(gè)基于模型的強(qiáng)化學(xué)習(xí)架構(gòu),并具備三個(gè)鮮明特點(diǎn):
1)其所有組件都能持續(xù)學(xué)習(xí);
2)每一個(gè)學(xué)習(xí)到的權(quán)重,都配有一個(gè)專門的步長參數(shù),該參數(shù)通過在線交叉驗(yàn)證進(jìn)行元學(xué)習(xí);
3)狀態(tài)和時(shí)間上的抽象概念,通過一個(gè)我們稱之為 FC-STOMP 的五步演進(jìn)路徑被持續(xù)創(chuàng)造出來,即:特征構(gòu)建( F eature C onstruction)、基于特征提出子任務(wù)(posing a S ub T ask)、學(xué)習(xí)一個(gè)選項(xiàng)來解決該子任務(wù)(learning an O ption)、學(xué)習(xí)該選項(xiàng)的模型(learning a M odel)、以及使用該選項(xiàng)的模型進(jìn)行規(guī)劃( P lanning)。
OaK 架構(gòu)的內(nèi)容相當(dāng)豐富。在本文中,我們將勾勒其輪廓,并闡明那些為這一宏大構(gòu)想——即超級(jí)智能如何從智能體的經(jīng)驗(yàn)中涌現(xiàn)——做出貢獻(xiàn)的諸多既有和同期的研究工作。
引言
OaK 架構(gòu)是一個(gè)關(guān)于超級(jí)智能如何從經(jīng)驗(yàn)中誕生的構(gòu)想,它凝結(jié)了我為探尋人工智能核心問題而進(jìn)行的長期思考與探索。在深入細(xì)節(jié)之前,我想首先強(qiáng)調(diào)人工智能這項(xiàng)任務(wù)的艱巨性與重要性。
人工智能的探索,本質(zhì)上是一場偉大的遠(yuǎn)征。我們?cè)噲D理解人類心智的運(yùn)作方式,創(chuàng)造出與人類相仿的智能,并最終賦予我們自身更強(qiáng)大的力量。這無疑是一個(gè)意義深遠(yuǎn)的智力里程碑,其影響將是革命性的。盡管這一認(rèn)知已是共識(shí),但我們?nèi)杂斜匾獣r(shí)常停下腳步,去真正體味我們所從事事業(yè)的非凡難度與深遠(yuǎn)意義。從智力里程碑的意義上講,其重要性或可與地球上生命的起源相提并論——至少,當(dāng)這個(gè)星球上的智能體終于開始理解自身如何運(yùn)作、如何思考,并意識(shí)到這種理解將如何顛覆一切時(shí),其意義是同等重大的。
當(dāng)然,這也是人類文明發(fā)展歷程的自然延續(xù),只是開啟了一個(gè)更為宏大的新篇章。
我堅(jiān)信,這一進(jìn)程只會(huì)導(dǎo)向一個(gè)美好的未來。盡管許多人對(duì)此心存憂慮,但我認(rèn)為其本質(zhì)是純粹向善的。并且,最偉大的進(jìn)步仍在前方,這是一場需要耐心與毅力的馬拉松。對(duì)于強(qiáng)化學(xué)習(xí)領(lǐng)域的研究者而言,一個(gè)值得慶幸的觀點(diǎn)是,通往完全人工智能(即強(qiáng)人工智能)的必經(jīng)之路,是強(qiáng)化學(xué)習(xí)這類經(jīng)驗(yàn)性方法,而非大語言模型等非經(jīng)驗(yàn)性路徑。然而,一個(gè)看似矛盾的現(xiàn)實(shí)是,當(dāng)前最大的瓶頸恰恰在于我們?nèi)狈ψ銐騼?yōu)秀的學(xué)習(xí)算法。人們或許會(huì)認(rèn)為,擁有了深度學(xué)習(xí),我們最擅長的領(lǐng)域便是學(xué)習(xí)算法。但在我看來,事實(shí)遠(yuǎn)非如此。我們現(xiàn)有的算法還相當(dāng)粗糙,亟待改進(jìn),而這,正應(yīng)是我們?nèi)σ愿暗姆较颉?/p>
在過去半個(gè)世紀(jì)對(duì)智能本質(zhì)的持續(xù)探索中,我每一天都在科研一線,致力于為強(qiáng)化學(xué)習(xí)、為從經(jīng)驗(yàn)中學(xué)習(xí),設(shè)計(jì)更優(yōu)的算法。我的研究遵循著《阿爾伯塔人工智能研究計(jì)劃》的指引——那是我與 Michael Bowling 和 Patrick Pilarski 在幾年前共同制定的藍(lán)圖。
今天,我將要探討的 OaK 架構(gòu),正是一個(gè)旨在構(gòu)建通用人工智能智能體的整體性構(gòu)想。我深信,它為我們指明了一條通往“理解心智”這一終極目標(biāo)的清晰路徑。
OaK 架構(gòu):命名與愿景
讓我們從 OaK 這個(gè)名字開始。這個(gè)名字源于兩個(gè)核心概念:“選項(xiàng)”( O ptions)和“知識(shí)”( K nowledge)。
在座的許多研究者都對(duì)“選項(xiàng)”這一概念非常熟悉。通常,一個(gè)選項(xiàng)被定義為一個(gè)三元組,但經(jīng)過我過去二十年的研究演進(jìn),我已經(jīng)舍棄了起始集(initiation set)的設(shè)定。
因此,對(duì)我而言,選項(xiàng)是一個(gè)更為簡潔的組合,僅包含一個(gè)策略(policy)——即一種行為方式,和一個(gè)終止條件(termination condition)——即決定何時(shí)停止該行為的方式。在 OaK 架構(gòu)中,智能體的核心構(gòu)成是海量的選項(xiàng),而它的“知識(shí)”,則具體表現(xiàn)為關(guān)于執(zhí)行某個(gè)選項(xiàng)后世界會(huì)發(fā)生何種變化的知識(shí)。通過這種方式,智能體旨在學(xué)習(xí)一個(gè)關(guān)于世界的高層次轉(zhuǎn)換模型。這個(gè)模型使其能夠以更長的時(shí)間跨度進(jìn)行規(guī)劃,并有望深刻洞察世界內(nèi)在的結(jié)構(gòu),如同“庖丁解?!卑阌稳杏杏?。
這就是 OaK 名稱的由來。我認(rèn)為,我們所面對(duì)的是一項(xiàng)宏大的挑戰(zhàn),一場偉大的遠(yuǎn)征。因此,我常將其比作追尋人工智能的“圣杯”。
為了更清晰地闡述其核心理念,我們可以將其設(shè)計(jì)目標(biāo)歸納為以下三點(diǎn):
領(lǐng)域通用性(Domain-General) :該設(shè)計(jì)不應(yīng)包含任何針對(duì)特定世界的預(yù)設(shè)知識(shí),而應(yīng)具備普適性。
經(jīng)驗(yàn)性(Empirical) :心智的成長應(yīng)完全源于運(yùn)行時(shí)的經(jīng)驗(yàn)積累,而非依賴于某個(gè)特殊的訓(xùn)練階段。
開放式復(fù)雜性(Open-ended Complexity) :智能體應(yīng)能在其心智中形成處理當(dāng)前世界所必需的任何概念,其復(fù)雜性和抽象能力的上限僅受限于其計(jì)算資源。
這三大核心訴求,將是我們接下來探討的重點(diǎn)。
核心理念:運(yùn)行時(shí)學(xué)習(xí)與“大世界”視角
首先,有必要對(duì)兩個(gè)關(guān)鍵術(shù)語——“設(shè)計(jì)時(shí)”(design-time)與“運(yùn)行時(shí)”(run-time)——加以界定?!霸O(shè)計(jì)時(shí)”指代智能體在“工廠”中被構(gòu)建的階段,任何領(lǐng)域知識(shí)都應(yīng)在此時(shí)被編碼進(jìn)去。而“運(yùn)行時(shí)”則是智能體進(jìn)入真實(shí)世界后,通過與環(huán)境的實(shí)際互動(dòng)來學(xué)習(xí)、生活并制定計(jì)劃的階段。
以大語言模型為例,其幾乎所有的“智能”都在設(shè)計(jì)時(shí)完成。一旦被部署使用,它便不再從新的交互中學(xué)到任何東西。而我所倡導(dǎo)的理念恰恰相反:所有重要的事情都應(yīng)在運(yùn)行時(shí)發(fā)生,即所謂的“在線學(xué)習(xí)”、“在崗學(xué)習(xí)”。
這便引出了“大世界”(Big World)視角。
“大世界”假說,這一概念在阿爾伯塔的研究環(huán)境中已醞釀多年,并深刻地影響了我們的思維與設(shè)計(jì)方式。其核心思想十分簡單:世界遠(yuǎn)比智能體更龐大、更復(fù)雜——其程度遠(yuǎn)超想象。世界必然遠(yuǎn)大于智能體,因?yàn)樗藬?shù)十億其他智能體,以及萬物復(fù)雜的原子結(jié)構(gòu)和細(xì)節(jié)。其他智能體(無論是朋友、伙伴還是競爭對(duì)手)頭腦中的信息都與自身息息相關(guān),必須被納入考量。
由此得出的一個(gè)關(guān)鍵結(jié)論是:智能體所做的任何事都不可能是精確的、最優(yōu)的,而只能是近似的。其構(gòu)建的價(jià)值函數(shù)必然是近似價(jià)值函數(shù);其策略也不可能是最優(yōu)策略;其對(duì)世界的轉(zhuǎn)換模型,也必然是經(jīng)過高度簡化的。智能體頭腦中的世界模型,與外部那個(gè)龐大得多的真實(shí)世界相比,顯得微不足道。智能體永遠(yuǎn)無法在心智中容納世界的單個(gè)完整狀態(tài),更不用說容納其他所有智能體的心智狀態(tài)了。
這一視角最重要的推論是,世界對(duì)于智能體而言,最終將呈現(xiàn)出非平穩(wěn)性(non-stationarity)。正如我和 Dave Silver、Anna Koop 在一篇論文中所指出的,當(dāng)智能體缺乏對(duì)世界狀態(tài)的完美感知和精確模型時(shí),龐大世界中許多看似相似的區(qū)域,其實(shí)存在著函數(shù)逼近器無法捕捉的細(xì)微差別。這使得世界看起來是動(dòng)態(tài)變化的。因此,運(yùn)行時(shí)的學(xué)習(xí)和規(guī)劃變得至關(guān)重要。智能體必須具備在運(yùn)行時(shí)根據(jù)實(shí)際遭遇的情境,發(fā)現(xiàn)任何所需抽象的能力。這也意味著,在設(shè)計(jì)時(shí)預(yù)置的抽象概念,不僅是不充分的,甚至應(yīng)該被摒棄。
運(yùn)行時(shí)的學(xué)習(xí)總是優(yōu)于設(shè)計(jì)時(shí)的學(xué)習(xí),原因有三:
覆蓋范圍 :“大世界”視角決定了設(shè)計(jì)時(shí)無法預(yù)見所有可能情況。
適應(yīng)性 :運(yùn)行時(shí)學(xué)習(xí)可以針對(duì)智能體實(shí)際遇到的那部分世界進(jìn)行高度定制和優(yōu)化。
可擴(kuò)展性 :運(yùn)行時(shí)學(xué)習(xí)的能力隨可用的計(jì)算資源而擴(kuò)展,而設(shè)計(jì)時(shí)學(xué)習(xí)則受限于可用的人類專業(yè)知識(shí)?;仡櫄v史,“慘痛的教訓(xùn)”(the bitter lesson)明確指出,隨計(jì)算資源擴(kuò)展的一方終將勝出。
然而,我們必須承認(rèn),當(dāng)今的深度學(xué)習(xí)方法在持續(xù)學(xué)習(xí)(continual learning)方面表現(xiàn)不佳,這是一個(gè)亟待解決的痛點(diǎn)。此外,運(yùn)行時(shí)學(xué)習(xí)還有一個(gè)關(guān)鍵優(yōu)勢:它使得元學(xué)習(xí)(meta-learning)成為可能。元學(xué)習(xí)的精髓在于“在學(xué)習(xí)中提升學(xué)習(xí)能力”——智能體可以嘗試不同的學(xué)習(xí)策略,評(píng)估其效果,并選擇更優(yōu)者用于未來的學(xué)習(xí)。這種自我改進(jìn)的過程,要求學(xué)習(xí)本身必須是一個(gè)持續(xù)的、在運(yùn)行時(shí)發(fā)生的過程。
問題設(shè)定:強(qiáng)化學(xué)習(xí)與獎(jiǎng)勵(lì)假說
在探討解決方案之前,讓我們先明確問題的范疇。人工智能的根本問題,是設(shè)計(jì)一個(gè)能在世界中有效行動(dòng)以達(dá)成目標(biāo)的智能體。經(jīng)典的強(qiáng)化學(xué)習(xí)問題與之本質(zhì)相同,只是更具體地指出:目標(biāo)由一個(gè)稱為“獎(jiǎng)勵(lì)”(reward)的標(biāo)量信號(hào)來定義,且世界是通用的、不完全已知的。這個(gè)世界可以是任何形態(tài),從簡單的網(wǎng)格世界到復(fù)雜的人類社會(huì),它可以是隨機(jī)的、非線性的、非馬爾可夫的。在“大世界”中,狀態(tài)空間實(shí)際上是無限的,其動(dòng)態(tài)變化也呈現(xiàn)非平穩(wěn)性。
在此,我想重申“獎(jiǎng)勵(lì)假說”(The Reward Hypothesis)的重要性。這個(gè)假說并非一個(gè)草率的選擇,而是經(jīng)過深思熟慮的理論基石。它主張:我們所說的一切“目標(biāo)”和“目的”,其含義都可以被嚴(yán)謹(jǐn)?shù)乩斫鉃閷?duì)一個(gè)接收到的標(biāo)量信號(hào)(即“獎(jiǎng)勵(lì)”)的累積和的期望值的最大化。
這個(gè)定義中的“期望值”、“累積和”等設(shè)定都經(jīng)過了仔細(xì)推敲。“標(biāo)量獎(jiǎng)勵(lì)”本身是一個(gè)偉大的思想,它以一種極為清晰的方式指定了目標(biāo),并已在人工智能、經(jīng)濟(jì)學(xué)、心理學(xué)、控制論等多個(gè)學(xué)科中得到廣泛應(yīng)用。長久以來,學(xué)術(shù)界不乏對(duì)其進(jìn)行修改的嘗試,例如引入約束、多目標(biāo)、風(fēng)險(xiǎn)敏感性等概念。但我個(gè)人傾向于保持其簡潔性,因?yàn)槲易非蟮氖歉拍钌系那逦c簡約。
真正的問題是:我們是否需要這些額外的復(fù)雜性來獲得通用性?Michael Bowling 及其同事在一篇題為《為獎(jiǎng)勵(lì)假說正名》的論文中給出了有力的論證。他們證明,增加多目標(biāo)、風(fēng)險(xiǎn)敏感性或約束等機(jī)制,并不會(huì)增加通用性。這從側(cè)面驗(yàn)證了我們選擇的正確性。此外,在另一篇《獎(jiǎng)勵(lì)即足夠》的論文中,我們進(jìn)一步論證了,在一個(gè)足夠復(fù)雜的世界里,即使是簡單的獎(jiǎng)勵(lì)信號(hào)也足以引出智能的所有屬性。
OaK 架構(gòu)的解決方案
現(xiàn)在,讓我們轉(zhuǎn)向解決方案,即架構(gòu)本身。一個(gè)顯而易見的起點(diǎn)是無模型的強(qiáng)化學(xué)習(xí),智能體在運(yùn)行時(shí)構(gòu)建一個(gè)策略和一個(gè)價(jià)值函數(shù)。如果能從數(shù)據(jù)中構(gòu)建自己的狀態(tài)表示,就可以處理非馬爾可夫問題。然而,一個(gè)更優(yōu)的方案或許是建立一個(gè)世界模型,并利用該模型進(jìn)行規(guī)劃。
OaK 架構(gòu)正是在這條演進(jìn)路徑上的又一次飛躍。其核心特點(diǎn)在于引入了輔助問題(或稱子問題),并且每個(gè)子問題都擁有各自的價(jià)值函數(shù)和策略。此外,每一個(gè)子問題都將基于狀態(tài)特征表示的不同組成部分。我們可以將狀態(tài)想象成一個(gè)特征向量,而每個(gè)子問題都聚焦于該向量的不同維度。
該架構(gòu)的核心可概括為在運(yùn)行時(shí)并行完成的八個(gè)步驟。下文將對(duì)這些步驟逐一展開,并會(huì)反復(fù)審視這一整體框架。
學(xué)習(xí)主策略與價(jià)值函數(shù) :學(xué)習(xí)用于最大化主獎(jiǎng)勵(lì)信號(hào)的策略和價(jià)值函數(shù)。這類似于標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)。這一項(xiàng)可標(biāo)記為“概念上已完成,但有待工程實(shí)現(xiàn)上的完善”,因?yàn)樗蕾囉谖覀兩形赐耆鉀Q的持續(xù)深度學(xué)習(xí)問題。
生成新狀態(tài)特征 :從現(xiàn)有特征中生成新的、可能更有用的狀態(tài)特征。這是一個(gè)核心挑戰(zhàn),我們稍后會(huì)詳細(xì)討論。
對(duì)特征進(jìn)行排序 :維護(hù)關(guān)于所有特征效用的元數(shù)據(jù),并根據(jù)其重要性進(jìn)行排序。
創(chuàng)建子問題 :為排名最高的特征創(chuàng)建子問題。例如,若“身處演講廳”被評(píng)估為一個(gè)重要特征,系統(tǒng)就會(huì)創(chuàng)建一個(gè)子問題,其目標(biāo)是“在不損失過多主獎(jiǎng)勵(lì)的前提下,成功到達(dá)演講廳”。
學(xué)習(xí)選項(xiàng) :為每個(gè)子問題學(xué)習(xí)一個(gè)解決方案,這個(gè)解決方案就是一個(gè)“選項(xiàng)”(Option),即 OaK 中“O”的來源。
學(xué)習(xí)選項(xiàng)模型 :學(xué)習(xí)每個(gè)選項(xiàng)的轉(zhuǎn)換模型,即預(yù)測執(zhí)行某個(gè)選項(xiàng)后世界會(huì)發(fā)生什么。這是 OaK 中“K”(Knowledge)的體現(xiàn),構(gòu)成了高層次的世界模型。
使用模型進(jìn)行規(guī)劃 :利用學(xué)習(xí)到的選項(xiàng)模型進(jìn)行規(guī)劃,以改進(jìn)主策略和價(jià)值函數(shù)。
管理與維護(hù) :持續(xù)管理所有組件,評(píng)估其效用,淘汰無用部分,并不斷生成新的組件。
在 OaK 架構(gòu)中,子問題的創(chuàng)建是一個(gè)核心環(huán)節(jié)。智能體必須能夠自己生成子問題,這一觀點(diǎn)回應(yīng)了關(guān)于好奇心、內(nèi)在動(dòng)機(jī)和輔助任務(wù)研究中的一系列關(guān)鍵開放性問題:子問題應(yīng)該是什么?它們從何而來?智能體能否自己創(chuàng)造子問題?它們?nèi)绾螏椭鉀Q主問題?OaK 的貢獻(xiàn)在于,它對(duì)這些問題提出了一個(gè)統(tǒng)一的答案,并肯定了智能體自我創(chuàng)造子問題的能力,從而實(shí)現(xiàn)了開放式的抽象。
我們可以將其想象成一個(gè)“問題”與“解決方案”相互促進(jìn)的循環(huán):我們提出一個(gè)要解決的問題,然后去解決它;在解決問題的過程中,會(huì)創(chuàng)造出新的特征;這些新特征又成為新子問題的基礎(chǔ),而這些新子問題又必須被解決,從而催生更新的特征,如此循環(huán)往復(fù),永無止境。
自然界中的“玩?!保╬lay)行為能為我們提供生動(dòng)的啟示。一只蕩秋千的年輕猩猩,并非為了覓食,而很可能是被搖蕩時(shí)的感覺所吸引,并試圖復(fù)現(xiàn)和控制這種體驗(yàn)。一只虎鯨反復(fù)將浮標(biāo)頂?shù)奖成希诧@然是在探索和完善一個(gè)自創(chuàng)的目標(biāo)。人類嬰兒的玩耍更是如此,他們從一個(gè)物體轉(zhuǎn)向另一個(gè),了解其特性,感到厭煩,再轉(zhuǎn)向下一個(gè),逐步建立起對(duì)世界越來越豐富的理解。
這些行為的本質(zhì),可以被看作是智能體在為自己提出子問題——一些需要去了解、理解、預(yù)測和控制的事物。因此,子問題不能由設(shè)計(jì)者預(yù)先給定,它們必須由智能體在與世界的互動(dòng)中自主創(chuàng)造,因?yàn)樗鼈償?shù)量繁多且與具體環(huán)境高度相關(guān)。
那么,如何以一種領(lǐng)域無關(guān)的方式創(chuàng)造子問題呢?OaK 提出了一種具體機(jī)制,稱為“尊重獎(jiǎng)勵(lì)的特征達(dá)成子問題”(Reward-Respecting, Feature-Achieving Subproblem)。當(dāng)智能體遇到或創(chuàng)造一個(gè)新特征時(shí)(例如,聽到搖鈴的聲音),它可以將其作為子問題的基礎(chǔ)。這個(gè)子問題的目標(biāo)是: 在不損失過多主獎(jiǎng)勵(lì)的前提下,將世界驅(qū)動(dòng)到一個(gè)該特征值很高的狀態(tài)。
該目標(biāo)的數(shù)學(xué)表達(dá)如下:
在這個(gè)方程中,智能體試圖找到一個(gè)選項(xiàng)(策略 π 和終止函數(shù) γ),以最大化一個(gè)期望值。該期望值包含三部分:1)執(zhí)行選項(xiàng)期間獲得的累積獎(jiǎng)勵(lì) ∑R ;2)終止時(shí)達(dá)成特征 i 所獲得的額外獎(jiǎng)勵(lì) κ·φ?(S_T) ,其中 κ 代表對(duì)該特征的渴望程度;3)終止時(shí)所處狀態(tài)的價(jià)值 V(S_T) ,這確保了智能體不會(huì)為了達(dá)成子目標(biāo)而陷入一個(gè)長期來看很糟糕的狀態(tài)(例如,為了喝到咖啡而摔斷腿)。
FC-STOMP:從特征到規(guī)劃的演進(jìn)路徑
這個(gè)子問題創(chuàng)造機(jī)制,是 OaK 架構(gòu)中一個(gè)更宏大流程的核心。我們可以將這個(gè)流程總結(jié)為一條五步走的演進(jìn)路徑,我們稱之為 FC-STOMP :
特征構(gòu)建 (Feature Construction) :感知過程負(fù)責(zé)構(gòu)建有趣的狀態(tài)特征。
提出子任務(wù) (posing a SubTask) :基于高排名的特征,構(gòu)建“尊重獎(jiǎng)勵(lì)的特征達(dá)成子問題”。
學(xué)習(xí)選項(xiàng) (learning an Option) :通過強(qiáng)化學(xué)習(xí)求解子問題,得到一個(gè)選項(xiàng)作為其解決方案。
學(xué)習(xí)模型 (learning a Model) :學(xué)習(xí)這個(gè)新選項(xiàng)的轉(zhuǎn)換模型,即預(yù)測其后果。
規(guī)劃 (Planning) :將新選項(xiàng)及其模型整合到已有的世界模型中,用于規(guī)劃,從而改進(jìn)整體策略和價(jià)值函數(shù)。
這五個(gè)步驟構(gòu)成了一個(gè)發(fā)現(xiàn)與改進(jìn)的閉環(huán)。所有依賴特征的步驟(如學(xué)習(xí)選項(xiàng)、學(xué)習(xí)模型、規(guī)劃)都會(huì)向特征構(gòu)建過程提供反饋,告知哪些特征被證明是有用的,從而引導(dǎo)新特征的生成。
在算法層面,學(xué)習(xí)選項(xiàng)的價(jià)值函數(shù)、學(xué)習(xí)選項(xiàng)模型等任務(wù),都可以利用現(xiàn)有的、成熟的離策略(off-policy)通用價(jià)值函數(shù)(GVF)學(xué)習(xí)算法,如 GTD、Emphatic TD、Retrace、ABQ 等。規(guī)劃過程則可以被視為價(jià)值迭代(value iteration)的近似。有趣的是,使用選項(xiàng)模型進(jìn)行規(guī)劃,其數(shù)學(xué)形式與傳統(tǒng)的基于單步動(dòng)作的價(jià)值迭代驚人地相似,只是將“動(dòng)作”替換為了“選項(xiàng)”,將“單步獎(jiǎng)勵(lì)”替換為了“選項(xiàng)執(zhí)行期間的累積獎(jiǎng)勵(lì)”。這使得“任何可以被學(xué)習(xí)的東西,也同樣可以被規(guī)劃”這一原則得以實(shí)現(xiàn)。
面臨的挑戰(zhàn):持續(xù)學(xué)習(xí)與特征生成
盡管 OaK 架構(gòu)為我們描繪了一幅清晰的藍(lán)圖,但仍有兩個(gè)關(guān)鍵的技術(shù)挑戰(zhàn)有待攻克。
1. 可靠的持續(xù)深度學(xué)習(xí) :OaK 的所有組件都要求能夠持續(xù)學(xué)習(xí)。在線性和表格情況下,我們已有可靠的方法。但在非線性的深度學(xué)習(xí)場景中,災(zāi)難性遺忘(catastrophic forgetting)和災(zāi)難性可塑性喪失(catastrophic loss of plasticity)等問題依然存在。盡管目前有持續(xù)反向傳播(continual backpropagation)等一系列解決方案正在涌現(xiàn),但這仍是一個(gè)活躍且尚未完全解決的研究領(lǐng)域。
2. 新狀態(tài)特征的生成 :這個(gè)問題,也被稱為“表示學(xué)習(xí)”或“新術(shù)語問題”,歷史悠久,可追溯至上世紀(jì) 60 年代。盡管反向傳播被認(rèn)為部分解決了這個(gè)問題,但它并非萬能。除梯度下降外,大多數(shù)方法都遵循“生成與測試”的范式:生成大量候選特征,然后通過評(píng)估其在解決問題中的效用來進(jìn)行篩選。我認(rèn)為,諸如 IDBD 這類根據(jù)每個(gè)特征的個(gè)體學(xué)習(xí)情況來調(diào)整其學(xué)習(xí)率的元學(xué)習(xí)算法,將是解決這一問題的關(guān)鍵部分。我相信,這個(gè)問題有望在未來幾年內(nèi)取得突破,屆時(shí)將徹底改變我們使用深度學(xué)習(xí)的方式。
結(jié)論與展望
OaK 架構(gòu)的構(gòu)想,是否成功回應(yīng)了我們最初設(shè)定的遠(yuǎn)征目標(biāo)?它在設(shè)計(jì)上是完全領(lǐng)域通用的,不包含任何針對(duì)特定世界的內(nèi)容;它完全是經(jīng)驗(yàn)性的,所有知識(shí)和能力都從運(yùn)行時(shí)經(jīng)驗(yàn)中成長;并且,它致力于實(shí)現(xiàn)無限的、開放式的抽象發(fā)現(xiàn),其唯一的限制是計(jì)算資源。
我認(rèn)為,強(qiáng)化學(xué)習(xí)與 OaK 架構(gòu)為人工智能領(lǐng)域的幾個(gè)根本性問題,提供了第一個(gè)合理的、機(jī)制性的答案:
知識(shí)的起源 :高層次的知識(shí)如何從低層次的經(jīng)驗(yàn)中學(xué)習(xí)而來?
概念的形成 :概念從何而來?它們可以被視為為了解決自創(chuàng)子問題而形成的內(nèi)部表示。
推理的本質(zhì) :什么是推理?或許它就是基于學(xué)習(xí)到的高層次世界模型進(jìn)行的規(guī)劃。
玩耍的目的 :玩耍的目的是什么?是為了發(fā)現(xiàn)和構(gòu)建認(rèn)知基石的子問題。
感知的意義 :在沒有人類標(biāo)簽的情況下,感知如何運(yùn)作?感知可以是為了解決子問題而形成的概念化過程。
對(duì)于從事強(qiáng)化學(xué)習(xí)研究的 AI 科學(xué)家而言,OaK 提供了一個(gè)思考人工智能各個(gè)部分如何協(xié)同工作的框架,能夠指導(dǎo)未來的研究方向。它提出了一個(gè)關(guān)于如何用學(xué)習(xí)到的模型進(jìn)行規(guī)劃的構(gòu)想,這正是當(dāng)今 AI 所缺失的關(guān)鍵能力。它提供了一種植根于經(jīng)驗(yàn)和認(rèn)知,而非匹配人類標(biāo)簽的感知觀。最重要的是,它為強(qiáng)化學(xué)習(xí)中的“發(fā)現(xiàn)”問題——即子問題、選項(xiàng)和特征從何而來——提供了綱領(lǐng)性的答案。
綜上所述,OaK 是一個(gè)關(guān)于如何獲得一個(gè)完全從經(jīng)驗(yàn)中成長起來的、開放式的超級(jí)智能的構(gòu)想。它描繪了一個(gè)在運(yùn)行時(shí)從經(jīng)驗(yàn)中培育超級(jí)智能的藍(lán)圖,整合了行動(dòng)、學(xué)習(xí)、規(guī)劃、模型學(xué)習(xí)、子問題和選項(xiàng)等核心能力,并結(jié)合了函數(shù)逼近、部分可觀測性、非平穩(wěn)性等現(xiàn)實(shí)挑戰(zhàn)。所有這一切,都在一個(gè)良性的、開放式的發(fā)現(xiàn)循環(huán)中協(xié)同工作:狀態(tài)特征的發(fā)現(xiàn),激發(fā)了問題、選項(xiàng)和模型的發(fā)現(xiàn),而這些新產(chǎn)生的組件又反過來促進(jìn)了新的、更抽象特征的形成。作為一個(gè)完全通用、不含任何領(lǐng)域特定組件的架構(gòu),OaK 具有強(qiáng)大的可擴(kuò)展性,并有望對(duì)人工智能的未來產(chǎn)生深遠(yuǎn)而 持久的影響。
【活動(dòng)分享】2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)(ML-Summit)北京站將于 2025 年 10 月 16-17 日在北京威斯汀酒店舉辦。大會(huì)共 12 大主題、50+ 海內(nèi)外專家,聚焦大模型技術(shù)和應(yīng)用變革。詳情參考官網(wǎng): https://ml-summit.org (或點(diǎn)擊原文鏈接)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.