夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI圣經(jīng)《苦澀的教訓》:AI走過的那段彎路帶來了哪些啟示? |【經(jīng)緯低調(diào)分享】

0
分享至

此前,一位OpenAI工程師曬出自己的行程計劃表,其中有一項便是每日必讀《The Bitter Lesson(苦澀的教訓)》。這篇文章作者是強化學習之父、加拿大計算機科學家理查德·薩頓( Richard S. Sutton )。這篇文章確實是不少AI領域的程序員和工程師的必讀作品,并且時不時被人提起。

為什么2019年的這篇文章依舊具有影響力?這文章的核心內(nèi)容是探討人工智能發(fā)展的歷史和未來方向,強調(diào)一個重要的教訓:過去 70 年來,AI 研究走過的最大彎路,就是過于重視人類既有經(jīng)驗和知識,而他認為最大的解決之道是摒棄人類在特定領域的知識,利用大規(guī)模算力的方法,從而獲得最終勝利。

本文不僅編譯了這篇文章,還梳理了Rich Sutton此前在播客中的對話,發(fā)現(xiàn)了一些對AI行業(yè)非常有意義的看法,如“AI 研究需要重新關注‘持續(xù)學習’ 能力,而不是僅僅追求在固定數(shù)據(jù)集上的性能?!薄拔覀儠谖磥韼资陜?nèi)完全理解智能的本質(zhì),這將從根本上改變?nèi)祟悓ψ陨淼睦斫?,并帶來深遠的技術和社會影響?!薄韵率?Rich S. Sutton 的觀點,enjoy:

來源丨《The Bitter Lesson》和AI寒武紀

70 年的人工智能研究中,我們能吸取的最重要的教訓是:那些能充分利用計算能力的通用方法,最終會成為最有效的方法,而且優(yōu)勢巨大。其根本原因在于摩爾定律,或者更廣泛地說,是單位計算成本持續(xù)呈指數(shù)級下降這一趨勢。大多數(shù)人工智能研究的開展,都仿佛假定智能體可使用的計算能力是固定不變的(在這種情況下,利用人類知識會成為提升性能的少數(shù)途徑之一)。

但實際上,只需比一個典型研究項目稍長一點的時間,海量的計算能力就必然會出現(xiàn)。為了在短期內(nèi)取得可見的改進,研究人員往往傾向于利用自己在特定領域的人類知識,然而從長遠來看,真正重要的是對計算能力的利用。這兩種方式本不必相互抵觸,但在實踐中卻常常如此—— 花時間在一種方式上,就意味著無法兼顧另一種。研究人員在心理上會對自己選擇的研究方法產(chǎn)生投入感,而基于人類知識的方法往往會讓技術變得復雜,使其難以利用那些能發(fā)揮計算能力的通用方法。人工智能研究史上有許多例子,都體現(xiàn)了研究者們遲遲才領悟到這一慘痛教訓,回顧其中最具代表性的案例會給我們帶來啟發(fā)。

在計算機國際象棋領域,1997 年擊敗世界冠軍卡斯帕羅夫的方法,核心是大規(guī)模的深度搜索。當時,大多數(shù)計算機國際象棋研究者對此深感失望,因為他們一直致力于利用人類對國際象棋特殊結構的理解來設計方法。當一種更簡單、基于搜索且搭配專用軟硬件的方法展現(xiàn)出壓倒性優(yōu)勢時,這些依賴人類知識的國際象棋研究者卻不愿坦然接受失敗。他們聲稱,“brute force(暴力)” 搜索或許這次贏了,但這并非通用策略,而且這根本不是人類下象棋的方式。這些研究者希望基于人類輸入的方法能獲勝,因此當結果不如所愿時,他們倍感失望。

計算機圍棋的研究進展也呈現(xiàn)出類似的模式,只是這一過程比國際象棋晚了20 年。起初,研究者們投入巨大精力,試圖通過利用人類知識或圍棋的特殊規(guī)則來避免搜索,但一旦搜索技術得到大規(guī)模有效應用,所有這些努力都變得無關緊要,甚至適得其反。同樣重要的是,通過自我對弈來學習價值函數(shù)(這一方法在許多其他游戲甚至國際象棋中也有應用,盡管在 1997 年首個擊敗世界冠軍的程序中,學習并未起到重要作用)。自我對弈學習以及廣義上的學習,與搜索類似,都能讓海量計算能力得以發(fā)揮。搜索和學習是人工智能研究中利用海量計算能力的兩類最重要技術。無論是計算機圍棋還是國際象棋,研究者最初都致力于利用人類的理解(以減少對搜索的需求),但直到很久以后,擁抱搜索和學習才帶來了更大的成功。

在語音識別領域,20 世紀 70 年代,美國國防高級研究計劃局(DARPA)贊助了一場早期競賽。參賽者采用了大量依賴人類知識的特殊方法 —— 涉及單詞、音素、人類聲道等方面的知識。而另一邊則是更新的、更具統(tǒng)計性質(zhì)的方法,它們基于HMMs,進行了多得多的計算。結果再次證明,統(tǒng)計方法戰(zhàn)勝了基于人類知識的方法。這引發(fā)了整個自然語言處理領域的重大變革,數(shù)十年間,統(tǒng)計和計算逐漸主導了該領域。近年來深度學習在語音識別中的興起,是這一持續(xù)趨勢的最新體現(xiàn)。深度學習方法更少依賴人類知識,而是借助更多計算、結合對海量訓練數(shù)據(jù)的學習,打造出性能顯著更優(yōu)的語音識別系統(tǒng)。與游戲領域一樣,研究者們總是試圖讓系統(tǒng)按照他們認為人類思考的方式工作 —— 他們努力將這種認知植入系統(tǒng),但最終證明這是徒勞的,甚至是對研究者時間的巨大浪費。因為隨著摩爾定律的發(fā)展,海量計算能力變得可用,人們也找到了有效利用這些計算能力的方法。

計算機視覺領域也呈現(xiàn)出類似的模式。早期方法將視覺視為尋找邊緣、廣義圓柱體或基于SIFT 特征的過程,但如今這些都已被摒棄?,F(xiàn)代深度學習神經(jīng)網(wǎng)絡僅運用卷積和某些不變性的概念,卻能實現(xiàn)好得多的性能。

這是一個重要的教訓。但我們尚未完全吸取這一教訓,因為我們?nèi)栽诜竿瑯拥腻e誤。要認識到這一點并有效避免,我們必須理解這些錯誤的吸引力所在。我們必須吸取這個慘痛的教訓:從長遠來看,將我們自認為的思考方式植入系統(tǒng)是行不通的。

這一慘痛教訓基于以下歷史觀察:

1)人工智能研究者常常試圖將知識植入智能體;

2)這在短期內(nèi)往往有幫助,也讓研究者個人感到滿足;

3)從長遠來看,這種做法會導致進展停滯,甚至阻礙進一步發(fā)展;

4)最終的突破性進展往往來自相反的方法 —— 通過搜索和學習來擴展計算能力。這種最終的成功往往帶著苦澀,且常常未被充分理解,因為它是對受青睞的、以人類為中心的方法的超越。

從這一慘痛教訓中,我們應該認識到通用方法的巨大力量—— 這些方法能隨著計算能力的增強而持續(xù)擴展,即便可用計算能力變得非常強大。在這方面,似乎能無限擴展的兩種方法是搜索和學習。

從這一慘痛教訓中可以得出的第二個普遍觀點是:人類思維的實際內(nèi)容極其復雜,且難以簡化。我們應該停止試圖尋找理解思維內(nèi)容的簡單方法,比如關于空間、物體、多智能體或?qū)ΨQ性的簡單思考方式。所有這些都是復雜多變、本質(zhì)上就極為復雜的外部世界的一部分。它們不應該被植入系統(tǒng),因為其復雜性是無窮無盡的;相反,我們應該植入的僅僅是那些能夠發(fā)現(xiàn)和捕捉這種復雜多變性的元方法。這些方法的關鍵在于,它們能找到良好的近似,但對近似的搜索應該由這些方法自主完成,而不是由我們來做。我們希望人工智能體能夠像我們一樣去發(fā)現(xiàn),而不是包含我們已經(jīng)發(fā)現(xiàn)的東西。將我們的發(fā)現(xiàn)植入系統(tǒng),只會讓我們更難理解發(fā)現(xiàn)過程本身是如何實現(xiàn)的。


人工智能新道路:與Rich Sutton的對話


以下對話來自于加拿大阿爾伯塔大學(University of Alberta) 機器智能研究所與強化學習傳奇人物
Rich Sutton
共同錄制的播客,分享了關于“持續(xù)學習與深度學習”、“目標與心智”等觀點,并給出了自己的研究建議。


主持人A:Rich,非常感謝你做客我們的播客“大約正確”。我們一直想邀請你,今天終于實現(xiàn)了,真是太好了!

Rich Sutton:謝謝Scott,很榮幸來到這里。

主持人B:我們之前在播客中討論過幾次強化學習,但我們很想知道強化學習的哪些方面吸引了你?你為什么開始研究這個領域?

Rich Sutton:我一直對與世界互動并從中學習的系統(tǒng)很感興趣,而強化學習正是如此。它需要一個目標,我們將其形式化為獎勵。但令人驚訝的是,回溯人工智能的發(fā)展,從我70年代開始研究人工智能以來,很少有研究關注系統(tǒng)與世界互動、從中學習并實現(xiàn)目標。即使在早期控制論、模式識別和監(jiān)督學習中,這些系統(tǒng)也沒有目標,它們只是試圖識別模式。模式識別是智能的重要組成部分,但它并不會為了目標而與世界互動。所以,這方面一直讓我覺得有所缺失。當我開始研究時,并沒有強化學習這個領域,是我們創(chuàng)造了它,因為當時沒有人做這方面的研究。

主持人A:你是否記得某個時刻,讓你突然意識到“啊,我想研究這個以目標為導向的方向”?

Rich Sutton:這是一個逐漸形成的想法。我們研究了人們研究過的所有不同領域,比如模式識別、控制理論等等,一直在尋找“在哪里可以找到一個系統(tǒng),它試圖做某事并從中學習”。那時有老虎機問題(Bandits),你可以反復執(zhí)行某個動作直到獲得最大獎勵,但這已經(jīng)是最接近的了,它們并沒有類似“我記得在這種情況下我應該這樣做,在那種情況下我應該那樣做,以便實現(xiàn)我的目標”的機制。

主持人B:老虎機問題本質(zhì)上是無狀態(tài)的,對吧?你只是反復做同一件事。

Rich Sutton:是的,它是無狀態(tài)的。

主持人A:你認為為什么人工智能會從預測開始?

Rich Sutton:根據(jù)我對歷史的理解,它并不是真正從預測開始的。我認為早期研究者一開始就想讓系統(tǒng)通過互動來實現(xiàn)目標。后來他們倒退回模式識別,因為模式識別更清晰、更簡單。然后他們逐漸忘記了一些最早期的研究,比如1954年Farley和Clark的研究,他們討論了試錯學習。后來,試錯學習逐漸變成了監(jiān)督學習,成了一條更清晰的前進道路。

主持人B:這是一種簡化。

Rich Sutton:是的,一直以來都是如此。很抱歉從這么早的歷史開始。

01
持續(xù)學習與深度學習

主持人A:沒關系,這很有趣,打好基礎很重要。而且邀請你的好處之一就是你還記得這些事情。讓我們回到現(xiàn)在,你目前在強化學習領域思考哪些問題?哪些方面讓你感興趣?

Rich Sutton:我只能通過談論整個人工智能領域來描述它,談談人工智能中正在發(fā)生什么、沒有發(fā)生什么以及需要發(fā)生什么。我仍然認為人工智能是與世界互動以實現(xiàn)目標。我想這意味著我們在談論強化學習。但如果你只是為了實現(xiàn)目標而與世界互動,那么你就必須建立一個世界模型,你必須有一個目標,你必須在多個時間尺度上對世界進行建模,你必須學習理解世界的正確結構、特征和概念。我還沒提到你必須嘗試不同的事情,看看哪些有效,這就是強化學習的起點。我想說,多年來,我們已經(jīng)開發(fā)出了很好的線性映射方法。如果你需要學習線性關系,那么我們做得很好,我們可以在線學習,可以持續(xù)學習。

主持人B:你能舉一個線性關系的例子嗎?哪些情況下線性關系很有效?

Rich Sutton:所有算法實際上都是為線性情況定義的,對于非線性情況,你會得到線性TD Lambda、非線性TD Lambda、Q學習,它們都有線性版本。線性版本學習速度很快,并且可以隨著世界的變化而適應,但它們無法學習非線性映射,無法學習異或,無法學習新的特征。1986年我們發(fā)現(xiàn)了反向傳播算法,我們開始能夠?qū)W習非線性映射。但這就像一個惡魔的選擇,當我們想學習非線性事物時,我們不得不放棄快速變化和持續(xù)學習的能力。

主持人A:你必須放棄嗎?我的意思是,我不認為你應該放棄。

Rich Sutton:最初發(fā)現(xiàn)的方法無法持續(xù)學習。它們能夠?qū)W習非線性事物,這太令人興奮和強大了,以至于我們?yōu)榱藢W習非線性映射而放棄持續(xù)學習的能力,這是一個很好的權衡。

主持人B:這是一個很好的權衡,但我們堅持得太久了。

Rich Sutton:而且,不知何故,我覺得這個領域的美學已經(jīng)改變了,這個領域想要專注于他們能做什么,而不是注意到他們不能做什么。

主持人A:你認為這是什么原因造成的?

Rich Sutton:原因很簡單,我們能做某些事情,所以我們就會去做這些事情。所有的深度學習都是關于“我們能用數(shù)據(jù)集做什么?我們從中學習,然后凍結我們學習到的系統(tǒng),然后在世界上運行它”。ChatGPT根本不學習,但構建它需要大量的學習。我們在語言方面取得了驚人的成就,但我們不得不放棄持續(xù)學習的能力。在正常使用過程中,ChatGPT并不會學習。這是對研究人員的考驗:他是想看看我們不能做什么并努力解決這個問題,還是想看看我們能做什么并繼續(xù)深入研究?這就像在路燈下找鑰匙的問題:我丟了鑰匙,我會在路燈下找,因為那里是我能看到的地方,盡管那可能不是鑰匙所在的地方。我認為做所有不同的事情都沒問題,但我認為重要的觀察是,這個領域絕大多數(shù)都朝著一個方向發(fā)展,朝著……

主持人A:所以以至于如果你想說“我們有一些事情做不到”,你會受到強烈反對。他們會說:“是的,但我們可以做所有這些其他事情,所以不要批評我們?!?/p>

Rich Sutton:是的,我認為這是一個很大的影響。在早期,機器學習更加開放,“這是一個有趣的問題,讓我們試試”。然后,在某個時候,深度學習……這個領域進入了一個階段,除非你做一些復雜的事情,比如Atari游戲,否則你無法發(fā)表論文。你有一些新想法?它在大問題上是如何工作的?我認為這種情況正在逐漸緩解,人們對我們不能做什么更感興趣了,關于持續(xù)學習的整個事情正是現(xiàn)在更容易被接受的研究方向。

主持人B:你能定義一下什么是持續(xù)學習嗎?

Rich Sutton:持續(xù)學習就是持續(xù)學習,而不是在工廠里學習,然后當你進入世界時就被凍結。有時我會嘗試尋找,如果我們有持續(xù)學習,這幾乎是正常的,那么什么應該是不正常的呢?不正常的,我試著稱之為“短暫學習”(transient learning)。深度學習所做的就是短暫學習,你在一個特殊的階段學習,然后學習就結束了,你再也不會學習了。這就是短暫學習,這是不尋常的。

主持人A:片段式學習(episodic learning)?

Rich Sutton:我不能用這個詞,因為強化學習以一種非常特殊的方式使用“片段”這個詞。

主持人B:這確實讓我覺得很合理。我的意思是,想想我們是如何學習的,我不會每天回家后就忘記我所做的一切。每當我獲得新信息時……

主持人A:也許不好的日子會忘記。

主持人B:所以我很想知道,為什么這沒有成為默認的學習方式?

Rich Sutton:它從一開始就是默認的,只是在最近幾十年里,我們陷入了這種群體思維,我們都以一種特定的方式思考。我喜歡這樣想:我們試圖創(chuàng)造什么?我們試圖創(chuàng)造一個固定且表現(xiàn)非常好的系統(tǒng)嗎?我們的最終產(chǎn)品會是能夠隨著遇到新事物而繼續(xù)學習的東西嗎?當你每天來上班時,你會想“我真的很棒,我只需要做同樣的事情”嗎?還是你會想“他們付我錢是因為我可以適應發(fā)生的事情,我可以靈活地學習新事物”?

主持人A:大多數(shù)時候,我不知道。兩者都很重要。

Rich Sutton:但適應性對我來說似乎總是很重要。硬性智能……智能是一種策略,還是一種適應任何情況的能力?

主持人B:當我們試圖構建這些可以持續(xù)學習的系統(tǒng)時,面臨哪些挑戰(zhàn)?

Rich Sutton:這是你問我的第一個問題,你問我“現(xiàn)在最令人興奮的事情是什么?”,然后我開始長篇大論……這個領域已經(jīng)做出了這種權衡:他們可以做非線性的事情,但前提是他們放棄持續(xù)學習。這是該領域非常強烈的趨勢,它取得了巨大的成功,我對此毫不介意。我介意的是,他們沒有給研究其他方向留下空間。但我是一個成功的學者,而且我老了,我可以做我想做的任何事情。所以我要去做我真正認為最重要的事情,即使沒有其他人認為它重要。我認為是時候……早就應該有人弄清楚如何進行持續(xù)的非線性學習了。在我看來,這些根本不應該相互對立。我正在以一種特定的方式進行研究,專注于在線學習和單一任務,就像世界在逐漸變化,你必須不斷地跟隨它,并在這種環(huán)境中學習。我只是想填補這個空白,我們應該能夠進行非線性學習,并且仍然完全持續(xù)學習。

持人B:為什么我們不能?是什么阻礙了我們?

Rich Sutton:我們創(chuàng)造了所有這些專門的東西來使短暫學習工作得很好,比如回放緩沖區(qū),我們進行歸一化的方式,以及像提前停止。我們已經(jīng)開發(fā)了大量的技術和技巧來使短暫學習工作,所以這阻礙了對網(wǎng)絡進行持續(xù)學習,因為……你不會在ImageNet上做得很好,因為ImageNet是標準基準測試,它是為短暫情況設計的。你不會馬上在Atari游戲上做得很好,因為我們開發(fā)了所有這些定制方法,使Atari游戲在短暫學習方法下工作得很好。方法不同,問題也不同。你不能只是介入并在標準問題上做得更好,因為所有標準問題都是為短暫情況設計的。

主持人A:所以聽起來你好像在說,是時候退一步,看看更大的圖景,而不是這些狹隘的解決方案了。

Rich Sutton:絕對是這樣。你也可以從另一個角度說,人們沒有意識到這有多重要,這意味著當它被解決時,它將是一個更大、更重要的成果。如果你能負擔得起,做一個反向者是件好事。就像我說的,我很幸運,我可以做我想做的工作。讓我告訴你我對它的真實感受……我原以為我在說實話,我原以為其他人會做這件事。當我還是博士生時,我的同學Charles Anderson,也是Van Bardo的學生,他做了非線性部分,我要做強化學習的特定部分,然后我們會把它們放在一起,這會很好。

然后我很失望,40年過去了,這些人還沒有解決這個問題。相反,非線性學習轉(zhuǎn)向了離線短暫學習,他們沒有給我提供我可以用來學習策略、學習價值函數(shù)、學習世界模型、學習世界轉(zhuǎn)移模型的方法。他們沒有弄清楚表征學習,他們沒有弄清楚“讓我們弄清楚什么是世界的正確表征,那些能夠很好地泛化的表征,讓我現(xiàn)在就能快速學習”。這絕對是強化學習,我想說也是人工智能前進的瓶頸。我們沒有能夠持續(xù)學習的方法,除了線性情況。我們沒有找到好的表征的方法……我們總是要與傲慢作斗爭,因為傲慢會損害你看到真相的能力。但我所說的有點傲慢,我說“我給了這些人40年的時間來解決這個問題,他們沒有做到,現(xiàn)在我不得不自己做”。這大致上就是我所說的,這非常傲慢,至少第二部分是這樣,我就能在幾年內(nèi)做好。我的意思是,我已經(jīng)思考了很長時間,我真的希望我不必做這件事,這太遺憾了。

主持人A:我的意思是,他們已經(jīng)奠定了一些基礎,對吧?他們所做的工作并非完全無用,它會幫助你。

Rich Sutton:也許你只是出于禮貌,但我感覺它不是基礎,它實際上是偏離解決方案的。它使得做正確的事情變得更加困難,因為他們沒有說“這是一個我們需要解決的問題”,他們說我們已經(jīng)完成了關于學習表征的反向傳播論文,他們認為這是如何學習表征的解決方案。但是,表征不應該是一般的,并且在許多情況下都有用嗎?然后無論你需要做什么,你都在它上面學習一個線性映射。

主持人B:我同意這一點。

Rich Sutton:我認為他們認為反向傳播可以學習到好的表征。

主持人B:啊,好吧,我同意你,我不這么認為。

Rich Sutton:啊,好吧,有趣?;蛘咚麄冋f這使得其他人更難說“這是一個未解決的問題,我要研究它”。他們說:“不,不,反向傳播已經(jīng)解決了這個問題,如果你要研究它,你最好在反向傳播附近工作,并證明你比它更好?!?/p>

主持人B:那么表征有什么問題呢?他們沒有做什么?

Rich Sutton:反向傳播只是梯度下降,梯度下降中沒有任何東西會驅(qū)動學習系統(tǒng)找到能夠很好地泛化的特征。它只是找到解決現(xiàn)有問題的特征。

主持人B:所以這不是反向傳播的問題,而是反向傳播試圖解決的目標的問題,損失函數(shù)的問題。

Rich Sutton:所以聽起來只是在說服人們我們沒有正確的解決方案。

Rich Sutton:你可以這樣做,這是一種失敗的方法。你說:“沒有人研究這個,我必須首先說服人們這是正確的事情,然后我再研究它?!?但是,你會把所有時間都花在說服別人上,你永遠不會真正地研究它,所以你永遠不會真正地成功。其他人會說:“看,他說我們需要做這件事,但他沒有取得任何進展?!?浪費時間試圖說服其他人去做你認為重要的事情是一個很好的失敗方法。

主持人B:那么有什么替代方案呢?

Rich Sutton:你必須是一個反向者,并且真正去做。你可以花一些時間試圖說服其他人,如果你希望發(fā)表論文,你必須這樣做。

主持人A:但在某種程度上,這就是我們在非線性環(huán)境中的朋友們所做的,對吧?他們忽略了所有人長達十年左右的時間,而所有人都告訴他們,他們所做的事情沒有任何原則。每個人都熱愛他們有原則的統(tǒng)計機器學習,而他們一直在埋頭苦干。

Rich Sutton:是的,但他們總是有好的結果,他們總有一些可以指出的進步。

主持人A:“總是”這個詞說得太絕對了。我記得在我研究生早期,深度學習周圍肯定有很多噪音

主持人B:是的,而且人們?nèi)匀徽J為這很愚蠢。

主持人A:所以,無論如何,也許應該贊揚他們堅持了下來。

Rich Sutton:這是關于荒野的故事。神經(jīng)網(wǎng)絡在荒野中度過了它們的十年,所以沒有人認為它好。所以我想我說的是,持續(xù)學習在荒野中度過了它的十年,現(xiàn)在它開始被接受了

主持人A:這很好。

Rich Sutton:一切都會回歸,科學中的所有這些問題都是自我糾正的。

主持人A:但它們真的是這樣嗎?這需要有人來決定,對吧?科學本身就是其中的人,所以只有當有人做出決定時,它才會自我糾正,而且這可能需要很長時間。

Rich Sutton:好吧,我認為我們應該爭取在2030年之前

主持人A:知道我們可能不會成功,但你必須嘗試。

Rich Sutton:當我們說“成功”時,指的是什么?理解大腦如何工作?

主持人A:理解一個系統(tǒng)如何通過試錯,通過嘗試不同的事情來學習,建立一個世界模型,以便我們能夠理解世界,它可以找到?jīng)Q策的支點。我應該去參加這個演講還是那個演講?我應該去洗手間嗎?我應該喝一口茶嗎?所有這些……你知道,你必須找到這些選擇,生活中存在著低級的選擇,但你必須找到生活中 meaningful 的選擇。所有這些都涉及到一個模型。所以要求我們通過試錯來學習,并建立一個我們世界的模型,并能夠使用該模型進行計劃,這并不過分。這就是我認為構成心智的一系列事情。

主持人B:我認為人類獨有的特性是能夠同時擁有多個目標。我有很多事情要做,我可以把你煩死,告訴你我現(xiàn)在正在做的所有事情。你知道,我們都有我們正在做的事情,我們有家庭,我們有事業(yè),我們有朋友,我們有愛好,所有這些事情都相互疊加。每天我們都決定我們的目標是什么,我們今天要做什么。有時它會讓我們朝著更大的目標前進,有時只是星期天,沒關系。

主持人A:是的。你必須找到平衡點才能保持……有時就像紙牌屋一樣。

主持人B:但我想到像動物,動物的目標是什么?也許它們目標的復雜性更低。

Rich Sutton:它們也更少地與某種內(nèi)部獎勵有關,對吧?

主持人B:我不反對你的觀點。

02
目標與心智

Rich Sutton:但我認為,只有一個目標和有很多目標都是正確的。我相信獎勵假設,即所有目標尋求都可以被很好地理解為最大化單個標量外部接收信號

主持人B:是的。

Rich Sutton:這是實現(xiàn)目標的一部分……我們?yōu)樽约禾岢隽嗽S多子問題,比如我有一個子問題:我如何拿起我的茶并成功地把它送到我的嘴里而不灑出來?所有這些都是對我們解決整體目標真正有用的子問題。所以我認為子任務、子問題是解決單個總體問題的解決方法。所以這讓我兩者兼得,我有一個目標,但我的大腦里充滿了“這會讓我做到嗎?那會讓我做到嗎?我必須學習所有這些獨立的事情,并學習每個問題的解決方案,然后……然后我的生活將充滿‘我決定暫時致力于那個目標’,這將驅(qū)使我最終到達某個地方,然后我可以致力于另一個目標?!?/p>

主持人B:所以你把目標看作是子問題,所有這些不同的目標,有點像創(chuàng)造這些子目標

Rich Sutton:創(chuàng)造它們,絕對是提出它們。博士學位,我想獲得博士學位,我想獲得終身教職,我想……

主持人B:在這種情況下,什么是所有這些子目標的單一目標?

Rich Sutton:單一目標將是獎勵。我們并不真正知道人們的獎勵是什么,但它就像快樂和痛苦,也許還有人們對你的態(tài)度,來自其他人的尊重。獎勵假設的驚人之處在于,有一個微小的標量值,你正試圖最大化它,它是一個低級的東西,它就像一個數(shù)字在每個時刻進入你的大腦,它在下丘腦中計算,然后從中產(chǎn)生了“我想組建家庭,我想擁有一個成功的研究科學家職業(yè)”等等。從一個不抽象的東西中產(chǎn)生了非常抽象的目標和非常抽象的概念。曾經(jīng)有一段時間,這太不可思議了,以至于說出來會很尷尬。但現(xiàn)在這應該很直白了,我們已經(jīng)多次看到這種情況發(fā)生。你知道,AlphaGo學會了下圍棋,它擁有所有圍棋中需要的抽象概念。學會了下國際象棋,它擁有國際象棋中所有需要的抽象概念?;蛘呦裾Z言模型,它讓我大吃一驚,它從這個簡單得多的問題中學到了什么?!芭?,我的天哪,下一個詞”。

主持人B:是的,從微小的事物中可以產(chǎn)生非常抽象的東西。

Rich Sutton:是的

主持人B:好吧,這是一個令人信服的故事。我得承認,當你這樣說的時候,我也覺得有點心理上不舒服。

主持人A:我承認,這讓你覺得自己沒有你想象的那么復雜。

Rich Sutton:是的。在這幾十年里,我們將要學習,我們將要更好地理解心智,我認為這不會都是舒服的。我認為不舒服的事實實際上讓我覺得我們正在取得進展,我們正在更好地理解事物。

主持人A:我們不僅僅是在尋找我們想要相信的真相,而是在尋找真正的真相。

Rich Sutton:你想想,要創(chuàng)造一個想要做某事的人,比如成為一名研究科學家,是不可能的。進化是如何讓你擁有這個目標的?這是不可想象的,而且行不通。它必須給你一個它可以感知的目標,一個具體的目標。

主持人A:這讓我們回到了心理上的不適。

Rich Sutton:將會出現(xiàn)其他智能體,我們將理解它們是如何工作的,它們只是試圖讓這個數(shù)字更高,這很有趣。

主持人B:所以你說你認為我們會在未來六年內(nèi)理解這一點?

Rich Sutton:不,我有一個預測,到2030年有四分之一的可能性我們會理解,這將是模糊的,但基本上我們會理解智能。這并不意味著我們將理解人類的心智,這將需要更長的時間。我們將理解如何通過試錯學習來實現(xiàn)目標,如何建立一個世界模型,使你能夠在多個抽象層次上進行計劃,并且做到這一點沒有重大差距。你知道,它將學習好的表征,學習很好地泛化。它將是一個神經(jīng)網(wǎng)絡,只是某種不同的算法。

主持人A:它將有一個獎勵。世界是什么?

Rich Sutton:世界是我們與之互動的東西。我們向它發(fā)送比特,它向我們的眼睛等發(fā)送比特。

主持人A:但你指的是所有這一切,還是指某個構建的世界?

Rich Sutton:我認為世界是被構建的,盡管……我們向世界發(fā)送比特,它向我們發(fā)送比特。我們從這個我們向其發(fā)送比特并從中接收比特的東西中理解世界

主持人A:所以你說的是任何世界?

Rich Sutton:任何世界,是的。

主持人A:能夠建立模型,轉(zhuǎn)移模型,這樣你就能計劃。

Rich Sutton:如果你能計劃,并且你也能通過試錯學習,這就是我認為的心智。

主持人A:如果你的預測是真的,就像你說的,我認為你說的是到2030年有四分之一的機會。

Rich Sutton:到2040年有二分之一的機會。

主持人A:那意味著什么?這將如何改變現(xiàn)狀?

Rich Sutton:我們將理解心智是如何工作的。這將幫助我們理解我們自己的心智。人工智能研究人員將在更詳細的層面上理解它,它將逐漸滲透到社會,滲透到世界的意識中。我們會感到不舒服,然后會逐漸適應。這將帶來技術變革,它將改變經(jīng)濟。我不確定哪一個更重要,社會學上的還是技術上的。無論如何都會有很多技術變革,即使沒有理解心智也是如此。但我認為這將真正改變我們,因為它將……我們將更好地理解我們自己,這也許是重點。所以我認為這將是非常深刻的,完全獨立于它對經(jīng)濟的影響,它對地緣政治的影響。

主持人A:你認為如果我們更好地理解它,它會影響我們教學的方式,我們教育人們的方式嗎?

Rich Sutton:是的,完全會。一個很大的變化將是增強。如果我們理解我們的大腦是如何工作的,那么我們應該能夠添加比如更好的記憶力。我想被增強,我想更好地思考,我想數(shù)字基質(zhì)相對于生物基質(zhì)有很多優(yōu)勢。所以我們可以變得更好,有很多事情因為我們不知道自己是如何工作的而被阻礙了。正如我所說,理解心智與理解人類心智不同,與理解人類大腦不同,那將需要更長的時間。

主持人A:你是心理學家,你處于神經(jīng)科學的邊緣,你如何看待像Neuralink這樣的腦機接口?

Rich Sutton:我的意思是,我看到了很多它們可以提供幫助的地方。我認為我們離大多數(shù)人覺得這是他們想要的東西還很遠。我認為這可能不是2040年的事情。

03
研究建議

主持人A:我想這是我們給你的最后一個問題:你對學生或其他嶄露頭角的研究人員有什么關于研究的建議嗎?如何選擇研究方向,如何取得良好的進展?

Rich Sutton:是的,我想我有一些。準備一個研究筆記本,每天都寫,寫下你的想法,并思考你的想法,試著挑戰(zhàn)它們,讓它們變得更好。如果你想讓其他人對你所想的感興趣,那么你應該首先自己關心它,你應該至少關心到把它寫下來,挑戰(zhàn)它,發(fā)展它,推進它。這是最重要的。我偶然發(fā)現(xiàn)了這個策略,它改變了我的整個軌跡。這真的很難做到,因為它是一張白紙,你知道,你有什么要說的?也許你對你正在想的事情感到困惑。一個有幫助的想法是,通常情況下,寫下你的想法的價值與它們的模糊和混亂程度成正比。

主持人A:價值與寫下它們的難度成正比。

Rich Sutton:如果你說:“我甚至不知道如何……我同時在想六件事,我不可能把這些寫下來。” 這就是當你寫下一些東西時,它將超級有價值的時候。

主持人A:這是你知道你真的想追求一個想法的方式嗎?這是一個標志嗎?

Rich Sutton:不,這將是可怕的。你正試圖向自己解釋清楚你在想什么。如果你想不出其他要寫的東西,就寫下“我認為我腦子里盤旋著的六個有趣的想法是什么?” 然后把它們寫下來,一到六。然后說:“好吧,這就是全部嗎?還有第七個嗎?” “這六個中,有兩個真的是一樣的嗎?” 或者對這六件事中的每一件再寫一段,解釋你是什么意思,向自己解釋你的想法是什么。僅僅通過這樣做,你就會說:“現(xiàn)在,當我試圖解釋它時,這個想法就消失了。你知道,也許它什么都不是?!?或者,也許它在你寫下它的時候成長和改變了。所有這些事情都會發(fā)生,所以重要的是堅持寫下去。試著每天寫一頁,不要太 stressed,但要定期寫下去。這是我的建議。

第二個建議是,你應該盡量對流行的東西保持中立。你知道,如果它流行或不流行,那不應該影響你,因為如果它流行,那么研究它會更容易,因為人們會理解它,但它的價值會更低,因為每個人都在做。所以你應該保持中立,選擇你認為重要且可能富有成果的問題。

主持人A:你有什么建議來決定我接下來應該做什么嗎?

Rich Sutton:是的,所以就像我寫下這六件事,“我認為這六件事很有趣”,然后解釋它們。然后我回過頭來說:“好吧,現(xiàn)在讓我們試著說,我現(xiàn)在可以研究哪一件?”

主持人A:如果有三件呢?

Rich Sutton:把它們寫下來,繼續(xù)下去,直到只剩下一件……

主持人A:哦,不,不

Rich Sutton:這是一個好問題。我并不是說你找到一件事就去做,你必須做一些事情,因為這是研究,大多數(shù)事情不會馬上成功。

主持人A:聽起來你可能用過很多筆記本。

Rich Sutton:我大概有25本,在我停止使用實體筆記本的時候。現(xiàn)在我只是在我的MacBook上寫。

主持人A:你有沒有回去重溫它們?

Rich Sutton:不像你想的那么頻繁。

主持人A:是的

Rich Sutton:但你確實會不時地這樣做。現(xiàn)在它都在電腦上,我可以搜索并更容易地找到這些東西

主持人A:我想我們就到這里了,除非你還有什么想談的,而我們沒有談到的。

Rich Sutton:非常感謝你給我這個機會。我學到了很多,并不都是舒服的,正如我們所指出的,但都很有趣。

主持人A:非常感謝你,Rich。

Rich Sutton:謝謝。

把商業(yè)當作一場“無限游戲”,盡可能確保自己別出局。經(jīng)緯創(chuàng)投想用“問診”的方式,為創(chuàng)業(yè)者搭建一個持續(xù)生長、沒有終點的互助場域,希望為大家?guī)砬袑嵉膯l(fā)與支持。9月10日-11日,經(jīng)緯問診第二場出發(fā),開啟一場直達問題核心和靈魂深處的問診對談。

戳原文鏈接或掃描下方二維碼立即報名


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外交部:美方對中國航空公司運營施加限制 不利于兩國人員往來

外交部:美方對中國航空公司運營施加限制 不利于兩國人員往來

新京報
2025-10-15 16:15:03
錫安大戰(zhàn)莫蘭特,灰熊vs鵜鶘揭幕戰(zhàn)門票最低只賣4美元

錫安大戰(zhàn)莫蘭特,灰熊vs鵜鶘揭幕戰(zhàn)門票最低只賣4美元

雷速體育
2025-10-16 07:36:05
汪峰與森林北濟州島機場擁抱,女兒醒醒在身后注視,二人感情升溫

汪峰與森林北濟州島機場擁抱,女兒醒醒在身后注視,二人感情升溫

好賢觀史記
2025-10-15 17:44:32
庫克“無懼特朗普”,承諾將加大在華投資

庫克“無懼特朗普”,承諾將加大在華投資

觀察者網(wǎng)
2025-10-15 22:30:52
長得像劉德華的男星,62歲景區(qū)打工!曾拒絕古天樂,已向現(xiàn)實低頭

長得像劉德華的男星,62歲景區(qū)打工!曾拒絕古天樂,已向現(xiàn)實低頭

頭號電影院
2025-10-13 14:08:18
疑似“京東汽車”偽裝車曝光

疑似“京東汽車”偽裝車曝光

三言科技
2025-10-15 15:18:06
我投降了,哎,我又反悔了!哈馬斯反復無常的本性露出來了

我投降了,哎,我又反悔了!哈馬斯反復無常的本性露出來了

十柱
2025-10-13 23:31:45
今日早報每日熱點15條新聞簡報每天一分鐘知曉天下事 10月15日

今日早報每日熱點15條新聞簡報每天一分鐘知曉天下事 10月15日

每天一分鐘知曉天下事
2025-10-15 06:53:06
王晶稱林志玲演技“很一般”,走紅全靠包裝出來的美麗:我連王祖賢都覺得不夠美;此前稱從不覺得“最美港姐”李嘉欣漂亮

王晶稱林志玲演技“很一般”,走紅全靠包裝出來的美麗:我連王祖賢都覺得不夠美;此前稱從不覺得“最美港姐”李嘉欣漂亮

揚子晚報
2025-10-15 20:38:05
最惹不起的3生肖女,魅力大財運旺,能聚財?shù)母黄琶?>
    </a>
        <h3>
      <a href=人閒情事
2025-10-15 13:51:59
巴基斯坦越境空襲塔利班,中國雙殺組合大顯神威!

巴基斯坦越境空襲塔利班,中國雙殺組合大顯神威!

楊風
2025-10-14 21:34:51
睡完首富睡總統(tǒng):從撈女到頂級名媛,靠男人拿到268億,她憑啥?

睡完首富睡總統(tǒng):從撈女到頂級名媛,靠男人拿到268億,她憑啥?

毒sir財經(jīng)
2025-07-29 16:27:45
孫興慜回應日本戰(zhàn)勝巴西:我不太感興趣,沒去關注這場比賽

孫興慜回應日本戰(zhàn)勝巴西:我不太感興趣,沒去關注這場比賽

雷速體育
2025-10-15 13:08:04
日本政壇更亂了:湊數(shù)式謀算中,玉木、高市、石破都可能做首相

日本政壇更亂了:湊數(shù)式謀算中,玉木、高市、石破都可能做首相

澎湃新聞
2025-10-15 07:18:33
特朗普宣布一個大消息,印度人都不敢相信

特朗普宣布一個大消息,印度人都不敢相信

牛彈琴
2025-10-16 07:21:48
消息人士稱拉法口岸將于16日允許人員通行

消息人士稱拉法口岸將于16日允許人員通行

界面新聞
2025-10-16 07:04:21
總統(tǒng)離境 馬達加斯加政局再現(xiàn)危機

總統(tǒng)離境 馬達加斯加政局再現(xiàn)危機

北京商報
2025-10-14 23:48:02
商戶清場、人去樓空!耗資138億,又一巨無霸項目淪為“空城”

商戶清場、人去樓空!耗資138億,又一巨無霸項目淪為“空城”

品牌觀察官
2025-10-14 19:51:34
中共黨史上最神秘的軍統(tǒng)間諜,讓高層領導頭疼30年

中共黨史上最神秘的軍統(tǒng)間諜,讓高層領導頭疼30年

第四思維
2025-09-11 09:46:06
吳石妻子被谷正文帶回家問話,無意間全部招了,毛人鳳都佩服!

吳石妻子被谷正文帶回家問話,無意間全部招了,毛人鳳都佩服!

凡人侃史
2025-10-10 21:34:01
2025-10-16 08:07:00
經(jīng)緯創(chuàng)投 incentive-icons
經(jīng)緯創(chuàng)投
經(jīng)緯創(chuàng)投公眾平臺
2385文章數(shù) 7182關注度
往期回顧 全部

科技要聞

M5芯片全新iPad Pro發(fā)布:8999元起

頭條要聞

特朗普向米萊表態(tài):若你們與中國軍方合作 我很不高興

頭條要聞

特朗普向米萊表態(tài):若你們與中國軍方合作 我很不高興

體育要聞

C羅:為葡萄牙出戰(zhàn)意義非凡 11月鎖定世界杯席位

娛樂要聞

男明星靠做飯人設狂賺?

財經(jīng)要聞

9月M2-M1剪刀差大幅收窄 存款搬家引關注

汽車要聞

預售價7.68萬元起/三種動力可選 星光730開啟預售

態(tài)度原創(chuàng)

親子
旅游
教育
公開課
軍事航空

親子要聞

這下虧大了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

瘋了!想拿英國工簽得參加英國高考???移民政策重大改革,英語得達到本地人水平才行?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯開始重新控制加沙:清算反對者

無障礙瀏覽 進入關懷版 蜜桃国精产品二三三区视频| 四虎激情永久免费在线观看| 国产精品久久久久影院| 丁香色婷婷五月天激情综合视频| 欧美人与动牲交a欧美精品| 东北美女性爱二区| 小BBBBB嫩BBBBB| 中国黄色一级视频| 男同gay18禁免费网站| 777久久精品一区二区三区无码| 欧美裸体XXⅩⅩ及品XXX高潮| 国产情侣激情在线对白| 少妇高潮惨叫喷水正在播放| 日韩高清视频 一区二区| 性猛交富婆╳Ⅹ乱大交| 久久久久国产精品人妻aⅴ武则天| 艹在线视频艹| 久久亚洲精品中文字幕无码| 国产wwwwxxxz| 国产精品视频在线观看| 午夜av电影| 国产国产成人精品久久蜜| 最新国产网站| 国产精品久久久久久久久妇女| 色屁屁WWW影院免费观看| 国产成人精品日本亚洲直接| 精品丝袜无码一区二区三APP| 国产av大全精品| 天堂AV无码大芭蕉伊人AVapp| 久久自慰精品| 亚洲香蕉视频综合在线| 欧美怡春院一区二区三区| 亚洲精品一区国产精品丝瓜| 人人操人人操人人爽| 久久亚洲AⅤ无码精品午夜麻豆| 51国产偷自视频区视频| 精品久久久久久中文字幕202| 亚洲91人人草人人| 本亚洲精品网站| AA无码视频| 精品无码国产一区二区三区51安|