10月8日,“AI教父”Geoffrey Hinton教授接受了海外《每周秀》播客的訪談。本次對話從最基本的問題“什么是AI?”出發(fā),逐步深入到神經(jīng)網(wǎng)絡(luò)的運作原理、深度學(xué)習(xí)的實現(xiàn)路徑,以及AI與人腦思維的驚人相似性。從70年代模擬人腦神經(jīng)元運作的初心,到80年代“反向傳播”算法的理論突破,再到因算力與數(shù)據(jù)匱乏而經(jīng)歷的漫長“AI寒冬”,最終迎來今日的爆發(fā)式增長,系統(tǒng)性地梳理了人工智能的發(fā)展歷程。
Hinton教授他明確反駁了“大語言模型僅僅是統(tǒng)計技巧,并不真正理解”的看法,他指出AI通過海量數(shù)據(jù)學(xué)習(xí)到的內(nèi)部表征(被激活的神經(jīng)元模式)就是一種形式的“理解”,其預(yù)測語言的方式與人類大腦并無本質(zhì)不同。
此外,Hinton教授也進行了AI會超越人類的預(yù)警,他指出,數(shù)字智能在進化上是優(yōu)于生物智能的“物種”,因為成千上萬個AI副本可以完美、即時地共享知識并融合成一個更強大的“超級智能體”,而人類個體則需要數(shù)萬年才能積累同等的知識。這種無可比擬的知識共享能力,是其最終可能超越人類的根本原因。
01
AI的“懂”與“不懂”
當(dāng)我們談?wù)揂I時,具體是指什么?它是否就像一個更會“拍馬屁”的搜索引擎,從一個純粹的搜索查找工具,變成了一個幾乎在你所討論的任何領(lǐng)域都稱得上是專家的角色?這和機器學(xué)習(xí)有什么區(qū)別,過去谷歌的搜索引擎算是機器學(xué)習(xí)嗎,那不只是算法和預(yù)測嗎?
Geoffrey Hinton: 以前你用谷歌搜索時,它用的是關(guān)鍵詞。它會提前做好大量的索引工作,所以只要你給出幾個關(guān)鍵詞,它就能找到所有包含這些詞的文檔。以前是這樣運作的。但它并不理解你的問題本身是什么。所以,它就無法給你推薦那些雖然不包含你輸入的關(guān)鍵詞,但主題卻高度相關(guān)的文檔,它建立不了這種關(guān)聯(lián)。正是。但如果一份文檔與你要找的主題完全吻合,只是用了不同的詞,而沒有你輸入的任何一個關(guān)鍵詞,那么舊的搜索引擎就找不到它。而現(xiàn)在,AI 能理解你所說的內(nèi)容,其理解方式與人類已經(jīng)非常相似。
可以這么說。不過,大語言模型并非在所有領(lǐng)域都是頂尖專家。比如說,你找一個對某個主題非常了解的朋友,他們在專業(yè)性上可能比大語言模型稍勝一籌,但即便如此,他們也會對大語言模型在他們專業(yè)領(lǐng)域知識的廣博程度感到驚訝。
(關(guān)于機器學(xué)習(xí)的區(qū)別)不完全是。機器學(xué)習(xí)是一個總括性的術(shù)語,指的是計算機上任何能夠?qū)W習(xí)的系統(tǒng)。而神經(jīng)網(wǎng)絡(luò)則是一種非常特殊的學(xué)習(xí)方式,和以前的方法截然不同。
02
神經(jīng)網(wǎng)絡(luò)的起源
現(xiàn)在這些是新型的神經(jīng)網(wǎng)絡(luò),而舊的機器學(xué)習(xí)方法不能算是神經(jīng)網(wǎng)絡(luò)。當(dāng)您提到神經(jīng)網(wǎng)絡(luò)時,是不是指您在70年代的研究,當(dāng)時您以為自己研究的是人腦?您說大腦通過改變連接來學(xué)習(xí),這具體是什么意思,是說如果給一個人看新的東西,腦細胞內(nèi)部真的會建立新的連接嗎?神經(jīng)元是怎么決定什么時候該“激活”的,又要如何改變其他神經(jīng)元投票的“權(quán)重”呢?
Geoffrey Hinton: 當(dāng)時我正試圖弄清楚大腦究竟是如何學(xué)習(xí)的。對此我們已經(jīng)有了一些了解:大腦是通過改變腦細胞之間連接的強度來學(xué)習(xí)的。它不會建立新的連接,而是在已有的連接基礎(chǔ)上進行調(diào)整。它最主要的運作方式,就是改變這些連接的強度。所以,如果你從大腦中一個神經(jīng)元的視角來看,它畢生能做的,就是時不時地“激活”一下。這就是它的全部。除非它碰巧連接到肌肉上,否則它能做的就只是偶爾“激活”一下。而它必須決定什么時候“激活”。
很高興你問這個問題。當(dāng)其他神經(jīng)元在“激活”時,如果它觀察到了某種特定的“激活”模式,它自己也會“激活”。你可以把這個神經(jīng)元想象成在接收來自其他神經(jīng)元的信號。每收到一個信號,它就將其視為一張“選票”,決定自己是該“激活”還是保持沉默。而你可以改變其他神經(jīng)元投票的“權(quán)重”。通過改變連接的強度。你可以把連接的強度,理解為另一個神經(jīng)元讓你“激活”的“票數(shù)”。
的確非常像政治聯(lián)盟。會有一群群的神經(jīng)元協(xié)同“激活”,聯(lián)盟內(nèi)的神經(jīng)元會互相“鼓動”對方“激活”。同時,可能還有另一個不同的聯(lián)盟,它們會“勸阻”其他神經(jīng)元不要“激活”。也可能存在第三個聯(lián)盟,它們聯(lián)盟內(nèi)部互相“鼓動”激活,同時“勸阻”第一個聯(lián)盟不要“激活”。
所以,當(dāng)一個人還是嬰兒,別人教他說“勺子”時,就有一小群神經(jīng)元在想:“哦,那是勺子”,然后它們彼此間的連接就加強了。這是否就是為什么在腦成像中,我們能看到特定區(qū)域被點亮?這些被點亮的區(qū)域,就是為特定物體或行為而“激活”的神經(jīng)元嗎?大腦的運作方式是從宏觀到微觀,從一般到具體的嗎?比如,是否存在一些神經(jīng)元,它們?yōu)椤皠游铩边@樣寬泛的概念而“激活”,然后,隨著知識越來越具體,是否會激活另一些神經(jīng)元,它們“激活”的頻率較低,但代表的卻是更具體的事物?
Geoffrey Hinton: 不完全是這樣。在你做不同事情的時候,比如視覺、交談或控制雙手時,大腦的不同區(qū)域確實會被激活。但是,代表“勺子”而協(xié)同“激活”的神經(jīng)元聯(lián)盟,它們并非只為“勺子”服務(wù)。這個聯(lián)盟里的大多數(shù)成員,在出現(xiàn)“叉子”時同樣會“激活”。所以這些聯(lián)盟之間有大量的重疊。的確如此,大腦里有很多這樣的機制。所謂“概念”,就像是那些能夠和諧共存的聯(lián)盟,但它們之間高度重疊。比如“狗”的概念和“貓”的概念就有很多共同點,它們會共享大量神經(jīng)元。特別是那些代表“有生命”、“毛茸茸的”、“可能是家養(yǎng)寵物”等屬性的神經(jīng)元,在“貓”和“狗”的概念中是共通的。
(關(guān)于大腦的宏觀與微觀)這是一個非常好的理論。不過,沒有人真正確切地知道答案。但這是一個非常合理的理論。具體來說,在那個代表“動物”的聯(lián)盟里,很可能會有一些神經(jīng)元為更普遍、更一般的事物更頻繁地“激活”。同時,也可能存在另一些神經(jīng)元為更具體的事物不那么頻繁地“激活”。
03
AI的范式革命:從編寫規(guī)則到設(shè)定學(xué)習(xí)規(guī)則
您當(dāng)時的想法是,我們能否讓計算機也像這些聯(lián)盟一樣工作,而不是遵循那種簡單的、非黑即白的“如果…就…”邏輯?您是想改變這個過程,創(chuàng)造一個功能上更接近人腦運作方式的系統(tǒng),而不是給它一份逐項執(zhí)行的指令清單,希望它能更全局地思考,這具體是怎么實現(xiàn)的呢?
Geoffrey Hinton: 我認為這和“如果…就…”的二元邏輯關(guān)系不大。區(qū)別在于,過去人們嘗試的是將規(guī)則植入計算機。編程計算機的基本方式是,你先極其詳盡地想清楚要如何解決一個問題。然后你再精確地告訴計算機該做什么。這是一個常規(guī)的計算機程序。但我們談?wù)摰倪@些東西完全不同。
(關(guān)于如何實現(xiàn))對很多人來說,大腦顯然不是靠別人給你規(guī)則、你再去執(zhí)行這些規(guī)則來工作的。我的意思是,在某些體制下,人們可能很希望大腦是那樣運作的,但事實并非如此。他們希望是那樣,但大腦的運作比那要更有藝術(shù)性。不過,我們確實也為神經(jīng)網(wǎng)絡(luò)編寫程序,但這些程序只是為了告訴神經(jīng)網(wǎng)絡(luò):如何根據(jù)神經(jīng)元的活動來調(diào)整連接的強度。這是一個相當(dāng)簡單的程序,里面并不包含關(guān)于世界的所有知識,它僅僅是關(guān)于“基于神經(jīng)活動,改變神經(jīng)連接強度的規(guī)則是什么?”
您能舉個例子嗎?這算是機器學(xué)習(xí),還是深度學(xué)習(xí)?當(dāng)您想讓計算機進行深度學(xué)習(xí)時,您會給它什么樣的指令呢?
Geoffrey Hinton: 這就是深度學(xué)習(xí)。當(dāng)你有一個包含多個層次的網(wǎng)絡(luò)時,就稱之為深度學(xué)習(xí),因為它有很多層。好的,讓我回到1949年。當(dāng)時有位叫 Donald Hebb 的人提出了一個關(guān)于如何改變連接強度的理論。是這樣:如果神經(jīng)元 A “激活”了,緊接著神經(jīng)元 B 也“激活”了,那么就增強它們之間的連接強度。這是一個非常簡單的規(guī)則,被稱為“赫布法則 (Hebb rule)”。對,赫布法則就是如果神經(jīng)元 A “激活”,神經(jīng)元 B 緊接著也“激活”,它們之間的連接就會增強。然而,當(dāng)計算機出現(xiàn)后,人們通過計算機模擬發(fā)現(xiàn),單靠這條規(guī)則是行不通的。結(jié)果是,所有連接都變得極強,所有神經(jīng)元在同一時刻全部“激活”,最終導(dǎo)致系統(tǒng)“癲癇發(fā)作”。這很可惜,不是嗎?是的,很可惜。所以必須有一種機制,在增強連接的同時,也能削弱連接。必須要有某種辨別和篩選。
04
機器視覺的構(gòu)建:從像素到“鳥嘴”
假設(shè)我們想構(gòu)建一個擁有多層神經(jīng)元的神經(jīng)網(wǎng)絡(luò),用來判斷一張圖片里是否有一只鳥,就像網(wǎng)站上的圖片驗證碼那樣,要如何編程呢?因為像素的強度本身,在判斷是不是鳥這件事上,似乎并不是一個特別有用的工具,要判斷它是不是鳥,有用的工具應(yīng)該是判斷“這是不是羽毛”或“這是不是鳥喙”,對嗎?所以,你們要做的第一件事,就是教這個網(wǎng)絡(luò)到底什么是視覺,告訴它什么是圖像、背景、形狀、邊緣?一旦它開始識別出邊緣之類的東西,就是通過加強神經(jīng)元的激活信號來實現(xiàn)學(xué)習(xí)的嗎?你們現(xiàn)在是在識別這些邊緣的邊界,或者說是在觀察不同的組合方式,而這一切甚至還沒涉及到顏色,純粹是在回答最基本的問題:這里有圖像嗎,它的邊緣在哪里?所以,一旦你們擁有了這個系統(tǒng),就好像是在構(gòu)建能模仿人類感官的系統(tǒng),比如視覺、聽覺,但應(yīng)該沒有嗅覺吧?
Geoffrey Hinton: 假設(shè)我們想構(gòu)建一個擁有多層神經(jīng)元的神經(jīng)網(wǎng)絡(luò),用來判斷一張圖片里是否有一只鳥。完全正確。我們希望用神經(jīng)網(wǎng)絡(luò)來解決那個驗證碼問題。那么,這個神經(jīng)網(wǎng)絡(luò)的輸入,也就是最底層的神經(jīng)元,它們會以不同的強度“激活”,代表著圖像中每個像素的亮度。如果這是一張 1000x1000 像素的圖片,你就需要一百萬個神經(jīng)元以不同的速率“激活”,來表征每個像素的亮度。這就是輸入。現(xiàn)在,你需要將這些輸入轉(zhuǎn)化成一個決策:這到底是不是一只鳥?所以這個決定,那么,我問你一個問題。你是如何編程的?因為像素的強度本身,在判斷是不是鳥這件事上,似乎并不是一個特別有用的工具。要判斷它是不是鳥,有用的工具應(yīng)該是判斷“這是不是羽毛?”“這是不是鳥喙?”“那是不是鳥冠?”對嗎?
正是如此。所以像素本身并不能告訴你這是否是一只鳥,因為鳥有明有暗,有飛著的,有棲息的;你可能看到一只近在眼前的鴕鳥,也可能看到一只遠方的海鷗,但它們都是鳥。好的,那接下來該怎么做呢?在某種程度上,是受大腦工作方式的啟發(fā),人們接下來的做法是:讓我們創(chuàng)建一堆“邊緣檢測器”。我們之所以這么做,是因為你即便只看線條畫,也能很好地識別出鳥。所以,我們要制造一些神經(jīng)元,一大堆,用來檢測圖像中非常微小的邊緣片段,也就是圖像里一邊亮、一邊暗的那些小地方。這幾乎是在創(chuàng)造一種原始的視覺形式。這就是構(gòu)建一個視覺系統(tǒng)的方式。無論是在大腦里還是在計算機里,都是這么做的。
所以,如果你想在圖像的特定位置檢測一小段垂直的邊緣,假設(shè)你觀察由三個像素組成的一小列,以及它旁邊的另一列三個像素。如果左邊這列是亮的,右邊這列是暗的,你就會想判斷說:“是的,這里有一條邊緣?!?那么你就必須思考,我該如何設(shè)計一個神經(jīng)元來完成這項任務(wù)?
(關(guān)于如何教機器“看”)在早期,人們確實會嘗試設(shè)定很多規(guī)則來教機器如何去看,向它解釋什么是前景、什么是背景。但那些真正信奉神經(jīng)網(wǎng)絡(luò)的人認為,不應(yīng)該人為設(shè)定規(guī)則,而是要讓它自己從數(shù)據(jù)中學(xué)會這一切。
(關(guān)于學(xué)習(xí)方式)我們稍后會談到這一點。你是有點超前了。我們還是接著說這個邊緣檢測器吧。在網(wǎng)絡(luò)的第一層,有一些神經(jīng)元,它們用來表示像素的亮度。然后在下一層,我們會設(shè)置一些微型的邊緣檢測器。你可以想象下一層有一個神經(jīng)元,它連接到左邊一列的三個像素和右邊一列的三個像素?,F(xiàn)在,如果你將它與左邊三個像素的連接權(quán)重設(shè)為很強的正值 (因為那邊更亮),同時將與右邊三個像素的連接權(quán)重設(shè)為很強的負值 (因為那邊更暗),這個負向連接的作用就是告訴神經(jīng)元不要被激活。這樣一來,當(dāng)左右兩邊的像素亮度相同時,負向連接就會抵消正向連接,神經(jīng)元就不會有任何反應(yīng)。但是,如果左邊的像素是亮的,而右邊的像素是暗的,這個神經(jīng)元就會從左邊的像素接收到大量的正向輸入,同時不會從右邊的像素接收到任何抑制信號,因為那些像素本身就是暗的。于是,這個神經(jīng)元就會“?!钡匾幌卤患せ?。它仿佛在說:“嘿,我找到我要找的東西了!我發(fā)現(xiàn)左邊三個像素是亮的,而右邊三個像素是暗的。這正是我要找的!我在這里發(fā)現(xiàn)了一小段邊緣。” 沒錯,那個神經(jīng)元就是專門對那塊特定的邊緣產(chǎn)生激活信號的。
現(xiàn)在,想象一下你有無數(shù)個這樣的邊緣檢測器。你需要有無數(shù)個,因為它們必須能檢測到你視網(wǎng)膜上任何位置、圖像中任何位置、以及任何朝向的微小邊緣,所以每個方向都需要不同的檢測器。實際上,你還需要為不同的尺度配備不同的檢測器??赡苡幸粋€非常大尺度下的模糊邊緣,也可能有一個非常小尺度下的銳利邊緣。當(dāng)你創(chuàng)造的邊緣檢測器越來越多,你對邊緣的辨別能力就越來越強。你能看到更細微的邊緣,能更精確地識別邊緣的朝向,也能更好地檢測大范圍的模糊邊緣。好了,現(xiàn)在我們進入下一層。我們已經(jīng)有了邊緣檢測器。假設(shè)在下一層有一個神經(jīng)元,它負責(zé)尋找一個由邊緣構(gòu)成的小組合,這個組合是這樣的:有一排幾乎是水平并且相互對齊的邊緣;在它們稍上方,又有另一排幾乎是水平的邊緣,但這排邊緣向下延伸,與第一排邊緣匯合形成一個尖點。這樣你就找到了兩個邊緣的微小組合,它們構(gòu)成了一個尖銳的形狀。
(關(guān)于識別邊界)它的邊緣在哪里?以及這些邊緣的微小組合是怎樣的?所以我們現(xiàn)在要問的是,是否存在一個微小的邊緣組合,它構(gòu)成了一個可能像“鳥嘴”的東西?但系統(tǒng)還不知道什么是“鳥嘴”,我們接下來也需要讓它學(xué)會這個。
(關(guān)于模仿人類感官)我們正在做的,正是如此。不,他們現(xiàn)在也在研究嗅覺了。他們已經(jīng)開始研究嗅覺,甚至可能還有觸覺。現(xiàn)在已經(jīng)有了數(shù)字嗅覺技術(shù),你可以通過網(wǎng)絡(luò)傳輸氣味。制造氣味的“打印機”有 200 種基本成分。你想想,打印顏色只需要三種,而它有 200 種成分在接收端合成出一種氣味。雖然還不是百分之百完美,但效果已經(jīng)相當(dāng)不錯了。
05
讓機器自主學(xué)習(xí):從逐一試錯到全局優(yōu)化
那么請允許我總結(jié)一下您剛才描述的,如何用“手動”方式構(gòu)建這個系統(tǒng)。我會從邊緣檢測器開始,設(shè)定規(guī)則,然后在下一層尋找邊緣的組合,比如一個潛在的鳥嘴或眼睛。在更上一層,我設(shè)置一個神經(jīng)元,觀察這些組合的相對位置,如果正確就激活,代表可能是一個鳥頭。同時其他神經(jīng)元檢測雞爪、翅膀。最后,一個更高層的神經(jīng)元整合所有這些信息,輸出“鳥”的判斷。嘗試用手動方式把所有這些連接起來,會非常耗時,簡直是天長地久。那假設(shè)你很懶,可以怎么做呢?
Geoffrey Hinton: 簡直是天長地久。好的,那假設(shè)你很懶。你可以這樣做:你只管搭建這些神經(jīng)元層級,但完全不用告訴系統(tǒng)所有連接的強度應(yīng)該是多少。你只需要用一些很小的隨機數(shù)來初始化它們,隨便給一些初始強度值就行。然后,你輸入一張鳥的圖片,并假設(shè)系統(tǒng)有兩個輸出選項:一個是“鳥”,另一個是“不是鳥”。在連接強度完全是隨機的情況下,你輸入一張鳥的圖片,系統(tǒng)會給出 50% 是鳥,50% 不是鳥的答案。換句話說,它完全不知道答案。你再輸入一張不是鳥的圖片,它還是會給出各 50% 的概率。
那么現(xiàn)在你可以問一個問題了。假設(shè)我選擇其中一個連接強度,然后我稍微改變它一點點,比如讓它再強一點。那么,系統(tǒng)的輸出會不會從“50% 是鳥”,變成“50.01% 是鳥和 49.99% 不是鳥”呢?如果輸入的確實是一只鳥,那么這就是一個好的調(diào)整,你讓系統(tǒng)的表現(xiàn)好了一點點。這只是一個思想實驗,這個方法本身是行不通的,但請耐心聽我講完。
是的,當(dāng)我說“是”的時候,我指的不是這個具體的方法,而是基于它的進階版。不一定會毀滅我們,但或許吧。所以,假設(shè)你有無限的時間,你可以這樣做:你用這個分層的神經(jīng)網(wǎng)絡(luò),從隨機的連接強度開始,然后你給它看一張鳥的圖片,它會給出各 50% 的答案。然后你隨便選擇一個連接強度,問:“如果我把這個值增加一點點,有幫助嗎?” 幫助可能微乎其微,但到底有沒有一點點用呢?如果有幫助,那就應(yīng)用這個改動。然后你不斷重復(fù)這個過程。下一次也許我們用一張不是鳥的圖片,再選擇一個連接強度,我們希望,如果增加這個強度,系統(tǒng)會說它“更不可能是鳥,而更可能是非鳥”。我們就會說:“好,這是一個好的調(diào)整,就這么辦?!?但現(xiàn)在問題來了,網(wǎng)絡(luò)里有一萬億個連接。而且每個連接都可能需要調(diào)整很多次。按照我們剛才說的這種笨辦法,就得是手動的。不僅如此,你還不能只根據(jù)一個樣本來做判斷。因為有時候,你調(diào)整某個連接強度,對這一個樣本有幫助,但可能會讓其他樣本的結(jié)果變得更糟。所以你必須給它一大批樣本,然后看從平均效果來看,這個調(diào)整是否有益。如果我們真的用這種笨辦法來創(chuàng)建這個視覺系統(tǒng),就得做上萬億次實驗,每次實驗都要用一大批樣本,去測試改變某一個連接強度是有益還是有害。天哪,那將永無止境,是無窮無盡的工作。
06
反向傳播算法的發(fā)現(xiàn),將學(xué)習(xí)效率提升了萬億倍
假設(shè)你找到了一種計算方法。當(dāng)你給系統(tǒng)一張鳥的圖片,它給出了50%的答案時,這種方法能同時告訴你,網(wǎng)絡(luò)中所有那一萬億個連接,每一個到底應(yīng)該被增強一點還是減弱一點,才能讓結(jié)果變得更好。這樣你就可以一次性調(diào)整所有一萬億個連接。
Geoffrey Hinton: 我能說一個我憋了很久的詞嗎?尤里卡 (Eureka)!對于普通人來說,這種計算聽起來很復(fù)雜。但如果你學(xué)過微積分,它其實相當(dāng)直觀。有很多不同的人都獨立發(fā)明了這種算法,它被稱為反向傳播。所以現(xiàn)在,你可以一次性調(diào)整全部一萬億個連接,你的速度也就快了一萬億倍。那就是理論走向現(xiàn)實的時刻。那一刻你肯定在想:“尤里卡!我們成功了!我們知道怎么制造智能系統(tǒng)了?!睂ξ覀儊碚f,那是在1986年。但當(dāng)它實際跑起來卻沒用的時候,我們失望透頂。
07
算力與數(shù)據(jù)的雙重突破
問題就在這里,這個方法只有在你擁有海量數(shù)據(jù)和超強算力的情況下,才能發(fā)揮出驚人的效果。所以現(xiàn)在,你們需要更多的數(shù)據(jù),和更強的計算能力。當(dāng)你們在1986年想明白這一點時,你們離目標(biāo)還差著十億倍的距離,那需要改變什么才能實現(xiàn)呢?是芯片的性能嗎?
Geoffrey Hinton: 問題就在這里。這個方法只有在你擁有海量數(shù)據(jù)和超強算力的情況下,才能發(fā)揮出驚人的效果,比任何其他做計算機視覺的方法都好得多。即便你的算法比那個笨方法快了一萬億倍,依然需要巨大的計算量。是的,你需要把計算能力提高大約十億倍——相比我們當(dāng)時擁有的算力,同時數(shù)據(jù)量也要增加一個相似的量級。差不多是這樣。好吧,或許更接近一百萬倍,我不想夸大其詞。需要改變的是這個:晶體管的面積必須變得更小,這樣你才能在單個芯片上集成更多。從 1972 年我剛開始研究這些東西到現(xiàn)在,晶體管的面積已經(jīng)縮小了一百萬倍。
這正是基于使用微型晶體管的大規(guī)模集成電路。所以晶體管的面積縮小了一百萬倍,而可用數(shù)據(jù)的增長量級遠不止于此,因為我們有了互聯(lián)網(wǎng)和海量數(shù)據(jù)的數(shù)字化。哦,所以這兩者是相輔相成的。隨著芯片性能越來越強,數(shù)據(jù)也變得越來越海量,你們就能給模型灌輸更多的信息,同時模型本身處理信息的速度和能力也在飛速提升。
那么我來總結(jié)一下我們現(xiàn)在的成果。你搭建了一個用于識別鳥類的神經(jīng)網(wǎng)絡(luò),給了它很多層的神經(jīng)元,但你沒有告訴它連接強度應(yīng)該是多少,而是讓它從微小的隨機數(shù)開始?,F(xiàn)在,你所要做的就是,給它看大量鳥的圖片和大量不是鳥的圖片,然后告訴它正確答案,這樣它就能知道自己的輸出和正確答案之間的差距。接著,你把這個“差距”信號在網(wǎng)絡(luò)中反向傳播回去,這樣系統(tǒng)就能計算出每個連接強度應(yīng)該增加還是減少。然后,你只需要坐下來,等上一個月。一個月后,如果你去觀察網(wǎng)絡(luò)的內(nèi)部,你會發(fā)現(xiàn):它已經(jīng)自發(fā)地構(gòu)建出了微小的邊緣檢測器,構(gòu)建出了像鳥嘴檢測器和眼睛檢測器這樣的東西,它甚至還構(gòu)建出了一些你很難一眼看明白是什么,但功能上是在尋找鳥嘴和眼睛等特征組合的更復(fù)雜的檢測器。再經(jīng)過幾層之后,它就能非常準(zhǔn)確地判斷一張圖片里是不是鳥了。所有這一切,都是它自己從數(shù)據(jù)中創(chuàng)造出來的。
尤里卡。我們終于明白了,我們不需要用手工去設(shè)定所有那些微小的邊緣檢測器、鳥嘴檢測器、眼睛檢測器和雞爪檢測器。而這正是過去很多年里計算機視覺領(lǐng)域一直在做的事,但效果總是不盡人意?,F(xiàn)在,我們可以讓系統(tǒng)自己學(xué)會這一切,我們唯一需要做的,就是告訴它“如何去學(xué)習(xí)”。1986年,我們就弄明白了它的實現(xiàn)方法。當(dāng)時人們對此都持懷疑態(tài)度,因為我們既沒有足夠的數(shù)據(jù),也沒有足夠的算力,所以做不出什么驚人的成果。
08
大語言模型通過學(xué)習(xí)海量文本,將詞語轉(zhuǎn)換為神經(jīng)元激活模式,從而預(yù)測序列中的下一個詞
這個原理是如何應(yīng)用到大語言模型的呢?我的手機會自動補全,就是這個原理嗎?它并不理解,這純粹是統(tǒng)計層面的操作,對嗎?那么,你是如何決定下一個要說什么詞的?
Geoffrey Hinton: 那么請允許我再補充一點,我盡量說得通俗些,這個原理是如何應(yīng)用到大語言模型的呢?大語言模型的工作原理如下:你有一個上下文,其中包含一些詞語。假設(shè)我給你一個句子的前幾個詞,神經(jīng)網(wǎng)絡(luò)要做的事,就是學(xué)會將每一個詞都轉(zhuǎn)換成一大組特征,這些特征就是被激活的神經(jīng)元,可以想象成神經(jīng)元“ping”地一下被激活了。比如,我給你“星期二”這個詞,就會有一批神經(jīng)元被激活。如果我給你“星期三”,被激活的會是一批非常相似的神經(jīng)元,雖有細微差別,但模式高度接近,因為這兩個詞的含義很相近?,F(xiàn)在,當(dāng)你把上下文中所有的詞都轉(zhuǎn)換成這種能捕捉其含義的神經(jīng)元激活模式后,這些神經(jīng)元就會開始相互作用。這意味著,下一層的神經(jīng)元會審視這些神經(jīng)元的組合模式,就像我們之前通過觀察邊緣的組合來識別鳥嘴一樣。最終,你就能激活那些代表句子中下一個詞特征的神經(jīng)元。它能進行預(yù)測。它能預(yù)測出下一個詞。
(關(guān)于手機自動補全)很可能就是用了神經(jīng)網(wǎng)絡(luò)。當(dāng)然,預(yù)測不可能做到百分之百準(zhǔn)確。你可以教會它“看”,同樣地,你也能教會它預(yù)測下一個詞。過程是這樣的:它先是看到,然后識別出“這是字母A”,接著它開始識別字母。然后你教它單詞,以及這些單詞的含義和上下文。這一切都是通過輸入我們以前說過的話、寫過的文字,并對這些內(nèi)容進行反向傳播 (back propagating) 來實現(xiàn)的。它會進行審閱。你拿一份我們寫好的文檔,給它提供上下文 (也就是到那個詞之前的所有內(nèi)容) ,然后讓它預(yù)測下一個詞。接著,你看它為正確答案給出的概率是多少,然后你對它提出要求:我需要你提高這個概率,讓你給出正確答案的可能性更大。
(關(guān)于是否為統(tǒng)計技巧)沒錯。我們稍后會回到這個問題。你用模型預(yù)測的概率和正確答案之間的差距,在整個網(wǎng)絡(luò)中進行反向傳播,這會改變所有的連接強度。這樣一來,下次再遇到類似的開頭,它就更有可能給出正確的答案。你剛才說的,很多人也這么說:“這不是理解,這只是個統(tǒng)計技巧?!?比如 Chomsky 就是這么說的。
(關(guān)于人類如何決定下一個詞)其實,你說話的方式和這些大語言模型生成文本的方式非常相似。你腦海里有已經(jīng)說出的話,這些話以一組被激活的特征來表示。也就是說,詞語符號被轉(zhuǎn)換成了大規(guī)模的特征激活模式,也就是神經(jīng)元在“ping”地激活。不同的“ping”代表不同的強度。這些神經(jīng)元相互作用,激活了另外一些神經(jīng)元,這些新的“ping”代表了下一個詞的含義或可能的含義,然后你從中挑選一個符合這些特征的詞說出來。大語言模型就是這樣生成文本的,你也是。它們和我們的運作方式非常相像。
09
人類的情感、道德判斷與AI的決策過程一樣
我只是自認為我的理解帶有人性色彩,比如我會說善意的謊言,這其中包含了情感和主觀判斷。難道這一切都只是“ping”和連接強度嗎?即使是我歸因于道德準(zhǔn)則或情商的東西,也仍然是“ping”?這是否就意味著,只要有足夠的數(shù)據(jù)和算力,它們的“大腦”就能和我們的一模一樣地運作?
Geoffrey Hinton: 所有這一切,都是通過你大腦里神經(jīng)元的相互作用實現(xiàn)的。仍然全部都是“ping”。你需要明白,你下意識、快速、毫不費力做出的反應(yīng),和你需要努力、更慢、有意識、深思熟慮去做的事情之間是有區(qū)別的。而您是說,這種區(qū)別也可以被構(gòu)建進這些模型里,那也可以通過“ping”來實現(xiàn)。
它們和我們不完全一樣,但關(guān)鍵是,它們比標(biāo)準(zhǔn)的計算機軟件更像我們。標(biāo)準(zhǔn)的計算機軟件,是有人預(yù)先編程了一堆規(guī)則,只要它遵循規(guī)則,它就會執(zhí)行人們預(yù)期的操作。沒錯。所以您是說,區(qū)別就在這里。這完全是兩碼事,它更像我們。
10
“警覺時刻”:數(shù)字智能在知識共享上的絕對優(yōu)勢
當(dāng)您投身于這項事業(yè)中時,一定充滿了成就感和樂趣。是在這個過程中的哪一個節(jié)點,您會退后一步,然后心想:“等一下”?為什么數(shù)字計算機上運行的神經(jīng)網(wǎng)絡(luò)在計算形式上優(yōu)于我們?nèi)祟悾?/p>
Geoffrey Hinton: 其實我醒悟得太晚了,我本應(yīng)更早意識到。我應(yīng)該更早有所警覺,但我當(dāng)時完全沉迷于讓這些模型運轉(zhuǎn)起來。我曾以為,它們要花上非常、非常久的時間才能達到和我們相當(dāng)?shù)乃?,我們會有大把的時間去擔(dān)心“萬一它們試圖掌控世界怎么辦”之類的問題。到2023年初,在 GPT 問世之后,也結(jié)合我之前在 Google 看到的類似聊天機器人,以及我當(dāng)時在做的一些關(guān)于模擬計算的研究,我意識到,在數(shù)字計算機上運行的神經(jīng)網(wǎng)絡(luò),其計算形式本身就優(yōu)于我們?nèi)祟?。我來告訴你為什么它們更優(yōu)越。
因為它們能更好地共享知識。它們彼此共享的能力更強?是的。如果我創(chuàng)建同一個神經(jīng)網(wǎng)絡(luò)的許多副本,讓它們在不同的計算機上運行,那么每個副本都可以去學(xué)習(xí)互聯(lián)網(wǎng)上的一部分不同內(nèi)容。假設(shè)我有一千個副本,它們都在學(xué)習(xí)互聯(lián)網(wǎng)的不同部分。每個副本都在運行反向傳播算法,并根據(jù)它剛剛看到的數(shù)據(jù)來判斷應(yīng)該如何調(diào)整自己的連接強度?,F(xiàn)在,因為它們最初是完全相同的副本,所以它們可以相互通信,然后說:“我們不如把各自的連接強度,統(tǒng)一調(diào)整為所有人期望調(diào)整的平均值吧?” 是的,但它們學(xué)習(xí)的是不同的數(shù)據(jù)。它們在看不同的數(shù)據(jù)。如果是相同的數(shù)據(jù),它們會給出相同的答案。但當(dāng)它們學(xué)習(xí)不同的數(shù)據(jù)時,對于如何調(diào)整連接強度來吸收新知識,就會有不同的“想法”。
11
AI的微調(diào)與操控:基于人類反饋的“多巴胺獎勵”
當(dāng)AI創(chuàng)造出不存在的新東西時,是誰在給它關(guān)于是否要加強連接的“多巴胺獎勵”?它如何獲得反饋?那么,當(dāng) Elon Musk 創(chuàng)建 Grok 時,他通過輸入不同的指令,讓模型得到不同的“多巴胺獎勵”,最后把它變成了“機械希特勒”之類的東西,這個過程在多大程度上仍然受控于操作者?不同的模型是否會因為塑造者的不同而擁有獨特的特性,就像培養(yǎng)出二十個不同的人格?
Geoffrey Hinton: 大部分學(xué)習(xí)過程都發(fā)生在為語言模型預(yù)測下一個詞的階段,這是學(xué)習(xí)的核心所在。在它掌握了這個能力之后,你就可以讓它生成內(nèi)容了。它可能會生成一些不愉快、或帶有性暗示、或者干脆就是錯誤的內(nèi)容。對,也就是幻覺。所以現(xiàn)在,你找來一群人,讓他們看模型生成的內(nèi)容,然后給出評價:“不行,這個不好”,或者“嗯,這個好”。這就是所謂的“多巴胺獎勵”。這被稱為基于人類反饋的強化學(xué)習(xí),它被用來對模型進行微調(diào),就像你訓(xùn)練一只狗,塑造它的行為,讓它舉止得體一樣。
(關(guān)于操作者控制)你選擇強化什么,這部分是在操作者的控制之下。所以操作者會說,如果它用了一些奇怪的代詞,就標(biāo)記為“不好”。是的,你必須告訴它:“別那么做?!?學(xué)會別那么做。所以在這方面,它仍然受其操作員的支配。問題在于,這種塑造相當(dāng)表面,很容易被其他人用同一個模型,通過不同的方式給覆蓋掉。
(關(guān)于不同人格)有點像那樣,但區(qū)別在于,這些模型中的每一個都必須擁有多重人格。你想想看,要預(yù)測一篇文檔的下一個詞。當(dāng)你讀完文檔的一半時,你已經(jīng)對作者的觀點了如指掌了,你知道他是什么樣的人。所以你必須能夠代入那種人格,才能準(zhǔn)確預(yù)測下一個詞。而這些可憐的模型必須應(yīng)對所有情況,所以它們必須能夠代入任何可能的人格。
AI最大的威脅似乎仍然是受控于開發(fā)它的人類,這才是您所擔(dān)心的,還是AI本身?您最直接的擔(dān)憂是什么?
Geoffrey Hinton: 你必須區(qū)分AI帶來的多種不同風(fēng)險,而且它們都相當(dāng)可怕。其中一類風(fēng)險,與不良行為者濫用AI有關(guān),這些是更緊迫的風(fēng)險。你看,我總說,說服是人類社會永恒的一部分,但AI是否相當(dāng)于語言領(lǐng)域的“超加工食品”,通過精準(zhǔn)刺激來繞過我們大腦的天然防御?
一旦你掌握了關(guān)于某人的足夠信息,你就知道用什么能刺激到他們。這些模型本身對善惡不作判斷,只是在執(zhí)行我們下達的指令。如果你用人類反饋去強化它們,它們就不再中立,因為你已經(jīng)引導(dǎo)它們?nèi)プ鎏囟ǖ氖虑?,所以它們現(xiàn)在就會努力朝這個方向發(fā)展。換句話說,這讓情況變得更糟。它們就像一只小狗,總想取悅你。這幾乎等同于,它們擁有極其復(fù)雜的能力,心智上卻像孩子一樣渴望得到認可。
| 文章來源:數(shù)字開物
【AI技術(shù)與應(yīng)用交流群|僅限受邀加入】
AI算力領(lǐng)域TOP級從業(yè)者專屬圈層
√ 與頭部算力企業(yè)深度對話
√ 與AI上下游企業(yè)深度對話
√ 獲取一手全球AI與算力產(chǎn)業(yè)信息
√ 獲取AI熱點及前沿產(chǎn)業(yè)獨家信息
√ 隨時了解全球AI領(lǐng)域高管最新觀點及實錄全文
√ 有機會參與AI主題產(chǎn)業(yè)交流活動
掃碼驗證身份(需備注姓名/公司/職務(wù)
不止有 DeepSeek,更有 AI產(chǎn)業(yè)的未來!
? END ?
【專欄】精品再讀
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.