機(jī)器之心報(bào)道
機(jī)器之心編輯部
在這個(gè)新訪談中,Sutton 與多位專家一起,進(jìn)一步探討 AI 研究領(lǐng)域存在的具體問題。
在大模型圈子里,強(qiáng)化學(xué)習(xí)之父、圖靈獎(jiǎng)得主 Rich Sutton 所著《苦澀的教訓(xùn)(The Bitter Lesson)》已經(jīng)成為圣經(jīng)一般的存在。如果一個(gè)方法能夠隨著算力的增加而自然受益,大家就會(huì)覺得這個(gè)方法符合《苦澀的教訓(xùn)》所傳達(dá)的精神,值得進(jìn)一步研究。
多年以來,LLM 一直被視為《苦澀的教訓(xùn)》的絕佳范例。但出人意料的是,Sutton 本人在前段時(shí)間的一次采訪中給這個(gè)想法潑了盆冷水,直言 LLM 是死胡同,不確定其是否真的符合《苦澀的教訓(xùn)》。
Sutton 最近在 Dwarkesh Patel 的播客《The Dwarkesh Podcast》上的一次訪談。
Sutton 給出的理由是:LLM 存在重大缺陷,無法從持續(xù)的實(shí)際互動(dòng)中學(xué)習(xí)。Sutton 心中設(shè)想的是一種完全不同的智能架構(gòu),而 LLM 的工作方式在很多方面都違背了他所堅(jiān)持的原則。
Sutton 回溯到了圖靈最初提出的「兒童機(jī)器(child machine)」的概念,即一個(gè)能夠通過與世界動(dòng)態(tài)交互、從經(jīng)驗(yàn)中學(xué)習(xí)的系統(tǒng)。在這種設(shè)想中,沒有那種先模仿整個(gè)互聯(lián)網(wǎng)網(wǎng)頁的大規(guī)模預(yù)訓(xùn)練階段,也不存在后來的人為監(jiān)督微調(diào)。他特別指出,監(jiān)督微調(diào)在自然界中是不存在的。他還強(qiáng)調(diào)了另一點(diǎn):即使你把預(yù)訓(xùn)練看作是在強(qiáng)化學(xué)習(xí)之前的一種「先驗(yàn)初始化」,這種方法依然被人類偏見污染,從根本方向上就是錯(cuò)的。
在 Sutton 的世界觀中,智能的一切都來自于通過強(qiáng)化學(xué)習(xí)與環(huán)境的持續(xù)交互。獎(jiǎng)勵(lì)函數(shù)部分由環(huán)境決定,但也包含內(nèi)在動(dòng)機(jī), 比如好奇心、興趣、探索的樂趣等,這些都與智能體世界模型中預(yù)測(cè)的質(zhì)量相關(guān)。在這種框架下,智能體在測(cè)試階段仍然持續(xù)學(xué)習(xí),學(xué)習(xí)不是「一次訓(xùn)練、永久部署」,而是一種默認(rèn)持續(xù)進(jìn)行的過程。
Sutton 的這些觀點(diǎn)引發(fā)了諸多爭(zhēng)議,他本人也參與了近期的一場(chǎng)新圓桌,進(jìn)一步討論上述問題。
這場(chǎng)圓桌由投資機(jī)構(gòu) Intrepid Growth Partners 發(fā)起,其創(chuàng)始人兼合伙人 Ajay Agrawal 擔(dān)任主持,MIT 教授 Sendhil Mullainathan、應(yīng)用人工智能科學(xué)家 Niamh Gavin、Nirvanic Consciousness Technologies 創(chuàng)始人兼 CEO Suzanne Gildert 也參與了討論。
這些專家碰撞出了許多有價(jià)值的觀點(diǎn)。以下是機(jī)器之心對(duì)播客內(nèi)容的整理:
純粹的強(qiáng)化學(xué)習(xí)很難實(shí)現(xiàn)
主持人:Suzanne,我想問問您的看法,Rich 在那期播客中說的一句話,我好像也聽您說過,他說:「如果我們能造出與松鼠心智相當(dāng)?shù)臇|西,那我們基本上就成功了?!共タ偷闹鞒秩水?dāng)時(shí)舉了登月這樣的例子,感覺人類登月和松鼠藏堅(jiān)果之間差距巨大。但我知道,您的世界觀其實(shí)與 Rich 的更為接近。
Suzanne:關(guān)于松鼠的問題,我認(rèn)為構(gòu)建一個(gè)松鼠那樣的心智,要比構(gòu)建一個(gè)能通過我所說的「高級(jí)監(jiān)督學(xué)習(xí)」來執(zhí)行任務(wù)的系統(tǒng)難得多。因?yàn)槲覀兡壳八龅囊磺谢旧隙际潜O(jiān)督學(xué)習(xí),并沒有真正意義上的強(qiáng)化學(xué)習(xí)在發(fā)生。每當(dāng)有人嘗試進(jìn)行純粹的強(qiáng)化學(xué)習(xí)時(shí),他們最終總是會(huì)回到模仿學(xué)習(xí)的道路上。
因?yàn)槲蚁嘈牛?strong>純粹的強(qiáng)化學(xué)習(xí)是極其困難或不可能實(shí)現(xiàn)的,因?yàn)槲覀儫o法定義通用的獎(jiǎng)勵(lì)函數(shù)。因此,我認(rèn)為在我們找到定義、獲取或創(chuàng)造通用獎(jiǎng)勵(lì)函數(shù)的方法之前,我們無法最大限度地發(fā)揮強(qiáng)化學(xué)習(xí)的潛力。
而我理想中的那種能力是,你可以像對(duì)待一只松鼠那樣,把它放到一個(gè)新環(huán)境中,它就能自主地開始學(xué)習(xí)。你可以將任何智能體置于一個(gè)全新的環(huán)境中,它會(huì)自己開始學(xué)習(xí)。而我們今天的任何系統(tǒng)都做不到這一點(diǎn)。所以,這就是我們需要構(gòu)建的系統(tǒng)與我們目前所認(rèn)為的智能系統(tǒng)之間的區(qū)別。我們現(xiàn)有的系統(tǒng)非常聰明和智能,但如果你把它們放到一個(gè)從未見過的新場(chǎng)景或新用例中,它們無法學(xué)習(xí)。因此,關(guān)鍵在于「學(xué)習(xí)」這個(gè)部分,重要的不是它能做什么、它已經(jīng)學(xué)會(huì)了什么,而是「它如何學(xué)習(xí)新事物」
只有「利用」,沒有「探索」
主持人:好的,我們先聽聽 Niamh 的看法,然后是 Sendhil,最后請(qǐng) Rich 回應(yīng)。Niamh,您可以隨意選擇任何您感興趣的話題進(jìn)行展開。
Niamh:或許作為一名正身處這場(chǎng)技術(shù)浪潮中心的人,我可以快速地從頭到尾梳理一下各個(gè)流派的想法。我時(shí)常對(duì)一件事感到驚訝:硅谷本應(yīng)是思想自由的家園,但有時(shí)卻表現(xiàn)出驚人的「派系化」傾向。而我個(gè)人更傾向于博采眾長(zhǎng),從各個(gè)流派中借鑒思想。
理想情況下,當(dāng)我們構(gòu)建這些模型時(shí),我們當(dāng)然希望它們能從第一性原理出發(fā),通過自身經(jīng)驗(yàn)去發(fā)現(xiàn)和學(xué)習(xí)。但這存在一個(gè)「冷啟動(dòng)問題」。因此,許多人選擇了一條捷徑,那就是直接吸收整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)。
這背后的原因有兩點(diǎn):他們認(rèn)為寫作是我們思維機(jī)制的良好體現(xiàn),并且語言是區(qū)分我們與其他物種的關(guān)鍵元素。因此,它應(yīng)該是一個(gè)足夠好的起點(diǎn)。
挑戰(zhàn)在于,我們?cè)谀P驮O(shè)計(jì)的每個(gè)環(huán)節(jié)上都走向了極端。例如,強(qiáng)化學(xué)習(xí)本應(yīng)是「利用」與「探索」的良好結(jié)合。然而,我們所做的卻是在有限的經(jīng)驗(yàn)或內(nèi)置的價(jià)值函數(shù)基礎(chǔ)上,進(jìn)行純粹的「利用」。這導(dǎo)致的結(jié)果,正如 Suzanne 所說,更多的是模式識(shí)別,而非真正的理解;更多的是模仿,而非直覺思維。而自回歸機(jī)制本身,就像是神經(jīng)網(wǎng)絡(luò)的順序展開,更像是一條通往激活狀態(tài)的序列化路徑,而不是一個(gè)可以隨時(shí)間微調(diào)、真正基于目標(biāo)的目標(biāo)函數(shù)。
所以我認(rèn)為,我們中沒有人會(huì)覺得「一個(gè)大語言模型加上一個(gè)好的提示詞」就是人工智能的未來。理想情況下,我們都希望邁向那個(gè)難以捉摸的「通用近似器」—— 它具有泛化能力、能夠進(jìn)行遷移學(xué)習(xí),并擁有一個(gè)像 Suzanne 提到的通用獎(jiǎng)勵(lì)函數(shù)。
現(xiàn)在,你已經(jīng)開始看到這種轉(zhuǎn)變。人們逐漸意識(shí)到大語言模型的局限性或脆弱性,并嘗試創(chuàng)造更多持續(xù)學(xué)習(xí)的機(jī)制。至于這是否意味著回歸到貝葉斯方法,或是采用演化算法來實(shí)現(xiàn)跨越式發(fā)展,目前尚無定論。
其次,是關(guān)于數(shù)據(jù)本身的問題。數(shù)據(jù)不一定是有噪聲的,但它是否從我們真正關(guān)心的分布中采樣而來?它并非基于思維模式,而是基于寫作。而我們寫作時(shí)的思考方式,與我們?cè)诂F(xiàn)實(shí)世界中的思考方式不盡相同。這就是為什么我們現(xiàn)在看到向嵌入式系統(tǒng)的突然轉(zhuǎn)變,它更趨向于一種「通過實(shí)踐來學(xué)習(xí)」的機(jī)制,更側(cè)重于價(jià)值函數(shù)而非獎(jiǎng)勵(lì)函數(shù),并且是一種更少基于規(guī)則、更具探索性的經(jīng)驗(yàn)獲取方式。
還有一派人認(rèn)為,通用人工智能將通過復(fù)制大腦來實(shí)現(xiàn)。但我不太認(rèn)同這個(gè)方向。我一直覺得,我們應(yīng)該讓計(jì)算機(jī)去做它擅長(zhǎng)而人類不擅長(zhǎng)的事情,而不是一味模仿人類。我確實(shí)認(rèn)為,在「缸中之腦」這個(gè)意義上,兩者存在根本性的底層機(jī)制差異:人工智能的計(jì)算架構(gòu)是簡(jiǎn)單的電子電路,而真實(shí)的生物系統(tǒng)是離子,它們速度慢,但效率極高。這就引出了一個(gè)問題:語言對(duì)于智能是基礎(chǔ)性的嗎?還是說智能僅僅是相互連接的網(wǎng)絡(luò)?也許我們只是需要新的理論圖景。
所有這一切的核心要素是,如果模型確實(shí)實(shí)現(xiàn)了這些巨大的飛躍 —— 這又回到了 Sendhil 的觀點(diǎn) —— 我們確實(shí)需要某種「機(jī)制可解釋性」來剖析這些新設(shè)計(jì),以理解它們是否可行以及是如何產(chǎn)生的。這有點(diǎn)像 AlphaGo 那著名的第 37 手,對(duì)吧?你如何從中追溯其思考路徑和因果效應(yīng)?
關(guān)于如何建立追蹤機(jī)制和因果推斷這個(gè)問題,其實(shí)最后還涉及到費(fèi)曼學(xué)派那種「無法構(gòu)建就意味著不理解」的理念。確實(shí),我們雖然構(gòu)建了 CNN 處理視覺任務(wù),用 LLM 處理語言任務(wù),但對(duì)這些模型涌現(xiàn)特性的理解仍非常有限。這不禁讓人思考:這些工作到底有沒有幫助我們真正理解神經(jīng)網(wǎng)絡(luò)?當(dāng)下各種學(xué)術(shù)流派交匯之處正是思想摩擦的焦點(diǎn),但在我看來,這些交叉領(lǐng)域才是最值得深耕的沃土。
苦澀教訓(xùn)被極端化理解成了非此即彼的篩選機(jī)制 —— 要么全盤接受算力優(yōu)先,要么完全否定。但復(fù)制 40 億年進(jìn)化歷程是極其復(fù)雜的工程,僅完成果蠅連接組就耗費(fèi)了我們數(shù)十年,更不用說松鼠級(jí)別的神經(jīng)系統(tǒng)了?;蛟S我們?cè)摃簳r(shí)放下傲慢,更多擁抱科學(xué)方法論與探索精神,而不是像拿著錘子逐詞處理那樣機(jī)械地推進(jìn)。當(dāng)然這些話題更期待 Rich 教授的深度見解,我不過是這個(gè)領(lǐng)域的過客與旁觀者。
只模仿最終表現(xiàn)是不夠的
Sendhil Mullainathan:Richard,我發(fā)現(xiàn)你轉(zhuǎn)發(fā)的一條推文很有意思。雖然你原推文提到斑胸草雀(說實(shí)話我之前根本不認(rèn)識(shí)這種鳥),不過我可以引用 Chris 轉(zhuǎn)評(píng)的內(nèi)容。他指出你的核心觀點(diǎn)是:當(dāng)人類進(jìn)行模仿時(shí),我們模仿的是最終表現(xiàn),但必須自行探索實(shí)現(xiàn)過程—— 這個(gè)洞見簡(jiǎn)直直擊問題本質(zhì)。網(wǎng)上可能很多人沒能理解這個(gè)精微區(qū)別,這完全可以理解,因?yàn)槠渲械拇_充滿微妙之處。
關(guān)鍵在于探索過程這個(gè)動(dòng)詞。我們與世界的聯(lián)系始終停留在表層:聽到斑胸草雀的鳴叫,看到他人完成代數(shù)證明,這些都只是表象。我們無法直接觀測(cè)到內(nèi)在機(jī)制:鳥類如何調(diào)動(dòng)鳴肌,解題者如何構(gòu)思證明步驟。即使是在高階認(rèn)知活動(dòng)中,當(dāng)有人向我們解釋某事時(shí),那仍然只是表層信息。我們始終需要?jiǎng)佑米陨碚J(rèn)知系統(tǒng)去探尋:在物理層面這些結(jié)果究竟是如何產(chǎn)生的?
這個(gè)認(rèn)知邏輯非常清晰。就像聽到鳥鳴后想要模仿,我們不可能知曉鳥類具體如何控制鳴管,只能用自己的聲帶反復(fù)嘗試。認(rèn)知活動(dòng)也是同理。即使是在相互解釋時(shí) —— 不知道你們是否聽過那個(gè)關(guān)于馮?諾依曼的火車謎題軼事??jī)闪邢嘞蚨械幕疖?,有蜜蜂往返其間,要求計(jì)算蜜蜂總飛行距離。馮?諾依曼瞬間給出答案,當(dāng)被問及是否用了取巧方法時(shí),他反問道:什么巧解?其實(shí)這個(gè)問題確實(shí)存在通過洞察規(guī)律快速求解的方法,當(dāng)然也可以選擇暴力計(jì)算無窮級(jí)數(shù) —— 雖然沒人會(huì)這么做。
這個(gè)故事之所以令我回味,是因?yàn)樗沂玖艘粋€(gè)本質(zhì):即使我們目睹認(rèn)知活動(dòng)的成果,甚至獲得詳細(xì)解釋,不同個(gè)體構(gòu)建內(nèi)部表征的過程依然獨(dú)一無二。
我之所以展開這些討論,是因?yàn)檫@個(gè)區(qū)分讓我豁然開朗:如果強(qiáng)制模型必須理解特定行動(dòng)會(huì)產(chǎn)生何種結(jié)果,它就不得不構(gòu)建行動(dòng)與結(jié)果之間關(guān)系的內(nèi)部表征。按照我的理解,這或許正是當(dāng)前模型缺乏良好世界模型的關(guān)鍵原因 —— 它們沒有被強(qiáng)制要求探索在特定行動(dòng)空間中,哪些操作能產(chǎn)生我們觀察到的結(jié)果(無論是語言表達(dá)還是數(shù)學(xué)證明)。不過我們也能觀察到某些領(lǐng)域它們確實(shí)建立了完善的世界模型,比如國(guó)際象棋或圍棋 —— 在這些明確行動(dòng)空間到結(jié)果輸出的領(lǐng)域,算法確實(shí)構(gòu)建了從行動(dòng)到結(jié)果的映射關(guān)系。這個(gè)能力邊界正在持續(xù)擴(kuò)展,只是與基于文本語料訓(xùn)練的語言模型有著本質(zhì)區(qū)別。
LLM 可能敗在無法在短期內(nèi)兌現(xiàn)承諾
Richard Sutton:感謝各位,剛才的討論充滿了真知灼見。但我想強(qiáng)調(diào)的是,雖然我們本質(zhì)上都是科學(xué)家,習(xí)慣聚焦學(xué)術(shù)理念,但此刻我們正在嘗試某種突破,我們其實(shí)是在審視這個(gè)領(lǐng)域的學(xué)術(shù)生態(tài)。沒錯(cuò),我過去常輕描淡寫地用學(xué)術(shù)風(fēng)尚來形容這種現(xiàn)象,但這個(gè)說法確實(shí)有失公允。
這更像是學(xué)術(shù)社群中不同思維模式的碰撞。科學(xué)史上始終存在多元思維方式,但當(dāng)下情況更為特殊,當(dāng)某種思維范式獲得統(tǒng)治性地位時(shí),要知道現(xiàn)在每年有數(shù)百上千億美元基于特定理念投入 AI 領(lǐng)域,這不可避免會(huì)改變科學(xué)研究的本質(zhì)。
關(guān)于苦澀教訓(xùn)的討論,我想嘗試做個(gè)總結(jié)。雖然我已經(jīng)涉足了學(xué)術(shù)生態(tài)學(xué)分析,但這本質(zhì)上是個(gè)社會(huì)學(xué)命題而非純科學(xué)陳述。它揭示的是研究群體反復(fù)陷入的思維誤區(qū)。傳統(tǒng) AI 研究始終圍繞目標(biāo)展開,整個(gè)領(lǐng)域都聚焦于解決問題、達(dá)成目標(biāo)。
而現(xiàn)在,我們進(jìn)入了一個(gè)全新的階段:出現(xiàn)了一個(gè)強(qiáng)大而占主導(dǎo)地位的思潮,主張我們無需設(shè)定目標(biāo),只需模仿人類行為。這種觀點(diǎn)認(rèn)為,當(dāng)模仿達(dá)到足夠規(guī)模、算力與數(shù)據(jù)量級(jí)時(shí),系統(tǒng)將發(fā)生質(zhì)變,最終真正理解世界。它們不再只是機(jī)械模仿,而是獲得了對(duì)世界的認(rèn)知模型。
我始終認(rèn)為這是個(gè)極端主張,正如那句名言「非凡的論斷需要非凡的證據(jù)」。當(dāng)下我們見證的正是這樣的非凡論斷:僅通過觀察人類行為樣本,依靠下一個(gè)詞預(yù)測(cè)與微調(diào),就能涌現(xiàn)理解與推理能力(他們甚至大膽啟用了推理這個(gè)術(shù)語)。而堅(jiān)持目標(biāo)導(dǎo)向與實(shí)踐經(jīng)驗(yàn)至關(guān)重要的傳統(tǒng)認(rèn)知,反而被視作極端觀點(diǎn)。
在當(dāng)今以大語言模型為中心的討論中,經(jīng)過之前關(guān)于苦澀教訓(xùn)的探討,我想聚焦一個(gè)核心問題:大語言模型將走向何方?這個(gè)問題我通常無法回答,因?yàn)槲抑铝τ谄渌夹g(shù)路徑的探索。
其實(shí)我不該對(duì)別人的技術(shù)路線妄加評(píng)論,這幾乎有失禮節(jié)。但公眾關(guān)注的焦點(diǎn)確實(shí)在于此:人們想知道我是否認(rèn)為大語言模型違背苦澀教訓(xùn)的核心理念,最終淪為無關(guān)緊要的失敗嘗試?我們有必要深入思考并形成判斷:它們會(huì)失敗嗎?這種失敗未必指技術(shù)完全無效,而是指無法實(shí)現(xiàn)其承諾的宏偉愿景,考慮到投入這些系統(tǒng)的巨額資金,最近有位教授尖銳指出:如果大語言模型和 AI 技術(shù)需要 15 年才能兌現(xiàn)價(jià)值,那將是場(chǎng)災(zāi)難。因?yàn)楫?dāng)前投入的資金規(guī)模與承諾預(yù)期,若三年內(nèi)未見成效,就可能引發(fā)市場(chǎng)崩潰或泡沫破裂。
換言之,它們?cè)谀承╊I(lǐng)域確實(shí)具有實(shí)用價(jià)值,但終將面臨泡沫破裂,因?yàn)橥顿Y回報(bào)率無法匹配巨額投入。用苦澀教訓(xùn)的視角解讀:將全部籌碼押注在人類知識(shí)上是危險(xiǎn)的,因?yàn)槿祟愔R(shí)本身不具備可擴(kuò)展性。而當(dāng)前大語言模型的發(fā)展路徑恰恰重蹈了這個(gè)覆轍。
需要說明的是,我并非大語言模型專家,精通大語言模型的研究者也非常少。但我們可以觀察到:它們通過模仿人類行為與語言符號(hào)進(jìn)行訓(xùn)練,試圖復(fù)現(xiàn)人類可能生成的文本。但僅憑這點(diǎn)無法造就優(yōu)秀的現(xiàn)代大語言模型,后續(xù)還需要大量微調(diào)與人類反饋強(qiáng)化學(xué)習(xí)(RLHF),投入巨大工程努力才使其成為實(shí)用工具(如摘要、翻譯、問答)。它們能聚焦用戶問題,正是因?yàn)樵谧匀蝗祟愓Z言基礎(chǔ)上附加了額外設(shè)計(jì)。這些系統(tǒng)經(jīng)過大量人工設(shè)計(jì),正因如此,其發(fā)展可能受限于可擴(kuò)展性,過度依賴人類輸入,而互聯(lián)網(wǎng)數(shù)據(jù)雖規(guī)模龐大,終究存在邊界。
據(jù)此我們或許可以推測(cè):大語言模型終將觸達(dá)互聯(lián)網(wǎng)數(shù)據(jù)的邊界,繼而陷入過度依賴專家微調(diào)的困境。這將成為苦澀教訓(xùn)的又一個(gè)典型案例 ——當(dāng)系統(tǒng)無休止地依賴人工調(diào)試時(shí),其失敗幾乎不可避免。我們的世界如此廣袤復(fù)雜,永遠(yuǎn)存在未預(yù)見的場(chǎng)景與方法論。
相比之下,能從經(jīng)驗(yàn)中自主學(xué)習(xí)的系統(tǒng)則能察覺現(xiàn)實(shí)世界的種種特質(zhì),這種能力終將占據(jù)主導(dǎo)地位。即使當(dāng)前基于人類模仿的系統(tǒng)表現(xiàn)不俗,但那個(gè)起步相似卻具備經(jīng)驗(yàn)學(xué)習(xí)能力的系統(tǒng),最終會(huì)取代前者。
雖然我起初聲明不該對(duì)此發(fā)表觀點(diǎn)(因?yàn)檫@并非我的主攻領(lǐng)域),但事實(shí)證明我已形成明確判斷:這很可能將成為苦澀教訓(xùn)的新例證。隨著思考的深入,我認(rèn)為這種情況發(fā)生的可能性正與日俱增。
AI 界的「路徑依賴」
Niamh Gavin:作為領(lǐng)域內(nèi)的實(shí)踐者,我完全贊同您的觀點(diǎn),Rich。但外界可能會(huì)質(zhì)疑:為何歷史總在重演?為何行業(yè)總不自覺地陷入自我設(shè)限的循環(huán)?這本質(zhì)上反映了核心矛盾:哪些問題該由模型智能解決,哪些能通過工程手段彌補(bǔ)。優(yōu)秀實(shí)驗(yàn)室總是兼顧研究與工程,但這種模式的弊端在于:當(dāng)模型遇到瓶頸時(shí),工程師第一反應(yīng)往往是我能修復(fù),而非退后一步思考系統(tǒng)級(jí)重構(gòu)。
這種修補(bǔ)式迭代會(huì)導(dǎo)致系統(tǒng)日益脆弱和過擬合,正如你最初提到的,當(dāng)市場(chǎng)商業(yè)化浪潮席卷而來,我們往往被既定路徑綁架,直到某刻集體意識(shí)到必須重構(gòu)新系統(tǒng) —— 特別是在當(dāng)前加速演進(jìn)的環(huán)境下,這正是我們陷入的惡性循環(huán)。但轉(zhuǎn)機(jī)在于:越早觸達(dá)瓶頸,就越快迫使我們重新構(gòu)想技術(shù)路徑。
目前大語言模型領(lǐng)域已顯現(xiàn)這種轉(zhuǎn)變:從單純依賴算力擴(kuò)展定律、使用脆弱的 Transformer 主干,正逐步轉(zhuǎn)向更注重推理能力的方法鏈。從最初的思維鏈推理,到現(xiàn)在更多探索強(qiáng)化學(xué)習(xí)環(huán)境,這種演進(jìn)正在悄然發(fā)生。
Richard Sutton:我們都有創(chuàng)新者的困境。這就是你所說的。他們以一種方式做到了,他們傾向于不想嘗試完全不同的東西。
分清模型「現(xiàn)在能做的」和「大家期待它能做的」很重要
Sendhil Mullainathan:我想我在實(shí)質(zhì)問題上幾乎完全同意你的觀點(diǎn),Rich,但對(duì)于第二點(diǎn)有些不同意見。
我覺得我們需要分清兩件事。一是這些模型被認(rèn)為能做到什么,或者說大家期待它們很快能做到什么,二是這些模型實(shí)際上能做的那些了不起的事情。
對(duì)我來說,看清這一點(diǎn)很有幫助:人們看到這些行為,然后就開始推斷,想象這將會(huì)看起來像是智能,或者隨你怎么稱呼它。
我認(rèn)為這種推斷是誤導(dǎo)性的。但對(duì)我來說那不是真正的悲劇。真正的悲劇是,它們能做的事情其實(shí)很驚人。我們只是需要給它起個(gè)不同的名字,叫它別的什么。它有著難以置信的價(jià)值,難以置信的用途。這是你一次又一次看到的那種情況 —— 問題不在于缺少什么。就像我們?cè)诨ヂ?lián)網(wǎng)泡沫中看到的那樣?;ヂ?lián)網(wǎng)確實(shí)具有變革性,這毫無疑問。認(rèn)為它不具有變革性簡(jiǎn)直是瘋了。
但問題是,當(dāng)時(shí)人們對(duì)它的期待 —— 尤其是對(duì)某些具體公司的期待 —— 實(shí)在是太過頭了。我覺得現(xiàn)在的情況也有點(diǎn)像。
所以對(duì)我來說,整個(gè)公共討論中最讓人分心的部分 —— 我說的不是我們這個(gè)圈子,而是外面的大眾討論 —— 是我們一直沒有好好聊聊已經(jīng)發(fā)生的這個(gè)奇跡。純粹的模仿竟然能產(chǎn)生這么多非凡的特性,這是怎么做到的?我們到底獲得了多少涌現(xiàn)能力?它究竟能做什么?這些都是特別有意思的學(xué)術(shù)問題。
是的,它不會(huì)達(dá)到真正的智能。但是 —— 很多了不起的創(chuàng)新都不是「智能」,我們照樣找到了很好的用途。我覺得這才是最讓我失望的地方。
主持人:說到這里,我要特別表揚(yáng)一下 Sendhil 自己。經(jīng)濟(jì)學(xué)界有很多人在研究這個(gè)領(lǐng)域,大多數(shù)人在論文標(biāo)題和正文里都用「人工智能」這個(gè)詞,但 Sendhil 不這樣。他馬上要發(fā)表的論文叫《算法時(shí)代的科學(xué)》之類的,他用的是「算法」這個(gè)詞,不是「AI」—— 盡管他說的就是別人口中的 AI。
https://www.youtube.com/watch?v=e-sghqKZ-Mw
https://x.com/karpathy/status/1973435013875314729
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.