夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

《大模型的第一性思考》李建忠對(duì)話GPT5與Transformer發(fā)明者Lukasz Kaiser實(shí)錄

0
分享至

近日,我與GPT-5與Transformer的共同發(fā)明者、OpenAI 資深研究科學(xué)家Lukasz Kaiser進(jìn)行了一場(chǎng)關(guān)于“大模型的第一性思考”的深度對(duì)話。

Lukasz Kaiser 是 AI領(lǐng)域最具影響力的科學(xué)家之一,2017年他與其他七位谷歌同事(后稱(chēng)“Transformer八子”)共同撰寫(xiě)了那篇開(kāi)創(chuàng)性的論文《Attention Is All You Need》,歷史性地提出了 Transformer 架構(gòu),奠定了今天大語(yǔ)言模型的核心基石。


后來(lái)他加盟OpenAI,作為共同發(fā)明人,深度主導(dǎo)了GPT-5、GPT-4、以及代號(hào)為“o1”和“o3”的推理模型方面的研究工作。作為改變世界的AI研究者,他的工作直接定義了我們今天所熟知的大語(yǔ)言模型技術(shù)。他對(duì)于大模型的技術(shù)架構(gòu)、Scaling Law 的邊界,以及通往 AGI 的新范式等,有著旁人無(wú)法企及的深刻理解。這場(chǎng)對(duì)話中的許多話題,也源自我近年來(lái)對(duì) AI 技術(shù)前沿和未來(lái)演進(jìn)路徑的思考。我節(jié)選了我們對(duì)談的十個(gè)最重要的話題:

對(duì)話一| 語(yǔ)言對(duì)于智能到底意味著什么?對(duì)話二| 多模態(tài)與世界模型的挑戰(zhàn)對(duì)話三| AI 編程:自然語(yǔ)言是終極目標(biāo),還是新的“巴別塔”?對(duì)話四| Agent 的泛化困境:是方法問(wèn)題,還是根本限制?對(duì)話五| 算力與算法:Scaling Law 是信仰還是路徑依賴?對(duì)話六| 具身智能的挑戰(zhàn):是數(shù)據(jù)問(wèn)題? 還是比特和原子的根本性差異?對(duì)話七| 強(qiáng)化學(xué)習(xí):是超級(jí)優(yōu)化器,還是科學(xué)發(fā)現(xiàn)的引擎?對(duì)話八| AI的組織躍遷:如何實(shí)現(xiàn)大規(guī)模 Agent協(xié)作?對(duì)話九| AI記憶的瓶頸:模型離真正的“原生記憶”還有多遠(yuǎn)?對(duì)話十| 大模型如何擺脫瞬時(shí)學(xué)習(xí),而像人類(lèi)一樣持續(xù)學(xué)習(xí)?
對(duì)話一語(yǔ)言對(duì)于智能到底意味著什么?
李建忠:我想首先談?wù)務(wù)Z言和視覺(jué)在AI 中扮演的角色。業(yè)界有一些觀點(diǎn),以楊立昆(Yann LeCun)等人為代表,認(rèn)為靠語(yǔ)言模型通往AGI是一條死路。其理由是,語(yǔ)言是對(duì)物理世界的一種低帶寬、有損的描述。AI 必須從視覺(jué)等高帶寬的數(shù)據(jù)中學(xué)習(xí)。但是如果我們回顧AI的發(fā)展歷史,在大語(yǔ)言模型出現(xiàn)之前,神經(jīng)網(wǎng)絡(luò)在視覺(jué)領(lǐng)域已經(jīng)有了大量應(yīng)用,但那時(shí)AI 的智能水平相當(dāng)?shù)汀V钡紺hatGPT 這樣的大語(yǔ)言模型橫空出世,AI 的智能才真正開(kāi)始騰飛。你如何看語(yǔ)言和視覺(jué)在構(gòu)建智能過(guò)程中的作用?

Lukasz Kaiser我認(rèn)為,從時(shí)間的維度去理解語(yǔ)言是非常有用的。有一個(gè)著名的說(shuō)法,雖然我從未核實(shí)過(guò)其真實(shí)性:有一種在大海里游弋的動(dòng)物(海鞘),它擁有大腦。但當(dāng)它在某塊巖石上定居后,就再也不會(huì)移動(dòng)了。此時(shí),它做的第一件事就是吃掉自己的大腦,因?yàn)榇竽X對(duì)一個(gè)不再行動(dòng)的生物來(lái)說(shuō)已經(jīng)失去了作用。這個(gè)故事說(shuō)明,如果你不采取行動(dòng),智能其實(shí)沒(méi)什么用。

我們過(guò)去所說(shuō)的視覺(jué)模型大多是靜態(tài)的,例如回答“這張圖片里有貓嗎?”這類(lèi)問(wèn)題。那時(shí)根本沒(méi)有真正的視頻模型。因此我相信,在時(shí)間維度中的存在——這可能意味著采取行動(dòng),即便只是解釋隨時(shí)間發(fā)生的變化——對(duì)智能來(lái)說(shuō)都至關(guān)重要。語(yǔ)言顯然具備時(shí)間維度,它總是在生成下一個(gè)詞,再下一個(gè)詞,不斷延續(xù)。

我們現(xiàn)在稱(chēng)之為的語(yǔ)言模型,在開(kāi)發(fā) Transformer 時(shí),被稱(chēng)為序列模型(sequence models)。處理什么序列并不重要,即使現(xiàn)在,它也可以處理“蛋白質(zhì)序列”或“音頻序列”。因此,時(shí)間序列是表達(dá)智能的一個(gè)重要組成部分。

李建忠:我個(gè)人傾向于認(rèn)為,語(yǔ)言經(jīng)過(guò)了人類(lèi)的編碼和壓縮,它在智能的表征上要比視覺(jué)更高效一些,而即便有時(shí)間序列的視頻,對(duì)智能的表征也往往要低于語(yǔ)言。尤瓦爾·赫拉利在他的著作《人類(lèi)簡(jiǎn)史》中提出,人類(lèi)和動(dòng)物最大的區(qū)別在于我們能用語(yǔ)言描述這個(gè)世界上不存在的事物。著名哲學(xué)家維特根斯坦也有一句名言:“語(yǔ)言的邊界,就是世界的邊界?!蔽抑霸磉_(dá)過(guò)一個(gè)觀點(diǎn),回看過(guò)去十年,AI領(lǐng)域的里程碑發(fā)展得益于我們終于認(rèn)識(shí)到語(yǔ)言在智能中的核心作用,ChatGPT的成功源于此,Transformer的成功也源于此。

Lukasz Kaiser我也相信語(yǔ)言是賦予智能一種特殊力量的關(guān)鍵。雖然許多沒(méi)有語(yǔ)言的動(dòng)物也擁有一定程度的智能,智能也可以在沒(méi)有語(yǔ)言的情況下發(fā)展。另外從技術(shù)上講,訓(xùn)練語(yǔ)言實(shí)在非常方便。我們?cè)诨ヂ?lián)網(wǎng)上有海量的語(yǔ)言數(shù)據(jù),用語(yǔ)言進(jìn)行訓(xùn)練遠(yuǎn)比用視頻便宜。這些優(yōu)勢(shì)有一些是實(shí)踐層面。未來(lái),要獲得更卓越的智能模型,我們還要繼續(xù)基于視頻和音頻進(jìn)行訓(xùn)練。這在技術(shù)上會(huì)與純語(yǔ)言模型有所不同,但另一方面,序列處理和注意力機(jī)制在處理這類(lèi)數(shù)據(jù)時(shí)同樣適用。

李建忠:一些人認(rèn)為當(dāng)前的大語(yǔ)言模型只是“鸚鵡學(xué)舌”,他們認(rèn)為模型并沒(méi)有真正理解它們所學(xué)習(xí)和生成的文本。但如果我們仔細(xì)觀察大模型的學(xué)習(xí)機(jī)制,它們與人類(lèi)的學(xué)習(xí)過(guò)程非常相似。例如,Anthropic 在三月份的一篇論文中展示了,當(dāng)模型在語(yǔ)言上進(jìn)行訓(xùn)練時(shí),它會(huì)在內(nèi)部形成“抽象概念”。論文談到一個(gè)模型如何學(xué)習(xí)多種不同語(yǔ)言中的詞時(shí),例如“蘋(píng)果”,它在神經(jīng)網(wǎng)絡(luò)內(nèi)部創(chuàng)建了一個(gè)獨(dú)立的、不與任何一種語(yǔ)言綁定的“蘋(píng)果的抽象概念”。而在訓(xùn)練過(guò)程中,模型從未被明確地灌輸過(guò)一個(gè)“蘋(píng)果的抽象概念”。這似乎與人類(lèi)在學(xué)習(xí)語(yǔ)言時(shí),在大腦中構(gòu)建一個(gè)復(fù)雜的抽象概念體系的過(guò)程非常相似。

Lukasz Kaiser我們現(xiàn)在可以從實(shí)踐上證明,語(yǔ)言模型確實(shí)會(huì)形成概念,尤其是現(xiàn)在模型都在并行地用多種語(yǔ)言進(jìn)行訓(xùn)練,這一點(diǎn)很容易觀察到。你可以給模型一個(gè)數(shù)學(xué)問(wèn)題,然后用五種不同的語(yǔ)言重新表述它。盡管模型是逐個(gè) token 生成答案的,不同語(yǔ)言的 token 會(huì)截然不同,沒(méi)有任何共同之處,但答案基本上是相同的。如果模型在英語(yǔ)中犯了一個(gè)錯(cuò)誤,它在中文里也會(huì)犯同樣的錯(cuò)誤。如果模型采用某種解題方式,那么另一個(gè)語(yǔ)言的答案基本上就是前一個(gè)答案的翻譯。

這清晰地表明,在網(wǎng)絡(luò)的激活狀態(tài)中的某個(gè)地方,模型正在一個(gè)非常抽象的空間里解決問(wèn)題、思考概念,然后在上層網(wǎng)絡(luò)中用某種語(yǔ)言把它表達(dá)出來(lái)。從這個(gè)意義上說(shuō),模型中顯然存在獨(dú)立于語(yǔ)言的抽象概念,并且已經(jīng)有人對(duì)此進(jìn)行了研究。你甚至可以看到對(duì)應(yīng)特定主題或行為的概念。

但我們也要記住,至少對(duì)于那些沒(méi)有經(jīng)過(guò)大量多模態(tài)數(shù)據(jù)訓(xùn)練的模型來(lái)說(shuō),它們可能沒(méi)有與我們?nèi)祟?lèi)概念相似的、對(duì)應(yīng)某些物理實(shí)體的概念。比如我們所相信的“痛苦”或“愛(ài)”等概念。模型知道這些詞,它可以給你講述優(yōu)美的故事,但這與我們植根于物理世界真實(shí)感受的概念有所不同。

所以,模型確實(shí)有概念,但我們也應(yīng)該理解,至少其中一些概念可能和我們?nèi)祟?lèi)的概念不同。雖然從模型使用的詞語(yǔ)來(lái)看,它們是相似的,因?yàn)檫@些詞來(lái)自我們的語(yǔ)言和互聯(lián)網(wǎng),但這并不意味著它們的內(nèi)涵完全相同。在很多領(lǐng)域,比如數(shù)學(xué),這種差異可能無(wú)關(guān)緊要。因?yàn)閿?shù)學(xué)對(duì)我們來(lái)說(shuō)也是非常抽象的,我們主要通過(guò)符號(hào)和圖片來(lái)學(xué)習(xí),模型也一樣。但在那些與身體和物理世界緊密相關(guān)的事情上,情況有些不同。我們可能會(huì)被模型的言辭所迷惑,因?yàn)樗褂昧撕臀覀円粯拥脑~語(yǔ),但其內(nèi)涵并不完全一樣。

對(duì)話二多模態(tài)與世界模型的挑戰(zhàn)

李建忠:現(xiàn)在多模態(tài)發(fā)展得非??欤瑯I(yè)界有一種趨勢(shì)是追求一個(gè)“統(tǒng)一模型、統(tǒng)一模態(tài)”——使用一個(gè)通用的架構(gòu),來(lái)處理所有模態(tài)和任務(wù)。但不同的模態(tài)似乎適配不同的模型,例如,語(yǔ)言適用自回歸模型,而視覺(jué)則適用擴(kuò)散模型。我注意到你們“Transformer八子“在2017年6月發(fā)表《Attention Is All You Need》的同月,你們其中七位作者也發(fā)表過(guò)一篇論文《One Model to Learn Them All》。八年后的今天,你如何看待“統(tǒng)一模態(tài)”和“統(tǒng)一模型”之間的關(guān)系?這里最大的挑戰(zhàn)是什么?

Lukasz Kaiser從實(shí)踐層面來(lái)看,像 GPT-4 這樣的現(xiàn)代大語(yǔ)言模型已經(jīng)是多模態(tài)模型了。它們能接收?qǐng)D像和音頻輸入,也能生成圖像和音頻。從某種意義上說(shuō),我本可以說(shuō)我們已經(jīng)解決了這個(gè)問(wèn)題。但我也承認(rèn),模態(tài)之間的遷移水平還不盡如人意。

當(dāng)模型足夠大,數(shù)據(jù)足夠多時(shí),它們能設(shè)法完成多模態(tài)任務(wù)。你可以在 ChatGPT 中啟用語(yǔ)音模式,它會(huì)和你對(duì)話,在需要的時(shí)候,也會(huì)把語(yǔ)音轉(zhuǎn)錄成文字,進(jìn)行思考并回答,甚至還能唱歌。所以從實(shí)踐角度看,這個(gè)問(wèn)題已經(jīng)取得了巨大的進(jìn)展。

但我承認(rèn),當(dāng)你仔細(xì)觀察視頻時(shí),會(huì)發(fā)現(xiàn)一些不完全令人滿意的地方。當(dāng)前語(yǔ)言模型處理多模態(tài)的方式通常是通過(guò)VQ-VAE。圖像或音頻的每個(gè)部分,都會(huì)通過(guò)一個(gè)編碼器得到一個(gè)特殊的代碼。這個(gè)編碼器通常是預(yù)訓(xùn)練好并且固定的,有時(shí)也可能和大語(yǔ)言模型一起訓(xùn)練,但其訓(xùn)練量通常不大,并且有一個(gè)固定的頻率。對(duì)于音頻,可能是每幾秒對(duì)應(yīng)一個(gè)符號(hào);對(duì)于圖像,則是每多少像素對(duì)應(yīng)一個(gè)符號(hào)。這個(gè)方法算是有效,我們成功地讓它運(yùn)作起來(lái)了。但它給人的感覺(jué)不那么令人滿意,因?yàn)槲覀兊难劬Σ幌袷且粋€(gè)具有固定分辨率的傳感器。當(dāng)然,從某種意義上說(shuō)它有,但我可以四處移動(dòng)眼睛來(lái)動(dòng)態(tài)獲取信息。

所以,我認(rèn)為我們可以將多模態(tài)更深入地融合到模型中。這需要我們目前使用的 VQ-VAE 代碼變得更具可訓(xùn)練性,并且能與語(yǔ)言進(jìn)行更多的交互。這方面有很棒的研究正在進(jìn)行中,隨著人們?cè)絹?lái)越習(xí)慣于模型處理多模態(tài)任務(wù),將會(huì)推動(dòng)將這些研究深入整合到大語(yǔ)言模型中。

李建忠:我不清楚為什么很多視覺(jué)派的研究者經(jīng)常否定語(yǔ)言的重要性。確實(shí)如你所說(shuō),與語(yǔ)言進(jìn)行交互對(duì)于多模態(tài)非常重要。離開(kāi)語(yǔ)言,視覺(jué)似乎只是一些像素信號(hào)。要對(duì)視覺(jué)中的每一個(gè)對(duì)象賦予語(yǔ)義含義,語(yǔ)言功不可沒(méi)。我個(gè)人認(rèn)為有些視覺(jué)派如果繼續(xù)否定語(yǔ)言在智能中的價(jià)值,可能會(huì)再次跌入2012~2020年間、在ChatGPT發(fā)布之前的錯(cuò)誤路線。那時(shí)候也是視覺(jué)派大行其道的時(shí)候,但是識(shí)別能力在智能中是一個(gè)非常低階的能力,真要的認(rèn)知和理解,似乎離不開(kāi)語(yǔ)言。

讓我們來(lái)談?wù)勈澜缒P?。包括楊立昆(Yann LeCun)、李飛飛在內(nèi)的一部分學(xué)者認(rèn)為,靠大語(yǔ)言模型無(wú)法實(shí)現(xiàn)通用人工智能(AGI),因?yàn)樗麄兿嘈攀澜缒P筒攀茿GI的核心,他們認(rèn)為 AI 必須首先通過(guò)觀察世界來(lái)學(xué)習(xí)物理世界的規(guī)則,然后才能真正進(jìn)行推理。但是,我非常懷疑AI僅通過(guò)觀察世界就能理解物理世界的所有法則嗎?

Lukasz Kaiser我相信現(xiàn)代大語(yǔ)言模型在某種程度上就是世界模型。問(wèn)題在于,它們是足夠好的世界模型嗎?要回答這個(gè)問(wèn)題,我們需要問(wèn)自己,它們應(yīng)該描述世界的哪些方面?

我認(rèn)為,如果談到文本和數(shù)學(xué)等方面,它們是令人驚嘆的模型。如果你問(wèn)“下一個(gè)詞是什么?”,它們幾乎是無(wú)與倫比的絕佳的語(yǔ)言模型,可以準(zhǔn)確地告訴你,在互聯(lián)網(wǎng)上人們通常在這句話之后會(huì)說(shuō)什么。但它們作為物理模型的表現(xiàn),就不如它們作為語(yǔ)言模型那么出色了。這背后有幾個(gè)原因。

首先,正如我們所說(shuō),它們沒(méi)有在足夠多的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練。其次,我們電腦中常用的視頻數(shù)據(jù)格式,與我們體驗(yàn)世界的方式非常不同,因?yàn)槲覀冞€會(huì)采取行動(dòng)、移動(dòng)我們的眼睛。我們的體驗(yàn)絕不像純粹的圖像在眼前播放,或許在嬰兒早期是這樣,但很快就消失了。所以,無(wú)論是數(shù)據(jù)的數(shù)量還是質(zhì)量都還不夠好。而且,就像我之前說(shuō)的,我認(rèn)為目前的架構(gòu)也還不足以勝任這一點(diǎn),盡管大語(yǔ)言模型的多模態(tài)能力一直在穩(wěn)步提升,而且我認(rèn)為會(huì)持續(xù)提升。

所以我認(rèn)為,通過(guò)架構(gòu)和損失函數(shù)的改進(jìn),加上更好、更多的數(shù)據(jù),將有助于彌合人們所認(rèn)為的“世界模型”與“語(yǔ)言模型”之間的差距。另外,像 Sora、Genie和 Veo 這樣的模型表明,如果你從視頻中學(xué)習(xí),即使使用當(dāng)前的方法,也可以非常接近一個(gè)世界模型。或許還沒(méi)有完全達(dá)到,而且在數(shù)據(jù)效率上,學(xué)習(xí)過(guò)程肯定還不如人類(lèi),但我們正在彌合差距方面取得重大進(jìn)展。

李建忠:我個(gè)人的感覺(jué)是,真正的世界模型需要融合語(yǔ)言模型 和 其他模態(tài),以及基于語(yǔ)言的推理。單純靠觀察世界無(wú)法形成智能,就像在16-17世紀(jì)科學(xué)革命之前,人們通過(guò)觀察世界可能得到的是“地球是宇宙的中心”這樣錯(cuò)誤的概念。而現(xiàn)在每一個(gè)受到過(guò)教育的孩子都知道,在銀河系太陽(yáng)是中心。這顯然不是通過(guò)簡(jiǎn)單觀察世界就能得出來(lái)的,而是通過(guò)源于文字的訓(xùn)練得到的。

對(duì)話三AI編程:自然語(yǔ)言是終極目標(biāo),還是新的巴別塔

李建忠:讓我們來(lái)聊聊編程。AI 編程似乎已經(jīng)成為大語(yǔ)言模型的一個(gè)殺手級(jí)應(yīng)用。當(dāng)你們創(chuàng)造 Transformer 架構(gòu)時(shí),有沒(méi)有想過(guò)它不僅能處理人類(lèi)語(yǔ)言,還能如此出色地處理編程語(yǔ)言?

Lukasz Kaiser當(dāng)然,Transformer 的共同發(fā)明人 Ilia Polosukhin,甚至在《Attention Is All You Need》論文發(fā)表前就離開(kāi)了谷歌,創(chuàng)辦了一家致力于自動(dòng)化編程的公司。我差點(diǎn)成了那家公司的聯(lián)合創(chuàng)始人,但我當(dāng)時(shí)認(rèn)為時(shí)機(jī)還有點(diǎn)太早。后來(lái),這家公司成功地轉(zhuǎn)型到了加密貨幣領(lǐng)域,但它未來(lái)可能會(huì)再重回自動(dòng)化編程領(lǐng)域。所以,這確實(shí)是在我們?cè)O(shè)想之內(nèi)的。相比于預(yù)見(jiàn)到這么快就出現(xiàn)像 ChatGPT 這樣的產(chǎn)品,我們當(dāng)時(shí)可能更相信自動(dòng)化編程的可行性,因?yàn)楦杏X(jué)它比處理任意的對(duì)話要更容易。但事實(shí)證明,它們本質(zhì)上是同一件事。

李建忠:關(guān)于 AI 編程的未來(lái),當(dāng)前主要有兩種觀點(diǎn)。第一種是“AI 原生”(AI Native)模式,認(rèn)為未來(lái)高級(jí)編程語(yǔ)言會(huì)變得像匯編語(yǔ)言一樣——仍然存在,但隱藏在幕后。所有的軟件開(kāi)發(fā)都將通過(guò)自然語(yǔ)言完成,通過(guò)像氛圍編程(Vibe Coding)這樣的方式。第二種觀點(diǎn)是“AI 副駕駛”(AI Copilot)模式,認(rèn)為自然語(yǔ)言的模糊性與馮·諾依曼機(jī)器所要求的精確性之間存在根本沖突。因此,程序員仍然需要使用高級(jí)語(yǔ)言來(lái)表達(dá)他們的核心思想,自然語(yǔ)言只是作為一種補(bǔ)充。你如何看待這兩種觀點(diǎn)?

Lukasz Kaiser如果你展望幾年后的未來(lái),我認(rèn)為語(yǔ)言模型將能夠覆蓋大量的編程工作。我肯定更愿意直接和我的Codex Agent 或類(lèi)似的東西對(duì)話,然后說(shuō):“你運(yùn)行這個(gè)了嗎?它看起來(lái)怎么樣?”

但另一方面,在某個(gè)時(shí)刻,這個(gè) Agent 需要向你解釋為什么某個(gè)東西運(yùn)行緩慢,因?yàn)樗枰f(shuō)明計(jì)算機(jī)網(wǎng)絡(luò)是如何工作的。為了解釋這類(lèi)事物和概念,數(shù)學(xué)家用數(shù)學(xué)來(lái)解釋?zhuān)绦騿T用更高級(jí)的語(yǔ)言。我們可能會(huì)使用一些混合的方式,比如數(shù)學(xué)和算法,而物理學(xué)家可能會(huì)畫(huà)圖或用其他方式來(lái)解釋。我認(rèn)為學(xué)習(xí)數(shù)學(xué)和編程都是非常有用的。如果你試圖用純自然語(yǔ)言來(lái)解釋數(shù)學(xué),不帶任何符號(hào),那實(shí)際上會(huì)困難得多。符號(hào)有助于人們解釋和理解正在發(fā)生的事情。我認(rèn)為這在某種程度上也適用于編程語(yǔ)言,它們是比純自然語(yǔ)言更好的溝通工具。

當(dāng)然,如果你不懂這些,我相信模型會(huì)很好地用自然語(yǔ)言為你解釋。但如果你想成為一名專(zhuān)業(yè)的程序員,即使在未來(lái),你最好還是了解這些概念并熟練掌握它們,因?yàn)檫@會(huì)讓你與模型的溝通更快、更高效。

李建忠:非常同意。 我個(gè)人的觀點(diǎn)是未來(lái)可能一部分復(fù)雜的、系統(tǒng)級(jí)的軟件仍然需要專(zhuān)業(yè)程序員使用Copilot模式來(lái)編寫(xiě)。但更多的應(yīng)用軟件、偏終端用戶交互型的,大眾用戶使用自然語(yǔ)言編程即可完成。

談?wù)動(dòng)?jì)算機(jī)編程語(yǔ)言,有一種觀點(diǎn)認(rèn)為今天的編程語(yǔ)言是為人類(lèi)編寫(xiě)而創(chuàng)造的。在未來(lái),我們是否會(huì)看到新一代的高級(jí)編程語(yǔ)言,專(zhuān)門(mén)為 AI 生成代碼而設(shè)計(jì)?

Lukasz Kaiser我不太確定,未來(lái)很難預(yù)測(cè)。我認(rèn)為我們已經(jīng)有了從非常高級(jí)到非常貼近機(jī)器的編程語(yǔ)言。編程的重點(diǎn)不一定在于特定的語(yǔ)言,而更多地在于溝通你希望機(jī)器做什么,以及這個(gè)過(guò)程中機(jī)器或機(jī)器網(wǎng)絡(luò)如何被編排。所以,要做好編程,關(guān)鍵在于良好的溝通和抽象。我不認(rèn)為我們一定需要新的編程語(yǔ)言,我們可以使用現(xiàn)有的編程語(yǔ)言,只是要用得非常好。而這正是 AI 有望幫助我們的地方,因?yàn)楹芏喱F(xiàn)有的系統(tǒng)顯然可以做得更好。

李建忠:新的編程語(yǔ)言的需求來(lái)自于新的計(jì)算機(jī)架構(gòu),而并不來(lái)自于AI編程的需求。如果有新的計(jì)算硬件架構(gòu),當(dāng)前編程語(yǔ)言不能滿足,那么就會(huì)有新的編程語(yǔ)言被創(chuàng)造出來(lái)。

對(duì)話四Agent的泛化困境:是方法問(wèn)題,還是根本限制?

李建忠:現(xiàn)在許多主流模型都內(nèi)置了“智能體”的訓(xùn)練,以提升在特定任務(wù)上的表現(xiàn),成為所謂“智能體模型 Agentic Model”。但這種 Agent 的訓(xùn)練似乎很難泛化到新的、未見(jiàn)過(guò)的任務(wù)上。這就引出了一個(gè)關(guān)鍵問(wèn)題:這種泛化問(wèn)題之所以出現(xiàn),是因?yàn)槲覀冞€沒(méi)找到正確的訓(xùn)練方法,就像那種讓語(yǔ)言模型變得如此泛化的方法一樣?還是說(shuō)這是一種更根本的局限?Agent 領(lǐng)域會(huì)走向一個(gè)為不同任務(wù)專(zhuān)門(mén)打造的“垂直模型”時(shí)代嗎?或者,大多數(shù) Agent 任務(wù)會(huì)繼續(xù)由模型之外的框架來(lái)處理?

Lukasz Kaiser我總是很難理解什么是“智能體模型”(Agentic Model)。這個(gè)詞被頻繁使用,但據(jù)我理解,這個(gè)詞背后并沒(méi)有一個(gè)堅(jiān)實(shí)的技術(shù)實(shí)體。對(duì)我來(lái)說(shuō),人們所說(shuō)的智能體模型,是指那些在其推理過(guò)程中能夠調(diào)用各種外部工具的推理模型,例如:代碼解釋器、網(wǎng)絡(luò)搜索工具,或者文檔檢索工具等。它們都是用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練的,和我們現(xiàn)在訓(xùn)練模型的方式一樣,而且這套方法效果很好。

我認(rèn)為問(wèn)題出在,當(dāng)人們希望這些模型去使用它們未經(jīng)訓(xùn)練的其他工具、其他模型、或事物時(shí),有時(shí)它們能泛化一點(diǎn),但有時(shí)效果并不好。在任何情況下,如果你讓這些模型互相調(diào)用,你可以要求它們這樣做,而且現(xiàn)在的模型足夠聰明,總能得出點(diǎn)什么結(jié)果。

但這個(gè)過(guò)程中沒(méi)有學(xué)習(xí)信號(hào)。比如,網(wǎng)絡(luò)搜索的學(xué)習(xí)信號(hào)來(lái)自強(qiáng)化學(xué)習(xí)訓(xùn)練,在訓(xùn)練中你給模型設(shè)定任務(wù),比如“你需要在網(wǎng)上找到Lukasz Kaiser在某年到某年間寫(xiě)了哪些論文”,并且你有一種方法來(lái)檢查答案是否正確。模型會(huì)反復(fù)嘗試,最終學(xué)會(huì)如何正確完成任務(wù)。而人們現(xiàn)在所說(shuō)的“Agent 系統(tǒng)”,通常只是被定義出來(lái),但沒(méi)有學(xué)習(xí)過(guò)程,所以效果并不好。

我相信強(qiáng)化學(xué)習(xí)可以被泛化到更大的系統(tǒng),但這在當(dāng)前有些困難。因?yàn)橹辽僖晕覀兡壳暗姆绞剑M(jìn)行強(qiáng)化學(xué)習(xí),你需要在訓(xùn)練期間讓模型接觸到所有這些東西,這意味著你需要有一個(gè)可以訓(xùn)練和更新的網(wǎng)絡(luò)索引,還需要一個(gè) Python 解釋器。所以,如果你想支持多智能體系統(tǒng),你可能需要整個(gè)世界的模擬環(huán)境來(lái)訓(xùn)練它,而這通常是你沒(méi)有的。

需要做更多的工作來(lái)讓這些系統(tǒng)變得可訓(xùn)練。另一方面,即使沒(méi)有太多訓(xùn)練,它們也可能非常有用,因?yàn)槟P捅旧矸浅B斆?,可以零樣本(zero-shot)完成很多事情。但除非你能將整個(gè)系統(tǒng)一起訓(xùn)練,否則它不會(huì)變得真正出色,而這在目前確實(shí)還不太好實(shí)現(xiàn)。

對(duì)話五算力與算法:Scaling Law是信仰還是路徑依賴?

李建忠:下一個(gè)問(wèn)題是關(guān)于擴(kuò)展法則(Scaling Law)的。業(yè)界有一種強(qiáng)烈的信念,認(rèn)為 Scaling Law 是通往更強(qiáng) AI 的答案,這包括在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí),測(cè)試時(shí)三個(gè)階段的擴(kuò)展。這導(dǎo)致整個(gè)業(yè)界對(duì)算力的“蒙眼狂奔”。強(qiáng)化學(xué)習(xí)之父Rich Sutton在《苦澀的教訓(xùn)》中談到,過(guò)去70年AI領(lǐng)域最大教訓(xùn)是,通用可擴(kuò)展的算力是AI發(fā)展的關(guān)鍵驅(qū)動(dòng)力。但這是否會(huì)讓我們陷入一種“算力崇拜”,一種路徑依賴,使我們忽略算法和架構(gòu)上可能取得的突破?我知道你正在研究小規(guī)模數(shù)據(jù)上的推理。我們是否有機(jī)會(huì)在 Transformer 之外發(fā)明一種新的架構(gòu),開(kāi)創(chuàng)一個(gè)全新的范式,而不是依賴更多的GPU ?

Lukasz Kaiser我其實(shí)認(rèn)為,來(lái)自預(yù)訓(xùn)練的 Scaling Law 和來(lái)自強(qiáng)化學(xué)習(xí)的 Scaling Law 不完全是一回事。因?yàn)樗鼈兊那€看起來(lái)一樣,所以人們傾向于把它們放在一起,但我認(rèn)為它們實(shí)際上相當(dāng)不同,我更愿意將它們分開(kāi)來(lái)看。

預(yù)訓(xùn)練的 Scaling Law當(dāng)然已經(jīng)帶我們走了很遠(yuǎn),我認(rèn)為它還會(huì)帶我們走得更遠(yuǎn)。但是,你愿意擴(kuò)展到什么程度,存在一個(gè)經(jīng)濟(jì)上的限制。我們可以建造更大的模型,人們希望進(jìn)行推理,但也不想為每個(gè) token 支付一千美元。所以,這在實(shí)踐和經(jīng)濟(jì)上有一個(gè)極限,我們離這個(gè)極限并不遠(yuǎn)。現(xiàn)在,我們還學(xué)到了一點(diǎn),就是可以將一些大模型蒸餾成更小的模型。所以我確實(shí)相信預(yù)訓(xùn)練的Scaling Law會(huì)一直持續(xù)下去,但它在實(shí)踐層面可能已經(jīng)達(dá)到了經(jīng)濟(jì)上的極限。

在推理模型出現(xiàn)之前,那時(shí)我剛加入 OpenAI ,我們?cè)幸黄P(guān)于解決 GSM-8K(一個(gè)六年級(jí)水平的數(shù)學(xué)數(shù)據(jù)集)的論文。當(dāng)時(shí)我們必須用上最大的模型,才能在那個(gè)數(shù)據(jù)集上達(dá)到 60% 左右的準(zhǔn)確率。我們?yōu)槟莻€(gè)數(shù)學(xué)數(shù)據(jù)建立了一個(gè) Scaling Law,結(jié)果顯示我們可能需要超過(guò) 1000 萬(wàn)億個(gè)參數(shù)才能解決這個(gè)數(shù)據(jù)集,這基本上是一個(gè)不可能達(dá)到的數(shù)字。所以,預(yù)訓(xùn)練的 Scaling Law 雖然有效,但它帶給我們的速度在實(shí)踐中并不可行。后來(lái)事實(shí)證明,如果你使用強(qiáng)化學(xué)習(xí)推理,現(xiàn)在可以用非常小的模型解決整個(gè)數(shù)據(jù)集和更難的問(wèn)題。所以,預(yù)訓(xùn)練的 Scaling Law 很棒,但它也無(wú)法帶我們到達(dá)我們想去的地方。

現(xiàn)在來(lái)看推理模型,它們并不增加參數(shù)數(shù)量,我們有的是一個(gè)固定的模型。而在預(yù)訓(xùn)練的擴(kuò)展中,我們需要更多的參數(shù),這意味著也需要更多的數(shù)據(jù),數(shù)據(jù)的質(zhì)量、來(lái)源等都要考慮。而現(xiàn)在有了強(qiáng)化學(xué)習(xí)、有了推理模型,它們就像循環(huán)模型,只需要讓它們運(yùn)行更長(zhǎng)時(shí)間,它們就會(huì)變得更好。這是一個(gè)非常神奇的法則。如果我們能永遠(yuǎn)這樣做下去,那可能會(huì)很棒。但它有另一種限制,因?yàn)樗袞|西都在上下文中,需要注意力機(jī)制,這是一個(gè)模型架構(gòu)問(wèn)題。Transformer 最初是為翻譯設(shè)計(jì)的,那時(shí)上下文里可能只有 100 個(gè)詞,現(xiàn)在我們有時(shí)能有一百萬(wàn)個(gè),但它從未被設(shè)計(jì)成無(wú)限運(yùn)行。所以需要一些新的想法來(lái)解決這類(lèi)問(wèn)題。

另一個(gè)問(wèn)題是強(qiáng)化學(xué)習(xí)。至少以目前的方式,你在最后只有一個(gè)信號(hào)。你花了大量時(shí)間思考、思考、再思考,但然后得到一個(gè)反饋:“答對(duì)了”或“答錯(cuò)了”,或者可能得到一個(gè)浮點(diǎn)數(shù)。你花費(fèi)所有這些時(shí)間就得到一個(gè)獎(jiǎng)勵(lì)。如果這個(gè)思考時(shí)間是幾小時(shí),你也許會(huì)投資。但如果是幾周、幾個(gè)月或幾年,你實(shí)際上無(wú)法訓(xùn)練這樣的模型,因?yàn)槟悴荒艿纫恢懿抛屇P偷玫揭粋€(gè)獎(jiǎng)勵(lì)。即使你并行做很多次,也還是不足以訓(xùn)練。

所以,推理的 Scaling Law 與預(yù)訓(xùn)練的 Scaling Law 有著非常不同的限制。因此,這也呼喚著新的研究和不同的架構(gòu)。甚至很難說(shuō)是架構(gòu),因?yàn)樗灰欢ㄊ莻鹘y(tǒng)意義上的模型架構(gòu)。我認(rèn)為在那種情況下,Transformer可能仍然可以工作得很好。在強(qiáng)化學(xué)習(xí)中,我們?cè)?jīng)有過(guò)價(jià)值函數(shù)。我們目前用于語(yǔ)言模型的強(qiáng)化學(xué)習(xí),實(shí)際上是 RL 中最簡(jiǎn)單的算法之一。也許我們需要一種更好的信用分配方式,也許需要重新審視整個(gè)強(qiáng)化學(xué)習(xí)的文獻(xiàn),看看哪些適用于長(zhǎng)序列推理Rollout。這是一個(gè)不同的限制。如果我們改變了強(qiáng)化學(xué)習(xí)或架構(gòu)中的某些部分,可能很難說(shuō)清楚它還是老的推理模型,還是一個(gè)新范式。推理模型某種意義上可以說(shuō)仍然是Transformer,所以可能下一個(gè)范式仍然是強(qiáng)化學(xué)習(xí),只是方式不同而已。 要弄清楚到底該怎么做才能讓一切奏效,仍然非常困難。

對(duì)話六具身智能的挑戰(zhàn):是數(shù)據(jù)問(wèn)題? 還是比特和原子的根本性差異?

李建忠:我們來(lái)聊聊具身智能。大模型在比特世界的成功,讓人們對(duì)物理世界寄予了厚望。但具身智能的進(jìn)展,比如人形機(jī)器人,一直緩慢且充滿爭(zhēng)議,尤其是在泛化方面。對(duì)此主要有兩種觀點(diǎn)。第一種觀點(diǎn)認(rèn)為,核心問(wèn)題在于數(shù)據(jù)匱乏。我們只是還沒(méi)找到一種方法,能像收集互聯(lián)網(wǎng)數(shù)據(jù)那樣,大規(guī)模地收集物理世界的數(shù)據(jù)。第二種觀點(diǎn)認(rèn)為,問(wèn)題在于比特和原子之間的根本差異。例如,比特可以被大量復(fù)制和生成,而原子不能。因此,具身智能的 Scaling Law 將與我們熟知的、基于 Transformer 的 Scaling Law 有著根本的不同,它可能需要一個(gè)全新的、與Transformer 非常不同的架構(gòu)。你如何看待這兩種不同的觀點(diǎn)?

Lukasz Kaiser我相信我們會(huì)發(fā)現(xiàn),具身智能將比我們想象的更接近于當(dāng)前的 LLM。物理世界的數(shù)據(jù)確實(shí)比互聯(lián)網(wǎng)上的少得多,但我們?cè)谔岣吣P偷臄?shù)據(jù)效率方面取得了長(zhǎng)足的進(jìn)步。實(shí)際上,推理模型就是一個(gè)很好的例子,我們現(xiàn)在用比預(yù)訓(xùn)練時(shí)少得多的樣本來(lái)教它們數(shù)學(xué)。大概幾十萬(wàn)個(gè)任務(wù)就足以讓它在許多非常困難的任務(wù)上從基本 0% 的準(zhǔn)確率提升到 100%。這在物理學(xué)和許多其他領(lǐng)域也是類(lèi)似的。

但這些模型確實(shí)依賴于一個(gè)預(yù)先訓(xùn)練好的模型。所以對(duì)于物理任務(wù),我們可能需要一些在多模態(tài)方面表現(xiàn)更好的模型,尤其是在視頻方面。我相信像 Sora 或 Veo 這樣能生成或理解視頻的模型,是未來(lái)能在物理世界中行動(dòng)的模型的絕佳前驅(qū),它們就像是預(yù)訓(xùn)練部分。

但要真正教會(huì)機(jī)器人操作,我們需要像 RL(強(qiáng)化學(xué)習(xí)) 那樣的推理部分,它需要從一個(gè)在大量視頻上訓(xùn)練過(guò)的、非常好的多模態(tài)模型開(kāi)始。我們現(xiàn)在還沒(méi)有這樣的模型,雖然這個(gè)領(lǐng)域正在變得越來(lái)越好,但還沒(méi)有達(dá)到足以在復(fù)雜環(huán)境中操控真實(shí)機(jī)器人的門(mén)檻。所以,我們需要好的基礎(chǔ)模型。在此之上,可能只需要少量數(shù)據(jù),我們需要以一種非常好的方式加入 RL 訓(xùn)練,比如允許模型在采取行動(dòng)前進(jìn)行一些推理。當(dāng)然,這也有現(xiàn)實(shí)的障礙。例如,我們目前的推理模型,如果你想讓它在機(jī)器人的每一個(gè)動(dòng)作前都進(jìn)行推理,那速度就太慢了,無(wú)法在現(xiàn)實(shí)世界中有效行動(dòng)。

所以,它可能需要某種層級(jí)式架構(gòu)來(lái)至少能夠輸出動(dòng)作。架構(gòu)需要一些調(diào)整,就像多模態(tài)一樣。但我確實(shí)認(rèn)為,在某個(gè)地方會(huì)有一個(gè)核心的Transformer 在運(yùn)行。我相信沿著這樣的路徑,我們將能得到相當(dāng)不錯(cuò)的機(jī)器人模型和具身智能。

當(dāng)然,我不認(rèn)為這是實(shí)現(xiàn)具身智能最高效的方式。如果你觀察人類(lèi),我們的行動(dòng)方式似乎并非如此,我們以及動(dòng)物在這方面非常擅長(zhǎng)。所以我確實(shí)相信,之后會(huì)有一代新模型,在數(shù)據(jù)和計(jì)算上都將高效得多,它會(huì)在架構(gòu)和學(xué)習(xí)過(guò)程中帶來(lái)更多的改變。但通常來(lái)說(shuō),只要你有了一個(gè)至少能跑起來(lái)的架構(gòu),開(kāi)發(fā)下一個(gè)版本就會(huì)容易得多。所以我認(rèn)為,第一個(gè)版本可能實(shí)際上是建立在我們現(xiàn)有成果之上的,但會(huì)做一些調(diào)整以適應(yīng)實(shí)際應(yīng)用。

對(duì)話七強(qiáng)化學(xué)習(xí):是超級(jí)優(yōu)化器,還是科學(xué)發(fā)現(xiàn)的引擎?

李建忠:我們來(lái)談?wù)剰?qiáng)化學(xué)習(xí)。在去年 OpenAI 的O1和開(kāi)源的 DeepSeek R1 等模型出現(xiàn)后,我們正看到一個(gè)向新范式的巨大轉(zhuǎn)變:由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理范式。人們對(duì)此寄予厚望,認(rèn)為 RL 可以擴(kuò)展人類(lèi)知識(shí)的邊界。但在多大程度上,這種探索是真正的“開(kāi)放式創(chuàng)新”?又在多大程度上,它只是在人類(lèi)定義的環(huán)境和獎(jiǎng)勵(lì)函數(shù)內(nèi)的“閉環(huán)優(yōu)化”?你認(rèn)為這種由 RL 驅(qū)動(dòng)的推理方法,能夠帶來(lái)真正全新的科學(xué)發(fā)現(xiàn)嗎?目前最大的挑戰(zhàn)是什么?

Lukasz Kaiser我?guī)缀醢淹评砟P涂醋饕环N新的架構(gòu),即使它們底層是 Transformer。它們有這種“思維鏈”,也就是推理過(guò)程,你可以把它看作一個(gè)潛變量。模型在說(shuō)話前會(huì)先思考。如果你把整個(gè)系統(tǒng)看作一個(gè)模型,那么你就無(wú)法很好地帶著梯度來(lái)訓(xùn)練離散的潛變量。你可以試試,而且之前也有人這么試過(guò),但結(jié)果證明這條路走不太通。你可以用強(qiáng)化學(xué)習(xí)的方式來(lái)做,這經(jīng)過(guò)大量嘗試,在某種程度上證明至少是可行的。

這里有兩個(gè)問(wèn)題。一個(gè)是,這種 RL 訓(xùn)練的效果如何,它有什么局限性?例如,你必須從一個(gè)已經(jīng)用梯度下降預(yù)訓(xùn)練過(guò)的模型開(kāi)始,而不能從隨機(jī)權(quán)重開(kāi)始,至少我們還不知道是否可以這樣做。所以與梯度下降相比,它肯定有一些局限性。但它有一個(gè)巨大的優(yōu)勢(shì),就是數(shù)據(jù)效率高得多。它可以從有限的、少得多的一組數(shù)據(jù)中學(xué)習(xí),比如僅僅 1000 道數(shù)學(xué)練習(xí)題。

我相信因?yàn)?RL 非常抽象,你只得到一個(gè)獎(jiǎng)勵(lì),你對(duì)這個(gè)獎(jiǎng)勵(lì)沒(méi)有任何約束。如果你能很好地優(yōu)化它,那么你就應(yīng)該能夠?qū)W習(xí)。你可以拿一篇關(guān)于數(shù)學(xué)或物理學(xué)特定主題的研究論文,把它變成 RL 的學(xué)習(xí)任務(wù)——如果它確實(shí)是數(shù)據(jù)高效的,我們看到它確實(shí)是——那么模型就可以從中學(xué)習(xí),并突然之間在這個(gè)特定的研究課題上變得知識(shí)淵博。模型可以開(kāi)始提出一些想法,甚至連從事這項(xiàng)研究的專(zhuān)業(yè)人員都會(huì)覺(jué)得有趣和新穎。我相信我們會(huì)看到這一點(diǎn)。

但是,這種用于語(yǔ)言模型的強(qiáng)化學(xué)習(xí)范式,OpenAI O1 的預(yù)覽版是一年前才發(fā)布的,DeepSeek R1更晚。即使你看那些可能幾年前開(kāi)始的研究,也就是大約三年的時(shí)間。而在更廣泛的社區(qū)中,它基本上是從一年前才開(kāi)始的。我們還處于這個(gè)范式的非常早期階段,我相信還有很多東西需要嘗試、發(fā)現(xiàn)和改進(jìn),才能讓它更高效,走得更遠(yuǎn)。另一方面,我當(dāng)然相信這些模型已經(jīng)展現(xiàn)出很棒的東西。無(wú)論是公司、學(xué)術(shù)界、還是很多研究人員,我希望能一起將該范式推向一個(gè)更高的境地。

對(duì)話八AI的組織躍遷:如何實(shí)現(xiàn)大規(guī)模Agent協(xié)作?

李建忠:去年,OpenAI 提出了一個(gè)五級(jí)的 AGI 等級(jí)劃分,其中更高的等級(jí)是由“創(chuàng)新”和“組織”來(lái)定義的。我們剛剛談到了創(chuàng)新。當(dāng)談到“組織”時(shí),普遍的理解是一個(gè)由相互協(xié)作的Agent 組成的網(wǎng)絡(luò)。但目前 Agent 協(xié)作的方法似乎只能覆蓋非常有限的場(chǎng)景。要實(shí)現(xiàn)真正的、大規(guī)模的組織——比如成千上萬(wàn)的人在一個(gè)公司里協(xié)作——似乎還非常遙遠(yuǎn)。你認(rèn)為實(shí)現(xiàn)這一目標(biāo)最大的挑戰(zhàn)是什么?

Lukasz Kaiser我認(rèn)為最大的挑戰(zhàn)在于開(kāi)發(fā)下一代的推理模型。做一個(gè)類(lèi)比,我覺(jué)得推理模型正處于我剛開(kāi)始從事機(jī)器學(xué)習(xí)時(shí) RNN 所處的階段,而我們可能需要一個(gè) Transformer 創(chuàng)新級(jí)別的推理模型。目前,推理過(guò)程是這樣的:模型逐個(gè) token 進(jìn)行推理,以一種非常順序的方式生成結(jié)果,然后得到一個(gè)獎(jiǎng)勵(lì),就結(jié)束了。

談及“組織”,人們很多時(shí)候討論的是多智能體系統(tǒng),很明顯期望它應(yīng)該是并行的。我們確實(shí)需要更多的并行性。我們不能等一個(gè)模型思考一個(gè)星期,然后得到一個(gè)獎(jiǎng)勵(lì)。那根本不現(xiàn)實(shí),應(yīng)該有很多事情并行發(fā)生。強(qiáng)化學(xué)習(xí)的價(jià)值函數(shù)已經(jīng)使用了很長(zhǎng)時(shí)間了,但大語(yǔ)言模型中的 RL 在當(dāng)前大多數(shù)情況下,并沒(méi)有使用價(jià)值函數(shù)。也許它們需要回歸,也許需要一些不同的東西——如果是Yann LeCun,他大概會(huì)說(shuō)是能量模型(Energy Model)。

我認(rèn)為我們需要為并行過(guò)程提供更多的信號(hào)。如果 1000 個(gè)并行 Agent 只有一個(gè)獎(jiǎng)勵(lì),你怎么知道哪個(gè)做得好,哪個(gè)做得不好?我的判斷是在訓(xùn)練中我們需要更多的信號(hào),并結(jié)合一種架構(gòu)來(lái)融入這種并行的過(guò)程。用抽象的方式談?wù)撌虑楹苋菀祝覀冋嬲枰氖轻槍?duì)其中每個(gè)部分進(jìn)行非常具體的研究,這樣才能在下一代推理模型中,在這方面給我們帶來(lái)更多能力。

對(duì)話九AI記憶的瓶頸:模型離真正的原生記憶還有多遠(yuǎn)?

李建忠:我們來(lái)談?wù)動(dòng)洃洝.?dāng)今大模型的“記憶”受限于上下文窗口,這感覺(jué)更像是“工作記憶”而不是長(zhǎng)期的“原生記憶”。許多公司已經(jīng)推出了自己的長(zhǎng)期記憶解決方案,但大多數(shù)都是在 Transformer 架構(gòu)之外的外掛擴(kuò)展。許多人認(rèn)為,記憶是模型能力的一個(gè)關(guān)鍵瓶頸。你如何看待 Transformer 架構(gòu)在記憶方面的限制?我們是否需要一個(gè)全新的原生記憶機(jī)制,比如像人類(lèi)的海馬體那樣,來(lái)實(shí)現(xiàn)真正的、內(nèi)生的長(zhǎng)期記憶?

Lukasz Kaiser正如我前面所說(shuō),我?guī)缀醢淹评砟P涂醋饕环N新的架構(gòu)。它們絕對(duì)可以做的一件事,就是在這種思維鏈過(guò)程中使用工具,而其中一個(gè)工具就可以是“訪問(wèn)我的記憶”。如果模型是用 RL 訓(xùn)練的,并且這個(gè)過(guò)程是用一個(gè)允許它這樣做的工具來(lái)訓(xùn)練,它就會(huì)學(xué)得很好。

目前,模型被訓(xùn)練成可以訪問(wèn)互聯(lián)網(wǎng),我認(rèn)為這有所不同。它應(yīng)該能夠區(qū)分互聯(lián)網(wǎng)記憶和自己的記憶。但是,如果你比較模型回答問(wèn)題的能力,比如“動(dòng)物園幾點(diǎn)開(kāi)門(mén)?”或者“這個(gè)庫(kù)最新版本的代碼是什么?”以前,模型只會(huì)胡編亂造一些東西,因?yàn)樗鼈冇涀×四硞€(gè)舊版本的信息?,F(xiàn)在它們很清楚地知道需要去網(wǎng)上搜索,獲取真實(shí)答案,然后把它帶入模型。我相信通過(guò)這種工具的方式來(lái)解決記憶問(wèn)題,對(duì)于大多數(shù)的情況已經(jīng)足夠好了。

但未來(lái)的某個(gè)架構(gòu)可能會(huì)做得更好,也許不需要把它當(dāng)作一個(gè)工具來(lái)解決。我們拭目以待。但就目前而言,我認(rèn)為我們有一個(gè)可行的解決方案,而且它運(yùn)行得相當(dāng)不錯(cuò)。

李建忠:如果類(lèi)比人類(lèi)來(lái)講,我們既有外部的記憶、比如圖書(shū)館;也有根植于我們大腦中的原生記憶。而且有些原生記憶會(huì)逐步內(nèi)化成我們知識(shí)、或者說(shuō)大腦神經(jīng)網(wǎng)絡(luò)權(quán)重的一部分。從人類(lèi)大腦來(lái)看,內(nèi)生記憶是我們智能不可或缺的一部分。如果像金魚(yú)一樣只有7秒的記憶,人類(lèi)的智能可能不會(huì)像今天一樣發(fā)達(dá),甚至人類(lèi)的愛(ài)恨情仇都與此有關(guān)。真正強(qiáng)大的智能體,內(nèi)生記憶可能是非常重要的一環(huán)。

對(duì)話十大模型如何擺脫瞬時(shí)學(xué)習(xí),而像人類(lèi)一樣持續(xù)學(xué)習(xí)?

李建忠:我們來(lái)談?wù)勊矔r(shí)學(xué)習(xí)(transient learning)和持續(xù)學(xué)習(xí)(continuous learning)。強(qiáng)化學(xué)習(xí)之父理Rich Sutton曾談到,當(dāng)前的大模型過(guò)于關(guān)注所謂的“瞬時(shí)學(xué)習(xí)”,而忽略了持續(xù)學(xué)習(xí),而人類(lèi)總是在持續(xù)學(xué)習(xí)。甚至我們現(xiàn)在正在進(jìn)行的這場(chǎng)對(duì)話,同時(shí)也在改變我們大腦中的神經(jīng)網(wǎng)絡(luò)權(quán)重。但對(duì)于今天的大模型來(lái)說(shuō),一旦它們訓(xùn)練完成,它們的權(quán)重就固定了。用戶的交互不會(huì)更新神經(jīng)網(wǎng)絡(luò)權(quán)重本身。你認(rèn)為未來(lái)大模型有可能支持持續(xù)學(xué)習(xí)嗎?

Lukasz Kaiser我認(rèn)為這方面其實(shí)已經(jīng)發(fā)生了一些小步的進(jìn)展,那就是利用上下文(in-context)作為持續(xù)學(xué)習(xí)的記憶。模型會(huì)越來(lái)越多地嘗試,將從與我們的對(duì)話記憶中收集到的信息,盡可能多地放入上下文中,Transformer 在上下文學(xué)習(xí)方面做得很好。所以這是可行的,但效率不高,因?yàn)樯舷挛膶W(xué)習(xí)看上去不是最高效的學(xué)習(xí)方式。

當(dāng)前記憶工具正在出現(xiàn),現(xiàn)在的 ChatGPT 也有一個(gè)記憶工具,模型可以在推理中訪問(wèn)記憶。我覺(jué)得,這些都是很好的解決方案,會(huì)逐漸普及。但對(duì)我來(lái)說(shuō),作為一名研究者,將所有的記憶都視為token 感覺(jué)有點(diǎn)不盡如人意,感覺(jué)上它們應(yīng)該成為連續(xù)的向量,或者是模型權(quán)重在某個(gè)地方的變化。我認(rèn)為類(lèi)似這樣的東西會(huì)出現(xiàn)。

它們可能不會(huì)馬上出現(xiàn),而且不得不面對(duì)“使用 token”這種方案作為基線的挑戰(zhàn),而這個(gè)基線比我們幾年前想象的要強(qiáng)大得多。但即便如此,我確實(shí)認(rèn)為,隨著時(shí)間的推移,那些能夠修改權(quán)重的方法會(huì)變得更重要。例如,像 LoRA 模塊,我們有非常經(jīng)濟(jì)的方式來(lái)修改語(yǔ)言模型的權(quán)重。我們很難讓每個(gè)用戶都擁有一個(gè)模型,原因是今天的模型太龐大了,而且需要為它們提供服務(wù),這根本不現(xiàn)實(shí)。但現(xiàn)在我們知道可以做一些很小的適配器(adapters),這實(shí)際上是可行的。每個(gè)人都可以微調(diào)自己的模型,它們效果很好。

因此,實(shí)質(zhì)性修改權(quán)重已經(jīng)變得更加可行。我只是認(rèn)為我們還沒(méi)有很好的算法知道如何做好這件事。這是一個(gè)研究問(wèn)題,也可能涉及到如何將它與存儲(chǔ)在 token 中的記憶相結(jié)合。此外,從用戶的角度來(lái)看,能夠看到記憶里有什么(你看不見(jiàn)向量里有什么),這種可解釋性有多重要?我不知道,也許不重要,也許你唯一需要的就是能夠刪除它。這其中會(huì)有很多實(shí)踐和研究上的考量,但可以肯定的是,上下文學(xué)習(xí)已經(jīng)為持續(xù)學(xué)習(xí)做了很多貢獻(xiàn)。但我確實(shí)感覺(jué),或者至少作為一名研究者,我希望我們未來(lái)能有一種更優(yōu)雅的方式來(lái)實(shí)現(xiàn)持續(xù)學(xué)習(xí)。

結(jié)語(yǔ)| 《下一代推理模型的挑戰(zhàn)與研究》主題演講

李建忠:最后一個(gè)問(wèn)題。你將在我們10月16-17日舉行的全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)(ML-Summit)上發(fā)表題為“下一代推理模型的挑戰(zhàn)與研究”的主題演講。我們都對(duì)此非常期待。你能否給我們劇透一下你將分享的內(nèi)容?

Lukasz Kaiser就像我們剛才談到的,我確實(shí)相信推理模型是一個(gè)新的范式,一種新的架構(gòu),它數(shù)據(jù)效率更高,能夠從科學(xué)領(lǐng)域非常少的樣本中學(xué)習(xí)。它可以產(chǎn)生非常令人興奮的想法和見(jiàn)解。我確實(shí)認(rèn)為,要真正實(shí)現(xiàn)這一成果,我們需要下一代的推理架構(gòu),一些更并行的東西。當(dāng)然,研究中仍然存在很多挑戰(zhàn)。

我不會(huì)假裝我們都做完了。我們面對(duì)的是一個(gè)非常引人注目的未來(lái),那就是模型從事真正的科學(xué)研究,在各種領(lǐng)域幫助科學(xué)家,包括:醫(yī)學(xué)、生物學(xué)、化學(xué)、數(shù)學(xué)、物理學(xué)等。它們可以幫助發(fā)現(xiàn)新方法,或者驗(yàn)證現(xiàn)有方法,或者指出需要改進(jìn)的地方。我認(rèn)為這個(gè)未來(lái),即將到來(lái),并不像幾年前那么遙遠(yuǎn)。能夠致力于此并推動(dòng)其發(fā)展,無(wú)疑是令人興奮的。現(xiàn)在是機(jī)器學(xué)習(xí)一個(gè)極其激動(dòng)人心的時(shí)刻,仍然需要新的想法,但我們可以在一個(gè)不那么遙遠(yuǎn)的未來(lái),看到它對(duì)科學(xué)產(chǎn)生的真正影響,這將是非常積極的。

李建忠:我們都非常期待你精彩的主題演講。Lukasz,非常感謝你今天的時(shí)間。我們進(jìn)行了一次非常棒的對(duì)話,非常感謝你與我們分享了這么多關(guān)于 AI 的深刻見(jiàn)解和想法。期待全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)上你的精彩演講。

【活動(dòng)分享】2025 全球機(jī)器學(xué)習(xí)技術(shù)大會(huì)(ML-Summit)北京站將于2025年10月16-17日在北京威斯汀酒店舉辦。包括Lukasz Kaiser在內(nèi)的來(lái)自 OpenAI、 Google、Nvidia、 前DeepMind、阿里、百度、微軟等50+ 海內(nèi)外專(zhuān)家, 聚焦智能體、AI軟件研發(fā)、算力平臺(tái)等12大主題。詳情參考官網(wǎng):https://ml-summit.org (或點(diǎn)擊原文鏈接)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
嚯!“印度空軍排名歷史性力壓中國(guó)???”

嚯!“印度空軍排名歷史性力壓中國(guó)?。俊?/a>

樞密院十號(hào)
2025-10-19 22:09:26
蘇州連發(fā)9個(gè)感嘆號(hào)!南京疑回復(fù):人家秋雅結(jié)婚,你擱這又唱又跳

蘇州連發(fā)9個(gè)感嘆號(hào)!南京疑回復(fù):人家秋雅結(jié)婚,你擱這又唱又跳

風(fēng)過(guò)鄉(xiāng)
2025-10-19 09:51:44
河北等多地天空現(xiàn)密集鳥(niǎo)群,網(wǎng)友擔(dān)心是災(zāi)害預(yù)兆,當(dāng)?shù)胤Q(chēng)未收到相關(guān)預(yù)警,專(zhuān)家解讀

河北等多地天空現(xiàn)密集鳥(niǎo)群,網(wǎng)友擔(dān)心是災(zāi)害預(yù)兆,當(dāng)?shù)胤Q(chēng)未收到相關(guān)預(yù)警,專(zhuān)家解讀

瀟湘晨報(bào)
2025-10-19 17:54:12
馬英九賀鄭麗文當(dāng)選:堅(jiān)守“九二共識(shí)”,促進(jìn)兩岸關(guān)系

馬英九賀鄭麗文當(dāng)選:堅(jiān)守“九二共識(shí)”,促進(jìn)兩岸關(guān)系

參考消息
2025-10-19 16:22:07
美國(guó)徹底解決生產(chǎn)高質(zhì)量、高精度芯片技術(shù)難題,將產(chǎn)出全球最先進(jìn)芯片!

美國(guó)徹底解決生產(chǎn)高質(zhì)量、高精度芯片技術(shù)難題,將產(chǎn)出全球最先進(jìn)芯片!

EETOP半導(dǎo)體社區(qū)
2025-10-18 22:37:31
張海迪和反對(duì)她的人,誰(shuí)才是真正的說(shuō)謊者?

張海迪和反對(duì)她的人,誰(shuí)才是真正的說(shuō)謊者?

清濱酒客
2025-10-19 17:03:56
Shams:杜蘭特2年9000萬(wàn)美元續(xù)約火箭,球員自愿降薪3000萬(wàn)

Shams:杜蘭特2年9000萬(wàn)美元續(xù)約火箭,球員自愿降薪3000萬(wàn)

懂球帝
2025-10-19 21:09:26
演員高橋智子遭遇車(chē)禍去世,享年39歲,肇事司機(jī)承認(rèn)打瞌睡

演員高橋智子遭遇車(chē)禍去世,享年39歲,肇事司機(jī)承認(rèn)打瞌睡

大眼妹妹
2025-10-19 17:47:15
官方公布!9人遇難,13人被追究刑責(zé),30人被處分處理

官方公布!9人遇難,13人被追究刑責(zé),30人被處分處理

揚(yáng)子晚報(bào)
2025-10-19 11:42:07
6億棟!住建部已經(jīng)查清全國(guó)房子總數(shù),樓市正在迎來(lái)新變革?

6億棟!住建部已經(jīng)查清全國(guó)房子總數(shù),樓市正在迎來(lái)新變革?

巢客HOME
2025-10-18 05:45:03
為啥老顧客越來(lái)越少了?網(wǎng)友:好多老板都喜歡殺熟,而且還很狠

為啥老顧客越來(lái)越少了?網(wǎng)友:好多老板都喜歡殺熟,而且還很狠

解讀熱點(diǎn)事件
2025-10-19 00:15:03
美媒問(wèn)普特會(huì)晤地為何選布達(dá)佩斯 白宮新聞秘書(shū):你媽定的

美媒問(wèn)普特會(huì)晤地為何選布達(dá)佩斯 白宮新聞秘書(shū):你媽定的

新華社
2025-10-19 16:31:57
萬(wàn)科王石時(shí)代終局:自以為是教父,卻終究是投機(jī)者而非商業(yè)領(lǐng)袖

萬(wàn)科王石時(shí)代終局:自以為是教父,卻終究是投機(jī)者而非商業(yè)領(lǐng)袖

風(fēng)向觀察
2025-10-19 23:10:10
1970年蔣經(jīng)國(guó)與35歲長(zhǎng)子蔣孝文合影,當(dāng)時(shí)蔣孝文只剩七八歲的智商

1970年蔣經(jīng)國(guó)與35歲長(zhǎng)子蔣孝文合影,當(dāng)時(shí)蔣孝文只剩七八歲的智商

小豫講故事
2025-10-19 06:00:05
小S演過(guò)頭了!骨灰項(xiàng)鏈新刺青,沖著空氣喊姐,他的表情說(shuō)明一切

小S演過(guò)頭了!骨灰項(xiàng)鏈新刺青,沖著空氣喊姐,他的表情說(shuō)明一切

一只番茄魚(yú)
2025-10-18 16:00:58
事發(fā)上海街頭:商拍團(tuán)隊(duì)與游客發(fā)生摩擦!上海出手整治,已立案4起,勸離200多人

事發(fā)上海街頭:商拍團(tuán)隊(duì)與游客發(fā)生摩擦!上海出手整治,已立案4起,勸離200多人

上海法治聲音
2025-10-18 09:32:48
實(shí)在交不起了!由于中國(guó)對(duì)等反制,大量美國(guó)船放棄??恐袊?guó)港口!

實(shí)在交不起了!由于中國(guó)對(duì)等反制,大量美國(guó)船放棄??恐袊?guó)港口!

青青子衿
2025-10-19 16:08:58
楊振寧一生最大的遺憾:年薪10000美元,卻沒(méi)來(lái)得及借錢(qián)給杜致仁

楊振寧一生最大的遺憾:年薪10000美元,卻沒(méi)來(lái)得及借錢(qián)給杜致仁

不系之舟225
2025-10-19 19:19:46
蘇超神仙劇情:南通91分鐘換上20歲門(mén)將 點(diǎn)球大戰(zhàn)撲2點(diǎn) 3萬(wàn)人狂歡

蘇超神仙劇情:南通91分鐘換上20歲門(mén)將 點(diǎn)球大戰(zhàn)撲2點(diǎn) 3萬(wàn)人狂歡

風(fēng)過(guò)鄉(xiāng)
2025-10-19 22:09:09
鳳凰記者:紅軍村俄軍平均存活時(shí)間不足96個(gè)小時(shí)

鳳凰記者:紅軍村俄軍平均存活時(shí)間不足96個(gè)小時(shí)

史政先鋒
2025-10-18 21:49:51
2025-10-19 23:27:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4258文章數(shù) 37328關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|楊振寧:最頂尖的學(xué)生不是教出來(lái)的

頭條要聞

動(dòng)保組織疑借"江豚餌料魚(yú)告急"募款兩萬(wàn) 被采訪后刪帖

頭條要聞

動(dòng)保組織疑借"江豚餌料魚(yú)告急"募款兩萬(wàn) 被采訪后刪帖

體育要聞

正在爆火的"拼好球" 馬斯克和樊振東也在玩

娛樂(lè)要聞

竇驍婚變升級(jí)!何超蓮被曝已有新歡

財(cái)經(jīng)要聞

星巴克中國(guó)股權(quán)出售進(jìn)入倒計(jì)時(shí)

汽車(chē)要聞

最高15000元兜底 智界R7/S7推出購(gòu)置稅補(bǔ)貼方案

態(tài)度原創(chuàng)

數(shù)碼
游戲
本地
公開(kāi)課
軍事航空

數(shù)碼要聞

專(zhuān)訪真我徐起:攜理光GR破局影像同質(zhì)化,以街拍基因叩響4000-5000元高端市場(chǎng)

《星際爭(zhēng)霸》國(guó)服回歸大動(dòng)作;韓國(guó)網(wǎng)游界27年活化石要重做了?

本地新聞

考上警犬專(zhuān)業(yè),我和修勾一起卷編制

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美媒披露普京?;饤l件:基輔必須徹底放棄頓涅茨克

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲伊人成综合网| 国产初高中生真实在线视频 | 日本一区二区三区后入式| 99国内精品视频在线| 亚洲男人av天堂久久资源| 中文字幕在线无码视频| 午夜无码国产理论在线| 亚洲三级小说视频| 国产成人精品1024免费下载 | 亚洲人成网站18禁止人| 天天综合色激情| 日韩精品一区二区三区色欲av| 国产三级精品三级在线观看| 经典在线无码| 国产精品麻豆va在线播放| 国产成人影视| 午夜激情无码视频| 精品无码国产在线一区二| 国产成_人_综合_亚洲_国产绿巨人| 国产熟人精品一区二区| 久久无码影音观看| 韩国无码无遮挡在线观看| 一区二区三区国产精品保安| 日韩区中文字幕在线观看| 99亚洲婷婷| 色哟哟免费视频一区二区三区| 乐播AV色欲AⅤ| 亚洲国产精品VA在线看黑人| 国产内射一区| 亚洲欧美日韩精品久久| 秋霞影音av一区二区不卡| 欧美国产亚洲精品成人a v| 97人妻精品一区二区三区视频| 日本高清 7 4 7 4 7 4精品| 少妇被粗大的猛烈进出图片| 123AV视频视频| 太大了受不了www在线观看| 精品无码成人a v| 国产成人无码a区在线观看视频| 国产午夜精品久久一二区| 蜜臀性色av免费|