上周,扎克伯格宣布,Meta 的目標(biāo)是實(shí)現(xiàn)超越人類智能的人工智能(AI)。為此,其試圖以九位數(shù)天價(jià)薪酬為 Meta 超智能實(shí)驗(yàn)室招攬頂尖研究者;同時(shí)計(jì)劃專注于構(gòu)建能夠自我改進(jìn)的 AI,這類系統(tǒng)能通過(guò)自我迭代持續(xù)提升性能水平。
自我改進(jìn)的可能性使人工智能與其他革命性技術(shù)有所區(qū)分,比如 CRISPR 無(wú)法自行改進(jìn)其對(duì) DNA 序列的靶向能力,聚變反應(yīng)堆也無(wú)法自行解決如何使該技術(shù)實(shí)現(xiàn)商業(yè)化的難題。但大型語(yǔ)言模型(LLM)可以優(yōu)化其運(yùn)行的計(jì)算機(jī)芯片,以更便宜、更高效的方式訓(xùn)練其他 LLM,甚至可能提出人工智能研究的原創(chuàng)性想法。
在扎克伯格看來(lái),AI 自我改進(jìn)或?qū)⒕喸煲粋€(gè)人類擺脫日常勞役、在卓越的人工伙伴協(xié)助下追求崇高理想的世界。
OpenAI、Anthropic 和谷歌都在其人工智能安全框架中提到了自我改進(jìn)的 AI 研究,與化學(xué)武器和網(wǎng)絡(luò)安全等更為熟悉的風(fēng)險(xiǎn)類別并列。但他們也提到,自我改進(jìn)的 AI 研發(fā)亦能帶來(lái)巨大收益。僅憑人類自身智慧,或許永遠(yuǎn)無(wú)法構(gòu)想出能讓 AI 最終攻克癌癥與氣候變化等世紀(jì)難題的創(chuàng)新方案。
目前人類智慧仍是 AI 進(jìn)步的核心驅(qū)動(dòng)力——若非如此,Meta 也不會(huì)斥巨資招攬超智能實(shí)驗(yàn)室的研究者。
以下是 AI 實(shí)現(xiàn)自我改進(jìn)的五大路徑。
提升生產(chǎn)效率
“最重要的事情是編碼輔助”。 一家人工智能研究非營(yíng)利組織 Forethought 的高級(jí)研究助理 Tom Davidson 表示。
諸如 Claude Code 和 Cursor 這樣輔助編碼的工具在整個(gè) AI 行業(yè)很受歡迎。谷歌首席執(zhí)行官 Sundar Pichai 在 2024 年 10 月聲稱,該公司四分之一的新代碼是由 AI 生成的,而 Anthropic 最近也記錄了其員工使用 Claude Code 的多種方式。如果工程師因?yàn)檫@種編碼輔助工具而提高了生產(chǎn)力,他們將能夠更快地設(shè)計(jì)、測(cè)試和部署新的人工智能系統(tǒng)。
然而,這些工具帶來(lái)的效率提升仍存在不確定性。如果工程師花費(fèi)大量時(shí)間修正 AI 系統(tǒng)生成的錯(cuò)誤代碼,即便手動(dòng)編寫(xiě)代碼的時(shí)間減少,他們的整體工作量可能并未增加。
METR 近期的一項(xiàng)研究發(fā)現(xiàn),開(kāi)發(fā)者在使用 AI 編程助手時(shí),完成任務(wù)所需時(shí)間延長(zhǎng)了約 20%。不過(guò)該研究的聯(lián)合負(fù)責(zé)人、METR 技術(shù)團(tuán)隊(duì)成員 Nate Rush 指出,該研究?jī)H針對(duì)經(jīng)驗(yàn)豐富的開(kāi)發(fā)者處理大型代碼庫(kù)的情況,其結(jié)論可能不適用于編寫(xiě)實(shí)驗(yàn)?zāi)_本的 AI 研究者。
Rush 表示,在尖端 AI 實(shí)驗(yàn)室內(nèi)部進(jìn)行類似研究,或許能更清晰地揭示編程助手是否真正提升了前沿 AI 研究者的效率,但目前尚未開(kāi)展此類研究。與此同時(shí),僅憑軟件工程師的主觀感受并不可靠:METR 的研究對(duì)象認(rèn)為 AI 編程工具提高了他們的效率,但實(shí)際上,這些工具反而顯著拖慢了他們的工作進(jìn)度。
基礎(chǔ)設(shè)施優(yōu)化
如果代碼編寫(xiě)完成后需要等待數(shù)小時(shí)、數(shù)天甚至數(shù)周才能運(yùn)行,那么快速編碼的優(yōu)勢(shì)就會(huì)大打折扣。尤其是 LLM 的訓(xùn)練過(guò)程極其緩慢,最復(fù)雜的推理模型可能需要數(shù)分鐘才能生成一個(gè)回答。斯坦福大學(xué)助理教授、DeepMind 高級(jí)科學(xué)家 Azalia Mirhoseini 指出,這些延遲是 AI 發(fā)展的主要瓶頸。“如果能加快 AI 的運(yùn)行速度,我們就能實(shí)現(xiàn)更多創(chuàng)新 ”。
正因如此,Mirhoseini 一直利用 AI 優(yōu)化 AI 芯片。早在 2021 年,她與谷歌的同事合作開(kāi)發(fā)了一套非 LLM 的 AI 系統(tǒng),能夠決定計(jì)算機(jī)芯片上各組件的布局以優(yōu)化效率。盡管其他一些研究者未能復(fù)現(xiàn)該研究結(jié)果,但 Mirhoseini 表示,Nature雜志對(duì)該論文進(jìn)行了調(diào)查并確認(rèn)其有效性;她還指出,谷歌已將該系統(tǒng)的設(shè)計(jì)用于多代定制 AI 芯片。
最近,Mirhoseini 開(kāi)始運(yùn)用 LLM 解決內(nèi)核編寫(xiě)問(wèn)題。內(nèi)核是控制芯片中矩陣乘法等運(yùn)算的低級(jí)函數(shù)。她發(fā)現(xiàn),在某些情況下,即使是通用 LLM 編寫(xiě)的內(nèi)核,其運(yùn)行速度也能超越人類設(shè)計(jì)的版本。
在谷歌的其他部門(mén),科學(xué)家們開(kāi)發(fā)了一套名為 AlphaEvolve 的系統(tǒng),用于優(yōu)化公司 LLM 基礎(chǔ)設(shè)施的多個(gè)環(huán)節(jié)。AlphaEvolve 設(shè)計(jì)了一種新的數(shù)據(jù)中心運(yùn)行方案,為谷歌節(jié)省了 0.7% 的計(jì)算資源;此外,它還進(jìn)一步優(yōu)化了谷歌的定制芯片設(shè)計(jì),并開(kāi)發(fā)出一種新內(nèi)核,將 Gemini 的訓(xùn)練速度提升了 1%。
這一提升看似微小,但對(duì)谷歌這樣的巨頭而言,意味著時(shí)間、資金和能源的巨大節(jié)省。AlphaEvolve 項(xiàng)目負(fù)責(zé)人、DeepMind 研究科學(xué)家 Matej Balog 表示,他和團(tuán)隊(duì)僅在 Gemini 整體訓(xùn)練流程的一小部分測(cè)試了該系統(tǒng)。如果更廣泛地應(yīng)用,可能會(huì)帶來(lái)更多的節(jié)省。
自動(dòng)化訓(xùn)練
LLM 需要大量數(shù)據(jù),其訓(xùn)練在各個(gè)階段均成本高昂。在某些特定領(lǐng)域(例如冷門(mén)編程語(yǔ)言),現(xiàn)實(shí)世界的數(shù)據(jù)過(guò)于稀缺,難以有效訓(xùn)練模型。基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)技術(shù)——即由人類對(duì) LLM 的響應(yīng)進(jìn)行評(píng)分,再根據(jù)評(píng)分訓(xùn)練模型——對(duì)于構(gòu)建符合人類標(biāo)準(zhǔn)和偏好的模型至關(guān)重要,但獲取人類反饋既緩慢又昂貴。
如今,LLM 正被越來(lái)越多地用于填補(bǔ)這些空白。如果提供足夠的示例,LLM 可以在未經(jīng)專門(mén)訓(xùn)練的領(lǐng)域生成可信的合成數(shù)據(jù),隨后被用于訓(xùn)練。這種方法正是 Anthropic 研究人員 2022 年提出的具有影響力的“憲法 AI”框架的核心——一個(gè) LLM 根據(jù)另一個(gè) LLM 的反饋被訓(xùn)練以減少其有害性。
對(duì) AI 智能體而言,數(shù)據(jù)稀缺問(wèn)題尤為嚴(yán)峻。高效的智能體需要能夠執(zhí)行多步驟計(jì)劃來(lái)完成特定任務(wù),但網(wǎng)絡(luò)上成功的分步任務(wù)示例十分稀少,而依靠人類生成新示例成本極高。為突破這一限制,斯坦福大學(xué)的 Mirhoseini 與同事近期試點(diǎn)了一項(xiàng)技術(shù):由 LLM 智能體針對(duì)給定問(wèn)題生成可能的分步解決方案,再由 LLM 評(píng)判者驗(yàn)證每個(gè)步驟的有效性,最后基于這些步驟訓(xùn)練新的 LLM 智能體。
完善智能體設(shè)計(jì)
目前,LLM 尚未實(shí)現(xiàn)重大突破的領(lǐng)域,恰恰是其自身架構(gòu)的設(shè)計(jì)。當(dāng)今所有 LLM 都基于 2017 年由人類研究者提出的 Transformer 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),此后該架構(gòu)的重大改進(jìn)同樣出自人類之手。
但 LLM 智能體的崛起開(kāi)辟了全新的設(shè)計(jì)疆域。智能體需要與外界交互的工具及使用規(guī)范,優(yōu)化這些工具和指令對(duì)打造高效智能體至關(guān)重要?!叭祟惿形赐度胱銐驎r(shí)間系統(tǒng)探索這些可能性,因此存在大量唾手可得的成果”,哥倫比亞大學(xué)教授、DeepMind 高級(jí)研究顧問(wèn) Jeff Clune 指出,“直接創(chuàng)建 AI 系統(tǒng)來(lái)摘取這些果實(shí)更為便捷?!?/p>
Clune 與初創(chuàng)公司 Sakana AI 的研究人員共同開(kāi)發(fā)了名為“達(dá)爾文-哥德?tīng)枡C(jī)”(Darwin-G?del Machine)的系統(tǒng):這種智能體能夠迭代修改其提示詞、工具及代碼其他組件以提升任務(wù)表現(xiàn)。該系統(tǒng)不僅通過(guò)自我修改獲得了更高任務(wù)評(píng)分,更在進(jìn)化過(guò)程中發(fā)現(xiàn)了初始版本無(wú)法觸及的改進(jìn)方案——由此實(shí)現(xiàn)了真正的自我改進(jìn)閉環(huán)。
推動(dòng)科研突破
盡管 LLM 正在加速 LLM 研發(fā)流程的諸多環(huán)節(jié),但人類在 AI 研究中的核心地位可能仍將持續(xù)相當(dāng)長(zhǎng)時(shí)間。許多專家指出,“科研品位”——即頂尖科學(xué)家甄別具有潛力的新研究課題與方向的能力——既是 AI 面臨的特殊挑戰(zhàn),也是 AI 發(fā)展的關(guān)鍵要素。
但 Clune 認(rèn)為,AI 攻克科研品位的難度可能低于部分研究者的預(yù)期。他與 Sakana AI 團(tuán)隊(duì)正在開(kāi)發(fā)名為“AI 科學(xué)家”的端到端科研系統(tǒng)。該系統(tǒng)能夠檢索科學(xué)文獻(xiàn)以自主確定研究課題,通過(guò)實(shí)驗(yàn)驗(yàn)證假設(shè),并最終撰寫(xiě)研究成果報(bào)告。
今年早些時(shí)候,該系統(tǒng)曾撰寫(xiě)過(guò)一篇論文,提出并測(cè)試了一種旨在提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)整合能力的新策略。在獲得研討會(huì)組織方同意后,該論文以匿名形式提交至機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)會(huì)議 ICML(國(guó)際機(jī)器學(xué)習(xí)大會(huì))的附屬研討會(huì)。雖然最終該訓(xùn)練策略未能奏效,但論文仍獲得評(píng)審高分并達(dá)到錄用標(biāo)準(zhǔn)。
在另一次實(shí)驗(yàn)中,“AI 科學(xué)家”提出的研究思路后來(lái)被某位人類研究者在 X 平臺(tái)上獨(dú)立提出,并引發(fā)學(xué)界廣泛關(guān)注。
“當(dāng)前我們正處在‘AI 科學(xué)家’的 GPT-1 時(shí)刻”,Clune 表示,“不出數(shù)年,它就將寫(xiě)出被世界頂級(jí)同行評(píng)審會(huì)議和期刊錄用的論文,并做出原創(chuàng)性科學(xué)發(fā)現(xiàn)。”
超級(jí)智能會(huì)到來(lái)嗎?
在 AI 自我改進(jìn)的熱潮下,未來(lái)數(shù)月乃至數(shù)年,AI 對(duì)自身發(fā)展的貢獻(xiàn)很可能呈倍數(shù)增長(zhǎng)。按照扎克伯格的描述,這意味著在多個(gè)領(lǐng)域超越人類能力的超級(jí)智能模型已近在咫尺。但現(xiàn)實(shí)中,自我改進(jìn) AI 的影響遠(yuǎn)未成定局。
AlphaEvolve 雖加速了其核心 LLM 系統(tǒng) Gemini 的訓(xùn)練,但 1% 的速度提升未必能顯著改變谷歌的 AI 進(jìn)展節(jié)奏。若 Gemini 每個(gè)后續(xù)版本都能再提升 1% 訓(xùn)練速度,這些加速效應(yīng)將產(chǎn)生復(fù)合增長(zhǎng)。超級(jí)智能支持者認(rèn)為,這種情況下最終的“智能爆炸”不可避免。
但需要注意的是,創(chuàng)新會(huì)隨時(shí)間推移而愈發(fā)困難。任何科學(xué)領(lǐng)域的早期階段,突破往往來(lái)得快速而容易。有大量顯而易見(jiàn)的實(shí)驗(yàn)可做、思路可循,且都未經(jīng)嘗試。但隨著深度學(xué)習(xí)科學(xué)的成熟,每項(xiàng)額外改進(jìn)都可能需要人類及其 AI 協(xié)作者付出更多努力。很可能當(dāng) AI 系統(tǒng)達(dá)到人類級(jí)研究能力時(shí),人類或較弱 AI 早已摘盡“低垂的果實(shí)”。
另外,那些頂尖 AI 公司內(nèi)部使用的模型很可能比公開(kāi)發(fā)布的版本先進(jìn)得多,僅憑觀察 ChatGPT 等公開(kāi)系統(tǒng)的能力,難以推斷 OpenAI 內(nèi)部的真實(shí)進(jìn)展。
外部研究者正盡力應(yīng)對(duì)——例如通過(guò)追蹤 AI 整體發(fā)展節(jié)奏來(lái)判斷是否在加速。METR 通過(guò)測(cè)量人類完成尖端 AI 自主完成任務(wù)所需的時(shí)間來(lái)監(jiān)控其能力進(jìn)步。他們發(fā)現(xiàn),自 2019 年 GPT-2 發(fā)布以來(lái),AI 能獨(dú)立完成的任務(wù)時(shí)長(zhǎng)每 7 個(gè)月翻倍。而 2024 年起,這個(gè)周期已縮短至 4 個(gè)月,暗示 AI 進(jìn)展確實(shí)在加速。背后或許存在平淡的原因:頂尖 AI 實(shí)驗(yàn)室獲得充足投資,可用于招募人才和購(gòu)置硬件。但 AI 自我改進(jìn)同樣可能發(fā)揮作用
Forethought 研究員 Davidson 認(rèn)為,有充分理由預(yù)期 AI 將顯著加速自身發(fā)展。METR 的研究表明,“低垂果實(shí)”效應(yīng)目前尚未拖慢人類研究者的步伐,或者說(shuō)增加的投資有效抵消了任何放緩。如果 AI 能顯著提升研究者效率,甚至承擔(dān)部分研究工作,這種平衡將向加速研究?jī)A斜?!拔艺J(rèn)為完全可以預(yù)期會(huì)出現(xiàn) AI 加速發(fā)展的階段,關(guān)鍵問(wèn)題是這種加速能持續(xù)多久?!?/p>
1.https://www.meta.com/superintelligence/
2.https://www.technologyreview.com/2025/08/06/1121193/five-ways-that-ai-is-learning-to-improve-itself/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.