夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LSTM之父Jürgen再突破,「赫胥黎-哥德爾機」讓AI學(xué)會自己進化

0
分享至




機器之心報道

編輯:冷貓、陳陳

實現(xiàn)通用人工智能的一大終極目標(biāo)就是創(chuàng)建能夠自我學(xué)習(xí),自我改進的人工智能體。

這個目標(biāo)已經(jīng)是老生常談了。其實在 2003 年,能夠自我改進的智能體的理論模型就已經(jīng)由著名的「現(xiàn)代 AI 之父」Jürgen Schmidhuber 提出,稱為哥德爾機。

哥德爾機是一種自我改進型通用智能系統(tǒng)理論模型,設(shè)計靈感來自于哥德爾(Kurt G?del)的不完備性定理。它的核心思想是:機器能夠像數(shù)學(xué)家一樣,通過形式證明自身程序的改進在長期內(nèi)將帶來更高收益,然后安全地修改自己。

通俗來說,就是一個「能改寫自己」的自我進化的智能體。

而在最近,Jürgen Schmidhuber 對當(dāng)年提出的理論哥德爾模型進行了一次全新的嘗試,構(gòu)建了赫胥黎 - 哥德爾機,能夠在 SWE-Bench Lite 上與官方驗證的最佳人類設(shè)計的智能體相媲美。



Jürgen Schmidhuber 是一名德國計算機科學(xué)家,以人工智能、深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域的成就而知名,現(xiàn)任達(dá)勒?莫爾人工智能研究所(IDSIA)聯(lián)合主任,阿卜杜拉國王科技大學(xué)人工智能研究院院長。

1997 年,Jürgen Schmidhuber 發(fā)表了長短期記憶網(wǎng)絡(luò)(LSTM)論文。2011 年,Jürgen Schmidhuber 在 IDSIA 的團隊 GPU 上實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN)的顯著加速,這種方法基于楊立昆等人早期提出的 CNN 設(shè)計 ,已成為計算機視覺領(lǐng)域的核心。



  • 論文標(biāo)題:Huxley-G?del Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
  • 論文鏈接:https://arxiv.org/abs/2510.21614
  • Github 鏈接:https://github.com/metauto-ai/HGM

該研究基于如下發(fā)現(xiàn):編碼智能體通過編輯自身代碼來實現(xiàn)自我改進,通常采用一種樹形結(jié)構(gòu)來記錄修改過程,其擴展策略傾向于選擇在軟件工程基準(zhǔn)測試中得分更高的智能體,并假設(shè)高分意味著其后繼的自我修改也更有可能成功。

然而,研究者發(fā)現(xiàn),一個智能體真正的自我改進潛力與其當(dāng)前的基準(zhǔn)測試性能之間存在著脫節(jié)。他們將這個現(xiàn)象命名為「元生產(chǎn)力 - 性能不匹配」。

受赫胥黎譜系( clade)概念啟發(fā),Jürgen 等人提出了 CMP(clade-level metaproductivity,譜系元生產(chǎn)力)。該指標(biāo)通過聚合一個智能體所有后代的性能來衡量其潛力,而非只看其自身分?jǐn)?shù)。

本文證明了在自我改進編程智能體的開發(fā)環(huán)境中,只要能夠獲取真實的 CMP,就足以模擬哥德爾機在特定假設(shè)下的行為方式。

進一步的,本文提出的赫胥黎 - 哥德爾機(HGM)通過估計 CMP 并以其為指導(dǎo),可以在自我修改的樹結(jié)構(gòu)中進行搜索。

在 SWE-bench Verified 和 Polyglot 基準(zhǔn)測試中,HGM 不僅超越了先前的自我改進編程智能體方法,同時消耗的實際運行時間更少。

更重要的是,HGM 展現(xiàn)出向其他編碼數(shù)據(jù)集和大語言模型的強大遷移能力。使用 GPT-5-mini 在 SWE-bench Verified 上通過 HGM 優(yōu)化的智能體,在 SWE-bench Lite 上使用 GPT-5 進行評估時,達(dá)到了人類水平的表現(xiàn),與經(jīng)過官方驗證的最佳人工設(shè)計編程智能體的結(jié)果相當(dāng)。



赫胥黎 - 哥德爾機器

研究團隊構(gòu)建了赫胥黎–哥德爾機(Huxley–G?del Machine,HGM)—— 一種利用譜系層級(clade-level)統(tǒng)計特性來近似哥德爾機的自我改進型機器。

HGM 的核心思想是元生產(chǎn)力(metaproductivity)—— 即衡量一個智能體提升自身「自我改進能力」的能力,這種能力的增強會在長期上帶來更優(yōu)的后代智能體性能。

原始哥德爾機

原始的哥德爾機是一種通用任務(wù)求解器,它在理論上能夠在任意可計算的環(huán)境中,針對給定目標(biāo)函數(shù),最優(yōu)地執(zhí)行所有可證明的自我改進。

它的實現(xiàn)方式是運行一個「證明搜索器(proof searcher)」,持續(xù)尋找能夠形式化證明某種自我修改會帶來更高期望效用(expected utility)的證明。一旦找到這樣的證明,系統(tǒng)便會執(zhí)行相應(yīng)修改,并永久性地改變自身代碼。

哥德爾機的理論分析明確考慮了兩個現(xiàn)實約束:

1. 智能體只有一次生命(即沒有可重復(fù)的試驗);

2. 證明一個自我改進會消耗實際時間和資源,而這些資源本可以用于直接獲取獎勵。

元生產(chǎn)力的指標(biāo)

研究團隊提出了兩種衡量元生產(chǎn)力的指標(biāo):

1. 全局元生產(chǎn)力(Global Metaproductivity,GMP):衡量進化一個給定智能體后,對整個智能體譜系(agent tree)的總體元生產(chǎn)力提升程度。此指標(biāo)較為通用,但難以操作化或精確估計。

給定一個策略 π,為了量化某個智能體的自我修改對系統(tǒng)性能的影響,定義:



其中: 是智能體樹;a ∈ 為當(dāng)前節(jié)點;Score_π 是對智能體進行最終選擇評分的函數(shù); 策略 π 從當(dāng)前樹出發(fā)展開完整的搜索軌跡,生成最終的智能體存檔 _B;軌跡的分布由 p_π 給出。

GMP 因此反映了整個系統(tǒng)的長期自我改進潛力,包括「改進自我改進能力本身」的元層次改進。

2. 譜系元生產(chǎn)力(Clade Metaproductivity,CMP):衡量從某個特定智能體出發(fā)(即其譜系)展開進化的潛在前景。

然而,盡管 GMP 能捕捉策略的全局潛力,但其范圍過于廣泛,難以在實踐中具體化。理論上,一個智能體的自我修改甚至可能通過引入新信息影響其祖先節(jié)點的期望效用。

原始哥德爾機的全局最優(yōu)性來自其對「是否接受自我修改」的判定,只關(guān)注那些在形式上可證明會帶來進一步自我改進潛力的修改。

基于這一觀察,研究團隊定義了 GMP 的局部變體 —— 譜系元生產(chǎn)力(CMP),它聚焦于以某個智能體為根的子樹(即其譜系,clade):



其中 C (_B, a) 表示在樹 _B 中以節(jié)點 a 為根的子樹(即譜系)。

CMP 含有關(guān)于未來自我進化過程的非貪婪信息(non-greedy information),因此能指導(dǎo)那些不僅旨在提升直接性能、還旨在改進「自我改進能力」的策略。

赫胥黎–哥德爾機(HGM)

該模型通過基于 CMP 估計值的 Thompson 采樣 策略來引導(dǎo)自我改進搜索,從而在實踐中實現(xiàn)了「近似哥德爾機」的自演化學(xué)習(xí)過程。

現(xiàn)有方法通常以編程任務(wù)的基準(zhǔn)性能作為指導(dǎo)指標(biāo),將任務(wù)成功視為自我改進潛力的體現(xiàn)。然而,這種假設(shè)過于貪婪(greedy):它只評估一次修改的即時效用,而忽略了這種修改對未來自我改進能力的長期影響。

研究團隊將這種差距稱為 「元生產(chǎn)力 — 性能不匹配」,即短期任務(wù)表現(xiàn)與長期自我改進能力(以 CMP 衡量)之間的偏離,核心目標(biāo)是通過推導(dǎo) CMP 的估計量來建模這種長期的全局依賴關(guān)系。

具體而言,通過定義 HGM 的三個子策略來描述整個框架。

擴展策略

HGM 算法的核心是其「擴展選擇準(zhǔn)則」。研究團隊使用譜系中智能體經(jīng)驗性能的加權(quán)平均值來估計 CMP。HGM 的設(shè)計會為效用更高的智能體分配更大的權(quán)重。

形式化地,設(shè)當(dāng)前固定的智能體存檔為 ?,n_success (a) 為智能體 a 通過的測試數(shù),而 n_failure (a) 是智能體 a 未通過的測試數(shù)。定義譜系統(tǒng)計量:



由此定義 CMP 估計量:



在譜系層面而非個體層面評估生產(chǎn)力有若干優(yōu)勢:

  • 它更符合自我改進目標(biāo) —— 即使祖先性能一般,只要后代持續(xù)改進,它仍具有高價值;停滯的譜系則自然被降權(quán)。
  • 聚合整個譜系的數(shù)據(jù)可顯著提高統(tǒng)計穩(wěn)定性,相比單節(jié)點結(jié)果更穩(wěn)健,尤其適用于評估成本高、基準(zhǔn)數(shù)據(jù)稀缺的情境。



選擇策略

最后,智能體需要在「擴展」與「評估」之間進行選擇。HGM 將評估與擴展解耦,并將其視為獨立步驟。

為了確定何時進行評估或擴展,研究者們借鑒了「無限臂賭博機(infinite-armed bandit)」的思想。該問題刻畫了在探索新臂與重復(fù)采樣已知臂之間的平衡:

  • 「評估」對應(yīng)于采樣現(xiàn)有臂(已有智能體);
  • 「擴展」對應(yīng)于引入新臂(創(chuàng)建新智能體)。

最終,研究者采用 UCB-Air 策略,當(dāng) N?? ≥ |?| 時,在時刻 t 添加新智能體。

實驗結(jié)果

元生產(chǎn)力 - 性能失準(zhǔn)

本節(jié)中的實驗旨在實現(xiàn)兩個目的:(i) 提供 MPM(Metaproductivity-Performance Misalignment,元生產(chǎn)力 - 性能失準(zhǔn))問題的證據(jù);(ii) 評估 HGM 的估計量是否比 DGM 和 SICA 采用的效用指標(biāo)更可靠。

表 1 總結(jié)了三種估計量與 CMP(目標(biāo)值)之間的相關(guān)性。SICA 和 DGM 的估計量獲得了正皮爾遜相關(guān)系數(shù):在 SWE-Verified-60 上分別為 0.444 和 0.285,在 Polyglot 上分別為 0.274 和 0.383,這表明它們與目標(biāo)值僅存在弱對齊,即存在 MPM 問題。





評估 HGM 的自我改進能力

在這一實驗中,本文將 HGM 與兩種最先進的自我改進編程方法(DGM 和 SICA)進行了比較。

結(jié)果如表 2 所示,HGM 在性能與效率兩個關(guān)鍵維度上,均顯著超越了現(xiàn)有的自改進方法(DGM 和 SICA),確立了其優(yōu)越性。

  • 在 SWE-Verified-60 基準(zhǔn)測試中,HGM 發(fā)現(xiàn)的智能體取得了 56.7% 的最高準(zhǔn)確率。
  • 在 Polyglot 基準(zhǔn)測試中,HGM 同樣以 30.5% 的準(zhǔn)確率領(lǐng)先。

在效率上:

  • HGM 在完成 800 次評估所消耗的 CPU 時間遠(yuǎn)少于基線方法,顯示出極高的計算效率。
  • 在 Polyglot 上,HGM 比 DGM 快 6.86 倍,比 SICA 快 1.65 倍。
  • 在 SWE-Verified-60 上,HGM 比 DGM 快 2.38 倍。

綜上所述,HGM 配備了更好的效用估計器和異步擴展 - 評估迭代,與 DGM 和 SICA 相比,它是一種更有效的自我改進機制。



HGM VS 人類

經(jīng)過 8000 次評估后,HGM 發(fā)現(xiàn)了一個能解決 61.4% 任務(wù)的優(yōu)化智能體,超越了 SWE-Verified 排行榜上基于 GPT-5-mini 的最佳人工設(shè)計智能體。這些結(jié)果證明了 HGM 在相同模型約束條件下與成熟人工設(shè)計基線競爭的巨大潛力。

表 3 展示了 HGM 的 「best-belief」 SWE-Verified 智能體在 SWE-Lite 基準(zhǔn)測試上的泛化結(jié)果。該在 SWE-Verified 上得到的最佳 HGM 智能體,在 filtered(完全未見數(shù)據(jù))設(shè)置下取得了 40.1% 的成績,在標(biāo)準(zhǔn)設(shè)置下取得了 49.0%。與其初始版本(分別為 34.8% 和 44.0%)相比,這一提升證明了 HGM 的自我進化機制確實能夠提升通用編程能力,而不僅僅是對優(yōu)化集的過擬合。



HGM 發(fā)現(xiàn)的智能體展現(xiàn)出卓越的跨模型泛化能力:當(dāng)將其骨干模型從 GPT-5-mini 替換為更強大的 GPT-5 時,其強勁性能得以保持。在 SWE-Bench Lite 基準(zhǔn)測試中,該智能體的表現(xiàn)與排行榜上最先進的人工設(shè)計智能體相當(dāng)。

  • 在官方 SWE-Bench Lite 排行榜上,其性能超越了所有其他經(jīng)過官方結(jié)果驗證的智能體。
  • 在精心篩選的 SWE-bench Filtered 測試集上,僅比最佳模型少解決一個任務(wù)。

這一遷移實驗的成功,強有力地證明了:HGM 自我進化出的智能體設(shè)計原則是普適的,其改進并非依賴于某個特定模型。此外,本文還發(fā)現(xiàn)性能提升源于智能體自身能力的真實、本質(zhì)的增強,而非對特定數(shù)據(jù)集或大語言模型的過擬合。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
聞泰科技:必須恢復(fù)張學(xué)政-安世CEO!不然、一切免談!

聞泰科技:必須恢復(fù)張學(xué)政-安世CEO!不然、一切免談!

芯榜
2025-10-31 11:01:40
激進擴張后遺癥!達(dá)嘉維康兩年半暴增上千家門店,負(fù)債前行下前三季度扣非凈利不足400萬元

激進擴張后遺癥!達(dá)嘉維康兩年半暴增上千家門店,負(fù)債前行下前三季度扣非凈利不足400萬元

時代投研
2025-10-29 18:26:10
決戰(zhàn)今夜!10月31日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

決戰(zhàn)今夜!10月31日晚19:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-10-31 10:47:58
CCTV5直播掘金VS開拓者,楊瀚森難對上約基奇,女朋友已清空社媒

CCTV5直播掘金VS開拓者,楊瀚森難對上約基奇,女朋友已清空社媒

體育大學(xué)僧
2025-10-31 10:13:07
合肥一醫(yī)院檢驗科原主任被查

合肥一醫(yī)院檢驗科原主任被查

魯中晨報
2025-10-31 12:19:03
有個瘦瘦的女朋友是啥體驗?網(wǎng)友:硌得慌,影響夫妻生活和諧

有個瘦瘦的女朋友是啥體驗?網(wǎng)友:硌得慌,影響夫妻生活和諧

帶你感受人間冷暖
2025-10-29 00:10:07
美方要求哈馬斯撤出以軍控制區(qū)

美方要求哈馬斯撤出以軍控制區(qū)

界面新聞
2025-10-31 14:31:58
芋頭立大功!醫(yī)生調(diào)查發(fā)現(xiàn):芋頭對這幾種慢性病有好處,可以常吃

芋頭立大功!醫(yī)生調(diào)查發(fā)現(xiàn):芋頭對這幾種慢性病有好處,可以常吃

素衣讀史
2025-10-29 13:13:27
山東博興供熱民企拒絕擔(dān)保發(fā)債 4億資產(chǎn)被縣屬企業(yè)查封接管

山東博興供熱民企拒絕擔(dān)保發(fā)債 4億資產(chǎn)被縣屬企業(yè)查封接管

大象新聞
2025-10-30 10:54:12
再次發(fā)出求救電 稱上萬名官兵已陷入絕境:增援部隊到底在哪里?

再次發(fā)出求救電 稱上萬名官兵已陷入絕境:增援部隊到底在哪里?

聚峰軍評
2025-10-31 08:58:05
為什么說健身辣妹只在網(wǎng)上出現(xiàn),現(xiàn)實中她們是這樣的....

為什么說健身辣妹只在網(wǎng)上出現(xiàn),現(xiàn)實中她們是這樣的....

健身S叔
2025-10-30 19:46:51
別再被“妥協(xié)論”騙了!中國買美國大豆,一招讓美國有苦說不出。

別再被“妥協(xié)論”騙了!中國買美國大豆,一招讓美國有苦說不出。

億通電子游戲
2025-10-31 00:00:51
月薪5千,一份早餐46,網(wǎng)友感慨:難怪現(xiàn)在越來越多的人不想結(jié)婚

月薪5千,一份早餐46,網(wǎng)友感慨:難怪現(xiàn)在越來越多的人不想結(jié)婚

丫頭舫
2025-10-30 17:09:43
胡老師:承認(rèn)被反噬,家里堆積如山,真實情況場面壯觀網(wǎng)友:可怕

胡老師:承認(rèn)被反噬,家里堆積如山,真實情況場面壯觀網(wǎng)友:可怕

霽寒飄雪
2025-10-29 09:26:58
網(wǎng)傳三峽大學(xué)一黑人留學(xué)生企圖猥褻女生,徒手爬上女宿二樓,聽到呼救后逃離

網(wǎng)傳三峽大學(xué)一黑人留學(xué)生企圖猥褻女生,徒手爬上女宿二樓,聽到呼救后逃離

小星球探索
2025-10-29 14:53:52
41歲白百何罕見露面,她的下胯變得好大呀,臉也胖了,像個大媽

41歲白百何罕見露面,她的下胯變得好大呀,臉也胖了,像個大媽

廣西阿妹香香
2025-10-29 16:09:46
A股:大家要做好準(zhǔn)備了,下周一,沒有意外的話會這么走

A股:大家要做好準(zhǔn)備了,下周一,沒有意外的話會這么走

財經(jīng)大拿
2025-10-31 13:06:43
為何天安門不懸掛毛主席的照片,反倒要掛主席的畫像?

為何天安門不懸掛毛主席的照片,反倒要掛主席的畫像?

贏梯
2025-10-28 17:51:57
臺灣回歸還有一種新方案,國民黨若同意,解放軍或無需動武

臺灣回歸還有一種新方案,國民黨若同意,解放軍或無需動武

瞻史
2025-10-31 02:20:52
英偉達(dá)與三星電子等韓國公司達(dá)成人工智能合作協(xié)議

英偉達(dá)與三星電子等韓國公司達(dá)成人工智能合作協(xié)議

界面新聞
2025-10-31 14:36:35
2025-10-31 15:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11614文章數(shù) 142496關(guān)注度
往期回顧 全部

科技要聞

蘋果日賺22億,庫克最大的煩惱是賣斷貨

頭條要聞

媒體:特朗普與中國元首會晤后匆忙回程 或發(fā)生好事

頭條要聞

媒體:特朗普與中國元首會晤后匆忙回程 或發(fā)生好事

體育要聞

他在NBA的兩次進球,隔了2754天

娛樂要聞

都說中年女演員會失業(yè) 閆妮為什么一直佳作不斷?

財經(jīng)要聞

英偉達(dá)的泡沫,或許能再吹5萬億美元

汽車要聞

搭專屬暗影流光套件 嵐圖FREE+運動定制版售27.99萬

態(tài)度原創(chuàng)

本地
數(shù)碼
時尚
家居
公開課

本地新聞

全網(wǎng)圍觀,到底多少人被這個野人大學(xué)生笑瘋了

數(shù)碼要聞

夏普發(fā)布 198 克輕量級 VR 眼鏡 Xrostella VR1,可連電腦手機

推廣|| 35+變化好大?不愧是2025年花得最值的一筆錢

家居要聞

吸睛藝術(shù) 富有傳奇色彩

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 色播久久人人爽人人爽人人片AV| 无码精品人妻一区二区三区漫画| 无码一区二区三区免费| 欧美成人日B视频| 国产萌白酱喷水视频在线观看| 久久久久护士毛片96| 无码人妻精品一区二区三区777| 91无码人妻精品一区| 无码视频天天天天| 欧美熟妇的荡欲在线观看| 久久人人97超碰超国产| 无码国产精品一区二区免费3P| 久久久久久国产精品二区| 波多野结衣贞操带电影| 尤物av无码色av无码| 美女被扒开内裤桶屁股眼视频网站| 久久婷婷综合缴情亚洲狠狠_| 另类天堂一区二区三区| 国产熟女300集| 在线亚洲人成电影网站色www| 午夜免费啪视频在线观看| 欧美A级V片在线观看| 一本色道久久88| 日韩无码免费不卡| 日本人成网站18禁止久久影院| 视频一区视频二区制服丝袜| 另类天堂一区二区三区| 亚洲精品做啊| 真实国产熟睡乱子伦视频| 丝袜脚在线国产| 亚洲AV无码一区二区三区ba| 色欲精品人妻AV一区.| 被拉到野外强要好爽黑人| 日韩欧美成人在线观看| 欧美日韩激情| 999精品视频久久| 中文字幕精品久久久久人妻红杏1 精品一区二区久久久久网站 | 色av永久无码影院av| 久久狠狠高潮亚洲精品暴力打| 无码人妻精品一区在线| 国产无码av|