夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Nature公開谷歌IMO金牌模型技術(shù)細(xì)節(jié)!核心團(tuán)隊(duì)僅10人

0
分享至

夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

谷歌DeepMind的IMO金牌模型,完整技術(shù)全公開了!

延續(xù)DeepMind的命名傳統(tǒng),這次叫:AlphaProof。

依然是Nature刊發(fā)的形式,放出了AlphaProof的完整論文,首次詳細(xì)公開了其背后的技術(shù)架構(gòu)和訓(xùn)練方法。值得一提的是,無師自通的下棋AlphaZero,也在這次論文里被多次提及。



作者Tom Zahavy也趁此機(jī)會分享了一些開發(fā)過程中的細(xì)節(jié):

AlphaProof團(tuán)隊(duì)規(guī)模并不大。大部分時(shí)間里只有大約10個(gè)人,臨近IMO比賽時(shí)才有更多人加入。

真正帶來突破的核心團(tuán)隊(duì)成員是IMO金牌得主Miklós Horváth。

他想出一個(gè)方法可以創(chuàng)建AI正在處理的問題的各種變體,并將它們作為初始狀態(tài),讓智能體在這些變體上進(jìn)行訓(xùn)練。



在整整一年里,這只團(tuán)隊(duì)還探索了各種研究思路,雖然很多都失敗了,但成功的那些都被整合到了AlphaProof系統(tǒng)里,現(xiàn)在全面公開。

把數(shù)學(xué)證明當(dāng)游戲來玩

AlphaProof的核心思路其實(shí)很直接:把數(shù)學(xué)證明過程變成一個(gè)可以反復(fù)訓(xùn)練的游戲。

系統(tǒng)基于Lean定理證明器構(gòu)建了一個(gè)強(qiáng)化學(xué)習(xí)環(huán)境。在這個(gè)環(huán)境中,每個(gè)數(shù)學(xué)命題就是一個(gè)新的游戲關(guān)卡,AI需要通過選擇合適的策略(tactics)來推進(jìn)證明。

如果某個(gè)策略成功了,就會得到新的子目標(biāo);如果所有目標(biāo)都完成了,就意味著證明完成。



論文揭示,AlphaProof使用了一個(gè)30億參數(shù)的編碼器-解碼器transformer模型作為”大腦”。

這個(gè)證明網(wǎng)絡(luò)不僅要理解當(dāng)前的證明狀態(tài),還要同時(shí)輸出兩個(gè)關(guān)鍵信息:

一是建議接下來嘗試哪些策略,二是估計(jì)完成證明還需要多少步。

這種設(shè)計(jì)讓系統(tǒng)能夠更智能地分配計(jì)算資源,優(yōu)先探索最有希望的證明路徑。

搜索算法方面,AlphaProof采用了受AlphaZero啟發(fā)的樹搜索,但做了關(guān)鍵改進(jìn)。

比如引入了AND-OR樹結(jié)構(gòu)來處理證明中的多個(gè)獨(dú)立子目標(biāo),當(dāng)一個(gè)證明需要同時(shí)滿足多個(gè)條件時(shí),系統(tǒng)會把它們分解成獨(dú)立的子問題分別攻克。另外還加入了漸進(jìn)采樣機(jī)制,讓系統(tǒng)在關(guān)鍵路徑上能夠探索更多樣的證明策略。

訓(xùn)練AlphaProof面臨的最大挑戰(zhàn)是:哪來那么多數(shù)學(xué)題?

他們首先用約3000億個(gè)token的代碼和數(shù)學(xué)文本對模型進(jìn)行預(yù)訓(xùn)練,讓它理解基本的邏輯結(jié)構(gòu)和數(shù)學(xué)語言。接著用Mathlib庫中約30萬個(gè)人工編寫的證明進(jìn)行微調(diào),讓模型學(xué)會Lean的語法和證明技巧。

真正的突破來自于自動(dòng)形式化過程。團(tuán)隊(duì)基于Gemini 1.5 Pro開發(fā)了一個(gè)專門的翻譯系統(tǒng),能夠把自然語言的數(shù)學(xué)問題轉(zhuǎn)換成Lean可以理解的形式語言。通過反復(fù)迭代和改進(jìn),這個(gè)系統(tǒng)最終從約100萬道自然語言數(shù)學(xué)題生成了約8000萬道形式化問題,遠(yuǎn)超所有現(xiàn)有數(shù)據(jù)集。

主強(qiáng)化學(xué)習(xí)循環(huán)是整個(gè)訓(xùn)練的核心。系統(tǒng)會不斷嘗試證明或反證這些自動(dòng)生成的命題,成功的證明會被用來更新神經(jīng)網(wǎng)絡(luò)。

即使自動(dòng)形式化的結(jié)果不完全準(zhǔn)確,只要它是一個(gè)有效的形式命題,AlphaProof都能從嘗試證明它的過程中學(xué)到東西。

整個(gè)主訓(xùn)練階段消耗了約8萬TPU天的計(jì)算資源。



論文中的核心架構(gòu)圖展示了AlphaProof的兩個(gè)學(xué)習(xí)循環(huán)是如何協(xié)同工作的。

在主強(qiáng)化學(xué)習(xí)循環(huán)中,約100萬道非正式數(shù)學(xué)問題首先經(jīng)過形式化系統(tǒng)的處理,被翻譯成大約8000萬道Lean能夠理解的形式化問題。證明網(wǎng)絡(luò)配合樹搜索算法在Lean環(huán)境中不斷嘗試,無論是成功找到證明、找到反證,還是超時(shí)失敗,每一次嘗試都會產(chǎn)生經(jīng)驗(yàn)數(shù)據(jù)反饋給學(xué)習(xí)系統(tǒng)。

測試時(shí)強(qiáng)化學(xué)習(xí)循環(huán)則展現(xiàn)了一種更加精細(xì)的適應(yīng)機(jī)制。

當(dāng)面對一道特別困難的目標(biāo)問題時(shí),變體生成器會圍繞這道題產(chǎn)生大約40萬個(gè)相關(guān)變體,相當(dāng)于為一道題專門創(chuàng)建了一個(gè)小型數(shù)據(jù)集。

這些變體包含了各種數(shù)學(xué)直覺:簡化特殊情況、推廣到更一般的形式、探索類似的結(jié)構(gòu)等。

系統(tǒng)會啟動(dòng)一個(gè)獨(dú)立的AlphaZero式學(xué)習(xí)過程,專門在這些變體上訓(xùn)練,逐步積累解決原問題所需的洞察。這個(gè)機(jī)制可以并行處理多個(gè)目標(biāo)問題,每個(gè)問題都有自己的變體課程和專屬的學(xué)習(xí)進(jìn)程。



IMO賽場上臨時(shí)突破

AlphaProof在2024年IMO上的表現(xiàn)堪稱驚艷,現(xiàn)在背后更多開發(fā)細(xì)節(jié)被公開。

面對IMO級別的難題,僅靠增加搜索時(shí)間往往不夠。這時(shí)候,前面介紹的測試時(shí)強(qiáng)化學(xué)習(xí)(TTRL)就派上了用場,也就是生成大量相關(guān)的變體問題(比如簡化版、推廣版、類比版等),然后專門訓(xùn)練一個(gè)”專家”模型來攻克這道題。

以2024年IMO的第一題為例,這道題要求找出所有滿足特定整除性質(zhì)的實(shí)數(shù)α。AlphaProof生成的變體包括:只考慮有理數(shù)的情況、假設(shè)α滿足更強(qiáng)的性質(zhì)、證明α必須接近某個(gè)整數(shù)等等。通過在這些變體上訓(xùn)練,系統(tǒng)逐漸掌握了解決原問題的關(guān)鍵。

在實(shí)際比賽中,AlphaProof成功解決了代數(shù)和數(shù)論的三道題(P1、P2、P6),其中P6是整個(gè)比賽最難的題目,609名參賽選手中只有5人完全解出。

每道題的TTRL過程需要2-3天的計(jì)算時(shí)間,雖然遠(yuǎn)超人類選手的9小時(shí)限制,但考慮到此前最先進(jìn)的AI系統(tǒng)連最簡單的IMO題都很難解決,這個(gè)成就已經(jīng)相當(dāng)了不起。

Tom Zahavy在回憶中提到,比賽期間他們通過部分證明系統(tǒng)就已經(jīng)確定的成績只能拿到銅牌水平,但TTRL還在后臺運(yùn)行。

三天后,當(dāng)三個(gè)完整證明陸續(xù)出現(xiàn)時(shí),才終于確定能拿到金牌,團(tuán)隊(duì)興奮地敲鑼打鼓慶祝。



數(shù)學(xué)AI的下一步在哪里

AlphaProof奪金后,谷歌DeepMind已經(jīng)向科學(xué)界開放AlphaProof的能力,研究人員可以通過申請獲得使用權(quán)限,多位數(shù)學(xué)家在Nature上分享了他們試用AlphaProof的體驗(yàn)。



羅格斯大學(xué)的數(shù)學(xué)家Alex Kontorovich發(fā)現(xiàn),AlphaProof特別擅長找出反例:

  • 每次它指出我的陳述有問題時(shí),我都能很快找出遺漏了什么假設(shè),調(diào)整陳述后再次嘗試。這種來回迭代對于得到正確的形式化陳述至關(guān)重要。

伊利諾伊大學(xué)的Talia Ringer教授讓她的兩個(gè)博士生各提供了一個(gè)他們覺得棘手的引理。AlphaProof在一分鐘內(nèi)證明了其中一個(gè),而另一個(gè)則被反證了,原來是定義中有個(gè)漏洞。

她評價(jià)“AlphaProof傾向于找反證的特性可能是它最令人驚訝的有用功能”。

當(dāng)然,數(shù)學(xué)家們也測試出了AlphaProof也有局限性。

倫敦帝國理工學(xué)院的Kevin Buzzard在嘗試用它翻譯費(fèi)馬大定理的證明時(shí)遇到了困難。他發(fā)現(xiàn)當(dāng)證明中充滿了“定制化的定義”時(shí),AlphaProof就不太管用了。

這也印證了AlphaProof團(tuán)隊(duì)在論文中的發(fā)現(xiàn):系統(tǒng)在處理Mathlib中已有概念時(shí)表現(xiàn)出色,但面對全新定義時(shí)就會遇到瓶頸。

Tom Zahavy也分享了自己對于AI在數(shù)學(xué)界應(yīng)用的思考:

AlphaProof面臨的一大挑戰(zhàn)在于它對Lean定理證明器的依賴。Lean雖然功能強(qiáng)大且擁有活躍的社區(qū),但其持續(xù)演進(jìn)為AlphaProof創(chuàng)造了一個(gè)不穩(wěn)定的環(huán)境。這意味著在Lean的高級策略更為成熟的數(shù)學(xué)子領(lǐng)域,AlphaProof的性能往往更佳。

另一個(gè)關(guān)鍵問題是“數(shù)據(jù)有限性 ”。獨(dú)特的數(shù)學(xué)題和數(shù)量是有限的。為了使強(qiáng)化學(xué)習(xí)智能體真正具備通用性,它需要能夠生成自己的問題。雖然目前在創(chuàng)建IMO級別的問題變體方面取得了一些成功,但這個(gè)方向還需要進(jìn)一步拓展。

Hinton在今年6月份的訪談中指出,AI未來在數(shù)學(xué)方面很可能會比人類強(qiáng)得多:由于它能夠在封閉的數(shù)學(xué)系統(tǒng)中即時(shí)共享知識并生成自己的訓(xùn)練數(shù)據(jù)。

AlphaProof的方法,正是這一預(yù)言的預(yù)演。

論文地址:
https://www.nature.com/articles/s41586-025-09833-y

參考鏈接:
[1]https://www.tomzahavy.com/post/how-we-achieved-an-imo-medal-one-year-before-everyone-else
[2]https://www.nature.com/articles/d41586-025-03585-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
西班牙國王費(fèi)利佩六世:身高197,繼位11年兢兢業(yè)業(yè),倆女兒漂亮

西班牙國王費(fèi)利佩六世:身高197,繼位11年兢兢業(yè)業(yè),倆女兒漂亮

照見古今
2025-11-13 18:39:14
懸著的心終于放下,滯留太空的中國航天員,帶來意想不到的驚喜

懸著的心終于放下,滯留太空的中國航天員,帶來意想不到的驚喜

混沌錄
2025-11-12 21:27:15
滿分?38歲梅西新發(fā)型引熱議,球迷:清閑小梅,梅開二度的節(jié)奏

滿分?38歲梅西新發(fā)型引熱議,球迷:清閑小梅,梅開二度的節(jié)奏

側(cè)身凌空斬
2025-11-13 09:40:22
連美駐日大使都出動(dòng)了,薛劍總領(lǐng)事遭圍攻,若被驅(qū)逐必對等回應(yīng)

連美駐日大使都出動(dòng)了,薛劍總領(lǐng)事遭圍攻,若被驅(qū)逐必對等回應(yīng)

來科點(diǎn)譜
2025-11-13 09:01:58
記者:湖人曾給克萊開4年8000萬美元合約,克萊因東契奇拒絕

記者:湖人曾給克萊開4年8000萬美元合約,克萊因東契奇拒絕

懂球帝
2025-11-13 08:22:19
央視舉辦民間足球爭霸賽:蘇超、贛超、蒙超冠軍等8隊(duì)參賽

央視舉辦民間足球爭霸賽:蘇超、贛超、蒙超冠軍等8隊(duì)參賽

懂球帝
2025-11-13 11:12:07
中央軍委副主席:中國必須著眼國際軍事競爭戰(zhàn)略制高點(diǎn)搶占先機(jī)

中央軍委副主席:中國必須著眼國際軍事競爭戰(zhàn)略制高點(diǎn)搶占先機(jī)

俄羅斯衛(wèi)星通訊社
2025-11-12 15:09:26
最后兩輪!世預(yù)賽歐洲出線概率:4隊(duì)100%,德國迎生死戰(zhàn),10隊(duì)50%

最后兩輪!世預(yù)賽歐洲出線概率:4隊(duì)100%,德國迎生死戰(zhàn),10隊(duì)50%

籃球圈里的那些事
2025-11-13 10:22:15
陳小魯猝死的反思:退休了住哪兒好?

陳小魯猝死的反思:退休了住哪兒好?

犀利辣椒
2025-11-13 06:22:35
兒子滿月,岳母給5元紅包說心意到了就成,仨月后岳母也過生日

兒子滿月,岳母給5元紅包說心意到了就成,仨月后岳母也過生日

船長與船1
2025-11-12 10:40:24
房地產(chǎn)形勢到底有多嚴(yán)峻?南京都有人唄送房子了…

房地產(chǎn)形勢到底有多嚴(yán)峻?南京都有人唄送房子了…

慧翔百科
2025-11-12 11:49:39
洪劍濤干女兒去世三年他都不知情,知道崩潰大哭 網(wǎng)友:戲子無情

洪劍濤干女兒去世三年他都不知情,知道崩潰大哭 網(wǎng)友:戲子無情

一只番茄魚
2025-11-13 16:19:32
美深夜發(fā)射洲際導(dǎo)彈!特朗普電告全球要廢中國王牌,普京出手反制

美深夜發(fā)射洲際導(dǎo)彈!特朗普電告全球要廢中國王牌,普京出手反制

小lu侃侃而談
2025-11-13 18:56:38
外交部:敦促美方停止損害中美關(guān)系和臺海和平穩(wěn)定

外交部:敦促美方停止損害中美關(guān)系和臺海和平穩(wěn)定

新京報(bào)
2025-11-13 16:29:05
沙溢親吻宋雨琦風(fēng)波升級,疑女方拒絕仍強(qiáng)吻,節(jié)目組回應(yīng)避重就輕

沙溢親吻宋雨琦風(fēng)波升級,疑女方拒絕仍強(qiáng)吻,節(jié)目組回應(yīng)避重就輕

古希臘掌管月桂的神
2025-11-12 22:15:25
3年190場!皇馬1.3億巨星拉響警報(bào):身體超負(fù)荷 接近極限

3年190場!皇馬1.3億巨星拉響警報(bào):身體超負(fù)荷 接近極限

葉青足球世界
2025-11-13 09:39:43
紅軍城失守,澤連斯基還想再打三年,要求全世界一起制裁俄羅斯

紅軍城失守,澤連斯基還想再打三年,要求全世界一起制裁俄羅斯

阿七說史
2025-11-11 17:58:14
董潔控訴潘粵明家暴十年后,他攜三部新劇殺回巔峰

董潔控訴潘粵明家暴十年后,他攜三部新劇殺回巔峰

頂世文化
2025-11-13 15:24:49
荒誕!詐騙2.7萬億的惡魔佘智江,居然是我們媒體口里的慈善家

荒誕!詐騙2.7萬億的惡魔佘智江,居然是我們媒體口里的慈善家

公子麥少
2025-11-13 20:42:17
一人身亡!北京五環(huán)發(fā)生嚴(yán)重事故!

一人身亡!北京五環(huán)發(fā)生嚴(yán)重事故!

美麗大北京
2025-11-13 17:47:33
2025-11-13 21:44:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11666文章數(shù) 176329關(guān)注度
往期回顧 全部

科技要聞

月產(chǎn)能突破百萬片,中芯國際Q3凈利增43.1%

頭條要聞

小天才手表灰色產(chǎn)業(yè)鏈被扒:點(diǎn)贊50萬賬號賣500元

頭條要聞

小天才手表灰色產(chǎn)業(yè)鏈被扒:點(diǎn)贊50萬賬號賣500元

體育要聞

跟豪門傳了十年緋聞,他卻偏要“擇一隊(duì)終老”

娛樂要聞

王鶴棣孟子義真要搭?

財(cái)經(jīng)要聞

源峰25億賭局!漢堡王中國"賣身"求生

汽車要聞

具備高階輔助駕駛功能 歐拉5預(yù)售價(jià)10.98萬起

態(tài)度原創(chuàng)

健康
游戲
藝術(shù)
公開課
軍事航空

血液科專家揭秘白血病七大誤區(qū)

IGN9分!高端無搖桿控制器配置強(qiáng)悍 15按鍵超專業(yè)

藝術(shù)要聞

黃君璧:仿古山水冊

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國在委內(nèi)瑞拉海岸動(dòng)用無人機(jī)和F-35

無障礙瀏覽 進(jìn)入關(guān)懷版 久久久精品无码| 国内成人性视频| 99精品久久免费精品久久| 美国久久影院| 精品无码人妻一区二区三区不卡| 蜜桃成熟色综合久久av| 日韩一区二区三区射精| 亚洲五月激情| jizz无码| 香港三日本8a三级少妇三级99 | 国产熟女无套白浆中出视频| 四虎精品视频永久免费| 饥渴人妻欲求不满在线| 人妻 校园 激情 另类| 亚洲色无码专线精品观看| 久久国产劲爆∧v内射| 性少妇videosexfree| 亚洲人成人一区二区三区| 色www婷婷| аⅴ天堂中文在线网官网| 国模av在线| 中文字幕精品一区二区三区电影| 嫖妓嫖到一区二区三区在线观看| 无码丰满熟妇| 久久乐视频孕妇| 亚洲成a人蜜臀AV在线播放 | 日本中文字幕乱码免费| 饥渴老熟妇女乱人伦视频| 欧美极品少妇大屁股BBBBXXXX| 亚洲日韩国产欧美一区二区三区| 中文偷拍视频| 老司机精品成人无码av| 婷婷 色五月 亚洲 色图| 国产精品免费AⅤ片在线观看 | 精品乱码一区二区三四区视频| 精品国产91天堂嫩模在线观看| 中文字幕一区二区人妻性色| 挺进朋友人妻雪白的身体韩国电影| 日日爱爱亚洲| 我要看女人自己玩自己大比比| 人人澡人人妻人人爽人人蜜桃麻豆|