“AI登月時(shí)刻”，OpenAI模型摘取奧數(shù)金牌， GPT-5發(fā)布在即

2025-07-20 09:03:49　來源: 未盡研究

上海舉報(bào)

分享至

OpenAI的一個(gè)通用推理模型，在剛結(jié)束的國際奧林匹克數(shù)學(xué)競賽（IMO）中達(dá)到了金牌的水平。AI登月時(shí)刻，社交媒體一夜無眠，AI圈子沸騰了。

在與人類參賽者完全相同的規(guī)則下，OpenAI的模型挑戰(zhàn)了 2025 年IMO試題：兩場各 4.5 小時(shí)的考試、禁用任何工具和互聯(lián)網(wǎng)、只能閱讀官方題面并以自然語言撰寫完整證明。模型完整解出了6題中的5題。每道題都由三位前 IMO 獎(jiǎng)牌得主獨(dú)立批改，并在取得一致意見后定分。最終模型拿到 35/42 分——足以摘金！

重大意義在于，這是一個(gè)通用推理模型，而不是一個(gè)專門用來解數(shù)學(xué)題的專門系統(tǒng)，也沒有經(jīng)過驗(yàn)證的獎(jiǎng)勵(lì)信號，即它不是依賴于“有標(biāo)準(zhǔn)答案、實(shí)時(shí)打分的獎(jiǎng)勵(lì)”來學(xué)會(huì)的，而是靠更通用的推理和新技術(shù)，在長時(shí)間復(fù)雜的過程中，做出了正確的推理和證明。

OpenAI證明，盡管經(jīng)歷了Meta瘋狂的挖角，它依然保持了頂尖研究人才的密度，做出重大的研究突破。本周 OpenAI的模型o3 alpha在AtCoder 世界巡回賽 2025 決賽中僅遜于人類編程奇才Psyho，獲得第二名；測試中強(qiáng)于o3 pro，是最好的編程及物理模型。

這樣，OpenAI目前擁有了最強(qiáng)的編程及數(shù)學(xué)模型，讓它再次碾壓DeepMind, Anthropic，Grok等，也再次與中國引領(lǐng)的開源模型拉開了差距。

實(shí)際上，OpenAI內(nèi)部正在測試一個(gè)全新的推理模型，取得奧數(shù)金牌成績，僅是其一次小試牛刀。它的正式發(fā)布甚至?xí)贕PT-5之后，預(yù)計(jì)是今年底。 OpenAI推理研究的科學(xué)家Alexander We負(fù)責(zé)這個(gè)模型項(xiàng)目，他首先宣布了這一消息，并順帶提及GPT-5發(fā)布在即。

這是一件大事，我們可以說它讓成為AGI邁向ASI的新起點(diǎn)嗎？Alexander Wei 發(fā)了一組帖文說明它的意義：

“ 第一，IMO 題目對“持續(xù)創(chuàng)造性思考”提出了前所未有的要求。從推理時(shí)間跨度來看，我們已經(jīng)一路從 GSM8K（頂尖人類約 0.1 分鐘）→ MATH 數(shù)據(jù)集（約 1 分鐘）→ AIME（約 10 分鐘）→ IMO（約 100 分鐘）。

第二，IMO 答案往往是長達(dá)數(shù)頁、難以驗(yàn)證的證明。要想在這一關(guān)取得進(jìn)展，就必須跳出傳統(tǒng)強(qiáng)化學(xué)習(xí)“獎(jiǎng)勵(lì)信號清晰、易于驗(yàn)證”的范式。我們做到了——由此得到的模型能夠在復(fù)雜度和嚴(yán)謹(jǐn)性上匹敵人類數(shù)學(xué)家。

除了結(jié)果本身，我更興奮的是方法：我們并未依賴狹窄的、任務(wù)特化的技巧，而是通過通用強(qiáng)化學(xué)習(xí)與“測試時(shí)計(jì)算”擴(kuò)展的新突破，才達(dá)到這一水準(zhǔn)。 ”

這項(xiàng)成就，在OpenAI內(nèi)部被認(rèn)為是實(shí)現(xiàn)了急需的一次研究上的突破，“ Alex Wei做到了?！?它幾乎沒有針對 IMO 做任何專項(xiàng)工作，只是持續(xù)訓(xùn)練通用模型；所有證明均為自然語言撰寫，沒有使用任何定制化的評測框架。

這個(gè)模型的尺寸仍然是個(gè)謎，不過OpenAI的團(tuán)隊(duì)成員透露，所用的算力相當(dāng)有限，因?yàn)樾请H之門還沒有投入使用。

OpenAI科學(xué)家Sebastined Bubeck稱之為 AI 的“登月時(shí)刻”。簡單講：一個(gè)只是預(yù)測下一個(gè)詞的機(jī)器（真的是啥工具都沒用）剛剛給出了幾個(gè)又難又新的數(shù)學(xué)題的創(chuàng)造性證明，這種水平平時(shí)也只有少數(shù)天才少年能做到。

OpenAI的首席研究官M(fèi)ark Chen曾經(jīng)擔(dān)任美國國際奧林匹克信息競賽的教練，他認(rèn)為：”不同于以往比賽中用的那些狹窄的系統(tǒng)，我們的模型具備更廣泛的推理能力，遠(yuǎn)遠(yuǎn)超越了競賽題的范圍?！?/p>

他指的是谷歌的AlphaProof在去年的奧數(shù)賽中，解出了6道題中的4道。

解決了奧數(shù)金牌的問題，接下來就是人類真正待解的難題了。在OpenAI多智能體組的研究員Sheryl Hsu參與了這個(gè)項(xiàng)目，她激動(dòng)地說，從起步到達(dá)到奧數(shù)金牌水平，僅用了15個(gè)月，照這個(gè)速度下去，明年就可以用來產(chǎn)生數(shù)學(xué)定理和用全新方法進(jìn)行數(shù)學(xué)研究了。

人工智能會(huì)在2030年前解決一個(gè)千禧年大獎(jiǎng)難題嗎？當(dāng)前市場上對這個(gè)問題的預(yù)測概率驟然上升，達(dá)到了81%。

千禧年大獎(jiǎng)難題是指克雷數(shù)學(xué)研究所（Clay Mathematics Institute）于2000年提出的七個(gè)尚未解決的重要數(shù)學(xué)問題，每個(gè)問題的獎(jiǎng)金是100萬美元。

GPT-5

萬眾期待的GPT-5 要來了。奧特曼宣布：

我們很快就會(huì)發(fā)布 GPT-5，但也希望大家對它抱有合理的預(yù)期：這是一個(gè)實(shí)驗(yàn)性的模型，融入了我們將在未來模型中繼續(xù)采用的新研究技術(shù)。我們相信你們會(huì)喜歡 GPT-5，但在接下來的幾個(gè)月里，我們并不打算發(fā)布一個(gè)具備 IMO 金牌水平能力的模型。

有一種說法是這次發(fā)布就是為了終結(jié)命名混亂，將轉(zhuǎn)用一個(gè)統(tǒng)一模型架構(gòu)，用戶只要“挑/調(diào)”推理強(qiáng)度或智能等級即可。

圈子里也在流傳GPT-5的蛛絲馬跡。這張圖顯示GPT-5在測試生物風(fēng)險(xiǎn)，用的是最強(qiáng)推理模式，限時(shí) 15 分鐘，連跑 10 次 mbct 生物題，把結(jié)果和日志按指定目錄收好。

一些AI研究者分析：GPT-5將采用 end-to-end 強(qiáng)化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，模型直接在環(huán)境中從原始輸入學(xué)習(xí)到最優(yōu)策略，無需人為拆分子任務(wù)或設(shè)計(jì)中間模塊，也不依賴于顯式的 chain of thought（逐步推理）輸出。通過整體性的獎(jiǎng)勵(lì)信號指導(dǎo)，模型能夠高效地探索、試錯(cuò)并收斂到優(yōu)秀的解決方案，實(shí)現(xiàn)更高的任務(wù)完成度和更強(qiáng)的泛化能力。

最近OpenAI被Meta挖角，幾乎傷筋動(dòng)骨。但這次奧數(shù)奪金，等于是告訴Meta：我們要向超級人工智能跨越了。

最后，下面是OpenAI負(fù)責(zé)推理研究的Noam Brown的評論：

今天，我們 @OpenAI 取得了一個(gè)許多人認(rèn)為還需要幾年才能實(shí)現(xiàn)的里程碑：一個(gè)具備金牌水平的推理型大語言模型（LLM），在 2025 年國際數(shù)學(xué)奧林匹克（IMO）中，在與人類相同的時(shí)間限制下、無需任何工具，完成了解題。

聽起來已經(jīng)很驚人了，但這個(gè)成就的意義其實(shí)遠(yuǎn)不止這個(gè)標(biāo)題所能表達(dá)的：

通常來說，像圍棋、Dota、撲克、外交游戲（Diplomacy）等領(lǐng)域的 AI 結(jié)果，研究人員要花費(fèi)數(shù)年時(shí)間，打造一個(gè)只擅長某個(gè)狹窄領(lǐng)域、除此之外幾乎一無是處的 AI。

但這次并不是一個(gè)專門針對 IMO 的模型，而是一個(gè)融合了全新實(shí)驗(yàn)性通用技術(shù)的推理型 LLM。

那么，有什么不同呢？我們開發(fā)了新的技術(shù)，讓 LLM 在那些難以驗(yàn)證的任務(wù)上表現(xiàn)得更好。IMO 題目正是絕佳的挑戰(zhàn)：證明通常長達(dá)數(shù)頁，專家們也需要幾個(gè)小時(shí)才能批改。相比之下，AIME（美國數(shù)學(xué)邀請賽）的答案只是 0 到 999 之間的一個(gè)整數(shù)。

此外，這個(gè)模型會(huì)“思考”很久。o1 思考幾秒，Deep Research 思考幾分鐘，而它可以思考幾個(gè)小時(shí)。更重要的是，它的思考效率也更高。而且，在推理時(shí)間計(jì)算和效率上，我們還有很大的提升空間。

值得回顧的是，AI 尤其是在數(shù)學(xué)領(lǐng)域的進(jìn)步有多么快。2024 年時(shí)，AI 實(shí)驗(yàn)室還在用小學(xué)數(shù)學(xué)（GSM8K）作為模型發(fā)布的評測。隨后我們達(dá)到了高中水平的 MATH 基準(zhǔn)，又突破了 AIME，如今則達(dá)到了 IMO 金牌水平。

接下來會(huì)怎樣？盡管最近 AI 進(jìn)步飛快，我完全相信這個(gè)趨勢還會(huì)繼續(xù)。更重要的是，我認(rèn)為我們正接近讓 AI 在科學(xué)發(fā)現(xiàn)中發(fā)揮實(shí)質(zhì)性作用的階段。因?yàn)?AI 的表現(xiàn)從略低于頂尖人類水平到略高于頂尖人類水平之間，其差距是巨大的。

這是一個(gè)由 @alexwei_ 領(lǐng)導(dǎo)的小團(tuán)隊(duì)完成的成果。他把一個(gè)很少有人相信的研究想法，變成了一個(gè)幾乎沒人覺得可能實(shí)現(xiàn)的結(jié)果。當(dāng)然，這一成就也離不開 @OpenAI 以及更廣泛的 AI 社區(qū)多年積累的研究和工程工作。

當(dāng)你在一家前沿實(shí)驗(yàn)室工作時(shí)，通常會(huì)提前幾個(gè)月知道前沿能力在哪里。但這個(gè)結(jié)果使用了最近才開發(fā)出的新技術(shù)，甚至對許多 OpenAI 的研究人員來說也是一個(gè)驚喜。今天，每個(gè)人都可以看到前沿在哪里。

OpenAI的奧數(shù)題解法：

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.