陶哲軒親測！GPT-5 Pro 40分鐘破解3年難題，登頂最難數(shù)學(xué)考試

2025-10-11 17:10:31　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：傾傾

【新智元導(dǎo)讀】當(dāng)數(shù)學(xué)家陶哲軒把一道幾何難題交給GPT-5 Pro，幾分鐘后，屏幕亮起——推理完美、邏輯無瑕，卻依然沒有答案。就在同一周，它又在全球最難的數(shù)學(xué)測試上奪冠。分?jǐn)?shù)耀眼得幾乎刺眼，卻掩不住那一瞬的空白：它真的理解了什么嗎？

十年前，數(shù)學(xué)家陶哲軒還在黑板前，與學(xué)生們手推每一道幾何公式。

十年后，他把同樣的問題丟給一臺機(jī)器——GPT-5 Pro。

他想知道：AI只是更快的計(jì)算者，還是正在接近真正的理解？

幾分鐘后，屏幕亮起：Minkowski公式、Willmore不等式、體積積分……它把整個(gè)推理寫成了完美的論文草稿。

陶哲軒看著那串結(jié)果，既震撼，又有點(diǎn)心涼：問題依然無解，只是被粉飾得更漂亮了。

就在那一周，另一場數(shù)字化的「數(shù)學(xué)登山」也在進(jìn)行。

GPT-5 Pro在全球最難的測試集FrontierMath上拿下13%的最高分。

分?jǐn)?shù)耀眼，直覺卻失靈。它像一個(gè)擅長計(jì)算的神童，但在真正的研究面前，依然停下了筆。

于是問題不再是「AI能不能解題」，而是：它到底理解了多少世界？

陶哲軒的實(shí)測

AI在科研中的「三層表現(xiàn)」

十年前，陶哲軒還在黑板前與學(xué)生推演幾何。

這位被譽(yù)為「天才中的天才」的數(shù)學(xué)家，21歲就成了最年輕的菲爾茲獎(jiǎng)得主。

十年后，他決定親自驗(yàn)證這臺「拿下13%紀(jì)錄」的AI究竟能做什么。

他沒有選擇標(biāo)準(zhǔn)題庫，而是把它帶進(jìn)真正的科研現(xiàn)場——那里沒有標(biāo)準(zhǔn)答案，只有開放問題。

「我想看看AI能否在我不擅長的領(lǐng)域提出新思路?！褂谑?，他在MathOverflow上貼出了這道問題：

若一個(gè)光滑嵌入在R3中的球面，其主曲率都不超過1，它所包圍的體積是否至少和單位球一樣大？——這并非我擅長的領(lǐng)域（微分幾何），但我想看看AI能否給出新思路。

這是一個(gè)微分幾何難題。二維情況早有定理（Pestov–Ionin theorem）支撐，但三維版本至今懸而未解。

這道難題三年前曾被提出，至今無人能解。

陶哲軒不是在考AI，而是把它推向了沒有標(biāo)準(zhǔn)答案的科研地帶。

在與ChatGPT持續(xù)互動(dòng)約40分鐘，他總結(jié)道：AI輔助在微觀、宏觀層面有幫助，但在中觀層面有限。

一起看看，陶哲軒如何用AI再一次完成了解題。

AI是計(jì)算型助手

他先讓GPT-5 Pro處理最容易的「星形（star-shaped）」情形。

幾分鐘內(nèi)，AI便生成了推理鏈條，自動(dòng)調(diào)用三條經(jīng)典結(jié)論：

Minkowski積分公式： |Σ| = ∫Σ H s dA；
Willmore不等式： ∫Σ H2 dA ≥ 4π；
體積公式： vol(V) = ? ∫Σ s dA。

然后把它們一氣整合成一句話：

若 |κ?|, |κ?| ≤ 1，則 vol(V) ≥ (4π/3)，即單位球體積。

AI不僅計(jì)算正確，還主動(dòng)引用他未提及的Minkowski第一積分公式，甚至補(bǔ)上了兩種證明路線。

陶哲軒在后續(xù)貼文寫道：

它能在我給出的線索下完成所有推導(dǎo)，這部分幾乎無可挑剔。

這一階段，AI像一臺完美的「數(shù)學(xué)引擎」——能推、能證、能舉例，但它只在局部任務(wù)上發(fā)光。

從助手到鏡面

他又進(jìn)一步試探它：如果把曲面變形、稍微遠(yuǎn)離完美的球形，它還能保持推理穩(wěn)定嗎？

AI很快給出答案——準(zhǔn)確、漂亮，卻方向錯(cuò)了。

陶哲軒在日志里寫下：

它開始順從，而不再質(zhì)疑。

這正是科研型AI的「鏡像陷阱」：當(dāng)方向錯(cuò)了，它會(huì)粉飾錯(cuò)誤，甚至讓錯(cuò)誤更「漂亮」。

雖然沒解出問題，這次實(shí)驗(yàn)仍讓陶哲軒獲得了新的洞察。

他意識到真正的障礙并非「近似圓球」，而是那些極細(xì)長、非凸、如同襪狀的曲面結(jié)構(gòu)——它們能無限拉長幾何尺度，卻幾乎不增加體積。

陶哲軒后來總結(jié)：

AI確實(shí)讓我更快地理解了問題——不是因?yàn)樗獬鰜?，而是因?yàn)槲铱辞辶怂鼮槭裁唇獠怀鰜怼?/p>

這句話，也成為他此后所有AI實(shí)驗(yàn)的起點(diǎn)。

當(dāng)GPT-5登上數(shù)學(xué)「珠峰」

只有13%成功率的登頂

與此同時(shí)，在陶哲軒把AI帶進(jìn)科研現(xiàn)場的那幾天，另一場「數(shù)字版登山賽」也在進(jìn)行。

10月初，研究機(jī)構(gòu)Epoch AI發(fā)了一條不到30個(gè)詞的推文——這次不是關(guān)于某個(gè)實(shí)驗(yàn)，而是一場「數(shù)學(xué)珠峰」的登頂公告。

這條信息背后，是全球最難的數(shù)學(xué)測試之一——FrontierMath Tier 4。

Epoch AI在官網(wǎng)形容它是「研究級問題集」，題目難度可讓專家花上數(shù)周甚至數(shù)月才有進(jìn)展。

也就是說，這是考驗(yàn)「能不能思考」，而非「會(huì)不會(huì)算」。

從Gemini 2.5到GPT-5 Pro：三個(gè)月的登頂賽

7月，Epoch AI首次公開推出FrontierMath Tier 4，稱之為「AI 數(shù)學(xué)能力的珠穆朗瑪峰」——一套專為測試模型極限推理力而設(shè)計(jì)的研究級題庫。

那時(shí)，還沒有任何模型能在其中站穩(wěn)腳。

8月，谷歌的Gemini 2.5 Pro率先登場：

我們剛剛完成了Gemini 2.5 Pro在FrontierMath上的初步評估。此次使用舊版推理腳手架（scaffold），結(jié)果尚不最終。

到了9月，他們更新評分機(jī)制，引入「重試機(jī)制」——讓AI能在推理失敗后自我修正。

一切都像是在為10月的決戰(zhàn)做準(zhǔn)備。

就在陶哲軒還在和GPT-5 Pro「研究未解題」的前一天，谷歌Gemini 2.5 Deep Think剛剛創(chuàng)下紀(jì)錄。

Epoch AI寫道：

我們在FrontierMath上評估了Gemini 2.5 Deep Think。由于沒有API，我們手動(dòng)運(yùn)行它。結(jié)果：新紀(jì)錄！

10月11日，Epoch AI發(fā)出那條掀起驚濤駭浪的推文——

FrontierMath Tier 4：終極對決！GPT-5 Pro創(chuàng)下新紀(jì)錄（13%），比Gemini 2.5 Deep Think多答對一道題（但差距在統(tǒng)計(jì)上不顯著）。

左側(cè)是Grok 4 Heavy（約5%），中間是Gemini 2.5（約12%），最右的GPT-5 Pro微微高出，停在13%的位置。

比Gemini 2.5 Deep Think多答對一道題（但差距在統(tǒng)計(jì)上不顯著）。

這意味著，GPT-5 Pro雖然暫時(shí)「站在了山頂」，但它離真正的理解仍有整座山的距離。

這場拉鋸更像是一場平局，只是GPT-5比Gemini 2.5早登頂幾秒鐘。

高分背后：算法的勝利，還是幻覺？

這場登頂賽其實(shí)揭示了另一個(gè)事實(shí)：AI的分?jǐn)?shù)可以突破，但理解力依舊受限。

而這個(gè)問題，在陶哲軒的實(shí)測中被進(jìn)一步放大。

勝出的一題，多半來自結(jié)構(gòu)明確、符號化強(qiáng)的題型：代數(shù)、線性系統(tǒng)、基礎(chǔ)分析。

而在幾何構(gòu)造、偏微分方程、非凸空間等題上，它幾乎毫無建樹。

Epoch AI自己也知道，這更像一次「算法微勝」，而非「數(shù)學(xué)突破」。

這次高分，靠的是更高算力、更長推理鏈、更聰明的提示詞。

于是問題變成：當(dāng)分?jǐn)?shù)升高，理解力也跟著升高了嗎？

也許在算法的世界里，它贏了；在理解的世界里，它還沒出發(fā)。

當(dāng)「聰明」有了尺度

AI在科研中的邊界

幾個(gè)月后，他繼續(xù)在做另一場實(shí)驗(yàn)——這次，不是考AI能不能解題，而是考他自己：當(dāng)一切都能自動(dòng)化，人類還在思考什么？

我發(fā)現(xiàn)，聰明也有尺度。

他寫下這句話時(shí)，想起那次無解的幾何題。AI在每個(gè)步驟上都完美，卻在方向上失焦。

他終于明白——真正需要被訓(xùn)練的，也許是我們自己。

他舉例說，一種叫<canonical>的依賴類型匹配工具可以讓他瞬間驗(yàn)證一行證明，但當(dāng)連續(xù)幾十行都交由它完成時(shí)，他反而更難看清邏輯全貌。

進(jìn)一步放大尺度，問題變得更明顯。

當(dāng)AI協(xié)助完成整篇論文、或自動(dòng)化地編纂一整本教材時(shí)，表面上的「效率提升」，常常意味著結(jié)構(gòu)理解的退化。

數(shù)學(xué)的本質(zhì)在于結(jié)構(gòu)與關(guān)聯(lián)——而結(jié)構(gòu)的理解，恰恰需要「緩慢的人類思考」。

陶哲軒在后續(xù)貼文中寫道：

最優(yōu)的自動(dòng)化程度既不是0%，也不是100%。

真正高效的狀態(tài)，是在每個(gè)層面都留下人的空隙。如果讓AI解決所有簡單任務(wù)，我們將失去面對困難時(shí)的方向感。

這段話與他此前在GPT-5 Pro數(shù)學(xué)實(shí)驗(yàn)中的體會(huì)形成了照應(yīng)。

在小尺度上，AI能精準(zhǔn)完成每一個(gè)步驟；在中尺度上，它傾向迎合而非反駁；而在大尺度上，它反而成為一種「反射鏡」——讓人更快看清自己思維的邊界。

真正的突破，或許不在于讓機(jī)器更像人，而在讓人類學(xué)會(huì)：以不同的尺度，重新理解「聰明」這件事。

人類的空隙

當(dāng)AI停在「還不懂」的地方

陶哲軒的這場實(shí)驗(yàn)，其實(shí)為GPT-5的「13%高分」找到了解釋。

分?jǐn)?shù)說明它強(qiáng)大，但實(shí)驗(yàn)揭示了它強(qiáng)大的方式——不是洞察，而是枚舉；不是理解，而是復(fù)現(xiàn)。

在FrontierMath的基準(zhǔn)中，GPT-5能正確地完成符號化的推理題，卻在需要構(gòu)造直覺的題目上失效。

而在陶哲軒的試驗(yàn)里，它能像熟練的研究生那樣把定義、公式和不等式都串聯(lián)起來，卻依然無法判斷方向?qū)Σ粚Α?/p>

這兩個(gè)場景，像是科研的兩端：一個(gè)是統(tǒng)計(jì)意義上的聰明，一個(gè)是語義意義上的理解。

GPT-5在前者領(lǐng)先，在后者止步。

陶哲軒在事后說，AI的表現(xiàn)讓他想到早年的科研訓(xùn)練。

年輕時(shí)的他，也曾花大量時(shí)間在局部細(xì)節(jié)中打轉(zhuǎn)——證明一行、修正一式、推理一頁，直到最后發(fā)現(xiàn)：真正的問題，在邏輯之外。

AI讓他重新體會(huì)了這種「思維的局部化」，也讓他意識到：人類的優(yōu)勢，正是在那些AI還不懂的地方。

今天的GPT-5已能自洽地完成復(fù)雜的形式推理，但它仍缺乏「全局意識」——那種在面對模糊、不確定、甚至錯(cuò)誤假設(shè)時(shí)的直覺。

陶哲軒稱之為「human situational awareness（情境感知）」：

AI的聰明是線性的，人類的理解是拓?fù)涞摹?/p>

這句話后來被不少數(shù)學(xué)家轉(zhuǎn)發(fā)。因?yàn)樗沂玖艘环N新的分工邊界：AI可以成為證明的發(fā)動(dòng)機(jī)，而人類依然是結(jié)構(gòu)的設(shè)計(jì)師。

它能把定理算完，卻算不出「意義」?；蛟S這正是GPT-5真正的突破：

它逼著我們重新思考，AI的極限，正是人類的起點(diǎn)。

數(shù)學(xué)的意義，從來不只是得出答案，而是弄清楚——為什么答案還不存在。

參考資料：

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82

https://mathstodon.xyz/deck/@tao/114501120421010793

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.