新智元報(bào)道
編輯:傾傾
【新智元導(dǎo)讀】當(dāng)數(shù)學(xué)家陶哲軒把一道幾何難題交給GPT-5 Pro,幾分鐘后,屏幕亮起——推理完美、邏輯無瑕,卻依然沒有答案。就在同一周,它又在全球最難的數(shù)學(xué)測試上奪冠。 分?jǐn)?shù)耀眼得幾乎刺眼,卻掩不住那一瞬的空白:它真的理解了什么嗎?
十年前,數(shù)學(xué)家陶哲軒還在黑板前,與學(xué)生們手推每一道幾何公式。
十年后,他把同樣的問題丟給一臺機(jī)器——GPT-5 Pro。
他想知道:AI只是更快的計(jì)算者,還是正在接近真正的理解?
幾分鐘后,屏幕亮起:Minkowski公式、Willmore不等式、體積積分……它把整個(gè)推理寫成了完美的論文草稿。
陶哲軒看著那串結(jié)果,既震撼,又有點(diǎn)心涼:問題依然無解,只是被粉飾得更漂亮了。
就在那一周,另一場數(shù)字化的「數(shù)學(xué)登山」也在進(jìn)行。
GPT-5 Pro在全球最難的測試集FrontierMath上拿下13%的最高分。
分?jǐn)?shù)耀眼,直覺卻失靈。它像一個(gè)擅長計(jì)算的神童,但在真正的研究面前,依然停下了筆。
于是問題不再是「AI能不能解題」,而是:它到底理解了多少世界?
陶哲軒的實(shí)測
AI在科研中的「三層表現(xiàn)」
十年前,陶哲軒還在黑板前與學(xué)生推演幾何。
這位被譽(yù)為「天才中的天才」的數(shù)學(xué)家,21歲就成了最年輕的菲爾茲獎(jiǎng)得主。
十年后,他決定親自驗(yàn)證這臺「拿下13%紀(jì)錄」的AI究竟能做什么。
他沒有選擇標(biāo)準(zhǔn)題庫,而是把它帶進(jìn)真正的科研現(xiàn)場——那里沒有標(biāo)準(zhǔn)答案,只有開放問題。
「我想看看AI能否在我不擅長的領(lǐng)域提出新思路?!褂谑?,他在MathOverflow上貼出了這道問題:
若一個(gè)光滑嵌入在R3中的球面,其主曲率都不超過1,它所包圍的體積是否至少和單位球一樣大?——這并非我擅長的領(lǐng)域(微分幾何),但我想看看AI能否給出新思路。
這是一個(gè)微分幾何難題。二維情況早有定理(Pestov–Ionin theorem)支撐,但三維版本至今懸而未解。
這道難題三年前曾被提出,至今無人能解。
陶哲軒不是在考AI,而是把它推向了沒有標(biāo)準(zhǔn)答案的科研地帶。
在與ChatGPT持續(xù)互動(dòng)約40分鐘,他總結(jié)道:AI輔助在微觀、宏觀層面有幫助,但在中觀層面有限。
一起看看,陶哲軒如何用AI再一次完成了解題。
AI是計(jì)算型助手
他先讓GPT-5 Pro處理最容易的「星形(star-shaped)」情形。
幾分鐘內(nèi),AI便生成了推理鏈條,自動(dòng)調(diào)用三條經(jīng)典結(jié)論:
Minkowski積分公式: |Σ| = ∫Σ H s dA;
Willmore不等式: ∫Σ H2 dA ≥ 4π;
體積公式: vol(V) = ? ∫Σ s dA。
然后把它們一氣整合成一句話:
若 |κ?|, |κ?| ≤ 1,則 vol(V) ≥ (4π/3),即單位球體積。
AI不僅計(jì)算正確,還主動(dòng)引用他未提及的Minkowski第一積分公式,甚至補(bǔ)上了兩種證明路線。
陶哲軒在后續(xù)貼文寫道:
它能在我給出的線索下完成所有推導(dǎo),這部分幾乎無可挑剔。
這一階段,AI像一臺完美的「數(shù)學(xué)引擎」——能推、能證、能舉例,但它只在局部任務(wù)上發(fā)光。
從助手到鏡面
他又進(jìn)一步試探它:如果把曲面變形、稍微遠(yuǎn)離完美的球形,它還能保持推理穩(wěn)定嗎?
AI很快給出答案——準(zhǔn)確、漂亮,卻方向錯(cuò)了。
陶哲軒在日志里寫下:
它開始順從,而不再質(zhì)疑。
這正是科研型AI的「鏡像陷阱」:當(dāng)方向錯(cuò)了,它會(huì)粉飾錯(cuò)誤,甚至讓錯(cuò)誤更「漂亮」。
雖然沒解出問題,這次實(shí)驗(yàn)仍讓陶哲軒獲得了新的洞察。
他意識到真正的障礙并非「近似圓球」,而是那些極細(xì)長、非凸、如同襪狀的曲面結(jié)構(gòu)——它們能無限拉長幾何尺度,卻幾乎不增加體積。
陶哲軒后來總結(jié):
AI確實(shí)讓我更快地理解了問題——不是因?yàn)樗獬鰜?,而是因?yàn)槲铱辞辶怂鼮槭裁唇獠怀鰜怼?/p>
這句話,也成為他此后所有AI實(shí)驗(yàn)的起點(diǎn)。
當(dāng)GPT-5登上數(shù)學(xué)「珠峰」
只有13%成功率的登頂
與此同時(shí),在陶哲軒把AI帶進(jìn)科研現(xiàn)場的那幾天,另一場「數(shù)字版登山賽」也在進(jìn)行。
10月初,研究機(jī)構(gòu)Epoch AI發(fā)了一條不到30個(gè)詞的推文——這次不是關(guān)于某個(gè)實(shí)驗(yàn),而是一場「數(shù)學(xué)珠峰」的登頂公告。
這條信息背后,是全球最難的數(shù)學(xué)測試之一——FrontierMath Tier 4。
Epoch AI在官網(wǎng)形容它是「研究級問題集」,題目難度可讓專家花上數(shù)周甚至數(shù)月才有進(jìn)展。
也就是說,這是考驗(yàn)「能不能思考」,而非「會(huì)不會(huì)算」。
從Gemini 2.5到GPT-5 Pro:三個(gè)月的登頂賽
7月,Epoch AI首次公開推出FrontierMath Tier 4,稱之為「AI 數(shù)學(xué)能力的珠穆朗瑪峰」——一套專為測試模型極限推理力而設(shè)計(jì)的研究級題庫。
那時(shí),還沒有任何模型能在其中站穩(wěn)腳。
8月,谷歌的Gemini 2.5 Pro率先登場:
我們剛剛完成了Gemini 2.5 Pro在FrontierMath上的初步評估。此次使用舊版推理腳手架(scaffold),結(jié)果尚不最終。
到了9月,他們更新評分機(jī)制,引入「重試機(jī)制」——讓AI能在推理失敗后自我修正。
一切都像是在為10月的決戰(zhàn)做準(zhǔn)備。
就在陶哲軒還在和GPT-5 Pro「研究未解題」的前一天,谷歌Gemini 2.5 Deep Think剛剛創(chuàng)下紀(jì)錄。
Epoch AI寫道:
我們在FrontierMath上評估了Gemini 2.5 Deep Think。由于沒有API,我們手動(dòng)運(yùn)行它。結(jié)果:新紀(jì)錄!
10月11日,Epoch AI發(fā)出那條掀起驚濤駭浪的推文——
FrontierMath Tier 4:終極對決!GPT-5 Pro創(chuàng)下新紀(jì)錄(13%),比Gemini 2.5 Deep Think多答對一道題(但差距在統(tǒng)計(jì)上不顯著)。
左側(cè)是Grok 4 Heavy(約5%),中間是Gemini 2.5(約12%),最右的GPT-5 Pro微微高出,停在13%的位置。
比Gemini 2.5 Deep Think多答對一道題(但差距在統(tǒng)計(jì)上不顯著)。
這意味著,GPT-5 Pro雖然暫時(shí)「站在了山頂」,但它離真正的理解仍有整座山的距離。
這場拉鋸更像是一場平局,只是GPT-5比Gemini 2.5早登頂幾秒鐘。
高分背后:算法的勝利,還是幻覺?
這場登頂賽其實(shí)揭示了另一個(gè)事實(shí):AI的分?jǐn)?shù)可以突破,但理解力依舊受限。
而這個(gè)問題,在陶哲軒的實(shí)測中被進(jìn)一步放大。
勝出的一題,多半來自結(jié)構(gòu)明確、符號化強(qiáng)的題型:代數(shù)、線性系統(tǒng)、基礎(chǔ)分析。
而在幾何構(gòu)造、偏微分方程、非凸空間等題上,它幾乎毫無建樹。
Epoch AI自己也知道,這更像一次「算法微勝」,而非「數(shù)學(xué)突破」。
這次高分,靠的是更高算力、更長推理鏈、更聰明的提示詞。
于是問題變成:當(dāng)分?jǐn)?shù)升高,理解力也跟著升高了嗎?
也許在算法的世界里,它贏了;在理解的世界里,它還沒出發(fā)。
當(dāng)「聰明」有了尺度
AI在科研中的邊界
幾個(gè)月后,他繼續(xù)在做另一場實(shí)驗(yàn)——這次,不是考AI能不能解題,而是考他自己:當(dāng)一切都能自動(dòng)化,人類還在思考什么?
我發(fā)現(xiàn),聰明也有尺度。
他寫下這句話時(shí),想起那次無解的幾何題。AI在每個(gè)步驟上都完美,卻在方向上失焦。
他終于明白——真正需要被訓(xùn)練的,也許是我們自己。
他舉例說,一種叫<canonical>
的依賴類型匹配工具可以讓他瞬間驗(yàn)證一行證明,但當(dāng)連續(xù)幾十行都交由它完成時(shí),他反而更難看清邏輯全貌。
進(jìn)一步放大尺度,問題變得更明顯。
當(dāng)AI協(xié)助完成整篇論文、或自動(dòng)化地編纂一整本教材時(shí),表面上的「效率提升」,常常意味著結(jié)構(gòu)理解的退化。
數(shù)學(xué)的本質(zhì)在于結(jié)構(gòu)與關(guān)聯(lián)——而結(jié)構(gòu)的理解,恰恰需要「緩慢的人類思考」。
陶哲軒在后續(xù)貼文中寫道:
最優(yōu)的自動(dòng)化程度既不是0%,也不是100%。
真正高效的狀態(tài),是在每個(gè)層面都留下人的空隙。如果讓AI解決所有簡單任務(wù),我們將失去面對困難時(shí)的方向感。
這段話與他此前在GPT-5 Pro數(shù)學(xué)實(shí)驗(yàn)中的體會(huì)形成了照應(yīng)。
在小尺度上,AI能精準(zhǔn)完成每一個(gè)步驟;在中尺度上,它傾向迎合而非反駁;而在大尺度上,它反而成為一種「反射鏡」——讓人更快看清自己思維的邊界。
真正的突破,或許不在于讓機(jī)器更像人,而在讓人類學(xué)會(huì):以不同的尺度,重新理解「聰明」這件事。
人類的空隙
當(dāng)AI停在「還不懂」的地方
陶哲軒的這場實(shí)驗(yàn),其實(shí)為GPT-5的「13%高分」找到了解釋。
分?jǐn)?shù)說明它強(qiáng)大,但實(shí)驗(yàn)揭示了它強(qiáng)大的方式——不是洞察,而是枚舉;不是理解,而是復(fù)現(xiàn)。
在FrontierMath的基準(zhǔn)中,GPT-5能正確地完成符號化的推理題,卻在需要構(gòu)造直覺的題目上失效。
而在陶哲軒的試驗(yàn)里,它能像熟練的研究生那樣把定義、公式和不等式都串聯(lián)起來,卻依然無法判斷方向?qū)Σ粚Α?/p>
這兩個(gè)場景,像是科研的兩端:一個(gè)是統(tǒng)計(jì)意義上的聰明,一個(gè)是語義意義上的理解。
GPT-5在前者領(lǐng)先,在后者止步。
陶哲軒在事后說,AI的表現(xiàn)讓他想到早年的科研訓(xùn)練。
年輕時(shí)的他,也曾花大量時(shí)間在局部細(xì)節(jié)中打轉(zhuǎn)——證明一行、修正一式、推理一頁,直到最后發(fā)現(xiàn):真正的問題,在邏輯之外。
AI讓他重新體會(huì)了這種「思維的局部化」,也讓他意識到:人類的優(yōu)勢,正是在那些AI還不懂的地方。
今天的GPT-5已能自洽地完成復(fù)雜的形式推理,但它仍缺乏「全局意識」——那種在面對模糊、不確定、甚至錯(cuò)誤假設(shè)時(shí)的直覺。
陶哲軒稱之為「human situational awareness(情境感知)」:
AI的聰明是線性的,人類的理解是拓?fù)涞摹?/p>
這句話后來被不少數(shù)學(xué)家轉(zhuǎn)發(fā)。因?yàn)樗沂玖艘环N新的分工邊界:AI可以成為證明的發(fā)動(dòng)機(jī),而人類依然是結(jié)構(gòu)的設(shè)計(jì)師。
它能把定理算完,卻算不出「意義」?;蛟S這正是GPT-5真正的突破:
它逼著我們重新思考,AI的極限,正是人類的起點(diǎn)。
數(shù)學(xué)的意義,從來不只是得出答案,而是弄清楚——為什么答案還不存在。
參考資料:
https://x.com/EpochAIResearch/status/1976685685349441826?s=19
https://mathstodon.xyz/@tao/115351400633010670
https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82
https://mathstodon.xyz/deck/@tao/114501120421010793
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.