夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

陶哲軒親測!GPT-5 Pro 40分鐘破解3年難題,登頂最難數(shù)學(xué)考試

0
分享至


新智元報(bào)道

編輯:傾傾

【新智元導(dǎo)讀】當(dāng)數(shù)學(xué)家陶哲軒把一道幾何難題交給GPT-5 Pro,幾分鐘后,屏幕亮起——推理完美、邏輯無瑕,卻依然沒有答案。就在同一周,它又在全球最難的數(shù)學(xué)測試上奪冠。 分?jǐn)?shù)耀眼得幾乎刺眼,卻掩不住那一瞬的空白:它真的理解了什么嗎?

十年前,數(shù)學(xué)家陶哲軒還在黑板前,與學(xué)生們手推每一道幾何公式。

十年后,他把同樣的問題丟給一臺機(jī)器——GPT-5 Pro。

他想知道:AI只是更快的計(jì)算者,還是正在接近真正的理解?

幾分鐘后,屏幕亮起:Minkowski公式、Willmore不等式、體積積分……它把整個(gè)推理寫成了完美的論文草稿。

陶哲軒看著那串結(jié)果,既震撼,又有點(diǎn)心涼:問題依然無解,只是被粉飾得更漂亮了。

就在那一周,另一場數(shù)字化的「數(shù)學(xué)登山」也在進(jìn)行。

GPT-5 Pro在全球最難的測試集FrontierMath上拿下13%的最高分。

分?jǐn)?shù)耀眼,直覺卻失靈。它像一個(gè)擅長計(jì)算的神童,但在真正的研究面前,依然停下了筆。

于是問題不再是「AI能不能解題」,而是:它到底理解了多少世界?

陶哲軒的實(shí)測

AI在科研中的「三層表現(xiàn)」

十年前,陶哲軒還在黑板前與學(xué)生推演幾何。

這位被譽(yù)為「天才中的天才」的數(shù)學(xué)家,21歲就成了最年輕的菲爾茲獎(jiǎng)得主。

十年后,他決定親自驗(yàn)證這臺「拿下13%紀(jì)錄」的AI究竟能做什么。

他沒有選擇標(biāo)準(zhǔn)題庫,而是把它帶進(jìn)真正的科研現(xiàn)場——那里沒有標(biāo)準(zhǔn)答案,只有開放問題。


「我想看看AI能否在我不擅長的領(lǐng)域提出新思路?!褂谑?,他在MathOverflow上貼出了這道問題:

若一個(gè)光滑嵌入在R3中的球面,其主曲率都不超過1,它所包圍的體積是否至少和單位球一樣大?——這并非我擅長的領(lǐng)域(微分幾何),但我想看看AI能否給出新思路。

這是一個(gè)微分幾何難題。二維情況早有定理(Pestov–Ionin theorem)支撐,但三維版本至今懸而未解。

這道難題三年前曾被提出,至今無人能解。


陶哲軒不是在考AI,而是把它推向了沒有標(biāo)準(zhǔn)答案的科研地帶。

在與ChatGPT持續(xù)互動(dòng)約40分鐘,他總結(jié)道:AI輔助在微觀、宏觀層面有幫助,但在中觀層面有限。


一起看看,陶哲軒如何用AI再一次完成了解題。

AI是計(jì)算型助手

他先讓GPT-5 Pro處理最容易的「星形(star-shaped)」情形。

幾分鐘內(nèi),AI便生成了推理鏈條,自動(dòng)調(diào)用三條經(jīng)典結(jié)論:

  • Minkowski積分公式: |Σ| = ∫Σ H s dA;

  • Willmore不等式: ∫Σ H2 dA ≥ 4π;

  • 體積公式: vol(V) = ? ∫Σ s dA。

然后把它們一氣整合成一句話:

若 |κ?|, |κ?| ≤ 1,則 vol(V) ≥ (4π/3),即單位球體積。

AI不僅計(jì)算正確,還主動(dòng)引用他未提及的Minkowski第一積分公式,甚至補(bǔ)上了兩種證明路線。

陶哲軒在后續(xù)貼文寫道:

它能在我給出的線索下完成所有推導(dǎo),這部分幾乎無可挑剔。

這一階段,AI像一臺完美的「數(shù)學(xué)引擎」——能推、能證、能舉例,但它只在局部任務(wù)上發(fā)光。

從助手到鏡面

他又進(jìn)一步試探它:如果把曲面變形、稍微遠(yuǎn)離完美的球形,它還能保持推理穩(wěn)定嗎?

AI很快給出答案——準(zhǔn)確、漂亮,卻方向錯(cuò)了。

陶哲軒在日志里寫下:

它開始順從,而不再質(zhì)疑。

這正是科研型AI的「鏡像陷阱」:當(dāng)方向錯(cuò)了,它會(huì)粉飾錯(cuò)誤,甚至讓錯(cuò)誤更「漂亮」。

雖然沒解出問題,這次實(shí)驗(yàn)仍讓陶哲軒獲得了新的洞察。

他意識到真正的障礙并非「近似圓球」,而是那些極細(xì)長、非凸、如同襪狀的曲面結(jié)構(gòu)——它們能無限拉長幾何尺度,卻幾乎不增加體積。

陶哲軒后來總結(jié):

AI確實(shí)讓我更快地理解了問題——不是因?yàn)樗獬鰜?,而是因?yàn)槲铱辞辶怂鼮槭裁唇獠怀鰜怼?/p>

這句話,也成為他此后所有AI實(shí)驗(yàn)的起點(diǎn)。

當(dāng)GPT-5登上數(shù)學(xué)「珠峰」

只有13%成功率的登頂

與此同時(shí),在陶哲軒把AI帶進(jìn)科研現(xiàn)場的那幾天,另一場「數(shù)字版登山賽」也在進(jìn)行。

10月初,研究機(jī)構(gòu)Epoch AI發(fā)了一條不到30個(gè)詞的推文——這次不是關(guān)于某個(gè)實(shí)驗(yàn),而是一場「數(shù)學(xué)珠峰」的登頂公告。


這條信息背后,是全球最難的數(shù)學(xué)測試之一——FrontierMath Tier 4。

Epoch AI在官網(wǎng)形容它是「研究級問題集」,題目難度可讓專家花上數(shù)周甚至數(shù)月才有進(jìn)展。

也就是說,這是考驗(yàn)「能不能思考」,而非「會(huì)不會(huì)算」。

從Gemini 2.5到GPT-5 Pro:三個(gè)月的登頂賽

7月,Epoch AI首次公開推出FrontierMath Tier 4,稱之為「AI 數(shù)學(xué)能力的珠穆朗瑪峰」——一套專為測試模型極限推理力而設(shè)計(jì)的研究級題庫。

那時(shí),還沒有任何模型能在其中站穩(wěn)腳。


8月,谷歌的Gemini 2.5 Pro率先登場:

我們剛剛完成了Gemini 2.5 Pro在FrontierMath上的初步評估。此次使用舊版推理腳手架(scaffold),結(jié)果尚不最終。


到了9月,他們更新評分機(jī)制,引入「重試機(jī)制」——讓AI能在推理失敗后自我修正。

一切都像是在為10月的決戰(zhàn)做準(zhǔn)備。


就在陶哲軒還在和GPT-5 Pro「研究未解題」的前一天,谷歌Gemini 2.5 Deep Think剛剛創(chuàng)下紀(jì)錄。

Epoch AI寫道:

我們在FrontierMath上評估了Gemini 2.5 Deep Think。由于沒有API,我們手動(dòng)運(yùn)行它。結(jié)果:新紀(jì)錄!


10月11日,Epoch AI發(fā)出那條掀起驚濤駭浪的推文——

FrontierMath Tier 4:終極對決!GPT-5 Pro創(chuàng)下新紀(jì)錄(13%),比Gemini 2.5 Deep Think多答對一道題(但差距在統(tǒng)計(jì)上不顯著)。


左側(cè)是Grok 4 Heavy(約5%),中間是Gemini 2.5(約12%),最右的GPT-5 Pro微微高出,停在13%的位置。

比Gemini 2.5 Deep Think多答對一道題(但差距在統(tǒng)計(jì)上不顯著)。

這意味著,GPT-5 Pro雖然暫時(shí)「站在了山頂」,但它離真正的理解仍有整座山的距離。

這場拉鋸更像是一場平局,只是GPT-5比Gemini 2.5早登頂幾秒鐘。


高分背后:算法的勝利,還是幻覺?

這場登頂賽其實(shí)揭示了另一個(gè)事實(shí):AI的分?jǐn)?shù)可以突破,但理解力依舊受限。

而這個(gè)問題,在陶哲軒的實(shí)測中被進(jìn)一步放大。

勝出的一題,多半來自結(jié)構(gòu)明確、符號化強(qiáng)的題型:代數(shù)、線性系統(tǒng)、基礎(chǔ)分析。

而在幾何構(gòu)造、偏微分方程、非凸空間等題上,它幾乎毫無建樹。

Epoch AI自己也知道,這更像一次「算法微勝」,而非「數(shù)學(xué)突破」。

這次高分,靠的是更高算力、更長推理鏈、更聰明的提示詞。

于是問題變成:當(dāng)分?jǐn)?shù)升高,理解力也跟著升高了嗎?

也許在算法的世界里,它贏了;在理解的世界里,它還沒出發(fā)。

當(dāng)「聰明」有了尺度

AI在科研中的邊界

幾個(gè)月后,他繼續(xù)在做另一場實(shí)驗(yàn)——這次,不是考AI能不能解題,而是考他自己:當(dāng)一切都能自動(dòng)化,人類還在思考什么?

我發(fā)現(xiàn),聰明也有尺度。

他寫下這句話時(shí),想起那次無解的幾何題。AI在每個(gè)步驟上都完美,卻在方向上失焦。

他終于明白——真正需要被訓(xùn)練的,也許是我們自己。

他舉例說,一種叫<canonical>的依賴類型匹配工具可以讓他瞬間驗(yàn)證一行證明,但當(dāng)連續(xù)幾十行都交由它完成時(shí),他反而更難看清邏輯全貌。

進(jìn)一步放大尺度,問題變得更明顯。

當(dāng)AI協(xié)助完成整篇論文、或自動(dòng)化地編纂一整本教材時(shí),表面上的「效率提升」,常常意味著結(jié)構(gòu)理解的退化。

數(shù)學(xué)的本質(zhì)在于結(jié)構(gòu)與關(guān)聯(lián)——而結(jié)構(gòu)的理解,恰恰需要「緩慢的人類思考」。


陶哲軒在后續(xù)貼文中寫道:

最優(yōu)的自動(dòng)化程度既不是0%,也不是100%。

真正高效的狀態(tài),是在每個(gè)層面都留下人的空隙。如果讓AI解決所有簡單任務(wù),我們將失去面對困難時(shí)的方向感。


這段話與他此前在GPT-5 Pro數(shù)學(xué)實(shí)驗(yàn)中的體會(huì)形成了照應(yīng)。

在小尺度上,AI能精準(zhǔn)完成每一個(gè)步驟;在中尺度上,它傾向迎合而非反駁;而在大尺度上,它反而成為一種「反射鏡」——讓人更快看清自己思維的邊界。

真正的突破,或許不在于讓機(jī)器更像人,而在讓人類學(xué)會(huì):以不同的尺度,重新理解「聰明」這件事。

人類的空隙

當(dāng)AI停在「還不懂」的地方

陶哲軒的這場實(shí)驗(yàn),其實(shí)為GPT-5的「13%高分」找到了解釋。

分?jǐn)?shù)說明它強(qiáng)大,但實(shí)驗(yàn)揭示了它強(qiáng)大的方式——不是洞察,而是枚舉;不是理解,而是復(fù)現(xiàn)。

在FrontierMath的基準(zhǔn)中,GPT-5能正確地完成符號化的推理題,卻在需要構(gòu)造直覺的題目上失效。

而在陶哲軒的試驗(yàn)里,它能像熟練的研究生那樣把定義、公式和不等式都串聯(lián)起來,卻依然無法判斷方向?qū)Σ粚Α?/p>

這兩個(gè)場景,像是科研的兩端:一個(gè)是統(tǒng)計(jì)意義上的聰明,一個(gè)是語義意義上的理解。

GPT-5在前者領(lǐng)先,在后者止步。


陶哲軒在事后說,AI的表現(xiàn)讓他想到早年的科研訓(xùn)練。

年輕時(shí)的他,也曾花大量時(shí)間在局部細(xì)節(jié)中打轉(zhuǎn)——證明一行、修正一式、推理一頁,直到最后發(fā)現(xiàn):真正的問題,在邏輯之外。

AI讓他重新體會(huì)了這種「思維的局部化」,也讓他意識到:人類的優(yōu)勢,正是在那些AI還不懂的地方。

今天的GPT-5已能自洽地完成復(fù)雜的形式推理,但它仍缺乏「全局意識」——那種在面對模糊、不確定、甚至錯(cuò)誤假設(shè)時(shí)的直覺。

陶哲軒稱之為「human situational awareness(情境感知)」:

AI的聰明是線性的,人類的理解是拓?fù)涞摹?/p>

這句話后來被不少數(shù)學(xué)家轉(zhuǎn)發(fā)。因?yàn)樗沂玖艘环N新的分工邊界:AI可以成為證明的發(fā)動(dòng)機(jī),而人類依然是結(jié)構(gòu)的設(shè)計(jì)師。

它能把定理算完,卻算不出「意義」?;蛟S這正是GPT-5真正的突破:

它逼著我們重新思考,AI的極限,正是人類的起點(diǎn)。

數(shù)學(xué)的意義,從來不只是得出答案,而是弄清楚——為什么答案還不存在。

參考資料:

https://x.com/EpochAIResearch/status/1976685685349441826?s=19

https://mathstodon.xyz/@tao/115351400633010670

https://mathoverflow.net/questions/425509/sphere-with-bounded-curvature%E3%80%82

https://mathstodon.xyz/deck/@tao/114501120421010793

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
甲鈷胺立大功!研究發(fā)現(xiàn):老人吃甲鈷胺,或能緩解5種癥狀

甲鈷胺立大功!研究發(fā)現(xiàn):老人吃甲鈷胺,或能緩解5種癥狀

涵豆說娛
2025-09-28 09:51:59
完成生涯第27次帽子戲法,哈蘭德賽后曬帶走比賽用球照

完成生涯第27次帽子戲法,哈蘭德賽后曬帶走比賽用球照

懂球帝
2025-10-12 03:09:09
24GB+1TB!新機(jī)官宣:10月17日,正式發(fā)布登場!

24GB+1TB!新機(jī)官宣:10月17日,正式發(fā)布登場!

Q科技基地
2025-10-11 11:34:34
美國態(tài)度大變!戰(zhàn)斧導(dǎo)彈若援烏,莫斯科將被進(jìn)入射程,普京回應(yīng)

美國態(tài)度大變!戰(zhàn)斧導(dǎo)彈若援烏,莫斯科將被進(jìn)入射程,普京回應(yīng)

文雅筆墨
2025-10-12 07:04:17
四天曝3個(gè)瓜!戴呼吸機(jī)、離婚、周慧敏肉軟會(huì)玩,一個(gè)比一個(gè)意外

四天曝3個(gè)瓜!戴呼吸機(jī)、離婚、周慧敏肉軟會(huì)玩,一個(gè)比一個(gè)意外

談天談地談天地
2025-10-05 06:50:45
百花獎(jiǎng)入圍名單公布,網(wǎng)友:一副整容臉,憑啥評選最佳女主角?

百花獎(jiǎng)入圍名單公布,網(wǎng)友:一副整容臉,憑啥評選最佳女主角?

賈媽的幸福生活
2025-10-10 19:42:19
第十五屆全國運(yùn)動(dòng)會(huì)江蘇省體育代表團(tuán)成立

第十五屆全國運(yùn)動(dòng)會(huì)江蘇省體育代表團(tuán)成立

現(xiàn)代快報(bào)
2025-10-11 22:50:05
美第一夫人:普京給我回了信,我們一直保持開放的溝通渠道

美第一夫人:普京給我回了信,我們一直保持開放的溝通渠道

環(huán)球網(wǎng)資訊
2025-10-11 16:23:54
全球征集昵稱!深圳又一新地標(biāo)“水落石出”,今年建成交付!

全球征集昵稱!深圳又一新地標(biāo)“水落石出”,今年建成交付!

深圳夢
2025-10-11 00:10:23
舊車處理:賣掉還是4S店置換?細(xì)算一筆賬,結(jié)果差距驚人!

舊車處理:賣掉還是4S店置換?細(xì)算一筆賬,結(jié)果差距驚人!

慧眼看世界哈哈
2025-10-06 12:19:43
大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

大批美國游客涌入中國,回國后坦言:客觀對比,中國比美國強(qiáng)多了

荊楚寰宇文樞
2025-10-07 21:29:22
30年教齡老師直言:寧可孩子成績差,也別送他去上補(bǔ)習(xí)班

30年教齡老師直言:寧可孩子成績差,也別送他去上補(bǔ)習(xí)班

大果小果媽媽
2025-10-08 11:02:06
女優(yōu)愛弓涼生涯最重口味,用性感身體為老公還債!

女優(yōu)愛弓涼生涯最重口味,用性感身體為老公還債!

葫蘆哥愛吐槽
2025-10-11 17:44:38
毛主席是西藏人民的“禁忌”,誰敢說毛主席不好,就會(huì)遭到圍攻!

毛主席是西藏人民的“禁忌”,誰敢說毛主席不好,就會(huì)遭到圍攻!

普覽
2025-10-09 21:02:24
研究發(fā)現(xiàn):最傷害前列腺的行為,不是久坐!而是頻繁去做這4件事

研究發(fā)現(xiàn):最傷害前列腺的行為,不是久坐!而是頻繁去做這4件事

小童歷史
2025-10-11 10:44:02
梁歡27年婚姻終結(jié),昔日錯(cuò)誤終成代價(jià),才女命運(yùn)令人唏噓

梁歡27年婚姻終結(jié),昔日錯(cuò)誤終成代價(jià),才女命運(yùn)令人唏噓

仙味少女心
2025-10-10 21:17:51
效仿王楠張怡寧,孫穎莎退役嫁入豪門?誰注意莎莎機(jī)場舉動(dòng)

效仿王楠張怡寧,孫穎莎退役嫁入豪門?誰注意莎莎機(jī)場舉動(dòng)

樂聊球
2025-10-11 12:48:34
孩子?jì)尭枋钟蠿癮癥!小籠包阻止星星眼相親!

孩子?jì)尭枋钟蠿癮癥!小籠包阻止星星眼相親!

八卦瘋叔
2025-10-11 10:47:35
重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責(zé)任感和榮譽(yù)感?這是要把農(nóng)民逼上絕路

重新開征農(nóng)業(yè)稅,激發(fā)農(nóng)民責(zé)任感和榮譽(yù)感?這是要把農(nóng)民逼上絕路

剛哥說法365
2025-09-24 16:33:59
20歲女子徒步高反昏迷目前仍在ICU!組隊(duì)“搭子”:真的對不起!女子母親:旅行是她給自己的畢業(yè)禮物,沒想成噩夢

20歲女子徒步高反昏迷目前仍在ICU!組隊(duì)“搭子”:真的對不起!女子母親:旅行是她給自己的畢業(yè)禮物,沒想成噩夢

極目新聞
2025-10-11 10:22:24
2025-10-12 09:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
13597文章數(shù) 66211關(guān)注度
往期回顧 全部

科技要聞

宋PLUS退出歷史舞臺

頭條要聞

牛彈琴:特朗普又要干一件大事 連伊朗都接到了邀請

頭條要聞

牛彈琴:特朗普又要干一件大事 連伊朗都接到了邀請

體育要聞

王牌對王牌,阿德巴約終究還是高攀了

娛樂要聞

《向往》收視創(chuàng)新低!節(jié)目氛圍遭吐槽

財(cái)經(jīng)要聞

從稀土到高通 中國72小時(shí)連出10記重拳

汽車要聞

1.5T動(dòng)力/尺寸越級 國民家轎第五代帝豪首秀亮相

態(tài)度原創(chuàng)

本地
房產(chǎn)
家居
游戲
公開課

本地新聞

“閩東利劍·惠民安商”首期緝車聯(lián)動(dòng)執(zhí)行

房產(chǎn)要聞

大利好來了!海南安居房擬出新政!

家居要聞

空間藝術(shù) 星河宇宙之旅

魔獸12.0反轉(zhuǎn)來了?他是三姐妹決裂的“真兇”,如今復(fù)活成BOSS

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美孕妇在线观看bd| 欧美色视频在线观看| 日韩人妻精品久久九九| 俄罗斯一区二区三区| 曰韩高清砖码一二区视频| 国产老女人91精品一区| 黄色无码专区| 天堂8资源中文在线| 7777一区二区三区| 国产69精品久久久| 超碰亚洲无码| 亚洲第一av| sm调教在线观看| 大战 丰满 少妇| 江波加勒比无码一区| 午夜亚洲www湿好爽| 任你躁在线精品免费69影视| 大乳丰满人妻中文字幕日本 | 美日韩无套内射操逼视频 | 欧美mv日韩mv国产在线观看| 一区二三国产好的精华液| 蜜乳一区二区三区四区在线观看| 国产a v无码专区亚洲av| 精品国产一区二区三区香| 国产精品毛片久久久久久久AV| 亚洲中久无码永久在线观看同| 亚洲黄色电影| 天堂资源中文最新版在线一区| 99精品久久久久中文字幕| 国产乱子影视频上线免费观看| 一区二区无码在线观看| 最新中文字幕av无码专区| 国产1区在线观看| 国产精品VA尤物在线观看| 久久精品久久99精品久久 | 国产精品久久久久久大片| 国产午夜亚洲精品国产成人| 久久久久久久人妻无码中文| 国产欧美又粗又猛又爽老| 国产农村妇女高潮大叫| 亚洲日韩看片成人无码|