新智元報道
編輯:元宇 KingHZ
【新智元導讀】Gemini奧數(shù)金牌,實至名歸!ETH Zurich博士在大學生國際數(shù)學競賽(IMC)中,測試了Gemini的三種模式,表現(xiàn)遠高于前8%的金牌門檻,遠超普通大學生。
大學生數(shù)學不如AI?
近日,在MathArena上,蘇黎世聯(lián)邦理工學院SRI實驗室博士生Jasper Dekoninck,啟動了一項新比賽:大學生國際數(shù)學競賽(IMC)。
剛剛,他公布了測試結果:
最終,LLM以高分勝出:語言模型在國際數(shù)學競賽中拔得頭籌。
Gemini遠超普通大學生水平
國際數(shù)學奧林匹克競賽(IMO)一直被研究人員視為AI系統(tǒng)數(shù)學推理能力的試金石。
前不久,在剛剛舉行的IMO競賽中,谷歌、OpenAI等相繼宣布其旗下LLM獲得IMO金牌級成績。
但由于獲獎的AI系統(tǒng)不透明以及在結果上可解釋性有限,這些金牌引發(fā)廣泛的質疑和關注。
這次在MathArena上,首次評估了AI本科生數(shù)學競賽上的表現(xiàn),不僅僅為了證明AI的確有能力拿下IMO金牌,也為了驗證AI在高中級別競賽(如IMO)中的出色表現(xiàn)是否能夠轉化為在大學級別競賽中的成功。
此次測試一共評估了三個系統(tǒng):Gemini Deep Think IMO(IMO 2025金牌得主)、Gemini-2.5-Pro,以及Gemini-2.5-Pro Best-of-32基線。
由于OpenAI獲得金牌的模型尚未發(fā)布,無法對其進行評估。
測試結果顯示,三個系統(tǒng)均獲得了極高的分數(shù),遠超前8%的金牌門檻。
Gemini Deep Think和Gemini Agent均成功解決了所有問題,僅出現(xiàn)了少量小錯誤。這些錯誤通常是由于中間步驟的論證不完整或對已知定理的引用不正確造成的。
有趣的是,Gemini Best-of-32的表現(xiàn)遠比在IMO 2025上的表現(xiàn)好,僅在一道題目(P5)上犯了一個重大錯誤。這可能因為IMC的知識密集度更高,而大型AI模型往往在這種環(huán)境下表現(xiàn)出色。
這次得出了三大結論:
結論1:三個模型在IMC比賽中均獲得高分,Gemini Deep Think和Gemini Agent在所有問題中都給出了大部分正確的答案。它們的得分足以媲美人類優(yōu)等大學生參賽者。
結論2:綜合考慮證明質量和清晰度,評委們對模型的排名如下:Gemini Deep Think>Gemini Agent>Gemini Best-of-32。
結論3:對結果進行的定性分析表明,Gemini Deep Think表現(xiàn)尤為出色,它給出的證明比其他模型清晰有趣得多。它有時會提出真正有趣的方法,而其他自主系統(tǒng)通常使用計算密集型的方法。
但由于這次評估是臨時增加的,所以評估規(guī)模稍小,每個模型在每個問題上只被評估一次,并且只有一個裁判。
IMC金牌,含金量如何?
國際大學生數(shù)學競賽IMC由英國倫敦大學學院主辦,保加利亞美國大學承辦,比賽將在2025年7月28日至8月3日于保加利亞的布拉戈耶夫格勒舉行。
本次競賽面向正在攻讀大學本科階段(1至4年級)的學生,參賽者年齡上限為23歲,特殊情況可酌情考慮。不設最低年齡限制。
試題涵蓋的領域包括代數(shù)、分析(實分析與復分析)、幾何與組合數(shù)學。比賽語言為英文。
IMC為期兩天,每天有5道題目,每題10分。
IMC競程:https://www.imc-math.org.uk/?year=2025&item=problems
這次采用了類似于下列2025年美國數(shù)學奧林匹克競賽評估的方法,只進行了少許調整。
論文鏈接:https://arxiv.org/abs/2503.21934
招募了兩名經(jīng)驗豐富的評委來評估模型提交的作品。
為了避免污染,評分工作在公布IMC 2025題目后立即開始。每位評委獨立為題目制定了評分標準,并對匿名提交的作品進行了評分,滿分10分。
每個模型都使用相同的評分標準對全部問題進行了單獨評估。
解題時長決定著算力和大模型的使用成本。為此,Jasper Dekoninck回答了三個系統(tǒng)各自耗時情況。
由于時間有限,暫時不會對其他模型進行測評,但這些模型也很可能會在這場比賽中取得優(yōu)異成績。
新的評估對于真正測試模型的能力至關重要,有網(wǎng)友已經(jīng)迫不及待想要看到o3-Pro、Claude、Kimi K2在IMC考試中的表現(xiàn)。
結果分析
除了量化評分,研究人員還從模型的輸出中提取了許多定性的觀察與見解,幫助更全面地理解各模型在數(shù)學推理任務中的表現(xiàn)。
Gemini Deep Think:清晰性最強的證明者
對于數(shù)學推理而言,表達清晰不僅是評審者打分的依據(jù),也反映了模型對問題理解的深度。雖然Gemini Best-of-32的很多解答在技術上是正確的,但表達往往混亂,結構不清,缺乏有效的邏輯組織,令人難以跟進其思路。
相比之下,Gemini Agent的邏輯性更好,但它的證明往往過于冗長、密集。這種啰嗦的風格可能源于其「自驗證反饋機制」(self-verifying feedback loop),即模型傾向于對每一步驟過度解釋。
而Gemini Deep Think的表現(xiàn)則更為出色:它提供的證明語言簡練、結構清晰、步驟合理,能夠針對每一步安排恰當?shù)脑敿毘潭?,使讀者更容易理解其推理過程。
Gemini Deep Think:展現(xiàn)了真正的原創(chuàng)思維
AI模型常見的做法是依賴「暴力運算」(bashing),即用繁復的代數(shù)操作代替數(shù)學洞察力。這一點在Gemini Agent和Gemini Best-of-32的解答中表現(xiàn)尤為明顯,特別是在第9題上。
而Gemini Deep Think的策略更加優(yōu)雅與創(chuàng)新:
第7題的證明也因其高度的簡潔性與美感而脫穎而出,遠勝其他模型; 在第9題中,它給出了一個比官方解更為簡潔且更具啟發(fā)性的思路; 在第10題中,它更是運用了更為高級的數(shù)學工具,對某個關鍵變量給出了更強的上界。不過,它也因為跳過了若干推理細節(jié),導致該題只得到了7分(滿分10分)。
官方相關解答:https://www.imc-math.org.uk/imc2025/imc2025-day2-solutions.pdf
高階數(shù)學知識的調動能力
模型在第5題上的表現(xiàn)也值得關注。該題涉及一個函數(shù)的不等式證明,雖然題干并未給出函數(shù)名稱,但實際上是著名的Landau函數(shù)。
令人驚喜的是,三個模型都能準確識別出該函數(shù),并調用其已知性質構建完整證明,體現(xiàn)了它們在知識調用方面的深度與準確性。
網(wǎng)友:o3只要10分鐘就能交卷
關于IMC題目的難易程度,Jasper Dekoninck認為IMC的題目中最難的問題難度,與本科期間遇到的最難問題相當。
網(wǎng)友Dmitry Rybin表現(xiàn)出了對測試的極大熱情:「太好了,本來我想把題目發(fā)給你,但你已經(jīng)做了」。
他還用o3測試了IMC2025年全部試題,大約十分鐘它就搞定了10道題目。
但網(wǎng)友Jasper Dekoninck認為o3輸出的第5題答案似乎有些瑕疵,可能會被扣分。
與IMO相比,IMC題目通常需要更高級的數(shù)學知識和形式化技巧。然而,IMO往往更注重創(chuàng)造力和獨創(chuàng)性,尤其是在解題方法方面。
連Jasper Dekoninck自己也認為IMC這些更側重知識的競賽題目似乎太簡單了。
網(wǎng)友Acer對此亦有同感。
他認為目前IMO(國際數(shù)學奧林匹克競賽)、Putnam(普特南數(shù)學競賽,美國大學生數(shù)學競賽)、Miklós Schweitzer(施魏策爾·米克洛什數(shù)學競賽,匈牙利大學生本科數(shù)學競賽)的難度比較適合,但模型仍能解決其中大部分問題。
AI數(shù)學推理,已無法忽視
盡管IMC可能更多依賴數(shù)學知識,但AI日益強大的數(shù)學推理能力,已經(jīng)令人無法忽視。
比如,Dmitry Rybin提出了一個困難但已知的線性代數(shù)結果:
如果AB - BA的秩為1,那么矩陣A和B有共同的特征向量。
Deep Think 使用Shemesh定理給出了一個Dmitry Rybin以前從未見過的證明。
與數(shù)學關系密切的信息學競賽上,AI表現(xiàn)非常奪目。
在玻利維亞第37屆國際信息學奧林匹克競賽(IOI 2025),ryanbAI在與其他人類選手完全相同的條件下參賽,以第七名的成績位列總榜。
隨著更多AI在國際性數(shù)學競賽中脫穎而出,它們可以挑戰(zhàn)越來越難的數(shù)學競賽,甚至可以給出新的證明思路,這些均表明AI在數(shù)學推理能力上日益強大。
而且AI相比較人類,在計算和數(shù)據(jù)處理方面能力更強,也更不容易出錯誤。網(wǎng)友Jason Lee表示,找到AI的錯誤非常困難。
參考資料:
https://x.com/j_dekoninck/status/1952335201431937445
https://matharena.ai/imc/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.