夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini再攬金牌,力壓大學學霸,AI數(shù)學推理時代來了!

0
分享至

  

  新智元報道

  編輯:元宇 KingHZ

  【新智元導讀】Gemini奧數(shù)金牌,實至名歸!ETH Zurich博士在大學生國際數(shù)學競賽(IMC)中,測試了Gemini的三種模式,表現(xiàn)遠高于前8%的金牌門檻,遠超普通大學生。

  大學生數(shù)學不如AI?

  近日,在MathArena上,蘇黎世聯(lián)邦理工學院SRI實驗室博士生Jasper Dekoninck,啟動了一項新比賽:大學生國際數(shù)學競賽(IMC)。

  剛剛,他公布了測試結果:

  

  最終,LLM以高分勝出:語言模型在國際數(shù)學競賽中拔得頭籌。

  

  Gemini遠超普通大學生水平

  國際數(shù)學奧林匹克競賽(IMO)一直被研究人員視為AI系統(tǒng)數(shù)學推理能力的試金石。

  前不久,在剛剛舉行的IMO競賽中,谷歌、OpenAI等相繼宣布其旗下LLM獲得IMO金牌級成績。

  但由于獲獎的AI系統(tǒng)不透明以及在結果上可解釋性有限,這些金牌引發(fā)廣泛的質疑和關注。

  這次在MathArena上,首次評估了AI本科生數(shù)學競賽上的表現(xiàn),不僅僅為了證明AI的確有能力拿下IMO金牌,也為了驗證AI在高中級別競賽(如IMO)中的出色表現(xiàn)是否能夠轉化為在大學級別競賽中的成功。

  此次測試一共評估了三個系統(tǒng):Gemini Deep Think IMO(IMO 2025金牌得主)、Gemini-2.5-Pro,以及Gemini-2.5-Pro Best-of-32基線

  由于OpenAI獲得金牌的模型尚未發(fā)布,無法對其進行評估。

  測試結果顯示,三個系統(tǒng)均獲得了極高的分數(shù),遠超前8%的金牌門檻。

  Gemini Deep Think和Gemini Agent均成功解決了所有問題,僅出現(xiàn)了少量小錯誤。這些錯誤通常是由于中間步驟的論證不完整或對已知定理的引用不正確造成的。

  有趣的是,Gemini Best-of-32的表現(xiàn)遠比在IMO 2025上的表現(xiàn)好,僅在一道題目(P5)上犯了一個重大錯誤。這可能因為IMC的知識密集度更高,而大型AI模型往往在這種環(huán)境下表現(xiàn)出色。

  

  這次得出了三大結論:

  結論1:三個模型在IMC比賽中均獲得高分,Gemini Deep Think和Gemini Agent在所有問題中都給出了大部分正確的答案。它們的得分足以媲美人類優(yōu)等大學生參賽者。

  結論2:綜合考慮證明質量和清晰度,評委們對模型的排名如下:Gemini Deep Think>Gemini Agent>Gemini Best-of-32。

  結論3:對結果進行的定性分析表明,Gemini Deep Think表現(xiàn)尤為出色,它給出的證明比其他模型清晰有趣得多。它有時會提出真正有趣的方法,而其他自主系統(tǒng)通常使用計算密集型的方法。

  但由于這次評估是臨時增加的,所以評估規(guī)模稍小,每個模型在每個問題上只被評估一次,并且只有一個裁判。

  IMC金牌,含金量如何?

  國際大學生數(shù)學競賽IMC由英國倫敦大學學院主辦,保加利亞美國大學承辦,比賽將在2025年7月28日至8月3日于保加利亞的布拉戈耶夫格勒舉行。

  本次競賽面向正在攻讀大學本科階段(1至4年級)的學生,參賽者年齡上限為23歲,特殊情況可酌情考慮。不設最低年齡限制。

  試題涵蓋的領域包括代數(shù)、分析(實分析與復分析)、幾何與組合數(shù)學。比賽語言為英文。

  

  IMC為期兩天,每天有5道題目,每題10分。

  

  IMC競程:https://www.imc-math.org.uk/?year=2025&item=problems

  

  這次采用了類似于下列2025年美國數(shù)學奧林匹克競賽評估的方法,只進行了少許調整。

  

  論文鏈接:https://arxiv.org/abs/2503.21934

  招募了兩名經(jīng)驗豐富的評委來評估模型提交的作品。

  為了避免污染,評分工作在公布IMC 2025題目后立即開始。每位評委獨立為題目制定了評分標準,并對匿名提交的作品進行了評分,滿分10分。

  每個模型都使用相同的評分標準對全部問題進行了單獨評估。

  解題時長決定著算力和大模型的使用成本。為此,Jasper Dekoninck回答了三個系統(tǒng)各自耗時情況。

  

  由于時間有限,暫時不會對其他模型進行測評,但這些模型也很可能會在這場比賽中取得優(yōu)異成績。

  

  新的評估對于真正測試模型的能力至關重要,有網(wǎng)友已經(jīng)迫不及待想要看到o3-Pro、Claude、Kimi K2在IMC考試中的表現(xiàn)。

  結果分析

  除了量化評分,研究人員還從模型的輸出中提取了許多定性的觀察與見解,幫助更全面地理解各模型在數(shù)學推理任務中的表現(xiàn)。

  Gemini Deep Think:清晰性最強的證明者

  對于數(shù)學推理而言,表達清晰不僅是評審者打分的依據(jù),也反映了模型對問題理解的深度。雖然Gemini Best-of-32的很多解答在技術上是正確的,但表達往往混亂,結構不清,缺乏有效的邏輯組織,令人難以跟進其思路。

  相比之下,Gemini Agent的邏輯性更好,但它的證明往往過于冗長、密集。這種啰嗦的風格可能源于其「自驗證反饋機制」(self-verifying feedback loop),即模型傾向于對每一步驟過度解釋。

  而Gemini Deep Think的表現(xiàn)則更為出色:它提供的證明語言簡練、結構清晰、步驟合理,能夠針對每一步安排恰當?shù)脑敿毘潭?,使讀者更容易理解其推理過程。

  Gemini Deep Think:展現(xiàn)了真正的原創(chuàng)思維

  AI模型常見的做法是依賴「暴力運算」(bashing),即用繁復的代數(shù)操作代替數(shù)學洞察力。這一點在Gemini Agent和Gemini Best-of-32的解答中表現(xiàn)尤為明顯,特別是在第9題上。

  而Gemini Deep Think的策略更加優(yōu)雅與創(chuàng)新:

  第7題的證明也因其高度的簡潔性與美感而脫穎而出,遠勝其他模型; 在第9題中,它給出了一個比官方解更為簡潔且更具啟發(fā)性的思路; 在第10題中,它更是運用了更為高級的數(shù)學工具,對某個關鍵變量給出了更強的上界。不過,它也因為跳過了若干推理細節(jié),導致該題只得到了7分(滿分10分)。

  

  官方相關解答:https://www.imc-math.org.uk/imc2025/imc2025-day2-solutions.pdf

  高階數(shù)學知識的調動能力

  模型在第5題上的表現(xiàn)也值得關注。該題涉及一個函數(shù)的不等式證明,雖然題干并未給出函數(shù)名稱,但實際上是著名的Landau函數(shù)。

  令人驚喜的是,三個模型都能準確識別出該函數(shù),并調用其已知性質構建完整證明,體現(xiàn)了它們在知識調用方面的深度與準確性。

  

  網(wǎng)友:o3只要10分鐘就能交卷

  關于IMC題目的難易程度,Jasper Dekoninck認為IMC的題目中最難的問題難度,與本科期間遇到的最難問題相當。

  

  網(wǎng)友Dmitry Rybin表現(xiàn)出了對測試的極大熱情:「太好了,本來我想把題目發(fā)給你,但你已經(jīng)做了」。

  

  他還用o3測試了IMC2025年全部試題,大約十分鐘它就搞定了10道題目。

  

  

  但網(wǎng)友Jasper Dekoninck認為o3輸出的第5題答案似乎有些瑕疵,可能會被扣分。

  與IMO相比,IMC題目通常需要更高級的數(shù)學知識和形式化技巧。然而,IMO往往更注重創(chuàng)造力和獨創(chuàng)性,尤其是在解題方法方面。

  連Jasper Dekoninck自己也認為IMC這些更側重知識的競賽題目似乎太簡單了。

  

  網(wǎng)友Acer對此亦有同感。

  

  他認為目前IMO(國際數(shù)學奧林匹克競賽)、Putnam(普特南數(shù)學競賽,美國大學生數(shù)學競賽)、Miklós Schweitzer(施魏策爾·米克洛什數(shù)學競賽,匈牙利大學生本科數(shù)學競賽)的難度比較適合,但模型仍能解決其中大部分問題。

  AI數(shù)學推理,已無法忽視

  盡管IMC可能更多依賴數(shù)學知識,但AI日益強大的數(shù)學推理能力,已經(jīng)令人無法忽視。

  比如,Dmitry Rybin提出了一個困難但已知的線性代數(shù)結果:

  如果AB - BA的秩為1,那么矩陣A和B有共同的特征向量。

  Deep Think 使用Shemesh定理給出了一個Dmitry Rybin以前從未見過的證明。

  

  與數(shù)學關系密切的信息學競賽上,AI表現(xiàn)非常奪目。

  在玻利維亞第37屆國際信息學奧林匹克競賽(IOI 2025),ryanbAI在與其他人類選手完全相同的條件下參賽,以第七名的成績位列總榜。

  

  隨著更多AI在國際性數(shù)學競賽中脫穎而出,它們可以挑戰(zhàn)越來越難的數(shù)學競賽,甚至可以給出新的證明思路,這些均表明AI在數(shù)學推理能力上日益強大。

  而且AI相比較人類,在計算和數(shù)據(jù)處理方面能力更強,也更不容易出錯誤。網(wǎng)友Jason Lee表示,找到AI的錯誤非常困難。

  

  參考資料:

  https://x.com/j_dekoninck/status/1952335201431937445

  https://matharena.ai/imc/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
單位里,凡是40歲以上的中年人,最好的投資,不是與領導搞好關系,而是聚焦自己的3樣東西

單位里,凡是40歲以上的中年人,最好的投資,不是與領導搞好關系,而是聚焦自己的3樣東西

了不起的程序員
2025-08-14 11:16:17
新西蘭22分逆轉黎巴嫩引熱議 媒體人:對于中國男籃是全新的考驗

新西蘭22分逆轉黎巴嫩引熱議 媒體人:對于中國男籃是全新的考驗

狼叔評論
2025-08-15 03:01:30
媒體人:中國男籃若想重返奧運 最穩(wěn)妥的辦法就是歸化超級雙能衛(wèi)

媒體人:中國男籃若想重返奧運 最穩(wěn)妥的辦法就是歸化超級雙能衛(wèi)

直播吧
2025-08-14 21:47:42
男子結婚22年發(fā)現(xiàn)兩個孩子非親生:一個是村書記的,一個是堂哥的

男子結婚22年發(fā)現(xiàn)兩個孩子非親生:一個是村書記的,一個是堂哥的

千潯觀點
2025-08-14 07:16:49
安徽小伙神似溥儀走紅 對話當事人:從長相困擾到做自媒體 因一張臉收獲超60萬粉絲

安徽小伙神似溥儀走紅 對話當事人:從長相困擾到做自媒體 因一張臉收獲超60萬粉絲

封面新聞
2025-08-14 20:20:06
網(wǎng)盤中的加密文件,二十年后依然回味無窮

網(wǎng)盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
俾斯麥海發(fā)生6.3級地震

俾斯麥海發(fā)生6.3級地震

財聯(lián)社
2024-09-12 01:09:10
馬丁路德金的FBI檔案被解密,被曝在巡回演講時巡回嫖娼,當?shù)孛襟w卻三緘其口

馬丁路德金的FBI檔案被解密,被曝在巡回演講時巡回嫖娼,當?shù)孛襟w卻三緘其口

風向觀察
2025-08-11 12:57:32
官方變相認可!王俊杰賽后接受尿檢 自曝腿抽筋+感謝郭士強信任

官方變相認可!王俊杰賽后接受尿檢 自曝腿抽筋+感謝郭士強信任

醉臥浮生
2025-08-14 22:24:06
畢福劍女兒在加拿大近照曝光!兩側頭發(fā)剃光,網(wǎng)友嘲諷:像小岳岳

畢福劍女兒在加拿大近照曝光!兩側頭發(fā)剃光,網(wǎng)友嘲諷:像小岳岳

小徐講八卦
2025-08-12 08:23:27
摻假最嚴重的7種食物,別再被蒙在鼓里了,全是科技與狠活

摻假最嚴重的7種食物,別再被蒙在鼓里了,全是科技與狠活

周哥一影視
2025-08-13 21:33:51
深圳發(fā)現(xiàn)大量斑點非,正悠閑啃草吃,網(wǎng)友:羅非中的勞斯萊斯!

深圳發(fā)現(xiàn)大量斑點非,正悠閑啃草吃,網(wǎng)友:羅非中的勞斯萊斯!

貍貓之一的動物圈
2025-08-14 10:07:36
受權發(fā)布|中華人民共和國國務院令  第814號

受權發(fā)布|中華人民共和國國務院令  第814號

新華社
2025-08-14 19:00:22
恒大前總裁夏海鈞找到了!藏匿資產(chǎn)曝光

恒大前總裁夏海鈞找到了!藏匿資產(chǎn)曝光

攸克地產(chǎn)pro
2025-08-14 08:27:08
央行:為保持銀行體系流動性充裕,2025年8月15日,中國人民銀行將以固定數(shù)量、利率招標、多重價位中標方式開展5000億元買斷式逆回購操作,期限為6個月...

央行:為保持銀行體系流動性充裕,2025年8月15日,中國人民銀行將以固定數(shù)量、利率招標、多重價位中標方式開展5000億元買斷式逆回購操作,期限為6個月...

每日經(jīng)濟新聞
2025-08-14 17:04:04
9人主力輪換鎖死韓國!殺進4強男籃評分:5人滿分,2人嚴重拖后腿

9人主力輪換鎖死韓國!殺進4強男籃評分:5人滿分,2人嚴重拖后腿

后仰大風車
2025-08-14 21:17:36
妻子與他人開房,激戰(zhàn)3小時雙腿打顫,丈夫還購買定位器抓個現(xiàn)行

妻子與他人開房,激戰(zhàn)3小時雙腿打顫,丈夫還購買定位器抓個現(xiàn)行

第7情感
2025-08-14 20:00:48
陳妍希這吊帶,是加了一件肉色打底嗎?她好會穿啊,遠看嚇了一跳

陳妍希這吊帶,是加了一件肉色打底嗎?她好會穿啊,遠看嚇了一跳

娛樂故事
2025-08-14 13:08:32
斯坦福最新研究顛覆認知!決定壽命長短的,竟是這兩個器官

斯坦福最新研究顛覆認知!決定壽命長短的,竟是這兩個器官

醫(yī)脈圈
2025-08-14 20:40:05
普京帶著5位虎將,共赴這場鴻門宴,上飛機前給拉夫羅夫放了權

普京帶著5位虎將,共赴這場鴻門宴,上飛機前給拉夫羅夫放了權

時尚的弄潮
2025-08-15 00:13:46
2025-08-15 06:36:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
13256文章數(shù) 66126關注度
往期回顧 全部

科技要聞

暴雨之下1萬多人,500個機器人燃爆全場

頭條要聞

特朗普:“普特會”有25%幾率不成功

頭條要聞

特朗普:“普特會”有25%幾率不成功

體育要聞

在菲律賓,一支中國人創(chuàng)建的球隊踢上了亞冠

娛樂要聞

趙露思發(fā)文告別!扯下她最后的顏面

財經(jīng)要聞

“許家印同伙”夏海鈞的資產(chǎn)藏匿游戲

汽車要聞

大六座SUV還能這么玩 吉利銀河M9動態(tài)內測

態(tài)度原創(chuàng)

教育
時尚
旅游
房產(chǎn)
本地

教育要聞

讀研兩年變三年,學子要多花20萬,真的物超所值嗎?

9年愛情長跑,3個孩子后媽,她終于被求婚了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

重磅新政要來!海南138個安居盤,數(shù)萬套房源將逆天改命!

本地新聞

云游中國 | 地心探秘!一天穿越池州六大溶洞

無障礙瀏覽 進入關懷版 欧美激情一区二区久久久| 久久成人亚洲香蕉草草| 欧美大黑bbb| 亚洲gv猛男gv无码| 午夜高清福利在线观看| 亚洲AV无码专区电影在线观看 | 蜜桃视频一区| 最新中文字幕AV无码专区| 九九熟熟女东北女/| 六月婷婷网站| A级日本乱理伦片免费入口| 亚洲啪啪av无码片| 熟妇人妻久久中文字幕麻豆网| 日韩精品无码一区精东麻豆| 亚洲av综合av国产av中山| 牛牛影视一区二区三区免费看| 国产精品伦子伦免费视频| 国产农村XXXX做受| 99热精品2| 亚洲AV永久无码精品一区二区三区在线| 殴美激情在线88AV视频| 玩弄漂亮少妇高潮白浆| 波多野结衣女被躁57分钟| 精品国产美女av久久久久| 高级会所人妻互换| 国产suv精品一区二区四| 午夜福利一二三区| 亚洲欧美国产国产一区| 99久久国产综合精麻豆| 亚洲人成网站18禁止大app| 国产亚洲一卡2卡3卡4卡网站| 老司机久久99久久精品播放免费| 久久久久亚洲av片无码下载蜜桃| 欧美+成+人嘿咻在线视频| 操逼.com| 亚洲国产精品国自产拍AV操| A级日本视频大全| 人妻丰满熟妇无码区免费妖精视频| 女人夜夜春高潮爽a∨片传媒| 免费A级毛片无码蜜芽欣赏网| 色偷偷偷久久伊人大杳蕉|