無人工干預(yù)取得35分，谷歌拿下首個屬于AI的IMO「真」金牌

2025-07-22 18:37:36　來源: DeepTech深科技

北京舉報

分享至

AI 發(fā)展的速度比我們想象得更快。

就在上個月，我們曾報道頂尖的大語言模型們還在奧數(shù)級別的基準測試中集體受挫，而僅僅一個月后，AI 便已能在真正的國際數(shù)學(xué)奧林匹克競賽中斬獲金牌。

當?shù)貢r間 7 月 21 日，谷歌 DeepMind 宣布，其研發(fā)的人工智能系統(tǒng)在國際數(shù)學(xué)奧林匹克（IMO，International Mathematical Olympiad）中取得了歷史性的突破，正式獲得了“金牌”級別的成績。這標志著人工智能首次在官方認證的 IMO 競賽中達到如此高的成就，同時也表明 AI 在復(fù)雜推理能力上邁出了關(guān)鍵一步。

在今年于澳大利亞舉行的第 66 屆國際數(shù)學(xué)奧林匹克競賽中，谷歌 DeepMind 參賽的 AI 模型“Gemini Deep Think”成功解答了全部六道題目中的五道，最終獲得了 35 分（滿分 42 分）的優(yōu)異成績。根據(jù) IMO 的評分標準，這一分數(shù)足以摘得金牌。IMO 主席 Prof. Dr. Gregor Dolinar 評價這些解答“在許多方面都令人震驚”，認為它們“清晰、準確，大部分都容易理解”。

圖丨本次 IMO 的題目之一（來源：DeepMind）

此次谷歌的勝利，不僅在于分數(shù)的突破，更重要的是其實現(xiàn)方式也產(chǎn)生了巨大變革。去年，DeepMind 的兩個系統(tǒng) AlphaGeometry 和 AlphaProof 聯(lián)手獲得了銀牌，解決了六題中的四題。但當時的系統(tǒng)需要人類專家先將自然語言描述的賽題手動翻譯成名為“Lean”的形式化計算機語言，AI 才能進行處理，整個過程耗時兩到三天。而今年的 Gemini Deep Think 則完全不同，它是一個能夠直接理解并處理自然語言問題的“推理系統(tǒng)”，在與人類選手相同的 4.5 小時競賽時限內(nèi)，端到端地完成了從讀題到生成嚴謹數(shù)學(xué)證明的全過程，無需任何人工干預(yù)。

（來源：DeepMind）

Gemini Deep Think 的成功，得益于谷歌在 AI 推理技術(shù)上的最新研究成果。該模型采用了一種被稱為“并行思維”（parallel thinking）的先進技術(shù)，使其能夠同時探索和整合多個潛在的解題思路，而不是像傳統(tǒng) AI 模型那樣沿循單一的線性推理路徑，從而大大提升了解決復(fù)雜問題的效率和創(chuàng)造性。此外，DeepMind 團隊還運用了新的強化學(xué)習(xí)技術(shù)，通過一個包含高質(zhì)量數(shù)學(xué)解題方案的精選數(shù)據(jù)庫對 Gemini 進行專門訓(xùn)練，使其掌握了更高級的多步推理和定理證明能力。

有意思的是，在解決其中一道許多人類選手需要動用研究生級別數(shù)學(xué)知識的難題時，Gemini Deep Think 卻另辟蹊徑，僅憑基礎(chǔ)的數(shù)論知識就給出了一個“絕妙的觀察”和自洽的證明，其解法比許多人類參賽者的更為簡潔優(yōu)雅。這在某種程度上也表明，AI 在復(fù)雜問題面前，已經(jīng)具備了超越常規(guī)思路、發(fā)現(xiàn)創(chuàng)新解法的潛力。

不過，這次成就的發(fā)布過程頗具戲劇性。就在谷歌公布消息的兩天前，OpenAI 的一位研究員在社交媒體上搶先宣布，他們的一款實驗性 AI 模型也在今年的 IMO 中取得了出色的“金牌”成績——同樣是解出五道題，獲得 35 分。

但區(qū)別在于，OpenAI 并未正式參與 IMO 的官方評估流程，而是他們組建了一個由三位前 IMO 獎牌得主構(gòu)成的獨立小組來為自己的 AI 打分。而谷歌則是與 IMO 官方合作，由競賽協(xié)調(diào)員根據(jù)學(xué)生評分標準正式評定成績，也因此，只有谷歌的成績得到了 IMO 官方的認證。

此外，據(jù)多方消息透露，IMO 官方曾請求所有參與測試的 AI 公司在閉幕式后等待一周再公布成績，以便讓焦點首先集中在獲獎的青少年學(xué)生身上。谷歌 DeepMind 遵守了這一約定，而 OpenAI 則在閉幕式當天就迫不及待地公布了其“自評”的成績，這種做法在 AI 社區(qū)引發(fā)了激烈爭議。DeepMind CEO Demis Hassabis 在社交媒體上含蓄地諷刺了一下友商：“順便說一下，我們沒有在周五宣布，是因為我們尊重 IMO 委員會的原始要求，即所有 AI 實驗室都應(yīng)該在官方結(jié)果得到獨立專家驗證且學(xué)生們理應(yīng)獲得應(yīng)有的贊譽之后才分享他們的結(jié)果?！?/p>

圖丨相關(guān)推文（來源：X）

值得注意的是，無論是谷歌的 Gemini Deep Think 還是 OpenAI 的模型，都未能攻克本屆 IMO 難度最高的第六題。這道題目要求計算覆蓋一個給定空間所需的最少矩形數(shù)量，最終只有 5 名人類學(xué)生成功解出。據(jù)悉，Gemini 在解這道題時，從一個錯誤的假設(shè)出發(fā)，最終未能找到正確路徑。這也從側(cè)面說明，盡管 AI 在邏輯推理方面取得了長足進步，但在面對某些極具挑戰(zhàn)性和創(chuàng)造性的問題時，與頂尖的人類智慧相比，仍有其局限性，需要從這些年輕的數(shù)學(xué)天才身上學(xué)習(xí)。

著名數(shù)學(xué)家陶哲軒也在社交媒體上詳細分析了評估 AI 能力的復(fù)雜性，他表示，AI 系統(tǒng)的表現(xiàn)很大程度上取決于被給予的資源和輔助條件。他用人類參賽者的類比來說明，如果改變競賽格式（比如給學(xué)生幾天時間而不是 4.5 小時，或者允許使用工具），那么成績和排名可能會發(fā)生巨大變化。因此，在不同規(guī)則下對 AI 的能力進行比較，需要格外謹慎。

圖丨相關(guān)推文（來源：X）

但無論如何，這次比賽對谷歌而言，都堪稱一次“雙贏”——由他們贏兩次，不僅證明其在與 OpenAI 等對手的“AI 競賽”中占據(jù)了有利身位，還因為競爭對手本身的搶跑而獲得了好名聲。

基于這次的成功，谷歌方面也公布了后續(xù)的商業(yè)化路徑：計劃向一組由數(shù)學(xué)家組成的受信任測試者提供一個版本的 DeepMind 模型，之后會將其推廣給每月支付 250 美元的 Google AI Ultra 訂閱用戶。他們相信，這種結(jié)合了自然語言流暢性和嚴謹推理能力的 AI 系統(tǒng)，將成為數(shù)學(xué)家、科學(xué)家和工程師的寶貴工具，最終推動人類知識的邊界，加速 AGI 的到來。

參考資料：

1.https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/

2.https://x.com/demishassabis/status/1947337618787615175?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1947337618787615175%7Ctwgr%5Ee2bf7e56b25bf6a4597610749ec8ad1afdee0a50%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fgoogle-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition%2F

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.