夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無人工干預(yù)取得35分,谷歌拿下首個屬于AI的IMO「真」金牌

0
分享至

AI 發(fā)展的速度比我們想象得更快。

就在上個月,我們曾報道頂尖的大語言模型們還在奧數(shù)級別的基準測試中集體受挫,而僅僅一個月后,AI 便已能在真正的國際數(shù)學(xué)奧林匹克競賽中斬獲金牌。

當?shù)貢r間 7 月 21 日,谷歌 DeepMind 宣布,其研發(fā)的人工智能系統(tǒng)在國際數(shù)學(xué)奧林匹克(IMO,International Mathematical Olympiad)中取得了歷史性的突破,正式獲得了“金牌”級別的成績。這標志著人工智能首次在官方認證的 IMO 競賽中達到如此高的成就,同時也表明 AI 在復(fù)雜推理能力上邁出了關(guān)鍵一步。

在今年于澳大利亞舉行的第 66 屆國際數(shù)學(xué)奧林匹克競賽中,谷歌 DeepMind 參賽的 AI 模型“Gemini Deep Think”成功解答了全部六道題目中的五道,最終獲得了 35 分(滿分 42 分)的優(yōu)異成績。根據(jù) IMO 的評分標準,這一分數(shù)足以摘得金牌。IMO 主席 Prof. Dr. Gregor Dolinar 評價這些解答“在許多方面都令人震驚”,認為它們“清晰、準確,大部分都容易理解”。


圖丨本次 IMO 的題目之一(來源:DeepMind)

此次谷歌的勝利,不僅在于分數(shù)的突破,更重要的是其實現(xiàn)方式也產(chǎn)生了巨大變革。去年,DeepMind 的兩個系統(tǒng) AlphaGeometry 和 AlphaProof 聯(lián)手獲得了銀牌,解決了六題中的四題。但當時的系統(tǒng)需要人類專家先將自然語言描述的賽題手動翻譯成名為“Lean”的形式化計算機語言,AI 才能進行處理,整個過程耗時兩到三天。而今年的 Gemini Deep Think 則完全不同,它是一個能夠直接理解并處理自然語言問題的“推理系統(tǒng)”,在與人類選手相同的 4.5 小時競賽時限內(nèi),端到端地完成了從讀題到生成嚴謹數(shù)學(xué)證明的全過程,無需任何人工干預(yù)。


(來源:DeepMind)

Gemini Deep Think 的成功,得益于谷歌在 AI 推理技術(shù)上的最新研究成果。該模型采用了一種被稱為“并行思維”(parallel thinking)的先進技術(shù),使其能夠同時探索和整合多個潛在的解題思路,而不是像傳統(tǒng) AI 模型那樣沿循單一的線性推理路徑,從而大大提升了解決復(fù)雜問題的效率和創(chuàng)造性。此外,DeepMind 團隊還運用了新的強化學(xué)習(xí)技術(shù),通過一個包含高質(zhì)量數(shù)學(xué)解題方案的精選數(shù)據(jù)庫對 Gemini 進行專門訓(xùn)練,使其掌握了更高級的多步推理和定理證明能力。

有意思的是,在解決其中一道許多人類選手需要動用研究生級別數(shù)學(xué)知識的難題時,Gemini Deep Think 卻另辟蹊徑,僅憑基礎(chǔ)的數(shù)論知識就給出了一個“絕妙的觀察”和自洽的證明,其解法比許多人類參賽者的更為簡潔優(yōu)雅。這在某種程度上也表明,AI 在復(fù)雜問題面前,已經(jīng)具備了超越常規(guī)思路、發(fā)現(xiàn)創(chuàng)新解法的潛力。

不過,這次成就的發(fā)布過程頗具戲劇性。就在谷歌公布消息的兩天前,OpenAI 的一位研究員在社交媒體上搶先宣布,他們的一款實驗性 AI 模型也在今年的 IMO 中取得了出色的“金牌”成績——同樣是解出五道題,獲得 35 分。

但區(qū)別在于,OpenAI 并未正式參與 IMO 的官方評估流程,而是他們組建了一個由三位前 IMO 獎牌得主構(gòu)成的獨立小組來為自己的 AI 打分。而谷歌則是與 IMO 官方合作,由競賽協(xié)調(diào)員根據(jù)學(xué)生評分標準正式評定成績,也因此,只有谷歌的成績得到了 IMO 官方的認證。

此外,據(jù)多方消息透露,IMO 官方曾請求所有參與測試的 AI 公司在閉幕式后等待一周再公布成績,以便讓焦點首先集中在獲獎的青少年學(xué)生身上。谷歌 DeepMind 遵守了這一約定,而 OpenAI 則在閉幕式當天就迫不及待地公布了其“自評”的成績,這種做法在 AI 社區(qū)引發(fā)了激烈爭議。DeepMind CEO Demis Hassabis 在社交媒體上含蓄地諷刺了一下友商:“順便說一下,我們沒有在周五宣布,是因為我們尊重 IMO 委員會的原始要求,即所有 AI 實驗室都應(yīng)該在官方結(jié)果得到獨立專家驗證且學(xué)生們理應(yīng)獲得應(yīng)有的贊譽之后才分享他們的結(jié)果?!?/p>


圖丨相關(guān)推文(來源:X)

值得注意的是,無論是谷歌的 Gemini Deep Think 還是 OpenAI 的模型,都未能攻克本屆 IMO 難度最高的第六題。這道題目要求計算覆蓋一個給定空間所需的最少矩形數(shù)量,最終只有 5 名人類學(xué)生成功解出。據(jù)悉,Gemini 在解這道題時,從一個錯誤的假設(shè)出發(fā),最終未能找到正確路徑。這也從側(cè)面說明,盡管 AI 在邏輯推理方面取得了長足進步,但在面對某些極具挑戰(zhàn)性和創(chuàng)造性的問題時,與頂尖的人類智慧相比,仍有其局限性,需要從這些年輕的數(shù)學(xué)天才身上學(xué)習(xí)。

著名數(shù)學(xué)家陶哲軒也在社交媒體上詳細分析了評估 AI 能力的復(fù)雜性,他表示,AI 系統(tǒng)的表現(xiàn)很大程度上取決于被給予的資源和輔助條件。他用人類參賽者的類比來說明,如果改變競賽格式(比如給學(xué)生幾天時間而不是 4.5 小時,或者允許使用工具),那么成績和排名可能會發(fā)生巨大變化。因此,在不同規(guī)則下對 AI 的能力進行比較,需要格外謹慎。


圖丨相關(guān)推文(來源:X)

但無論如何,這次比賽對谷歌而言,都堪稱一次“雙贏”——由他們贏兩次,不僅證明其在與 OpenAI 等對手的“AI 競賽”中占據(jù)了有利身位,還因為競爭對手本身的搶跑而獲得了好名聲。

基于這次的成功,谷歌方面也公布了后續(xù)的商業(yè)化路徑:計劃向一組由數(shù)學(xué)家組成的受信任測試者提供一個版本的 DeepMind 模型,之后會將其推廣給每月支付 250 美元的 Google AI Ultra 訂閱用戶。他們相信,這種結(jié)合了自然語言流暢性和嚴謹推理能力的 AI 系統(tǒng),將成為數(shù)學(xué)家、科學(xué)家和工程師的寶貴工具,最終推動人類知識的邊界,加速 AGI 的到來。

參考資料:

1.https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/

2.https://x.com/demishassabis/status/1947337618787615175?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1947337618787615175%7Ctwgr%5Ee2bf7e56b25bf6a4597610749ec8ad1afdee0a50%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fventurebeat.com%2Fai%2Fgoogle-deepmind-makes-ai-history-with-gold-medal-win-at-worlds-toughest-math-competition%2F

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
普京變了,特朗普變了,莫迪終于想通,美媒:中印馬上公布好消息

普京變了,特朗普變了,莫迪終于想通,美媒:中印馬上公布好消息

混沌錄
2025-08-14 22:58:05
無解,簽約正式達成,火箭新五巨頭豪陣誕生,西部是真沒對手了

無解,簽約正式達成,火箭新五巨頭豪陣誕生,西部是真沒對手了

青山隱隱啊
2025-08-14 10:26:48
油車真賣不動了?7月銷量前十只有2個油車,第一名賣瘋4萬多輛!

油車真賣不動了?7月銷量前十只有2個油車,第一名賣瘋4萬多輛!

行遠走天下
2025-08-14 14:21:46
建議上訴!卷毛裁判太惡心,惡意吹中國男籃,韓國隊連續(xù)打人罰球

建議上訴!卷毛裁判太惡心,惡意吹中國男籃,韓國隊連續(xù)打人罰球

宗介說體育
2025-08-14 21:15:00
山東女老師出軌男學(xué)生,家中幽會被老公發(fā)現(xiàn),造成人倫慘案……

山東女老師出軌男學(xué)生,家中幽會被老公發(fā)現(xiàn),造成人倫慘案……

極品小牛肉
2024-02-15 21:53:07
首次曝光:解放軍真開炮了!這應(yīng)該是中日離爆發(fā)海戰(zhàn)最近的一次

首次曝光:解放軍真開炮了!這應(yīng)該是中日離爆發(fā)海戰(zhàn)最近的一次

華人星光
2025-08-12 22:28:27
降價4.5萬!13萬多開走近5米豐田旗艦,一箱油跑一千公里!

降價4.5萬!13萬多開走近5米豐田旗艦,一箱油跑一千公里!

沙雕小琳琳
2025-08-13 20:49:25
“滿門被裁”,一家四口僅剩老媽還有工作了

“滿門被裁”,一家四口僅剩老媽還有工作了

螞蟻大喇叭
2025-06-22 19:05:41
羅馬諾:很多人不滿我沒報道桑喬轉(zhuǎn)會尤文,但事實是尤文沒報價過

羅馬諾:很多人不滿我沒報道桑喬轉(zhuǎn)會尤文,但事實是尤文沒報價過

直播吧
2025-08-14 07:52:10
為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會越來越容易?

為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會越來越容易?

素然追光
2025-06-23 02:10:05
馮德萊恩創(chuàng)造歷史成為歐州所有國家最討厭的人,自己把自己作死了

馮德萊恩創(chuàng)造歷史成為歐州所有國家最討厭的人,自己把自己作死了

文史旺旺旺
2025-08-12 20:07:10
經(jīng)濟大省新亮點|福建:164條縣域重點產(chǎn)業(yè)鏈逐質(zhì)向新

經(jīng)濟大省新亮點|福建:164條縣域重點產(chǎn)業(yè)鏈逐質(zhì)向新

新華社
2025-08-12 19:01:16
華泰證券:M2和M1增長均超預(yù)期 可能部分反映居民理財加速進入股市的影響

華泰證券:M2和M1增長均超預(yù)期 可能部分反映居民理財加速進入股市的影響

財聯(lián)社
2025-08-14 08:29:06
新西蘭逆轉(zhuǎn)淘汰黎巴嫩,將在亞洲杯半決賽對陣中國男籃

新西蘭逆轉(zhuǎn)淘汰黎巴嫩,將在亞洲杯半決賽對陣中國男籃

懂球帝
2025-08-15 02:04:28
川普與澤連斯基以及歐洲領(lǐng)導(dǎo)人會議結(jié)束同意為烏克蘭提供安全保障

川普與澤連斯基以及歐洲領(lǐng)導(dǎo)人會議結(jié)束同意為烏克蘭提供安全保障

旁邊者看世界
2025-08-14 03:05:32
太癲了!趁綠燈拍比基尼大片?光天化日下香港街頭一幕震撼路人!

太癲了!趁綠燈拍比基尼大片?光天化日下香港街頭一幕震撼路人!

新浪財經(jīng)
2025-08-14 17:04:44
中國男籃晉級4強,郭士強說出答案!趙睿一針見血,胡金秋感動人

中國男籃晉級4強,郭士強說出答案!趙睿一針見血,胡金秋感動人

小李子愛體育
2025-08-15 02:26:16
吃相丑陋!馮鞏帶隊深圳演出,全是老作品,680元門票還禁止錄像

吃相丑陋!馮鞏帶隊深圳演出,全是老作品,680元門票還禁止錄像

史書無明
2025-08-14 13:15:42
姚明中國第一!美媒評各國最佳籃球運動員:美國詹姆斯韓國河升鎮(zhèn)

姚明中國第一!美媒評各國最佳籃球運動員:美國詹姆斯韓國河升鎮(zhèn)

鍋子籃球
2025-08-14 16:14:20
女一號結(jié)局,尹紅德服了

女一號結(jié)局,尹紅德服了

金昔說故事
2025-08-14 18:11:57
2025-08-15 03:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15521文章數(shù) 513980關(guān)注度
往期回顧 全部

科技要聞

暴雨之下1萬多人,500個機器人燃爆全場

頭條要聞

白宮威脅后普京表態(tài) 俄方:會晤后預(yù)計不會簽任何文件

頭條要聞

白宮威脅后普京表態(tài) 俄方:會晤后預(yù)計不會簽任何文件

體育要聞

在菲律賓,一支中國人創(chuàng)建的球隊踢上了亞冠

娛樂要聞

趙露思發(fā)文告別!扯下她最后的顏面

財經(jīng)要聞

“許家印同伙”夏海鈞的資產(chǎn)藏匿游戲

汽車要聞

大六座SUV還能這么玩 吉利銀河M9動態(tài)內(nèi)測

態(tài)度原創(chuàng)

數(shù)碼
親子
教育
藝術(shù)
健康

數(shù)碼要聞

血氧功能終于在美國回歸 Apple Watch

親子要聞

2800萬青少年困在抑郁里,從幼兒園卷到高中,誰在逼垮下一代?

教育要聞

90%的人分不清none和not any?一文終結(jié)你的困惑!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

急診科專家解答動物抓咬傷八大問題

無障礙瀏覽 進入關(guān)懷版 亚洲秘 无码一区二区三区蜜桃| 成人在线观看无码| 欧美BBBⅩXX| 日韩毛茸茸片| 亚洲AV无码专区在线亚| 全球毛片一区二区爽| 亚洲AV高清无码在线| 四虎影视av| 成年av一区| 亚洲色资源网| www.aaa4444| 日韩一区二区在线播放| 国产成人无码午夜视频在线播放| 亚洲色大成网站www永久一区| 亚洲无码av免费看| 婷婷丁香婷婷五月| 黄爽无码免费视频A级| 18禁成年免费无码国产| 可以在线观看的AV| 中国国产av不卡| 色欧美与xxxxx| 无码免费日韩人妻| 2020国产情侣在线视频播放| 精品国产一区二区三区A| 亚洲大尺度一区二区三区| xzwwtyg555| 亚洲日韩成人| 亚州精品社区| 欧美成人一卡二卡三卡四卡| 美女大鸡巴操大鸡巴| 妺妺窝人体色www聚色窝| 娇妻呻吟一区二区三区| 操日本老女人| 亚洲色欲色欲高清无码| 中文精品久久久久人妻| 欧洲色色色色色色| 少妇AⅤ不卡| 自拍偷自拍亚洲精品熟妇人 | 人人人操人人摸| 亚洲中文字幕一区二区| 成人无码亚洲精品无码|