夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI首獲奧數(shù)金牌,有人不講武德

0
分享至

谷歌DeepMind終于正式宣布,Gemini的一個能“并行思考”的進(jìn)階模型,真正獲得了今年國際奧林匹克數(shù)學(xué)競賽(IMO)金牌。

Attention is All You Need! 剛剛過去的周末,OpenAI搶在DeepMind之前,達(dá)到了IMO金牌水平,并且公布了答卷。

一年一度的IMO比賽,禁用任何工具和互聯(lián)網(wǎng)、只能閱讀官方題面并以自然語言撰寫完整證明,時長為兩場各4.5小時。這次兩家的模型完整解出了6題中的5題,最終模型拿到 35/42 分——足以摘金!

都答對了題,得分一樣,誰家的模型更好?DeepMind在網(wǎng)站上簡單介紹了這個能“并行思考”的模型,并且將很快推出服務(wù)給用戶;從專家看到的答卷來看,DeepMind的更簡潔清晰。而OpenAI并沒有在其官網(wǎng)上正式公司它奧數(shù)“摘金”,承認(rèn)這是一個實驗性模型,真正推出要等到年底了。

其實現(xiàn)在的Gemini可能已經(jīng)具備奧數(shù)金牌的實力了。UCLA計算機(jī)科學(xué)副教授Lin Yang用Gemini 2.5 Pro,已經(jīng)可以解出6道題中的5道!當(dāng)然要通過精心的提示和流程設(shè)計。


DeepMind去年用了兩個模型,AlphaGeometry 和AlphaProof,通過把試題翻譯成專業(yè)的Lean語言,證明后再翻譯回來。而且解題時間用了兩三天,6道題中做對了4道,達(dá)到了銀牌的水平。今年的新模型用的全部是自然語言。

DeepMind簡單介紹了這個新模型模型:這是先進(jìn)版本的 Gemini Deep Think ,一種針對復(fù)雜問題的增強推理模式,融入了一些最新的研究技術(shù),包括并行思考。這種設(shè)置讓模型能夠在給出最終答案之前,同時探索并組合多種可能的解法,而不是沿著一條單一、線性的思路推進(jìn)。

DeepMind還用新穎的強化學(xué)習(xí)技術(shù)訓(xùn)練了這個版本的 Gemini,能夠利用更多的多步推理、問題求解和定理證明的數(shù)據(jù)。Gemini 可以訪問一個高質(zhì)量數(shù)學(xué)題解答語料庫,并在指令中加入了一些解決 IMO 問題的一般性提示和技巧。

這個“奧數(shù)金牌”版本的Gemini,將會很快公開使用,解答最難的數(shù)學(xué)題。它還沒有一個正式的名字,需要經(jīng)過一些數(shù)學(xué)家等專業(yè)人士的進(jìn)一步測試,將提供給Google AI Ultra的訂戶使用,月費250美元。

OpenAI強調(diào)它與DeepMind用了不同的方法。OpenAI暗示,他們用了更少的算力,一些研究員認(rèn)為DeepMind的并行思考,可能用了更多的算力。兩家都沒有公布這一點。但算力成本的確是一個衡量性能的關(guān)鍵指標(biāo),暴力解題,意義就不那么大了。

此外,OpenAI該項目負(fù)責(zé)人Alexander Wei暗示,在 IMO 第6題上(這里不展開具體的實驗設(shè)置),模型“知道”自己沒有一個正確的解答?!澳P湍芤庾R到自己不知道答案,這是我們當(dāng)時非常興奮的一個早期跡象,也讓我們看到了這條研究方向的潛力!”

UC伯克利博士生、負(fù)責(zé)通用智能體項目的Michael Luo認(rèn)為:聽起來這個模型(我猜是 o3/o4 的一個分支)是用 LLM 作為評審、并且在超長上下文里訓(xùn)練出來的。需要非常精細(xì)的提示詞和智能體工程,才能確保證明在自動化的情況下(不用 LEAN)依然有效。不過這一點應(yīng)該與Gemini沒有明顯區(qū)別。

DeepMind的奧數(shù)項目負(fù)責(zé)人是越南裔的Thang Luong,他研究超級智能,立即在自我介紹中加上了AI IMO金牌得主。OpenAI負(fù)責(zé)人研究推理模型的科學(xué)家Alexander Wei。


(左Thang Luong,右Alexander Wei)

華人是真正的金牌得主


這次比賽結(jié)果沒有太大的懸念,按團(tuán)體成績排名:中國(第 1 名)、美國(第 2 名)、韓國(第 3 名)、波蘭和日本(并列第 4 名)、以色列(第 6 名)、印度(第 7 名)、新加坡(第 8 名)、越南(第 9 名)和土耳其(第 10 名)。

第一屆 IMO 于1959年舉辦,但中國直到1985年才首次參賽,并獲得了一枚銅牌。4年后的1989年,中國贏得了首次 IMO 冠軍,后來的 36 年里,中國持續(xù)稱霸賽場,共獲得了25次IMO 冠軍和191枚金牌。目前美國奧數(shù)隊的成員中,華裔擔(dān)當(dāng)了主力,往屆獲獎?wù)咧?,有許多成為AI領(lǐng)域的創(chuàng)業(yè)者,其中典型的是AI編程智能體公司Cognision,創(chuàng)業(yè)團(tuán)隊都是華人,擁有10塊奧數(shù)獎牌。

至于說在DeepMind和OpenAI的研究團(tuán)隊,其明星項目中的華人研究人員之多,已經(jīng)不必細(xì)數(shù)了。

OpenAI“不講武德”

誰首次獲得奧數(shù)冠軍,這件事意義太重大了,OpenAI是不甘心白白讓死對頭DeepMind摘走這個桂冠的。

當(dāng)?shù)貢r間周五下午,DeepMind 獲得今年奧數(shù)金牌的消息泄露。周六凌晨 1 點,OpenAI 搶先宣布自己的模型IMO“摘金”,搶走了風(fēng)頭。DeepMind和IMO官方花了些時間來驗證,結(jié)果發(fā)現(xiàn)OpenAI根本就沒讓IMO參與,而是找了幾位前IMO金牌得主做了非官方的評審。直到周一,完全經(jīng)過IMO的驗證之后,DeepMind 才官宣確認(rèn)拿到金牌。

DeepMind說,我遵守了IMO的規(guī)則,證明過程經(jīng)過競賽組織方的專家審核,并且在先宣布了獲獎的學(xué)生選手之后,才正式公布,所以,我是官方承認(rèn)的。

不過,OpenAI也沒說自己得了“奧數(shù)冠軍”,它只是說自己達(dá)到了奧數(shù)冠軍的水平,用一只草莓(OpenAI推理模型的代號)掛上一枚金牌。其官網(wǎng)也沒有公布此事。

OpenAI負(fù)責(zé)推理研究的“德?lián)渲酢盢oam Brown透露了一些內(nèi)幕:

“大約兩個月前,IMO(國際數(shù)學(xué)奧林匹克)通過郵件邀請我們參加一個正式的(Lean)版本 IMO。我們一直專注于自然語言中的通用推理,而不受 Lean 這類形式化系統(tǒng)的限制,所以我們婉拒了。他們從來沒有邀請我們參加自然語言的數(shù)學(xué)版本。

在過去幾個月里,我們在通用推理方面取得了大量進(jìn)展。這包括收集、整理并在高質(zhì)量數(shù)學(xué)數(shù)據(jù)集上進(jìn)行訓(xùn)練,這些數(shù)據(jù)也會用于未來的模型。在我們的 IMO 評估中,我們沒有使用 RAG(檢索增強生成)或任何工具。

我們提交的每一個證明都由三位外部 IMO 獎牌獲得者評審,并一致認(rèn)為證明是正確的。我們還公開發(fā)布了這些證明,以便任何人都能驗證其正確性。

在公布成績之前,我們曾與一位 IMO 委員會成員溝通,對方希望我們等到頒獎典禮結(jié)束后再公開成績,這一請求我們欣然接受。

我們在太平洋時間凌晨 1 點(澳大利亞東部標(biāo)準(zhǔn)時間下午 6 點)于頒獎結(jié)束后發(fā)布。期間沒有任何人要求我們比這更晚公布?!?/p>

但是IMO方面這次對OpenAI感到不爽。IMO官員Joseph Myers認(rèn)為,AI開發(fā)商應(yīng)該在頒獎儀式之后一周才宣布其比賽結(jié)果,否則的話就“粗俗和不合適”。公眾關(guān)注的焦點,應(yīng)該在人類參賽選手上,而不是讓AI搶去了風(fēng)頭。他指責(zé)OpenAI沒有與IMO合作,也沒有IMO的專家參與評審OpenAI的答題卷。數(shù)學(xué)家陶哲軒也對不經(jīng)IMO審核的行為持保留意見。


OpenAI的始終與IMO官方保持溝通,聽起來也是合理的。一些人認(rèn)為DeepMind得金牌名正言順,更值得尊重;另一些人認(rèn)為,這體現(xiàn)出不同的企業(yè)文化,DeepMind是大公司的作風(fēng)。

誰真正的奧數(shù)學(xué)霸,我們認(rèn)為應(yīng)該還是DeepMind,它開拓了用AI解答疑難數(shù)學(xué)題的研究,開發(fā)并公布了一系列模型,這次IMO認(rèn)可其金牌水平,也是實至名歸:

AlphaEvolve

AlphaProof

AlphaGeometry

FunSearch

AlphaDev

AlphaTensor

AlphaCode

不過,國際上數(shù)學(xué)及AI圈子里越來越多人意識到,明年的奧數(shù)賽,實際就是三個隊競爭前茅了:華人中國奧數(shù)隊,華人美國奧數(shù)隊,還有AI隊。

再往后,可能是華人代表人類與AI競賽了。

1,DeepMind的答卷在此:

https://storage.googleapis.com/deepmind-media/gemini/IMO_2025.pdf

2,OpenAI的答卷在此:

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
硬核科普:為什么不能在太平洋中央停船?深海中究竟如何停船?

硬核科普:為什么不能在太平洋中央停船?深海中究竟如何停船?

徐德文科學(xué)頻道
2025-08-07 14:01:23
回歸自由?國外興起全裸度假村,男女不穿衣服狂歡,網(wǎng)友:沒眼看

回歸自由?國外興起全裸度假村,男女不穿衣服狂歡,網(wǎng)友:沒眼看

歷史有些冷
2025-08-30 17:45:03
證據(jù)確鑿!佛協(xié)再發(fā)最新重磅信息,釋永信的下場,比我們想的更慘

證據(jù)確鑿!佛協(xié)再發(fā)最新重磅信息,釋永信的下場,比我們想的更慘

洲洲影視娛評
2025-09-04 16:26:31
A股走勢岌岌可危?9月5日,明天可能迎來更大的變盤?

A股走勢岌岌可危?9月5日,明天可能迎來更大的變盤?

風(fēng)口招財豬
2025-09-05 01:39:56
大量上市!含鉀量是香菇的36倍,建議中老年人常吃,腿腳更有勁!

大量上市!含鉀量是香菇的36倍,建議中老年人常吃,腿腳更有勁!

阿萊美食匯
2025-09-04 06:44:42
后續(xù)!據(jù)說瑤瑤躲進(jìn)次臥鎖門求生時,金某踹門而入進(jìn)行拖拽

后續(xù)!據(jù)說瑤瑤躲進(jìn)次臥鎖門求生時,金某踹門而入進(jìn)行拖拽

另子維愛讀史
2025-09-02 23:20:33
隨著土耳其3-1美國,女排世錦賽四強全部出爐,亞洲球隊僅剩日本

隨著土耳其3-1美國,女排世錦賽四強全部出爐,亞洲球隊僅剩日本

侃球熊弟
2025-09-04 23:21:13
76歲大爺坦言:去養(yǎng)老院住了半年才明白,晚年真正能依靠的是什么

76歲大爺坦言:去養(yǎng)老院住了半年才明白,晚年真正能依靠的是什么

惟來
2025-09-03 19:39:32
訪華目的達(dá)到了,在中國的主場上,朝鮮領(lǐng)導(dǎo)人送出第一份“大禮”

訪華目的達(dá)到了,在中國的主場上,朝鮮領(lǐng)導(dǎo)人送出第一份“大禮”

尋途
2025-09-04 09:45:36
36:55!洪秀柱還在北京,島內(nèi)最新民調(diào)逆轉(zhuǎn),臺當(dāng)局槍口對準(zhǔn)新北

36:55!洪秀柱還在北京,島內(nèi)最新民調(diào)逆轉(zhuǎn),臺當(dāng)局槍口對準(zhǔn)新北

井普椿的獨白
2025-09-04 13:52:39
曝馮紹峰景甜閃婚官宣,喬杉轉(zhuǎn)發(fā)爆料帖后秒刪,景甜緊急回應(yīng)

曝馮紹峰景甜閃婚官宣,喬杉轉(zhuǎn)發(fā)爆料帖后秒刪,景甜緊急回應(yīng)

鑫鑫說說
2025-09-04 13:26:04
日媒重大爆料,馬科斯準(zhǔn)備承認(rèn)臺灣?中國等待的機(jī)會,終于是來了

日媒重大爆料,馬科斯準(zhǔn)備承認(rèn)臺灣?中國等待的機(jī)會,終于是來了

議紀(jì)史
2025-09-03 12:35:03
被俄羅斯特務(wù)要挾,這位老父親糊涂?。蹩颂m神父參軍英勇犧牲

被俄羅斯特務(wù)要挾,這位老父親糊涂??!烏克蘭神父參軍英勇犧牲

鷹眼Defence
2025-09-02 17:31:49
普京連夜離開北京,專機(jī)剛飛出中國就降落海參崴,中方會出手嗎?

普京連夜離開北京,專機(jī)剛飛出中國就降落海參崴,中方會出手嗎?

顧史
2025-09-04 23:05:24
全紅嬋哥哥參加廚綜被淘汰,評論區(qū)一邊倒,官媒都“無語”了

全紅嬋哥哥參加廚綜被淘汰,評論區(qū)一邊倒,官媒都“無語”了

一娛三分地
2025-09-03 23:45:03
5999元!新機(jī)官宣:9 月 4 日,正式發(fā)布!

5999元!新機(jī)官宣:9 月 4 日,正式發(fā)布!

科技堡壘
2025-09-04 13:20:38
美媒關(guān)注九三閱兵新型無人作戰(zhàn)飛機(jī):再次凸顯中美在該領(lǐng)域差距迅速擴(kuò)大

美媒關(guān)注九三閱兵新型無人作戰(zhàn)飛機(jī):再次凸顯中美在該領(lǐng)域差距迅速擴(kuò)大

環(huán)球網(wǎng)資訊
2025-09-04 17:18:24
受邀觀禮九三閱兵的5位明星,個個口碑好,這才是我們該追的星!

受邀觀禮九三閱兵的5位明星,個個口碑好,這才是我們該追的星!

小椰的奶奶
2025-09-05 01:25:59
美網(wǎng)爆冷夜!四強對陣全部出爐,日本一姐創(chuàng)歷史,鄭欽文還沒做到

美網(wǎng)爆冷夜!四強對陣全部出爐,日本一姐創(chuàng)歷史,鄭欽文還沒做到

侃球熊弟
2025-09-04 09:21:11
102歲老兵ICU看閱兵后安詳離世

102歲老兵ICU看閱兵后安詳離世

大象新聞
2025-09-04 16:47:06
2025-09-05 02:56:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
188文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機(jī)新品

頭條要聞

上海女子雇了6年保姆 對方"螞蟻搬家"式偷了她家4年

頭條要聞

上海女子雇了6年保姆 對方"螞蟻搬家"式偷了她家4年

體育要聞

這個中國人,和楊瀚森一起進(jìn)了《NBA2K26》

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

健康
旅游
親子
房產(chǎn)
數(shù)碼

內(nèi)分泌科專家破解身高八大謠言

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

媽媽幸不幸福,看孩子的外表就知道,八九不離十

房產(chǎn)要聞

實景驚艷+名校護(hù)航!這個項目,正在重新定義白云改善新高度!

數(shù)碼要聞

超30款新品齊上陣,追覓場景新品發(fā)布會一文看懂

無障礙瀏覽 進(jìn)入關(guān)懷版 狠狠躁狠狠躁东京热无码专区| 又爽又黄无遮拦成人网站| 天堂影院在线观看WWW中文| 高潮19AV| 激情小说和图片| 无码中字不卡| 人妻无码人妻有码中文字幕在线| 日本免费啪啪| 国产精品VA在线观看| 亚洲精品日韩在线丰满| 最新无码av| 免费观看精品视频999| 日韩免费一二三四区| 精品丰满人妻无套内射| 欧美日本免费一区二区三区| 狠狠狠狠噜噜噜噜啦啦啦| 久久不见久久见www| 强奷乱码中文字幕| 国产精品.xx视频.xxtv| 老熟女操B视频| 狠狠色噜噜狠狠狠狠奇米777| 无码人妻av一二区二区三区| 操老熟妇亚洲| 亚洲精品中文字幕码专区| 亚洲AV无码一区二区三区在线播放| 又粗又硬又大又爽免费视频播放| 亚洲精品色一区二区三区| 久久久精品久久久久久96| 久久无码精品一区二区三区| 麻花传媒免费网站在线观看| 亚洲中文无码爱爱| 在线一区二区三区日本欧美| 国产丝袜美女| 亚洲精品乱码久久久久久久久| 久久性狠干影院| 亚洲精品国产精品国产自2022| 久久无码成人| 久久精品视频熟女| 国产一区二区黑人97XXXX| 国产色一区二区| 粉色午夜视频|