夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“AI登月時(shí)刻”,OpenAI模型摘取奧數(shù)金牌, GPT-5發(fā)布在即

0
分享至

OpenAI的一個(gè)通用推理模型,在剛結(jié)束的國際奧林匹克數(shù)學(xué)競賽(IMO)中達(dá)到了金牌的水平。AI登月時(shí)刻,社交媒體一夜無眠,AI圈子沸騰了。

在與人類參賽者完全相同的規(guī)則下,OpenAI的模型挑戰(zhàn)了 2025 年IMO試題:兩場各 4.5 小時(shí)的考試、禁用任何工具和互聯(lián)網(wǎng)、只能閱讀官方題面并以自然語言撰寫完整證明。模型完整解出了6題中的5題。每道題都由三位前 IMO 獎(jiǎng)牌得主獨(dú)立批改,并在取得一致意見后定分。最終模型拿到 35/42 分——足以摘金!

重大意義在于,這是一個(gè)通用推理模型,而不是一個(gè)專門用來解數(shù)學(xué)題的專門系統(tǒng),也沒有經(jīng)過驗(yàn)證的獎(jiǎng)勵(lì)信號,即它不是依賴于“有標(biāo)準(zhǔn)答案、實(shí)時(shí)打分的獎(jiǎng)勵(lì)”來學(xué)會(huì)的,而是靠更通用的推理和新技術(shù),在長時(shí)間復(fù)雜的過程中,做出了正確的推理和證明。

OpenAI證明,盡管經(jīng)歷了Meta瘋狂的挖角,它依然保持了頂尖研究人才的密度,做出重大的研究突破。本周 OpenAI的模型o3 alpha在AtCoder 世界巡回賽 2025 決賽中僅遜于人類編程奇才Psyho,獲得第二名;測試中強(qiáng)于o3 pro,是最好的編程及物理模型。

這樣,OpenAI目前擁有了最強(qiáng)的編程及數(shù)學(xué)模型,讓它再次碾壓DeepMind, Anthropic,Grok等,也再次與中國引領(lǐng)的開源模型拉開了差距。

實(shí)際上,OpenAI內(nèi)部正在測試一個(gè)全新的推理模型,取得奧數(shù)金牌成績,僅是其一次小試牛刀。它的正式發(fā)布甚至?xí)贕PT-5之后 ,預(yù)計(jì)是今年底。 OpenAI推理研究的科學(xué)家Alexander We負(fù)責(zé)這個(gè)模型項(xiàng)目,他首先宣布了這一消息,并順帶提及GPT-5發(fā)布在即。


這是一件大事,我們可以說它讓成為AGI邁向ASI的新起點(diǎn)嗎?Alexander Wei 發(fā)了一組帖文說明它的意義:

“ 第一,IMO 題目對“持續(xù)創(chuàng)造性思考”提出了前所未有的要求。從推理時(shí)間跨度來看,我們已經(jīng)一路從 GSM8K(頂尖人類約 0.1 分鐘)→ MATH 數(shù)據(jù)集(約 1 分鐘)→ AIME(約 10 分鐘)→ IMO(約 100 分鐘)。

第二,IMO 答案往往是長達(dá)數(shù)頁、難以驗(yàn)證的證明。要想在這一關(guān)取得進(jìn)展,就必須跳出傳統(tǒng)強(qiáng)化學(xué)習(xí)“獎(jiǎng)勵(lì)信號清晰、易于驗(yàn)證”的范式。我們做到了——由此得到的模型能夠在復(fù)雜度和嚴(yán)謹(jǐn)性上匹敵人類數(shù)學(xué)家。

除了結(jié)果本身,我更興奮的是方法:我們并未依賴狹窄的、任務(wù)特化的技巧,而是通過通用強(qiáng)化學(xué)習(xí)與“測試時(shí)計(jì)算”擴(kuò)展的新突破,才達(dá)到這一水準(zhǔn)。 ”

這項(xiàng)成就,在OpenAI內(nèi)部被認(rèn)為是實(shí)現(xiàn)了急需的一次研究上的突破,“ Alex Wei做到了?!?它幾乎沒有針對 IMO 做任何專項(xiàng)工作,只是持續(xù)訓(xùn)練通用模型;所有證明均為自然語言撰寫,沒有使用任何定制化的評測框架。

這個(gè)模型的尺寸仍然是個(gè)謎,不過OpenAI的團(tuán)隊(duì)成員透露,所用的算力相當(dāng)有限,因?yàn)樾请H之門還沒有投入使用。

OpenAI科學(xué)家Sebastined Bubeck稱之為 AI 的“登月時(shí)刻”。簡單講:一個(gè)只是預(yù)測下一個(gè)詞的機(jī)器(真的是啥工具都沒用)剛剛給出了幾個(gè)又難又新的數(shù)學(xué)題的創(chuàng)造性證明,這種水平平時(shí)也只有少數(shù)天才少年能做到。


OpenAI的首席研究官M(fèi)ark Chen曾經(jīng)擔(dān)任美國國際奧林匹克信息競賽的教練,他認(rèn)為:”不同于以往比賽中用的那些狹窄的系統(tǒng),我們的模型具備更廣泛的推理能力,遠(yuǎn)遠(yuǎn)超越了競賽題的范圍?!?/p>

他指的是谷歌的AlphaProof在去年的奧數(shù)賽中,解出了6道題中的4道。

解決了奧數(shù)金牌的問題,接下來就是人類真正待解的難題了。在OpenAI多智能體組的研究員Sheryl Hsu參與了這個(gè)項(xiàng)目,她激動(dòng)地說,從起步到達(dá)到奧數(shù)金牌水平,僅用了15個(gè)月,照這個(gè)速度下去,明年就可以用來產(chǎn)生數(shù)學(xué)定理和用全新方法進(jìn)行數(shù)學(xué)研究了。

人工智能會(huì)在2030年前解決一個(gè)千禧年大獎(jiǎng)難題嗎?當(dāng)前市場上對這個(gè)問題的預(yù)測概率驟然上升,達(dá)到了81%。

千禧年大獎(jiǎng)難題是指克雷數(shù)學(xué)研究所(Clay Mathematics Institute)于2000年提出的七個(gè)尚未解決的重要數(shù)學(xué)問題,每個(gè)問題的獎(jiǎng)金是100萬美元。


GPT-5

萬眾期待的GPT-5 要來了。奧特曼宣布:

我們很快就會(huì)發(fā)布 GPT-5,但也希望大家對它抱有合理的預(yù)期:這是一個(gè)實(shí)驗(yàn)性的模型,融入了我們將在未來模型中繼續(xù)采用的新研究技術(shù)。 我們相信你們會(huì)喜歡 GPT-5,但在接下來的幾個(gè)月里,我們并不打算發(fā)布一個(gè)具備 IMO 金牌水平能力的模型。

有一種說法是這次發(fā)布就是為了終結(jié)命名混亂,將轉(zhuǎn)用一個(gè)統(tǒng)一模型架構(gòu),用戶只要“挑/調(diào)”推理強(qiáng)度或智能等級即可。

圈子里也在流傳GPT-5的蛛絲馬跡。這張圖顯示GPT-5在測試生物風(fēng)險(xiǎn),用的是最強(qiáng)推理模式,限時(shí) 15 分鐘,連跑 10 次 mbct 生物題,把結(jié)果和日志按指定目錄收好。


一些AI研究者分析:GPT-5將采用 end-to-end 強(qiáng)化學(xué)習(xí)(RL) 進(jìn)行訓(xùn)練,模型直接在環(huán)境中從原始輸入學(xué)習(xí)到最優(yōu)策略,無需人為拆分子任務(wù)或設(shè)計(jì)中間模塊,也不依賴于顯式的 chain of thought(逐步推理)輸出。通過整體性的獎(jiǎng)勵(lì)信號指導(dǎo),模型能夠高效地探索、試錯(cuò)并收斂到優(yōu)秀的解決方案,實(shí)現(xiàn)更高的任務(wù)完成度和更強(qiáng)的泛化能力。

最近OpenAI被Meta挖角,幾乎傷筋動(dòng)骨。但這次奧數(shù)奪金,等于是告訴Meta:我們要向超級人工智能跨越了。

最后,下面是OpenAI負(fù)責(zé)推理研究的Noam Brown的評論:

今天,我們 @OpenAI 取得了一個(gè)許多人認(rèn)為還需要幾年才能實(shí)現(xiàn)的里程碑:一個(gè)具備金牌水平的推理型大語言模型(LLM),在 2025 年國際數(shù)學(xué)奧林匹克(IMO)中,在與人類相同的時(shí)間限制下、無需任何工具,完成了解題。

聽起來已經(jīng)很驚人了,但這個(gè)成就的意義其實(shí)遠(yuǎn)不止這個(gè)標(biāo)題所能表達(dá)的:

通常來說,像圍棋、Dota、撲克、外交游戲(Diplomacy)等領(lǐng)域的 AI 結(jié)果,研究人員要花費(fèi)數(shù)年時(shí)間,打造一個(gè)只擅長某個(gè)狹窄領(lǐng)域、除此之外幾乎一無是處的 AI。

但這次并不是一個(gè)專門針對 IMO 的模型,而是一個(gè)融合了全新實(shí)驗(yàn)性通用技術(shù)的推理型 LLM。

那么,有什么不同呢?我們開發(fā)了新的技術(shù),讓 LLM 在那些難以驗(yàn)證的任務(wù)上表現(xiàn)得更好。IMO 題目正是絕佳的挑戰(zhàn):證明通常長達(dá)數(shù)頁,專家們也需要幾個(gè)小時(shí)才能批改。相比之下,AIME(美國數(shù)學(xué)邀請賽)的答案只是 0 到 999 之間的一個(gè)整數(shù)。

此外,這個(gè)模型會(huì)“思考”很久。o1 思考幾秒,Deep Research 思考幾分鐘,而它可以思考幾個(gè)小時(shí)。更重要的是,它的思考效率也更高。而且,在推理時(shí)間計(jì)算和效率上,我們還有很大的提升空間。

值得回顧的是,AI 尤其是在數(shù)學(xué)領(lǐng)域的進(jìn)步有多么快。2024 年時(shí),AI 實(shí)驗(yàn)室還在用小學(xué)數(shù)學(xué)(GSM8K)作為模型發(fā)布的評測。隨后我們達(dá)到了高中水平的 MATH 基準(zhǔn),又突破了 AIME,如今則達(dá)到了 IMO 金牌水平。

接下來會(huì)怎樣?盡管最近 AI 進(jìn)步飛快,我完全相信這個(gè)趨勢還會(huì)繼續(xù)。更重要的是,我認(rèn)為我們正接近讓 AI 在科學(xué)發(fā)現(xiàn)中發(fā)揮實(shí)質(zhì)性作用的階段。因?yàn)?AI 的表現(xiàn)從略低于頂尖人類水平到略高于頂尖人類水平之間,其差距是巨大的。

這是一個(gè)由 @alexwei_ 領(lǐng)導(dǎo)的小團(tuán)隊(duì)完成的成果。他把一個(gè)很少有人相信的研究想法,變成了一個(gè)幾乎沒人覺得可能實(shí)現(xiàn)的結(jié)果。當(dāng)然,這一成就也離不開 @OpenAI 以及更廣泛的 AI 社區(qū)多年積累的研究和工程工作。

當(dāng)你在一家前沿實(shí)驗(yàn)室工作時(shí),通常會(huì)提前幾個(gè)月知道前沿能力在哪里。但這個(gè)結(jié)果使用了最近才開發(fā)出的新技術(shù),甚至對許多 OpenAI 的研究人員來說也是一個(gè)驚喜。今天,每個(gè)人都可以看到前沿在哪里。

OpenAI的奧數(shù)題解法:

https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
爆料者:蕭華能怎么懲罰自己最富的老板?NBA沒有真正的司法體系

爆料者:蕭華能怎么懲罰自己最富的老板?NBA沒有真正的司法體系

直播吧
2025-09-04 11:43:17
被高云翔評論區(qū)笑死了:哥,你給董璇氣成啥樣,讓她找了個(gè)粑粑柑

被高云翔評論區(qū)笑死了:哥,你給董璇氣成啥樣,讓她找了個(gè)粑粑柑

甜檸聊史
2025-08-22 11:53:33
印度已經(jīng)提出對美零關(guān)稅和開放,為何特朗普還是不簽?

印度已經(jīng)提出對美零關(guān)稅和開放,為何特朗普還是不簽?

邵旭峰域
2025-09-04 10:27:06
數(shù)千枚導(dǎo)彈瞄準(zhǔn)南美,特朗普突然發(fā)瘋?中國再不出手恐怕就晚了

數(shù)千枚導(dǎo)彈瞄準(zhǔn)南美,特朗普突然發(fā)瘋?中國再不出手恐怕就晚了

Ck的蜜糖
2025-09-04 10:12:25
突襲!詹姆斯落地中國!再戴王冠引發(fā)爭議!

突襲!詹姆斯落地中國!再戴王冠引發(fā)爭議!

柚子說球
2025-09-03 12:25:09
阿媒:備戰(zhàn)2026世界杯,新星崛起,老將爭位,阿根廷掀起名單之戰(zhàn)

阿媒:備戰(zhàn)2026世界杯,新星崛起,老將爭位,阿根廷掀起名單之戰(zhàn)

星耀國際足壇
2025-09-03 11:53:54
為患癌妻子眾籌5萬美元引爭議 鄭佩佩兒子:已賣房,母親遺產(chǎn)遠(yuǎn)不夠,并非“不工作”

為患癌妻子眾籌5萬美元引爭議 鄭佩佩兒子:已賣房,母親遺產(chǎn)遠(yuǎn)不夠,并非“不工作”

紅星新聞
2025-09-01 20:00:18
烏克蘭方面確認(rèn)已消滅制造布查大屠殺的所有俄軍士兵

烏克蘭方面確認(rèn)已消滅制造布查大屠殺的所有俄軍士兵

環(huán)球熱點(diǎn)快評
2025-08-30 16:26:27
日本前首相一語驚人:中國單獨(dú)對付美國不明智,趕緊跟另兩國合作

日本前首相一語驚人:中國單獨(dú)對付美國不明智,趕緊跟另兩國合作

領(lǐng)悟看世界
2025-09-04 00:55:28
富士康“賭輸”了!郭臺(tái)銘做夢也沒有想到,“制裁”會(huì)來的這么快

富士康“賭輸”了!郭臺(tái)銘做夢也沒有想到,“制裁”會(huì)來的這么快

混沌錄
2025-08-22 18:23:58
韋德回應(yīng)庫班:06年冠軍沒被操控,11年你們哨子也得利過

韋德回應(yīng)庫班:06年冠軍沒被操控,11年你們哨子也得利過

雷速體育
2025-09-04 11:54:14
這4個(gè)“吸陽”行為,男性早該忍住,為健康別太放縱自己

這4個(gè)“吸陽”行為,男性早該忍住,為健康別太放縱自己

云端小院
2025-09-03 07:19:22
主席唯一曾孫子毛東東,今年22歲身高1米87,出生日期很有寓意!

主席唯一曾孫子毛東東,今年22歲身高1米87,出生日期很有寓意!

霽寒飄雪
2025-08-22 09:20:08
巴基斯坦,可能要變天了

巴基斯坦,可能要變天了

一個(gè)有靈魂的作者
2025-09-02 08:44:02
越鬧越大,2兒非親生事件,堂嫂下場了,大兒子生父一直不敢露面

越鬧越大,2兒非親生事件,堂嫂下場了,大兒子生父一直不敢露面

小鬼頭體育
2025-09-04 09:29:02
國足U22險(xiǎn)勝東帝汶原因浮出水面,不是戰(zhàn)術(shù),也不是教練

國足U22險(xiǎn)勝東帝汶原因浮出水面,不是戰(zhàn)術(shù),也不是教練

云隱南山
2025-09-04 10:09:15
粟裕的一生之?dāng)场I

粟裕的一生之?dāng)场I

跟著老李看世界
2025-08-10 17:13:40
得罪不起中美,石破茂決定不干了,繼任者浮出水面,還是對華鷹派

得罪不起中美,石破茂決定不干了,繼任者浮出水面,還是對華鷹派

天氣觀察站
2025-09-04 10:16:46
不得不承認(rèn),NBA79年來單核奪冠只出現(xiàn)過5次:喬丹、奧尼爾無懸念

不得不承認(rèn),NBA79年來單核奪冠只出現(xiàn)過5次:喬丹、奧尼爾無懸念

毒舌NBA
2025-09-04 10:57:00
關(guān)于U22國足險(xiǎn)勝東帝汶,董路和徐亮竟然觀點(diǎn)不一樣

關(guān)于U22國足險(xiǎn)勝東帝汶,董路和徐亮竟然觀點(diǎn)不一樣

老臉科普君
2025-09-04 08:26:54
2025-09-04 12:11:00
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
187文章數(shù) 41關(guān)注度
往期回顧 全部

科技要聞

傳蘋果自研AI搜索,明年iPhone將大升級

頭條要聞

特朗普承認(rèn)觀看中國閱兵 稱“讓人印象非常深刻”

頭條要聞

特朗普承認(rèn)觀看中國閱兵 稱“讓人印象非常深刻”

體育要聞

排面!德國大使館盛贊樊振東:世界級巨星

娛樂要聞

宋祖英春晚39年經(jīng)歷,先是被罵?

財(cái)經(jīng)要聞

美國8月份關(guān)稅突破310億美元 創(chuàng)歷史新高

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

教育
數(shù)碼
本地
房產(chǎn)
家居

教育要聞

天津火了,這個(gè)1萬平的高考補(bǔ)習(xí)學(xué)校藏不住了!

數(shù)碼要聞

時(shí)尚設(shè)計(jì)·全能高效 戴爾27 Plus QHD S2725DSM顯示器評測

本地新聞

換個(gè)城市過夏天 | “中式美學(xué)”打開夏日濰坊

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

家居要聞

高級黑白 體現(xiàn)簡單生活

無障礙瀏覽 進(jìn)入關(guān)懷版 日日色人AV| 欧美sM精品调教视频| 中文字幕精品无码一区二区三区| 日本中文字幕亚洲乱码| 婷婷丁香五月婷婷丁香| 日韩免费无码人妻波多野| 国产亚洲成av片在线观看| 久久久久国产精品免费消防器| HEYZO无码AV电影| 免费乱码人妻系列无码专区| 人人妻人人玩人人爽| 乱交福利视频| 国产成+人+综合+亚洲专区| 337P日本欧洲亚洲大胆张筱雨| 亚洲av日韩av不卡在线观看| 大陆极品少妇内射aaaaaa| 国内精品伊人久久久妇| 欧美精产国品一二三产品工艺| 中文在线一区| 日本欧美一区二区三区高清| www.xxxx影院| 7777精品视频| 中文字幕日本有码在线播放| 亚洲精品国偷拍自产在线观看蜜臀| 奇米777国产一区二区| 人妻人人妻人人操| 在国产线视频A在线视频| 无码午夜人妻一区二区三区不卡视频 | 亚洲精品无码专区久久久| av片在线观看免费| 8888四色奇米在线观看| 日韩国产成人无码av毛片蜜柚| 操BBB精品| 国产一区二区波多野结衣| 99天精品一区二区三区| 精品无码日韩国产不卡AV| 亚洲欧美,国产精品| 在线视频中文字幕二区| 欧美性69式xxxx护士| 国产乱人伦精品背下来| 国产成人综合久久亚洲av|