夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

創(chuàng)歷史!GPT-5全球頂尖大賽奪冠,人類屈居第二,北交大團(tuán)隊國內(nèi)第一

0
分享至


智東西
編譯 程茜
編輯 李水青

智東西9月18日消息,今天凌晨,OpenAI和谷歌前后腳宣布,自家模型在全球知名編程競賽ICPC 2025獲得金牌級別的表現(xiàn)。

OpenAI推理系統(tǒng)答對了全部12道題目,并且一次性答對11道題,最難的題目提交了9次后成功,與人類團(tuán)隊相比可排第一Gemini 2.5 Deep Think高級版本在677分鐘內(nèi)解出10道題,與人類團(tuán)隊相比可位列第二。



ICPC的要求是參賽者在5個小時內(nèi)解出12道復(fù)雜算法問題,解題方案是否完美、解題耗時都會影響積分。

最終139支隊伍中獲得金牌的只有前四名,分別為圣彼得堡國立大學(xué)、東京大學(xué)、北京交通大學(xué)、清華大學(xué),解出題目最多的是圣彼得堡國立大學(xué),共11道。


▲ICPC拿下金牌的人類團(tuán)隊

這是繼2個月前,OpenAI推理系統(tǒng)、谷歌Gemini 2.5 Deep Think在國際數(shù)學(xué)奧林匹克競賽(IMO)之后,又一次在頂尖國際競賽中證明了自己的實力。

谷歌Gemini 2.5 Deep Think高級版本參加ICPC總決賽的代碼已經(jīng)在GitHub開源。

GitHub地址:https://github.com/google-deepmind/gemini_icpc2025

一、OpenAI拿下滿分,谷歌錯兩道

ICPC是全球公認(rèn)的歷史最悠久、規(guī)模最大、最負(fù)盛名的大學(xué)級算法編程競賽,每年來自近3000所大學(xué)和超過103個國家的參與者競相解決現(xiàn)實世界的編程問題。

OpenAI和谷歌都參與并獲得金牌級別表現(xiàn),OpenAI推理系統(tǒng)解答了12道題,谷歌Gemini 2.5 Deep Think高級版本答出10道題,最好的人類團(tuán)隊答出11道題。

1、OpenAI:拿下滿分,11道題一次就做對

OpenAI推理系統(tǒng)獲得滿分。


OpenAI提到并沒有專門為ICPC訓(xùn)練模型,其采用通用推理模型組合的方式參賽。

比賽中,GPT-5與一款實驗性推理模型共同生成解題方案,由該實驗性推理模型負(fù)責(zé)篩選待提交的方案。最終,GPT-5正確解答了11道題目,而最后一道也是難度最高的一道題目由這款實驗性推理模型解決。

其模型一次性答對了11道題,最難的問題在第9次提交時成功了。

2、谷歌:答對10道題,45分鐘解出8道題

Gemini 2.5 Deep Think高級版本按照ICPC規(guī)則在遠(yuǎn)程在線環(huán)境中進(jìn)行現(xiàn)場比賽,比人類參賽者晚10分鐘開始。Gemini總共花費677分鐘,解決了12個問題中的10個,其中8個花費45分鐘,另外2個問題花費3個小時。

下圖是2025年ICPC總決賽中解決每個問題所用的時間,Gemini所花的時間以藍(lán)色顯示,最快的大學(xué)生團(tuán)隊的時間以灰色顯示。

Gemini在3道題目上的解題時間都超過了人類。


▲ICPC總決賽中解決每個問題所用的時間

此外,谷歌DeepMind還提到一道困住所有人類團(tuán)隊的難題,被Gemini在半小時內(nèi)成功解答。

問題C要求團(tuán)隊設(shè)計一套解決方案,通過相互連接的管道網(wǎng)絡(luò)將液體輸送至一組儲液罐,目標(biāo)是找到一種管道配置,以最快速度將所有儲液罐注滿。

該問題存在無限多種可能的配置,因為每條管道均可處于開啟、關(guān)閉甚至部分開啟的狀態(tài),這使得尋找最優(yōu)配置的難度極大。


▲問題C簡介

Gemini找到了有效的解決方案:它首先假設(shè)每個水庫都有一個“優(yōu)先級值”,代表每個水庫與其他水庫相比應(yīng)該獲得的優(yōu)先程度。

當(dāng)給定一組優(yōu)先級值時,可以使用動態(tài)規(guī)劃算法找到管道的最佳配置。

Gemini發(fā)現(xiàn),通過應(yīng)用極小極大定理(Minimax Theorem),原問題可轉(zhuǎn)化為尋找能使最終流量受到最大約束的優(yōu)先級數(shù)值。

借助優(yōu)先級數(shù)值與最優(yōu)流量之間的關(guān)聯(lián),Gemini在類似碗狀的凸性解空間中,通過嵌套三分搜索(Nested Ternary Searches)快速找到最優(yōu)優(yōu)先級數(shù)值,最終解決了C題。

目前訂閱Google AI Ultra的Gemini用戶已經(jīng)可以在Gemini App中使用輕量級版本的Gemini 2.5 Deep Think。

二、ICPC金牌水平,展現(xiàn)大模型抽象推理能力

谷歌DeepMind的博客中提到,Gemini的表現(xiàn)得益于其在預(yù)訓(xùn)練、訓(xùn)練后、強化學(xué)習(xí)技術(shù)、多步驟推理和平行思維方面的技術(shù)創(chuàng)新。

例如,在強化學(xué)習(xí)過程中,研究人員訓(xùn)練Gemini為編程人員面臨的一些最困難的問題進(jìn)行推理和生成代碼,從結(jié)果反饋中學(xué)習(xí)并改進(jìn)其方法。為了解決一個問題,多個Gemini Agent會各自提出自己的解決方案,使用終端執(zhí)行代碼和測試,然后根據(jù)所有嘗試迭代解決方案。

谷歌DeepMind的內(nèi)部研究表明,Gemini 2.5 Deep Think高級版本也能在2023年和2024年ICPC世界總決賽中取得金牌級別的表現(xiàn),表現(xiàn)不亞于全球前20名競技開發(fā)者。

在ICPC上獲得金牌水平對軟件開發(fā)具有直接的實際影響,如果將比賽中最好的AI和人類解決方案結(jié)合起來,所有12個問題都會得到徹底和正確的解決。這表明AI有潛力提供獨特思路,為人類專家提供補充。

除了數(shù)學(xué)和編程外,Gemini 2.5 Deep Think高級版本還展示了在抽象推理方面的能力。

這是因為,ICPC的問題需要模型理解復(fù)雜的問題、設(shè)計多步驟的邏輯計劃、完美實施,這一過程與許多科學(xué)和工程領(lǐng)域所需的技能相同,包括設(shè)計新藥或微芯片等領(lǐng)域。

OpenAI的研究人員在X上發(fā)布帖子稱,他們采用同一組模型參加IMO和IOI競賽,展示了模型性能以及通用型。

結(jié)語:大模型復(fù)雜抽象問題解決能力提升

從國際數(shù)學(xué)奧林匹克競賽(IMO)到此次的編程競賽,OpenAI以及谷歌的模型在解決更具挑戰(zhàn)的數(shù)學(xué)、推理難題上迸發(fā)出巨大潛力。ICPC全球執(zhí)行董事Bill Poucher博士稱,ICPC一直致力于在解決問題方面設(shè)定最高標(biāo)準(zhǔn),Gemini在這一領(lǐng)域取得的成績,標(biāo)志著定義下一代所需AI工具和學(xué)術(shù)標(biāo)準(zhǔn)的關(guān)鍵時刻。

這些在競爭性編程和數(shù)學(xué)推理方面的突破共同證明了大模型在抽象推理問題解決方面的性能飛躍,或能與人類專家結(jié)合,解決更加復(fù)雜的難題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
不斷挑戰(zhàn)底線,涼涼不可避免!香港一步步失去了內(nèi)地游客的市場!

不斷挑戰(zhàn)底線,涼涼不可避免!香港一步步失去了內(nèi)地游客的市場!

青眼財經(jīng)
2025-08-07 23:48:28
2025,女優(yōu)行業(yè)新潮流下,誰能乘風(fēng)破浪成一線寵兒

2025,女優(yōu)行業(yè)新潮流下,誰能乘風(fēng)破浪成一線寵兒

素然追光
2025-09-19 03:45:03
美國參議院確認(rèn)華爾茲出任美常駐聯(lián)合國代表

美國參議院確認(rèn)華爾茲出任美常駐聯(lián)合國代表

新華社
2025-09-20 11:05:32
費德勒:考慮和納達(dá)爾舉行“費納”巡回表演賽,最近一直在打球!

費德勒:考慮和納達(dá)爾舉行“費納”巡回表演賽,最近一直在打球!

網(wǎng)球之家
2025-09-19 10:47:21
9.7億,上海建工、中建六局、上海園林、中建科工中標(biāo)上海項目

9.7億,上海建工、中建六局、上海園林、中建科工中標(biāo)上海項目

藍(lán)天白云1111
2025-09-19 13:18:54
瑜伽褲才是 “腿精” 密碼!搭配白T恤,性感又純欲,誰能扛得住

瑜伽褲才是 “腿精” 密碼!搭配白T恤,性感又純欲,誰能扛得住

小喬古裝漢服
2025-09-19 14:22:18
王朔:只要不碰車貸、房貸、傳宗接代,一個月三千,也活得很自在

王朔:只要不碰車貸、房貸、傳宗接代,一個月三千,也活得很自在

清風(fēng)拂心
2025-09-09 15:15:04
開國少將因宣傳華國鋒,被認(rèn)為有政治問題,葉劍英:同意王震意見

開國少將因宣傳華國鋒,被認(rèn)為有政治問題,葉劍英:同意王震意見

轉(zhuǎn)身微笑梅
2025-08-14 22:39:35
曼聯(lián)雙核復(fù)出戰(zhàn)切爾西!阿莫林稱教皇來也不放棄343,拒談加納喬

曼聯(lián)雙核復(fù)出戰(zhàn)切爾西!阿莫林稱教皇來也不放棄343,拒談加納喬

羅米的曼聯(lián)博客
2025-09-20 10:59:12
韓國媒體爆料,34歲武磊退役?傷情曝光,上港官宣,他不該犯錯

韓國媒體爆料,34歲武磊退役?傷情曝光,上港官宣,他不該犯錯

樂聊球
2025-09-19 12:29:42
隨著武漢三鎮(zhèn)2-5,大連英博1-1,中超積分:3隊角逐冠軍,5隊保級

隨著武漢三鎮(zhèn)2-5,大連英博1-1,中超積分:3隊角逐冠軍,5隊保級

何老師呀
2025-09-19 22:01:12
給軍區(qū)首長開了8年車,他退休時給我個文件袋,打開后我愣住了

給軍區(qū)首長開了8年車,他退休時給我個文件袋,打開后我愣住了

五元講堂
2025-09-08 10:43:58
九三閱兵一周后,我們躲過了一場世界大戰(zhàn)

九三閱兵一周后,我們躲過了一場世界大戰(zhàn)

羅列思維
2025-09-10 18:44:59
科技部:C919目前累計獲得國內(nèi)外訂單超過1000架

科技部:C919目前累計獲得國內(nèi)外訂單超過1000架

紅星新聞
2025-09-18 16:18:31
皮定均回憶:抗戰(zhàn)期間少林寺曾圖謀不軌,欲消滅八路軍甘當(dāng)漢奸

皮定均回憶:抗戰(zhàn)期間少林寺曾圖謀不軌,欲消滅八路軍甘當(dāng)漢奸

轉(zhuǎn)身微笑梅
2025-08-08 20:48:51
神奇預(yù)測來了,未來2年都是牛市

神奇預(yù)測來了,未來2年都是牛市

萌生財經(jīng)
2025-09-20 11:17:50
董路透露人生3大目標(biāo):足校小將有人進(jìn)五大聯(lián)賽 我開1瓶50年茅臺

董路透露人生3大目標(biāo):足校小將有人進(jìn)五大聯(lián)賽 我開1瓶50年茅臺

風(fēng)過鄉(xiāng)
2025-09-20 09:56:48
婉拒留任國乒,退役8年,李曉霞的級別年薪如何?

婉拒留任國乒,退役8年,李曉霞的級別年薪如何?

樂聊球
2025-09-20 10:57:53
前遼寧男籃外援謝里夫-庫珀重返NBA,與奇才簽下雙向合同

前遼寧男籃外援謝里夫-庫珀重返NBA,與奇才簽下雙向合同

懂球帝
2025-09-20 09:55:09
為啥情侶懷孕比夫妻容易?婦產(chǎn)科醫(yī)生:4個原因!第3個讓人意外

為啥情侶懷孕比夫妻容易?婦產(chǎn)科醫(yī)生:4個原因!第3個讓人意外

菁媽育兒
2025-09-10 19:21:53
2025-09-20 12:27:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10492文章數(shù) 116856關(guān)注度
往期回顧 全部

科技要聞

字節(jié)跳動凌晨發(fā)布公告

頭條要聞

媒體:特朗普稱美軍要重返阿富汗 或看九三閱兵焦慮了

頭條要聞

媒體:特朗普稱美軍要重返阿富汗 或看九三閱兵焦慮了

體育要聞

亞洲天王效應(yīng) 孫興慜球衣售150萬件破梅西紀(jì)錄

娛樂要聞

香港愛馬仕大秀,古天樂面相變了

財經(jīng)要聞

最重要的一個電話,信息量果然很大

汽車要聞

標(biāo)配華為輔助駕駛 傳祺向往S9上市售22.99萬元起

態(tài)度原創(chuàng)

本地
藝術(shù)
旅游
公開課
軍事航空

本地新聞

大學(xué)生軍訓(xùn)哪家強,廣西申請“出戰(zhàn)”!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以軍兩個方向朝加沙城市中心推進(jìn)

無障礙瀏覽 進(jìn)入關(guān)懷版 我被他们摁在床上轮流操| 一本加勒比hezyo无码专区| 在线观看成人 毛片| 国产美女被遭高潮免费网站| 亚洲国产激情五| 中国熟妇毛葺葺XXXXX| 99re在线都是精品视频| 色综合久久久无码中文字幕波多| 99久久99久久免费精品小说| 国产精品成人欧美一区桃花岛 | 爽爽爽888免费| 亚洲熟妇无码一区二区三区导航| 人人看,人人摸,人人插| 电影一区二区在线视频| 97午夜理论电影影院| 亚洲无码黄色喷水| 免费观看h片| 亚洲影院天堂中文av色| 日韩一区av| 精选国产av精选一区二区三区| 美女插逼视频| 亚洲成色777777在线观看影院| 亚洲熟妇自偷自拍另类| 在线观看aⅤ| 日本一高清二区视频久二区 | 亚洲精品国产av成人网| 性色AV片免费看| 99久久免费精品国产色| 亚洲AV密一区二区三区| 亚洲婷婷五月综合狠狠爱| 激情插逼黄色视频免费观看| 欲色天天网综合久久| 99精品国产福久久久久久| 中文字幕久久久久人妻| 最近2018中文字幕2019高清| 亚洲高清黄色精品小说在线观看| 欧美黑人巨大| 99热最新资源在线精品| 亚洲AV人人澡人人人夜| 久久久精品无码| 亚洲大尺度一区二区三区|