夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

OpenAI o3封王,4比0橫掃馬斯克Grok 4!全球大模型對抗賽完美收官

0
分享至


新智元報道

編輯:英智

【新智元導讀】決賽前,它是沉默、精準、不可一世的冠軍候選;決賽后,它成了連續(xù)送子、失誤連連的背景板。Grok 4經歷了從神壇到谷底的戲劇性一天,它的轟然倒塌,也成就了o3的不敗王者神話。

在Kaggle AI國際象棋錦標賽中,OpenAI o3以摧枯拉朽之勢橫掃大熱門Grok 4,勇奪首屆AI國際象棋表演賽冠軍!

這不僅是一場代碼與算法的較量,更被視為科技巨頭OpenAI與xAI之間的一場「代理人戰(zhàn)爭」。


稍早的季軍戰(zhàn)中,Gemini 2.5 Pro擊敗o4-mini,將銅牌收入囊中。

全球頂尖的生成式AI模型,通過國際象棋,展開了一場關乎戰(zhàn)略與推理核心能力的巔峰對決。


本次大賽由谷歌旗下平臺Kaggle主辦,目的是擺脫傳統(tǒng)基準測試的束縛,在真實、復雜的游戲環(huán)境中,檢驗大模型的批判性思維、戰(zhàn)略規(guī)劃和臨場應變能力

參賽的AI棋手陣容堪稱豪華:

  • OpenAI:o3, o4 mini

  • xAI:Grok 4

  • Google:Gemini 2.5 Pro, Flash

  • Anthropic:Claude 4

  • DeepSeek:R1

  • Moonshot:Kimi K2


比賽規(guī)則極具挑戰(zhàn)性,旨在模擬更接近人類的思考方式:

  • 禁止使用專業(yè)象棋引擎:所有決策必須源于模型自身的通用推理能力。

  • 君子動口不動手:模型必須以完整的自然語言句子來下達指令,而非直接操作棋盤。

  • 時間限制:每步棋有60分鐘的思考時間。

  • 防錯機制:連續(xù)三次給出無法執(zhí)行的錯誤指令,直接判負。

四分之一決賽呈現(xiàn)出強弱分明的態(tài)勢。

OpenAI的o3、xAI的Grok 4、谷歌的Gemini Pro等頂尖模型均以4-0的懸殊比分橫掃對手,輕松晉級。

半決賽中,Grok 4與谷歌Gemini Pro的對決成為了整個賽事唯一的懸念。雙方你來我往,異常膠著。

最終,Grok 4在決勝局中憑借更勝一籌的推理能力,以3-2驚險勝出。

o3則以絕對優(yōu)勢,再次4-0輕松擊敗了同門師弟o4 mini。

萬眾矚目的決賽:o3 4-0 Grok 4

直到半決賽結束,Grok 4看上去都勢不可擋,冠軍似乎已是其囊中之物。

Grok極少在代碼中輸出下棋思路,這種沉默被視為一種信號:一個精準、致命、無需向任何人解釋的冷酷殺手。

這場決賽因奧特曼和馬斯克兩位創(chuàng)始人的恩怨情仇而備受矚目。


然而,決賽日風云突變,Grok的強者光環(huán)轟然破碎。

OpenAI的o3從開局就展現(xiàn)出系統(tǒng)、穩(wěn)定的策略,棋路清晰,步步為營。


最終,o3以4-0的壓倒性比分干凈利落地擊敗Grok 4,從開賽到奪冠未失一局,成就了真正的不敗王者。


Grok的失誤來得又早又頻繁,而o3則毫不手軟,招招致命。

第一局:剛一開局,Grok 就毫無征兆地送了一個關鍵的象。在子力處于劣勢的情況下,Grok還主動找對手兌子——這完全違背了落后不兌子的象棋常識。幾個回合的低級失誤后,o3輕松將殺,先下一城。


第二局:雙方進入了著名的西西里防御毒兵變例。如果說b2兵對人類棋手是毒藥,那a2兵對AI來說簡直是致命病毒。Grok走出了一步驚天大漏,吃掉了一個有白方騎士守護的兵。送上如此大禮,o3自然輕松笑納勝局。

第三局:Grok 執(zhí)白首次在比賽中擺出馬洛奇結構,局面一度非常理想,讓人以為那個強大的Grok又回來了——難道它前兩局是在演戲嗎?然而,一步直接送掉了自己的騎士,讓所有幻想化為泡影。隨后,Grok接連送掉了皇后、一個車,最終輸?shù)袅吮荣悺?/p>


第四局:這是最富戲劇性的一局。開局不久,輪到o3犯下大錯,白送了皇后,局面岌岌可危。但正如解說嘉賓、特級大師Hikaru Nakamura所說,棋盤上依然暗藏殺機。

o3展現(xiàn)了驚人的韌性,通過一個精彩的戰(zhàn)術組合技,奇跡般地奪回了皇后。

比賽拖入殘局,盡管o3僅多一個兵,本是和棋局面。但Grok再次暴露了它在殘局計算上的致命弱點,o3對殘局的理解顯然更深,步步緊逼,最終將兵升變?yōu)榛屎?,完成了絕殺。


憑借這場標志性的勝利,o3成為了首屆Kaggle AI象棋賽的王者,Grok 4則遺憾地與冠軍失之交臂。

季軍戰(zhàn):o4-mini 1.5-2.5 Gemini 2.5 Pro

谷歌自家的Gemini 2.5 Pro與o4-mini的季軍爭奪戰(zhàn),雖然不像決賽那樣一邊倒,但也但也遠非勢均力敵。

最終,Gemini 以三勝一和的戰(zhàn)績,穩(wěn)穩(wěn)地站上了領獎臺。

盡管比分懸殊,但Gemini的對局堪稱一團糟,棋局質量遠不及冠軍o3。

Gemini的表現(xiàn)時好時壞,第一局的進攻還算有模有樣,但第三局的和棋則更像是整場比賽的縮影:雙方都下得稀里糊涂,失誤不斷,即使手握巨大優(yōu)勢也遲遲無法轉化為勝勢,局面如過山車般起伏。


不過,瑕不掩瑜,憑借更強的綜合實力,Gemini為東道主谷歌贏得了一枚寶貴的銅牌。

谷歌將如何通過這次比賽來改進其AI,令人期待。

賽后聲音與反思

世界棋王Magnus Carlsen一針見血:「o3的棋力大約相當于國際等級分1200分,Grok 4只有800分左右?!?/p>


1200分是業(yè)余俱樂部棋手的平均水準,而800分基本是剛入門的初學者。

這與世界頂尖人類棋手超過2700分的水平相去甚遠。

Carlsen認為,這次比賽讓我們得以一窺AI真實的思考過程。

面對Grok 4的慘敗,馬斯克迅速在X上挽尊:「xAI基本沒在象棋上花功夫,下棋對Grok來說只是個附加功能。


Kaggle的雄心不止于此。

AI象棋錦標賽將作為一個持續(xù)性的評估標準,未來還將擴展到圍棋、狼人殺、模擬經營等更復雜的游戲。

游戲正在成為衡量和驅動下一代AI發(fā)展的最佳試驗場。

參考資料:

https://www.youtube.com/watch?v=WSiu1et3P7M

https://x.com/kaggle/status/1953542585412153369

https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
夸梅:東契奇簽約詹姆斯不去就算了 二輪秀布朗尼有什么資格不去

夸梅:東契奇簽約詹姆斯不去就算了 二輪秀布朗尼有什么資格不去

直播吧
2025-08-09 13:54:32
俄烏新聞極速鮮,件件是大事

俄烏新聞極速鮮,件件是大事

史政先鋒
2025-08-08 11:50:46
西媒:阿森西奧離婚后另覓新歡,其前妻桑德拉也再次墜入愛河

西媒:阿森西奧離婚后另覓新歡,其前妻桑德拉也再次墜入愛河

雷速體育
2025-08-08 17:57:20
世事難料,少林老方丈遺書曝光,原來釋永信的結局早被方丈看透了

世事難料,少林老方丈遺書曝光,原來釋永信的結局早被方丈看透了

法老不說教
2025-08-07 20:24:52
以色列明明可以一開始就完控加沙,為何現(xiàn)在才實施?

以色列明明可以一開始就完控加沙,為何現(xiàn)在才實施?

邵旭峰域
2025-08-09 11:21:09
明天,南京實施臨時交通管制!

明天,南京實施臨時交通管制!

好笑娛樂君每一天
2025-08-09 11:47:49
就是這個眼神,看得我腰酸背痛!

就是這個眼神,看得我腰酸背痛!

貴圈真亂
2025-07-29 10:25:11
辱罵中國為“鄉(xiāng)巴佬”的萬斯,公開稱:不該怪中國,而是美國蠢

辱罵中國為“鄉(xiāng)巴佬”的萬斯,公開稱:不該怪中國,而是美國蠢

南權先生
2025-08-09 09:55:20
巴基斯坦這回,算是把“鐵哥們”中國的臉面踩了個遍.....

巴基斯坦這回,算是把“鐵哥們”中國的臉面踩了個遍.....

柏林觀察
2025-08-09 12:46:32
59歲鞏俐和法國老公沙灘度假,皮膚松弛下巴多層,76歲老公顯年輕

59歲鞏俐和法國老公沙灘度假,皮膚松弛下巴多層,76歲老公顯年輕

小張帥
2025-08-09 13:21:08
女性染上“性癮”是種什么樣的體驗?醫(yī)生直言:或與你想象的不同

女性染上“性癮”是種什么樣的體驗?醫(yī)生直言:或與你想象的不同

特約前排觀眾
2025-07-09 05:18:05
落地的鳳凰不如雞?看"銷聲匿跡"的玲花,大家擔心的事還是發(fā)生了

落地的鳳凰不如雞?看"銷聲匿跡"的玲花,大家擔心的事還是發(fā)生了

古事尋蹤記
2025-08-08 07:32:12
美女美圖5890期

美女美圖5890期

草莓解說體育
2025-08-09 12:47:34
宋寧峰也沒想到,自己拋棄的糟糠妻,如今到了王傳君手里閃閃發(fā)光

宋寧峰也沒想到,自己拋棄的糟糠妻,如今到了王傳君手里閃閃發(fā)光

白面書誏
2025-08-06 23:02:30
上海耗資66億打造“國際社區(qū)”,居民卻在問:買菜去哪兒?

上海耗資66億打造“國際社區(qū)”,居民卻在問:買菜去哪兒?

觀察眼看世界
2025-08-09 08:55:03
全民社保掀起退休返聘潮!上海某知名餐飲招服務員,要求年齡50歲

全民社保掀起退休返聘潮!上海某知名餐飲招服務員,要求年齡50歲

古希臘掌管松餅的神
2025-08-08 16:20:23
3-1橫掃!日本一姐早田希娜魔咒壓頂!終結連敗復仇苦主孫穎莎?

3-1橫掃!日本一姐早田希娜魔咒壓頂!終結連敗復仇苦主孫穎莎?

晚霧空青
2025-08-09 07:28:25
為什么要往死里掃黃......

為什么要往死里掃黃......

深度報
2025-06-25 22:38:42
繼雅江水電后,印度又挨當頭一棒,中國準備新藏鐵路,印方不好受

繼雅江水電后,印度又挨當頭一棒,中國準備新藏鐵路,印方不好受

欽點歷史
2025-08-09 10:00:37
克雷桑收阿聯(lián)酋豪門報價,壓價幅度將近50%,明擺著欺負泰山隊嗎

克雷桑收阿聯(lián)酋豪門報價,壓價幅度將近50%,明擺著欺負泰山隊嗎

體壇風之子
2025-08-09 07:17:27
2025-08-09 14:20:49
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
13224文章數(shù) 66115關注度
往期回顧 全部

科技要聞

王興興:我們啥都沒有時,客戶追著給錢

頭條要聞

6歲女童被酒店水池排水管吸住 經歷絕望14分鐘后溺亡

頭條要聞

6歲女童被酒店水池排水管吸住 經歷絕望14分鐘后溺亡

體育要聞

NBA新賽季揭幕戰(zhàn):火箭對雷霆 湖勇大戰(zhàn)詹庫對決

娛樂要聞

小S復出之路艱難!電視臺避談具體時間

財經要聞

釋永信海外資本局:至少4600萬流向澳洲

汽車要聞

百萬級舒適感!東風風神L8真實力打臉楊子

態(tài)度原創(chuàng)

教育
時尚
房產
手機
旅游

教育要聞

大學6個“嚴重飽和”的專業(yè):恐將畢業(yè)即失業(yè),張雪峰果然沒說錯

身材要練壯壯的,手袋要買大大的

房產要聞

一二手齊跌!7月廣州樓市,階段性回調!

手機要聞

被蘋果起訴后,他竟再次發(fā)布iPhone 17 Pro渲染視頻

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 亚洲中文字幕综合网在线| 欧美同性videos| 国产精品成人毛片| 婷婷六月天丁香| 亚洲中文字幕无码久久综合网| 狠狠操狠狠干dvd| 亚洲美女自慰黄色片| 亚洲av与日韩av在线| 亚洲精品国产成人AV蜜臀| 欧美第一页综合| 在线精品视频一区二区三四| 中文字幕一区二区三区四区五区六区| 69成人电影| 亚洲AV美国AV产亚洲AV| 8av国产精品爽爽ⅴa在线观看| 奇米色在线观看| 一本精品99久久精品77| 日本午夜免费福利视频| 北京少妇和黑人久精品| 18禁1区2区| 青青视频男人的天堂| 亚洲成αv人片在线观看| 高清无码不卡av黄色毛片| 超碰成人精品一区二区三| 亚洲AV电影网| 亚洲熟女国产一区二区三区| 天堂影院一区二区三区四区| 色噜噜狠狠躁18禁久久久| 青春草免费在线观看| 少妇内射兰兰久久| 亚洲无码很黄很色91视觉盛宴在线播放 | 色综合久久中文字幕综合网| 动漫人妻H无码人妻动漫| 人妻聚色窝窝人体www一区| 少妇无力反抗慢慢张开双腿| 亚洲熟妇色xxxxx欧美老妇| 国产成人精品123区免费视频| 黑人操日本美女| 清纯唯美人妻少妇第一页| 内射人妻少妇无码一本一道| 欧州一级片′|