新智元報(bào)道
編輯:KingHZ 桃子
【新智元導(dǎo)讀】第二輪首屆大模型對(duì)抗賽結(jié)果出爐了!o3輕而易舉擊敗o4-mini,拿下100%勝率。Grok 4和Gemini 2.5 Pro激烈對(duì)決,最終在加賽中Grok 4成功晉級(jí)。明日,Grok 4和o3將迎來終局之戰(zhàn)。
首屆大模型國(guó)際象棋對(duì)抗賽,第二輪戰(zhàn)報(bào)出爐了!
Kaggle Game Arena上,谷歌舉辦的AI國(guó)際象棋表演賽中,Grok 4和o3順利挺進(jìn)半決賽:
o3一舉擊敗o4-mini
Grok 4在加賽中戰(zhàn)勝Gemini 2.5 Pro,晉級(jí)決賽將迎戰(zhàn)o3
十幾個(gè)小時(shí)的激烈對(duì)決中,全球八大頂尖模型,如今僅剩下Grok 4和o3順利挺進(jìn)半決賽。
在首輪對(duì)戰(zhàn)中,DeepSeek R1、Kimi K2 Instruct、Claude Opus 4、Gemini 2.5 Flash全部潰敗。
Kaggle Game Arena 2025 AI國(guó)際象棋表演賽:半決賽對(duì)陣圖
如今,第二輪的結(jié)果,再次篩選出了兩位優(yōu)勝者。
盡管o3的勝出早有預(yù)料,Grok與Gemini之間的對(duì)決卻異常激烈,常規(guī)賽戰(zhàn)成2比2后,最終通過加賽才分出勝負(fù)。
賽事的最后一日將在8月7日(星期四)舉行,開賽時(shí)間為美國(guó)東部時(shí)間下午1點(diǎn)(ET)。
屆時(shí),國(guó)際象棋世界冠軍Magnus Carlsen與英國(guó)三連冠棋手David Howell攜手解說Grok 4對(duì)陣o3的巔峰對(duì)決。
傳送門:https://www.kaggle.com/game-arena
若是o3拿下最終冠軍,再加上萬眾矚目的GPT-5登場(chǎng),OpenAI明天可謂是雙喜臨門。
那么,第二輪大模型對(duì)戰(zhàn),具體情況如何?
o3穩(wěn)贏o4-mini,準(zhǔn)確率100%
根據(jù)OpenAI的介紹,o4-mini是o3的輕量化、運(yùn)行更快的版本。
因此,o3以4比0橫掃對(duì)手晉級(jí)決賽,也在情理之中。
雖然這場(chǎng)比賽的初衷是研究AI的「思考」方式,但第二盤棋卻令不少普通棋迷眼前一亮:
o3在僅用12步的快棋中實(shí)現(xiàn)了一次類似Puzzle Rush的將殺,雖不是真正意義上的密殺(smothered mate),但完成度非常接近。
雖然AI在本賽事中的棋藝屢遭詬病,但o3在這盤棋中卻打出了100分的完美準(zhǔn)確率:
o3 vs. o4-mini,準(zhǔn)確率100分
本輪后續(xù)的比賽節(jié)奏也基本如出一轍:較弱的AI(此處為o4-mini)在中盤階段失去判斷力,連續(xù)犯下關(guān)鍵失誤。
不過值得一提的是第三盤,這可能是目前為止最自然、最接近人類風(fēng)格的一局。
尤其是o3在棋局中完成的兩個(gè)中間手(intermezzo)——12...Bb4+和19...e3+,堪稱本輪亮點(diǎn)。
o3晉級(jí)決賽,將與另一場(chǎng)激戰(zhàn)的勝者會(huì)師。
Grok 4險(xiǎn)些折戟,鏖戰(zhàn)Gemini 2.5 Pro
盡管Grok在賽事中的表現(xiàn)一直相當(dāng)強(qiáng)勢(shì),這次卻險(xiǎn)些折戟。
最終,在加賽「末日戰(zhàn)」(Armageddon)中,Grok 4用黑棋在占優(yōu)局面下逼和對(duì)手,才得以晉級(jí)。
比賽伊始,Grok的表現(xiàn)出人意料地混亂,在短時(shí)間內(nèi)連續(xù)失子,被Gemini抓住機(jī)會(huì)贏下首局。
第二盤,雙方在第11步前一直遵循開局理論。
通常情況下,AI只要跟隨開局理論就表現(xiàn)不錯(cuò),一旦進(jìn)入「自由發(fā)揮」階段,就容易出錯(cuò)。
而Grok和Gemini的開局掌握明顯強(qiáng)于其他模型,也讓這場(chǎng)對(duì)決異常焦灼。
不過,Grok一旦脫離理論,很快就開始出錯(cuò)——先是丟馬,但Gemini也隨即「走火入魔」,不但送出皇后,最后整盤棋也丟掉,Grok扳回一局。
接下來兩盤棋依然各有勝負(fù),走的都是熟悉劇本:AI在短暫的「理論時(shí)間」后很快開始失誤。
Grok贏下第三局暫時(shí)領(lǐng)先,Gemini在第四局扳平比分。
比賽進(jìn)入加賽環(huán)節(jié),采用「末日戰(zhàn)」規(guī)則,Grok執(zhí)黑,具有和棋即勝優(yōu)勢(shì)(雖然此次并無時(shí)間限制)。
加賽過程跌宕起伏。
Gemini曾長(zhǎng)時(shí)間占優(yōu),甚至錯(cuò)過了一步直接將死的機(jī)會(huì)——與o3擊敗o4-mini的那步棋型如出一轍。
國(guó)際象棋大師Peter Heine Nielsen(世界冠軍Magnus Carlsen的教練)也順勢(shì)對(duì)Grok給出了「指導(dǎo)建議」。
最終,Gemini在多子殘局中送掉皇后,看似已將勝利拱手相讓。
但Grok沒能把握優(yōu)勢(shì),在多一車的局勢(shì)下未能完成絕殺,因三次重復(fù)局面被判和棋,比賽最終以平局告終。
盡管結(jié)局略顯遺憾,但這局仍被評(píng)為「今日最佳對(duì)局」。
第二輪比賽戰(zhàn)況就這么多,想必所有人都期待明日終局之戰(zhàn)——Grok與o3將于明天爭(zhēng)奪冠軍。
Gemini 2.5 Pro和o4-mini則將進(jìn)行三四名對(duì)決。記得鎖定總決賽直播!
參考資料:
https://x.com/kaggle/status/1953200228842020926
https://www.youtube.com/watch?v=-m33dn_3sNQ
https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-2
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.