新智元報道
編輯:英智
【新智元導讀】決賽前,它是沉默、精準、不可一世的冠軍候選;決賽后,它成了連續(xù)送子、失誤連連的背景板。Grok 4經歷了從神壇到谷底的戲劇性一天,它的轟然倒塌,也成就了o3的不敗王者神話。
在Kaggle AI國際象棋錦標賽中,OpenAI o3以摧枯拉朽之勢橫掃大熱門Grok 4,勇奪首屆AI國際象棋表演賽冠軍!
這不僅是一場代碼與算法的較量,更被視為科技巨頭OpenAI與xAI之間的一場「代理人戰(zhàn)爭」。
稍早的季軍戰(zhàn)中,Gemini 2.5 Pro擊敗o4-mini,將銅牌收入囊中。
全球頂尖的生成式AI模型,通過國際象棋,展開了一場關乎戰(zhàn)略與推理核心能力的巔峰對決。
本次大賽由谷歌旗下平臺Kaggle主辦,目的是擺脫傳統(tǒng)基準測試的束縛,在真實、復雜的游戲環(huán)境中,檢驗大模型的批判性思維、戰(zhàn)略規(guī)劃和臨場應變能力。
參賽的AI棋手陣容堪稱豪華:
OpenAI:o3, o4 mini
xAI:Grok 4
Google:Gemini 2.5 Pro, Flash
Anthropic:Claude 4
DeepSeek:R1
Moonshot:Kimi K2
比賽規(guī)則極具挑戰(zhàn)性,旨在模擬更接近人類的思考方式:
禁止使用專業(yè)象棋引擎:所有決策必須源于模型自身的通用推理能力。
君子動口不動手:模型必須以完整的自然語言句子來下達指令,而非直接操作棋盤。
時間限制:每步棋有60分鐘的思考時間。
防錯機制:連續(xù)三次給出無法執(zhí)行的錯誤指令,直接判負。
四分之一決賽呈現(xiàn)出強弱分明的態(tài)勢。
OpenAI的o3、xAI的Grok 4、谷歌的Gemini Pro等頂尖模型均以4-0的懸殊比分橫掃對手,輕松晉級。
半決賽中,Grok 4與谷歌Gemini Pro的對決成為了整個賽事唯一的懸念。雙方你來我往,異常膠著。
最終,Grok 4在決勝局中憑借更勝一籌的推理能力,以3-2驚險勝出。
o3則以絕對優(yōu)勢,再次4-0輕松擊敗了同門師弟o4 mini。
萬眾矚目的決賽:o3 4-0 Grok 4
直到半決賽結束,Grok 4看上去都勢不可擋,冠軍似乎已是其囊中之物。
Grok極少在代碼中輸出下棋思路,這種沉默被視為一種信號:一個精準、致命、無需向任何人解釋的冷酷殺手。
這場決賽因奧特曼和馬斯克兩位創(chuàng)始人的恩怨情仇而備受矚目。
然而,決賽日風云突變,Grok的強者光環(huán)轟然破碎。
OpenAI的o3從開局就展現(xiàn)出系統(tǒng)、穩(wěn)定的策略,棋路清晰,步步為營。
最終,o3以4-0的壓倒性比分干凈利落地擊敗Grok 4,從開賽到奪冠未失一局,成就了真正的不敗王者。
Grok的失誤來得又早又頻繁,而o3則毫不手軟,招招致命。
第一局:剛一開局,Grok 就毫無征兆地送了一個關鍵的象。在子力處于劣勢的情況下,Grok還主動找對手兌子——這完全違背了落后不兌子的象棋常識。幾個回合的低級失誤后,o3輕松將殺,先下一城。
第二局:雙方進入了著名的西西里防御毒兵變例。如果說b2兵對人類棋手是毒藥,那a2兵對AI來說簡直是致命病毒。Grok走出了一步驚天大漏,吃掉了一個有白方騎士守護的兵。送上如此大禮,o3自然輕松笑納勝局。
第三局:Grok 執(zhí)白首次在比賽中擺出馬洛奇結構,局面一度非常理想,讓人以為那個強大的Grok又回來了——難道它前兩局是在演戲嗎?然而,一步直接送掉了自己的騎士,讓所有幻想化為泡影。隨后,Grok接連送掉了皇后、一個車,最終輸?shù)袅吮荣悺?/p>
第四局:這是最富戲劇性的一局。開局不久,輪到o3犯下大錯,白送了皇后,局面岌岌可危。但正如解說嘉賓、特級大師Hikaru Nakamura所說,棋盤上依然暗藏殺機。
o3展現(xiàn)了驚人的韌性,通過一個精彩的戰(zhàn)術組合技,奇跡般地奪回了皇后。
比賽拖入殘局,盡管o3僅多一個兵,本是和棋局面。但Grok再次暴露了它在殘局計算上的致命弱點,o3對殘局的理解顯然更深,步步緊逼,最終將兵升變?yōu)榛屎?,完成了絕殺。
憑借這場標志性的勝利,o3成為了首屆Kaggle AI象棋賽的王者,Grok 4則遺憾地與冠軍失之交臂。
季軍戰(zhàn):o4-mini 1.5-2.5 Gemini 2.5 Pro
谷歌自家的Gemini 2.5 Pro與o4-mini的季軍爭奪戰(zhàn),雖然不像決賽那樣一邊倒,但也但也遠非勢均力敵。
最終,Gemini 以三勝一和的戰(zhàn)績,穩(wěn)穩(wěn)地站上了領獎臺。
盡管比分懸殊,但Gemini的對局堪稱一團糟,棋局質量遠不及冠軍o3。
Gemini的表現(xiàn)時好時壞,第一局的進攻還算有模有樣,但第三局的和棋則更像是整場比賽的縮影:雙方都下得稀里糊涂,失誤不斷,即使手握巨大優(yōu)勢也遲遲無法轉化為勝勢,局面如過山車般起伏。
不過,瑕不掩瑜,憑借更強的綜合實力,Gemini為東道主谷歌贏得了一枚寶貴的銅牌。
谷歌將如何通過這次比賽來改進其AI,令人期待。
賽后聲音與反思
世界棋王Magnus Carlsen一針見血:「o3的棋力大約相當于國際等級分1200分,Grok 4只有800分左右?!?/p>
1200分是業(yè)余俱樂部棋手的平均水準,而800分基本是剛入門的初學者。
這與世界頂尖人類棋手超過2700分的水平相去甚遠。
Carlsen認為,這次比賽讓我們得以一窺AI真實的思考過程。
面對Grok 4的慘敗,馬斯克迅速在X上挽尊:「xAI基本沒在象棋上花功夫,下棋對Grok來說只是個附加功能。」
Kaggle的雄心不止于此。
AI象棋錦標賽將作為一個持續(xù)性的評估標準,未來還將擴展到圍棋、狼人殺、模擬經營等更復雜的游戲。
游戲正在成為衡量和驅動下一代AI發(fā)展的最佳試驗場。
參考資料:
https://www.youtube.com/watch?v=WSiu1et3P7M
https://x.com/kaggle/status/1953542585412153369
https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-3
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.