大數(shù)據(jù)文摘出品
在Google旗下Kaggle平臺(tái)主辦的“棋局競(jìng)技場(chǎng)”中,一場(chǎng)AI國(guó)際象棋比賽正在展開。
參與者不是Stockfish或AlphaZero這樣的專業(yè)引擎,而是八個(gè)大型語言模型(LLM):Grok 4、Gemini 2.5 Pro、o4-mini、o3、Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi k2。
比賽規(guī)則簡(jiǎn)單直接——單敗淘汰制。每局比賽,AI有四次機(jī)會(huì)做出合法走子,四次失敗即告負(fù)。
不比誰“算力強(qiáng)”,而是要看誰更能理解、分析并解決問題。
這是一場(chǎng)對(duì)AI通用智能(AGI)未來潛力的探索試驗(yàn)。
01 橫掃四場(chǎng),Grok 4領(lǐng)跑全場(chǎng)
在8月5日首日四場(chǎng)對(duì)決中,四場(chǎng)全是4比0橫掃,沒有任何懸念。Grok 4擊敗Gemini 2.5 Flash,以全勝之姿晉級(jí)四強(qiáng)。
不僅贏得干凈利落,更展現(xiàn)了全場(chǎng)最具邏輯性的走法。
在對(duì)局中,Grok 4不斷識(shí)別對(duì)手的漏子,并迅速發(fā)起攻擊,每一分都帶著“計(jì)算后的獵殺”感。
相比其他模型依賴模板式開局和反應(yīng)式走子,Grok 4則像是在做一場(chǎng)目標(biāo)清晰的圍獵。
Gemini 2.5 Flash的失誤固然給了機(jī)會(huì),但Grok 4真正讓人驚訝的是它的策略意識(shí)和位置判斷力。
即使是在沒有開局庫、沒有輔助引擎的純思維對(duì)弈中,Grok 4也表現(xiàn)出令人意外的棋局掌控力。
與此同時(shí),Gemini 2.5 Pro也以4比0戰(zhàn)勝Claude 4 Opus晉級(jí)。
這組對(duì)局中出現(xiàn)了更多“合法走子”的回合,也出現(xiàn)了數(shù)次由棋局終結(jié)的真正“將死”,而非判負(fù)。
其中最令人印象深刻的是第四局,Gemini 2.5 Pro在局面占優(yōu)的情況下,仍舊犯下了幾個(gè)不該有的“送子”失誤。
即使如此,它依然靠?jī)珊髲?qiáng)勢(shì)將死對(duì)手,保住了勝果。不過,從比賽內(nèi)容來看,Claude 4 Opus的表現(xiàn)明顯更為混亂。
在第一局,它在第十步選擇“g5”,主動(dòng)暴露王翼,直接加速敗局。評(píng)論指出:“Claude 4 Opus看上去知道一些戰(zhàn)術(shù),但局勢(shì)一變,它就像陷入迷霧?!?/p>
DeepSeek R1對(duì)陣o4-mini的比賽更像是一場(chǎng)“幻覺測(cè)試”。
開局階段,雙方都能給出幾步強(qiáng)有力的操作。但進(jìn)入中局,DeepSeek R1反復(fù)犯下“看錯(cuò)棋盤”的錯(cuò)誤。
在一盤中,它甚至試圖將馬移到一個(gè)不存在的位置。盡管如此,o4-mini仍然完成了兩次“實(shí)打?qū)崱钡膶⑺?/strong>,成為唯一在一場(chǎng)比賽中完成兩次將死的AI。
o4-mini因此拿下4分,晉級(jí)下一輪。
最混亂的對(duì)局來自o3與Kimi k2的交手。Kimi k2沒有在任何一局中完成超過8步的對(duì)弈。
它連續(xù)四次在第四次嘗試時(shí)下出非法棋,自動(dòng)判負(fù)。從注釋來看,Kimi k2的確懂得一些開局套路。
但一旦脫離開局庫,它便徹底迷失方向,甚至連車、象的走法都記錯(cuò)。不是不會(huì)下棋,而是“忘了規(guī)則”。
這讓人對(duì)它的訓(xùn)練數(shù)據(jù)和邏輯能力產(chǎn)生疑問。
03 AI的弱點(diǎn),暴露在棋盤上
比賽成了一面“照妖鏡”。從棋盤的表現(xiàn)看,大部分AI模型在以下三個(gè)方面表現(xiàn)不佳:
第一,無法完整“視覺化”整盤棋。許多AI看得見棋子,卻無法判斷整體布局關(guān)系。
第二,缺乏“因果理解”的連續(xù)性。一個(gè)子被吃了之后,AI往往不能明白其位置失守的后果,下一步仍會(huì)把王送進(jìn)敵人攻擊線。
第三,合法走子頻頻出錯(cuò)。不僅僅是“不會(huì)”,而是“記不得”。Kimi k2在每盤中失敗的方式幾乎完全一樣:連續(xù)四次下出非法走子。
而這不是引擎限制,而是理解能力薄弱的體現(xiàn)。相比之下,Grok 4在這三方面都展現(xiàn)出極強(qiáng)的適應(yīng)力。它能識(shí)別未被保護(hù)的棋子,能計(jì)算簡(jiǎn)單戰(zhàn)術(shù),也沒有出現(xiàn)非法走子的情況。
這場(chǎng)比賽仍在繼續(xù)。8月6日,將迎來半決賽。
四強(qiáng)對(duì)陣如下:Grok 4 vs Gemini 2.5 Pro,o4-mini vs o3。
誰會(huì)最終登頂尚不得而知,但從首日表現(xiàn)來看,Grok 4無疑是目前的最大熱門。
比賽官網(wǎng):https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.