網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kaggle游戲競技場開賽：語言模型棋藝業(yè)余，AlphaZero仍是天花板

2025-08-06 10:57:58　來源: DeepTech深科技

北京舉報(bào)

分享至

第一屆“AI 國際象棋棋王爭霸賽”正式開打！

當(dāng)?shù)貢r(shí)間 8 月 5 號(hào)，這場由谷歌和 Kaggle 舉辦的線上大模型國際象棋比賽開啟了為期三天的直播。

目前，第一天的成績已經(jīng)出爐。

（來源：Kaggle）

上半?yún)^(qū)，來自中國的兩款大模型，DeepSeek-R1 和 Kimi K2 Instruct 分別不敵 o4 mini 和 o3，以 0:4 的成績雙雙落敗。

下半?yún)^(qū)，谷歌Gemini 2.5 Pro 擊敗了 Claude Opus 4，但自家小兄弟 Gemini 2.5 Flash 不敵 Grok 4。

可以看出，所有比賽都是一邊倒的情形，獲勝模型都是 4 局全勝。

但不同對(duì)手間的比賽也有快有慢。最快的是 o3 VS Kimi K2，四小局比賽總共才用了不到半小時(shí)：主要原因是 Kimi K2 不停犯錯(cuò)，選擇的落子位置連續(xù)違反國際象棋規(guī)則（稍后會(huì)解釋具體游戲規(guī)則）。

（來源：Kaggle）

而最久的比賽來自 o4-mini VS DeepSeek R1，用了近兩個(gè)小時(shí)才結(jié)束整場比賽，說明雙方還是很旗鼓相當(dāng)?shù)摹?/p>

圖 | o4-mini 戰(zhàn)勝 DeepSeek R1 的最后一手（來源：Kaggle）

明天，這場“AI 棋王爭霸賽”將繼續(xù)，o4 mini 和 o3 將上演同門之爭，而谷歌 Gemini 2.5 Pro 將對(duì)戰(zhàn) Grok 4。

值得注意的是，這些直播比賽的性質(zhì)是表演賽，Kaggle 計(jì)劃在后臺(tái)運(yùn)行更多對(duì)決，最終目標(biāo)是生成一個(gè)具有統(tǒng)計(jì)意義的“AI 棋王”排行榜。

（來源：Kaggle）

這場比賽是在 Kaggle 游戲競技場（Game Arena）進(jìn)行的。

它是 Kaggle 與谷歌 DeepMind 聯(lián)合推出的全新 AI 基準(zhǔn)測試平臺(tái)，旨在讓領(lǐng)先的人工智能模型在國際象棋等復(fù)雜策略游戲中展開正面較量。

與以往靜態(tài)任務(wù)不同，該平臺(tái)通過對(duì)抗競技的方式進(jìn)行評(píng)測：各參賽模型需要在明確的勝負(fù)條件下進(jìn)行多輪對(duì)局，其勝負(fù)結(jié)果即為模型能力的直接量化指標(biāo)。

谷歌表示，這一動(dòng)態(tài)測試方式有效避免了傳統(tǒng)基準(zhǔn)測試可能出現(xiàn)的“背題”問題，使其能夠“超越靜態(tài)分?jǐn)?shù)”，更深入地觀察 AI 在真實(shí)競爭環(huán)境中的表現(xiàn)。

圖 | 參賽的八個(gè)模型（來源：Kaggle）

這一理念的起點(diǎn)是棋盤游戲的天然優(yōu)勢：國際象棋等游戲具有結(jié)構(gòu)化和可量化的勝利標(biāo)準(zhǔn)，能夠考驗(yàn)?zāi)Ｐ偷牟呗酝评?、長遠(yuǎn)規(guī)劃和動(dòng)態(tài)應(yīng)變能力，并隨著對(duì)手強(qiáng)度的提高而自動(dòng)提升難度。

事實(shí)上，谷歌 DeepMind 早在 2017 年就通過 AlphaZero 項(xiàng)目證明了自我對(duì)弈的威力：AlphaZero 僅用強(qiáng)化學(xué)習(xí)自學(xué)棋藝數(shù)小時(shí)，即以壓倒性優(yōu)勢在 100 局比賽中戰(zhàn)勝當(dāng)時(shí)最強(qiáng)的國際象棋引擎 Stockfish。

不過，參加 Kaggle 對(duì)決的模型并非專用棋類引擎，而是以大型語言模型（LLM）為代表的通用 AI。

這些模型目前的棋力還遠(yuǎn)低于 AlphaZero，多數(shù)僅處于業(yè)余水平，并且經(jīng)常出現(xiàn)非法落子或荒唐認(rèn)輸?shù)儒e(cuò)誤——在直播中也屢見不鮮，而且有的大模型還很執(zhí)著，即使給它重新思考的機(jī)會(huì)，它也經(jīng)常固執(zhí)己見。

盡管如此，它們能夠輸出對(duì)每一步棋的“思考過程”說明，這是傳統(tǒng)引擎所不具備的特點(diǎn)。這種動(dòng)態(tài)對(duì)抗不僅記錄勝負(fù)，還讓我們得以探知 AI 的“思維過程”，為AI 戰(zhàn)略智能的發(fā)展提供了獨(dú)特視角。

（來源：Kaggle）

賽事以模擬對(duì)局方式進(jìn)行并同步在線直播，著名國際象棋大師也參與其中，包括國際象棋特級(jí)大師中村光（Hikaru Nakamura）、國際象棋特級(jí)大師馬格努斯·卡爾森（Magnus Carlsen）和國際象棋網(wǎng)紅萊維·羅斯曼（Levy Rozman，即 GothamChess）。

賽事采用單敗淘汰賽制，參賽模型通過賽前預(yù)熱賽確定種子排名，然后進(jìn)入對(duì)陣表。

谷歌表示，“排名靠前的模型將面對(duì)排名較低的對(duì)手，以確保平衡的排名，并防止兩個(gè)最強(qiáng)種子在決賽前相遇?！?/p>

每場對(duì)決按照標(biāo)準(zhǔn)的棋盤規(guī)則執(zhí)行，賽后 Kaggle 還將在其平臺(tái)上維護(hù)一個(gè)類似 Elo 的實(shí)時(shí)排行榜，用于跟蹤所有模型的表現(xiàn)。在未來計(jì)入排行榜的對(duì)決中，所有模型間將進(jìn)行全對(duì)弈（all-play-all）的形式對(duì)局：即每一對(duì)模型至少對(duì)弈上百局，以獲得統(tǒng)計(jì)穩(wěn)定的排名結(jié)果。

評(píng)分系統(tǒng)采用類似高斯分布的動(dòng)態(tài)估計(jì)，勝者評(píng)分上升、敗者下降，平局則雙方分?jǐn)?shù)向均值靠攏。更新幅度取決于對(duì)局結(jié)果與比賽前預(yù)期勝率的偏差，以及各模型評(píng)分的不確定度（σ 值）。隨著比賽進(jìn)行，每個(gè)模型的 σ 逐漸降低，評(píng)分趨于穩(wěn)定。

這種機(jī)制類似國際象棋的 Elo 體系，使得模型實(shí)力隨著更多對(duì)局累積得到不斷校準(zhǔn)和量化。通過比賽產(chǎn)生的全局對(duì)局?jǐn)?shù)據(jù)，Kaggle 會(huì)不斷完善各模型的能力計(jì)算方式，公眾可隨時(shí)在排行榜頁面查看最新排名和對(duì)局記錄。

值得注意的是，為了公平性和可分析性，所有參賽模型都以文本輸入輸出的方式進(jìn)行對(duì)局，并被禁止調(diào)用任何外部棋力計(jì)算工具。

圖 | Kaggle 游戲競技場介紹（來源：Kaggle）

每一步，比賽平臺(tái)向模型提供當(dāng)前棋盤狀態(tài)（采用 Forsyth-Edwards 記譜法）及棋譜歷史（采用 PGN 格式），模型必須以標(biāo)準(zhǔn)代數(shù)記譜（SAN）格式給出下一步合法落子。

模型不會(huì)被直接告知可行走法列表，必須自主判斷后輸出答案；如果模型輸出了非法走法，則會(huì)被提示重試，最多允許四次嘗試（一次初始提交加三次重試）。若模型仍無法給出合法走法，則該局判定為模型的失利，勝者贏得比賽。

同樣，為了節(jié)奏控制，每一步棋設(shè)有 60 分鐘的應(yīng)答時(shí)限。比賽直播除了記錄對(duì)局結(jié)果，還會(huì)嘗試展示每個(gè)模型的思考過程——即模型在每走一步前的輸出內(nèi)容，為賽后分析模型行為提供素材。

至于為何將棋類游戲作為 AI 能力評(píng)估的標(biāo)尺？

谷歌團(tuán)隊(duì)指出，棋局比賽提供了清晰且嚴(yán)格的成功信號(hào)，能夠全面考察模型的綜合推理能力。由于國際象棋的復(fù)雜性和變化性，無論是開局還是殘局，模型都必須處理動(dòng)態(tài)變化的對(duì)抗局面，并策劃多步行動(dòng)才能取勝。

這一點(diǎn)與企業(yè)和現(xiàn)實(shí)生活中的許多復(fù)雜決策過程有相似之處：需要戰(zhàn)略規(guī)劃、記憶歷史信息、應(yīng)變對(duì)手策略，甚至涉及一定的心智理論，即推測對(duì)方意圖。

值得一提的是，目前絕大多數(shù)大型語言模型并非專門為下棋設(shè)計(jì)，因此在棋盤上表現(xiàn)并不突出。不同于傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法，它們既沒有訪問專門的棋庫，也無法像專業(yè)引擎那樣自動(dòng)搜索大量變招。

谷歌也在博客中表明：“Stockfish 等專業(yè)棋類引擎與 AlphaZero 已能多年保持超人水平，對(duì)任何邊界模型都將輕松取勝；而今日的大語言模型并未針對(duì)特定游戲優(yōu)化，因此表現(xiàn)遠(yuǎn)不及專業(yè)領(lǐng)域 AI?！?/p>

短期來看，Kaggle 比賽的挑戰(zhàn)在于幫助這些通用模型縮小差距。長期而言，其初衷還是希望大模型能不斷進(jìn)化，甚至在新引入的游戲環(huán)境中達(dá)到或超越目前的水平。

參考資料：

https://www.chess.com/article/view/chatgpt-gemini-play-chess

https://www.chess.com/news/view/which-ai-model-is-the-best-at-chess-kaggle-game-arena

https://blog.google/technology/ai/kaggle-game-arena/

https://www.theregister.com/2025/07/14/atari_chess_vs_gemini/

https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.