第一屆“AI 國際象棋棋王爭霸賽”正式開打!
當(dāng)?shù)貢r(shí)間 8 月 5 號(hào),這場由谷歌和 Kaggle 舉辦的線上大模型國際象棋比賽開啟了為期三天的直播。
目前,第一天的成績已經(jīng)出爐。
(來源:Kaggle)
上半?yún)^(qū),來自中國的兩款大模型,DeepSeek-R1 和 Kimi K2 Instruct 分別不敵 o4 mini 和 o3,以 0:4 的成績雙雙落敗。
下半?yún)^(qū),谷歌Gemini 2.5 Pro 擊敗了 Claude Opus 4,但自家小兄弟 Gemini 2.5 Flash 不敵 Grok 4。
可以看出,所有比賽都是一邊倒的情形,獲勝模型都是 4 局全勝。
但不同對(duì)手間的比賽也有快有慢。最快的是 o3 VS Kimi K2,四小局比賽總共才用了不到半小時(shí):主要原因是 Kimi K2 不停犯錯(cuò),選擇的落子位置連續(xù)違反國際象棋規(guī)則(稍后會(huì)解釋具體游戲規(guī)則)。
(來源:Kaggle)
而最久的比賽來自 o4-mini VS DeepSeek R1,用了近兩個(gè)小時(shí)才結(jié)束整場比賽,說明雙方還是很旗鼓相當(dāng)?shù)摹?/p>
圖 | o4-mini 戰(zhàn)勝 DeepSeek R1 的最后一手(來源:Kaggle)
明天,這場“AI 棋王爭霸賽”將繼續(xù),o4 mini 和 o3 將上演同門之爭,而谷歌 Gemini 2.5 Pro 將對(duì)戰(zhàn) Grok 4。
值得注意的是,這些直播比賽的性質(zhì)是表演賽,Kaggle 計(jì)劃在后臺(tái)運(yùn)行更多對(duì)決,最終目標(biāo)是生成一個(gè)具有統(tǒng)計(jì)意義的“AI 棋王”排行榜。
(來源:Kaggle)
這場比賽是在 Kaggle 游戲競技場(Game Arena)進(jìn)行的。
它是 Kaggle 與谷歌 DeepMind 聯(lián)合推出的全新 AI 基準(zhǔn)測試平臺(tái),旨在讓領(lǐng)先的人工智能模型在國際象棋等復(fù)雜策略游戲中展開正面較量。
與以往靜態(tài)任務(wù)不同,該平臺(tái)通過對(duì)抗競技的方式進(jìn)行評(píng)測:各參賽模型需要在明確的勝負(fù)條件下進(jìn)行多輪對(duì)局,其勝負(fù)結(jié)果即為模型能力的直接量化指標(biāo)。
谷歌表示,這一動(dòng)態(tài)測試方式有效避免了傳統(tǒng)基準(zhǔn)測試可能出現(xiàn)的“背題”問題,使其能夠“超越靜態(tài)分?jǐn)?shù)”,更深入地觀察 AI 在真實(shí)競爭環(huán)境中的表現(xiàn)。
圖 | 參賽的八個(gè)模型(來源:Kaggle)
這一理念的起點(diǎn)是棋盤游戲的天然優(yōu)勢:國際象棋等游戲具有結(jié)構(gòu)化和可量化的勝利標(biāo)準(zhǔn),能夠考驗(yàn)?zāi)P偷牟呗酝评?、長遠(yuǎn)規(guī)劃和動(dòng)態(tài)應(yīng)變能力,并隨著對(duì)手強(qiáng)度的提高而自動(dòng)提升難度。
事實(shí)上,谷歌 DeepMind 早在 2017 年就通過 AlphaZero 項(xiàng)目證明了自我對(duì)弈的威力:AlphaZero 僅用強(qiáng)化學(xué)習(xí)自學(xué)棋藝數(shù)小時(shí),即以壓倒性優(yōu)勢在 100 局比賽中戰(zhàn)勝當(dāng)時(shí)最強(qiáng)的國際象棋引擎 Stockfish。
不過,參加 Kaggle 對(duì)決的模型并非專用棋類引擎,而是以大型語言模型(LLM)為代表的通用 AI。
這些模型目前的棋力還遠(yuǎn)低于 AlphaZero,多數(shù)僅處于業(yè)余水平,并且經(jīng)常出現(xiàn)非法落子或荒唐認(rèn)輸?shù)儒e(cuò)誤——在直播中也屢見不鮮,而且有的大模型還很執(zhí)著,即使給它重新思考的機(jī)會(huì),它也經(jīng)常固執(zhí)己見。
盡管如此,它們能夠輸出對(duì)每一步棋的“思考過程”說明,這是傳統(tǒng)引擎所不具備的特點(diǎn)。這種動(dòng)態(tài)對(duì)抗不僅記錄勝負(fù),還讓我們得以探知 AI 的“思維過程”,為AI 戰(zhàn)略智能的發(fā)展提供了獨(dú)特視角。
(來源:Kaggle)
賽事以模擬對(duì)局方式進(jìn)行并同步在線直播,著名國際象棋大師也參與其中,包括國際象棋特級(jí)大師中村光(Hikaru Nakamura)、國際象棋特級(jí)大師馬格努斯·卡爾森(Magnus Carlsen)和國際象棋網(wǎng)紅萊維·羅斯曼(Levy Rozman,即 GothamChess)。
賽事采用單敗淘汰賽制,參賽模型通過賽前預(yù)熱賽確定種子排名,然后進(jìn)入對(duì)陣表。
谷歌表示,“排名靠前的模型將面對(duì)排名較低的對(duì)手,以確保平衡的排名,并防止兩個(gè)最強(qiáng)種子在決賽前相遇?!?/p>
每場對(duì)決按照標(biāo)準(zhǔn)的棋盤規(guī)則執(zhí)行,賽后 Kaggle 還將在其平臺(tái)上維護(hù)一個(gè)類似 Elo 的實(shí)時(shí)排行榜,用于跟蹤所有模型的表現(xiàn)。在未來計(jì)入排行榜的對(duì)決中,所有模型間將進(jìn)行全對(duì)弈(all-play-all)的形式對(duì)局:即每一對(duì)模型至少對(duì)弈上百局,以獲得統(tǒng)計(jì)穩(wěn)定的排名結(jié)果。
評(píng)分系統(tǒng)采用類似高斯分布的動(dòng)態(tài)估計(jì),勝者評(píng)分上升、敗者下降,平局則雙方分?jǐn)?shù)向均值靠攏。更新幅度取決于對(duì)局結(jié)果與比賽前預(yù)期勝率的偏差,以及各模型評(píng)分的不確定度(σ 值)。隨著比賽進(jìn)行,每個(gè)模型的 σ 逐漸降低,評(píng)分趨于穩(wěn)定。
這種機(jī)制類似國際象棋的 Elo 體系,使得模型實(shí)力隨著更多對(duì)局累積得到不斷校準(zhǔn)和量化。通過比賽產(chǎn)生的全局對(duì)局?jǐn)?shù)據(jù),Kaggle 會(huì)不斷完善各模型的能力計(jì)算方式,公眾可隨時(shí)在排行榜頁面查看最新排名和對(duì)局記錄。
值得注意的是,為了公平性和可分析性,所有參賽模型都以文本輸入輸出的方式進(jìn)行對(duì)局,并被禁止調(diào)用任何外部棋力計(jì)算工具。
圖 | Kaggle 游戲競技場介紹(來源:Kaggle)
每一步,比賽平臺(tái)向模型提供當(dāng)前棋盤狀態(tài)(采用 Forsyth-Edwards 記譜法)及棋譜歷史(采用 PGN 格式),模型必須以標(biāo)準(zhǔn)代數(shù)記譜(SAN)格式給出下一步合法落子。
模型不會(huì)被直接告知可行走法列表,必須自主判斷后輸出答案;如果模型輸出了非法走法,則會(huì)被提示重試,最多允許四次嘗試(一次初始提交加三次重試)。若模型仍無法給出合法走法,則該局判定為模型的失利,勝者贏得比賽。
同樣,為了節(jié)奏控制,每一步棋設(shè)有 60 分鐘的應(yīng)答時(shí)限。比賽直播除了記錄對(duì)局結(jié)果,還會(huì)嘗試展示每個(gè)模型的思考過程——即模型在每走一步前的輸出內(nèi)容,為賽后分析模型行為提供素材。
至于為何將棋類游戲作為 AI 能力評(píng)估的標(biāo)尺?
谷歌團(tuán)隊(duì)指出,棋局比賽提供了清晰且嚴(yán)格的成功信號(hào),能夠全面考察模型的綜合推理能力。由于國際象棋的復(fù)雜性和變化性,無論是開局還是殘局,模型都必須處理動(dòng)態(tài)變化的對(duì)抗局面,并策劃多步行動(dòng)才能取勝。
這一點(diǎn)與企業(yè)和現(xiàn)實(shí)生活中的許多復(fù)雜決策過程有相似之處:需要戰(zhàn)略規(guī)劃、記憶歷史信息、應(yīng)變對(duì)手策略,甚至涉及一定的心智理論,即推測對(duì)方意圖。
值得一提的是,目前絕大多數(shù)大型語言模型并非專門為下棋設(shè)計(jì),因此在棋盤上表現(xiàn)并不突出。不同于傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法,它們既沒有訪問專門的棋庫,也無法像專業(yè)引擎那樣自動(dòng)搜索大量變招。
谷歌也在博客中表明:“Stockfish 等專業(yè)棋類引擎與 AlphaZero 已能多年保持超人水平,對(duì)任何邊界模型都將輕松取勝;而今日的大語言模型并未針對(duì)特定游戲優(yōu)化,因此表現(xiàn)遠(yuǎn)不及專業(yè)領(lǐng)域 AI?!?/p>
短期來看,Kaggle 比賽的挑戰(zhàn)在于幫助這些通用模型縮小差距。長期而言,其初衷還是希望大模型能不斷進(jìn)化,甚至在新引入的游戲環(huán)境中達(dá)到或超越目前的水平。
參考資料:
https://www.chess.com/article/view/chatgpt-gemini-play-chess
https://www.chess.com/news/view/which-ai-model-is-the-best-at-chess-kaggle-game-arena
https://blog.google/technology/ai/kaggle-game-arena/
https://www.theregister.com/2025/07/14/atari_chess_vs_gemini/
https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.