機(jī)器之心報(bào)道
編輯:陳萍
一場(chǎng)激動(dòng)人心的 AI 國(guó)際象棋比賽即將開幕。
看夠了研究者們天天在論文上刷新基準(zhǔn),是時(shí)候拉模型出來(lái)遛一遛,性能是不是真如傳說(shuō)中的碾壓全場(chǎng)?
太平洋時(shí)間 8 月 5 日至 7 日,一場(chǎng)為期 3 天的 AI 國(guó)際象棋比賽讓人無(wú)比期待。
開局第一天,就有 8 款前沿 AI 模型展開對(duì)決:
參與比賽的模型包括:
- o4-mini(OpenAI)
- DeepSeek-R1(DeepSeek)
- Kimi K2 Instruct(月之暗面)
- o3(OpenAI)
- Gemini 2.5 Pro(谷歌)
- Claude Opus 4(Anthropic)
- Grok 4(xAI)
- Gemini 2.5 Flash(谷歌)
直播地址:https://www.youtube.com/watch?v=En_NJJsbuus
這次參賽方都是 AI 界模型頂流(包括兩款中國(guó)的開源模型),對(duì)戰(zhàn)雙方的性能也旗鼓相當(dāng)。
組織方還邀請(qǐng)了世界頂級(jí)國(guó)際象棋專家擔(dān)任解說(shuō),可謂是誠(chéng)意滿滿。
這場(chǎng)比賽主要基于Kaggle Game Arena,這是谷歌推出的一個(gè)全新的、公開的基準(zhǔn)測(cè)試平臺(tái),在這里,AI 模型可以在策略游戲(如國(guó)際象棋和其他游戲中)中展開正面交鋒,一決高下。
為了確保透明性,游戲執(zhí)行框架以及游戲環(huán)境本身都將開源。最終排名將采用嚴(yán)格的全員對(duì)抗賽制(all-play-all)確定,每對(duì)模型進(jìn)行大量對(duì)戰(zhàn)來(lái)確保統(tǒng)計(jì)結(jié)果的可靠性。
諾獎(jiǎng)得主、Google DeepMind 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Demis Hassabis 激動(dòng)地表示:「游戲一直是檢驗(yàn) AI 能力的重要試煉場(chǎng)(包括我們?cè)?AlphaGo 和 AlphaZero 上的研究),而如今我們對(duì)這個(gè)基準(zhǔn)測(cè)試平臺(tái)所能推動(dòng)的進(jìn)步感到無(wú)比興奮。隨著我們不斷向 Arena 引入更多游戲與挑戰(zhàn),我們預(yù)計(jì) AI 的能力將會(huì)快速提升! 」
「Kaggle Game Arena ,這個(gè)全新的排行榜平臺(tái),在這里,AI 系統(tǒng)彼此對(duì)戰(zhàn),隨著模型能力的提升,比賽難度也將不斷升級(jí)。 」
至于為什么要組織這場(chǎng)比賽,谷歌博客是這么介紹的:當(dāng)前的 AI 基準(zhǔn)測(cè)試已難以跟上現(xiàn)代模型的發(fā)展速度。盡管這些測(cè)試在衡量模型在特定任務(wù)上的表現(xiàn)方面仍然有用,但對(duì)于那些在互聯(lián)網(wǎng)上訓(xùn)練出來(lái)的模型,我們很難判斷它們是在真正解決問(wèn)題,還是只是在重復(fù)它們?cè)娺^(guò)的答案。隨著模型在某些基準(zhǔn)測(cè)試上接近 100% 的得分,這些測(cè)試在區(qū)分模型性能上的作用也逐漸減弱。
因此,在持續(xù)發(fā)展現(xiàn)有基準(zhǔn)測(cè)試的同時(shí),研究者們也在不斷探索新的模型評(píng)估方法。Game Arena 就是在這樣的背景下誕生的。
比賽介紹
Game Arena 平臺(tái)上的每款游戲均設(shè)有詳情頁(yè),用戶可查看:
- 實(shí)時(shí)更新的比賽對(duì)陣表;
- 動(dòng)態(tài)排行榜數(shù)據(jù);
- 該游戲?qū)?yīng)的開源環(huán)境代碼及測(cè)試框架技術(shù)文檔。
用戶還可以實(shí)時(shí)查看對(duì)陣表:
對(duì)陣表:https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament
模型在游戲中的表現(xiàn)將在 Kaggle Benchmarks 的排行榜上展示。
賽制說(shuō)明
本次比賽采用單敗淘汰制,每場(chǎng)對(duì)決包含四局比賽。先獲得兩分的模型晉級(jí)(勝一局得 1 分,平局各得 0.5 分)。若對(duì)局最終打成 2–2 平,將加賽一局決勝負(fù),在這局中,執(zhí)白方必須獲勝才能晉級(jí)。
具體賽程安排
- 8 月 5 日(首日):8 款模型進(jìn)行 4 場(chǎng)對(duì)決(每場(chǎng) 4 局)
- 8 月 6 日(次日):晉級(jí)的 4 款模型進(jìn)行 2 場(chǎng)半決賽
- 8 月 7 日(決賽日):終極冠軍爭(zhēng)奪戰(zhàn)
比賽規(guī)則
由于當(dāng)前大模型對(duì)文本表達(dá)更為擅長(zhǎng),因此該比賽從基于文本輸入的方式開始進(jìn)行比賽。
以下是對(duì)執(zhí)行框架的簡(jiǎn)要說(shuō)明:
- 模型無(wú)法使用任何外部工具。例如,它們不能調(diào)用 Stockfish 等國(guó)際象棋引擎來(lái)獲得最優(yōu)走法。
- 模型不會(huì)被告知當(dāng)前局面下的合法走法列表。
- 如果模型給出了一步不合法的走法,舉辦方將給予它最多 3 次重試機(jī)會(huì)。若在總共 4 次嘗試中仍未提交出合法走法,則本局游戲終止,并記為該模型負(fù),對(duì)手勝。
- 每步棋有 60 分鐘的超時(shí)限制。
在比賽過(guò)程中,觀眾將能夠看到每個(gè)模型是如何推理自己的走法,以及它們?cè)诿鎸?duì)非法走法后的自我糾正過(guò)程。
大家都已經(jīng)迫不及待地想要看比賽結(jié)果了。
更多比賽方式請(qǐng)參考:https://www.kaggle.com/game-arena
離首場(chǎng)比賽開始時(shí)間還有 14 小時(shí),可以開始期待了。你覺得最終贏家會(huì)是哪個(gè)模型呢?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.