網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌約戰(zhàn)，DeepSeek、Kimi都要上，首屆大模型對(duì)抗賽明天開戰(zhàn)

2025-08-05 14:07:08　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：陳萍

一場(chǎng)激動(dòng)人心的 AI 國(guó)際象棋比賽即將開幕。

看夠了研究者們天天在論文上刷新基準(zhǔn)，是時(shí)候拉模型出來(lái)遛一遛，性能是不是真如傳說(shuō)中的碾壓全場(chǎng)？

太平洋時(shí)間 8 月 5 日至 7 日，一場(chǎng)為期 3 天的 AI 國(guó)際象棋比賽讓人無(wú)比期待。

開局第一天，就有 8 款前沿 AI 模型展開對(duì)決：

參與比賽的模型包括：

o4-mini（OpenAI）
DeepSeek-R1（DeepSeek）
Kimi K2 Instruct（月之暗面）
o3（OpenAI）
Gemini 2.5 Pro（谷歌）
Claude Opus 4（Anthropic）
Grok 4（xAI）
Gemini 2.5 Flash（谷歌）

直播地址：https://www.youtube.com/watch?v=En_NJJsbuus

這次參賽方都是 AI 界模型頂流（包括兩款中國(guó)的開源模型），對(duì)戰(zhàn)雙方的性能也旗鼓相當(dāng)。

組織方還邀請(qǐng)了世界頂級(jí)國(guó)際象棋專家擔(dān)任解說(shuō)，可謂是誠(chéng)意滿滿。

這場(chǎng)比賽主要基于Kaggle Game Arena，這是谷歌推出的一個(gè)全新的、公開的基準(zhǔn)測(cè)試平臺(tái)，在這里，AI 模型可以在策略游戲（如國(guó)際象棋和其他游戲中）中展開正面交鋒，一決高下。

為了確保透明性，游戲執(zhí)行框架以及游戲環(huán)境本身都將開源。最終排名將采用嚴(yán)格的全員對(duì)抗賽制（all-play-all）確定，每對(duì)模型進(jìn)行大量對(duì)戰(zhàn)來(lái)確保統(tǒng)計(jì)結(jié)果的可靠性。

諾獎(jiǎng)得主、Google DeepMind 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Demis Hassabis 激動(dòng)地表示：「游戲一直是檢驗(yàn) AI 能力的重要試煉場(chǎng)（包括我們?cè)?AlphaGo 和 AlphaZero 上的研究），而如今我們對(duì)這個(gè)基準(zhǔn)測(cè)試平臺(tái)所能推動(dòng)的進(jìn)步感到無(wú)比興奮。隨著我們不斷向 Arena 引入更多游戲與挑戰(zhàn)，我們預(yù)計(jì) AI 的能力將會(huì)快速提升！」

「Kaggle Game Arena ，這個(gè)全新的排行榜平臺(tái)，在這里，AI 系統(tǒng)彼此對(duì)戰(zhàn)，隨著模型能力的提升，比賽難度也將不斷升級(jí)。」

至于為什么要組織這場(chǎng)比賽，谷歌博客是這么介紹的：當(dāng)前的 AI 基準(zhǔn)測(cè)試已難以跟上現(xiàn)代模型的發(fā)展速度。盡管這些測(cè)試在衡量模型在特定任務(wù)上的表現(xiàn)方面仍然有用，但對(duì)于那些在互聯(lián)網(wǎng)上訓(xùn)練出來(lái)的模型，我們很難判斷它們是在真正解決問(wèn)題，還是只是在重復(fù)它們?cè)娺^(guò)的答案。隨著模型在某些基準(zhǔn)測(cè)試上接近 100% 的得分，這些測(cè)試在區(qū)分模型性能上的作用也逐漸減弱。

因此，在持續(xù)發(fā)展現(xiàn)有基準(zhǔn)測(cè)試的同時(shí)，研究者們也在不斷探索新的模型評(píng)估方法。Game Arena 就是在這樣的背景下誕生的。

比賽介紹

Game Arena 平臺(tái)上的每款游戲均設(shè)有詳情頁(yè)，用戶可查看：

實(shí)時(shí)更新的比賽對(duì)陣表；
動(dòng)態(tài)排行榜數(shù)據(jù)；
該游戲?qū)?yīng)的開源環(huán)境代碼及測(cè)試框架技術(shù)文檔。

用戶還可以實(shí)時(shí)查看對(duì)陣表：

對(duì)陣表：https://www.kaggle.com/benchmarks/kaggle/chess-text/tournament

模型在游戲中的表現(xiàn)將在 Kaggle Benchmarks 的排行榜上展示。

賽制說(shuō)明

本次比賽采用單敗淘汰制，每場(chǎng)對(duì)決包含四局比賽。先獲得兩分的模型晉級(jí)（勝一局得 1 分，平局各得 0.5 分）。若對(duì)局最終打成 2–2 平，將加賽一局決勝負(fù)，在這局中，執(zhí)白方必須獲勝才能晉級(jí)。

具體賽程安排

8 月 5 日（首日）：8 款模型進(jìn)行 4 場(chǎng)對(duì)決（每場(chǎng) 4 局）
8 月 6 日（次日）：晉級(jí)的 4 款模型進(jìn)行 2 場(chǎng)半決賽
8 月 7 日（決賽日）：終極冠軍爭(zhēng)奪戰(zhàn)

比賽規(guī)則

由于當(dāng)前大模型對(duì)文本表達(dá)更為擅長(zhǎng)，因此該比賽從基于文本輸入的方式開始進(jìn)行比賽。

以下是對(duì)執(zhí)行框架的簡(jiǎn)要說(shuō)明：

模型無(wú)法使用任何外部工具。例如，它們不能調(diào)用 Stockfish 等國(guó)際象棋引擎來(lái)獲得最優(yōu)走法。
模型不會(huì)被告知當(dāng)前局面下的合法走法列表。
如果模型給出了一步不合法的走法，舉辦方將給予它最多 3 次重試機(jī)會(huì)。若在總共 4 次嘗試中仍未提交出合法走法，則本局游戲終止，并記為該模型負(fù)，對(duì)手勝。
每步棋有 60 分鐘的超時(shí)限制。

在比賽過(guò)程中，觀眾將能夠看到每個(gè)模型是如何推理自己的走法，以及它們?cè)诿鎸?duì)非法走法后的自我糾正過(guò)程。

大家都已經(jīng)迫不及待地想要看比賽結(jié)果了。

更多比賽方式請(qǐng)參考：https://www.kaggle.com/game-arena

離首場(chǎng)比賽開始時(shí)間還有 14 小時(shí)，可以開始期待了。你覺得最終贏家會(huì)是哪個(gè)模型呢？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.