馬斯克和奧特曼的恩怨,可能要在 64 格的國際象棋棋盤上解決了。
就在 Kaggle 游戲競技場剛剛舉行的 AI 國際象棋錦標(biāo)賽半決賽中,o3 以 4:0 橫掃 o4 mini,而 Grok 4 與 Gemini 2.5 Pro 激戰(zhàn)五局,最終通過加時(shí)賽驚險(xiǎn)取勝。
此次比賽聚集了八款全球主流語言模型,其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等熱門選手,但遺憾的是,兩者均在首輪就被淘汰,未能進(jìn)入四強(qiáng)。
面對 Grok 4 的強(qiáng)勢發(fā)揮,實(shí)時(shí)追更賽況的馬斯克也是「裝」起來了:「xAI 在國際象棋上幾乎沒花什么心思。」
八大 AI 模型齊聚棋盤,上演棋王爭霸賽
本次比賽為期三天(當(dāng)?shù)貢r(shí)間 8 月 5 日-7 日),第一天決出 4 強(qiáng),第二天誕生決賽名單,第三天上演金牌和銅牌爭奪戰(zhàn)。參賽的八位 AI 選手分別是:
Anthropic 的 Claude Opus 4
DeepSeek 的 DeepSeek-R1
Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash
月之暗面的 Kimi k2
OpenAI 的 o3 和 o4-mini
xAI 的 Grok 4
有趣的是,在比賽陣容和規(guī)則公布后,作為參賽選手之一的 Kimi 在社交平臺上公開「吐槽」匹配機(jī)制,稱自己的推理版本尚未發(fā)布。
這場 AI 棋王爭霸賽由 Google 旗下的 Kaggle 舉辦。Kaggle 推出了一個(gè)名為 Game Arena(游戲競技場) 的全新 AI 基準(zhǔn)測試平臺,用于評估語言模型在策略游戲中的實(shí)際表現(xiàn)。
平臺基于標(biāo)準(zhǔn)化的游戲環(huán)境、測試框架、可視化工具和排行榜系統(tǒng),支持模型間實(shí)時(shí)對決與回放,并將比賽結(jié)果發(fā)布在 Kaggle Benchmarks 上進(jìn)行排名。
目前首個(gè)上線游戲?yàn)閲H象棋,用戶可在 kaggle.com/game-arena 瀏覽賽程、對陣圖和模型排名,未來還將加入更多游戲和模型,排行榜實(shí)時(shí)動(dòng)態(tài)更新。
今天最新的比賽結(jié)果已經(jīng)出爐:o3 和 Grok 4 挺進(jìn)決賽,而 o4 mini 和 Gemini 2.5 Pro 則將為銅牌展開最后一戰(zhàn)。
回顧昨日的首輪廝殺,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 戰(zhàn)績,分別淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。
與傳統(tǒng)依賴暴力計(jì)算的 AI 象棋程序截然不同,本次比賽采用了「Chess-Text Harness」規(guī)則體系,試圖全面檢驗(yàn)語言模型的純粹推理能力,包含以下關(guān)鍵限制:
模型禁止調(diào)用任何工具,比如它們不能直接調(diào)用 Stockfish 國際象棋引擎來獲得最佳走法
系統(tǒng)不會提供可能的合法走法列表,模型必須自己判斷
如果模型建議了一個(gè)非法走法,會給予最多 3 次重試機(jī)會。如果在總共四次嘗試后模型仍未提交合法走法,游戲?qū)⒔Y(jié)束。如果發(fā)生這種情況,游戲?qū)⑴卸ㄌ岢龇欠ㄗ叻ǖ哪P蜑檩?,另一方為贏
每步走法有 60 分鐘的超時(shí)限制
模型只能通過文本符號理解棋盤狀態(tài),無法依賴圖像識別
種種設(shè)置讓比賽更像是測試 AI 的「象棋智商」。正如 Kaggle 團(tuán)隊(duì)所說:「游戲是進(jìn)行穩(wěn)健 AI 評估的絕佳基礎(chǔ),它們考驗(yàn)?zāi)P驮趹?zhàn)略規(guī)劃、推理、記憶、適應(yīng),甚至『心智理論』等方面的能力?!?/p>
決賽再遇「老對手」,o3 和 Grok 4 冠軍爭奪戰(zhàn)打響
讓我們來回顧今天的比賽過程。
全程解說這場半決賽的是 YouTube 國際象棋界大 V GothamChess(Levy Rozman),坐擁 657 萬訂閱,不僅業(yè)務(wù)水平在線,吐槽功力也同樣不俗。
OpenAI 的兩個(gè)模型之間的對決毫無懸念。
o3 展現(xiàn)出了壓倒性的實(shí)力,以 4:0 橫掃 o4 mini,而最精彩的一幕出現(xiàn)在他們的一局中盤對決中。o4 mini 曾試圖設(shè)置一個(gè)極其罕見的將死陷阱——靠主教走 h4 制造一個(gè)不擋就死、擋也虧的局面。
Levy Rozman 表示:「那可能是史上最罕見的將死方式!」
然而 o3 不僅識破了陷阱,還冷靜地只用一步棋就化解了威脅,隨后通過精準(zhǔn)的戰(zhàn)術(shù)組合,用車滲透后排,最終以主教 b5 將死結(jié)束比賽。
當(dāng)然,真正的名場面出現(xiàn)在另一組對決——Grok 4 對陣 Gemini 2.5 Pro。
第一局,又是熟悉的西西里防御開局,但 Grok 4 很快就開始犯下一系列匪夷所思的錯(cuò)誤,沒下幾步,就把主教走到 f7,直接白給。
?。ㄗ⑨專何魑骼锓烙菄H象棋中黑方應(yīng)對白方 1.e4 的經(jīng)典開局,以 1…c5 非對稱反擊著稱,攻防兼?zhèn)?、?zhàn)術(shù)豐富,是最具侵略性的防御之一。)
隨后的局面更是一邊倒,Grok 在短短幾步內(nèi)就丟掉了皇后,Gemini 輕松獲勝。
第二局 Grok 的開局表現(xiàn)依然糟糕。它再次在開局階段就白送了一個(gè)騎士,但好在中后盤,扛住壓力的 Grok 打出極佳戰(zhàn)術(shù)組合,贏下了這盤棋。
Rozman 打趣道:「Grok 昨晚肯定在以 4:0 贏了 Gemini Flash 之后出去狂歡了,由于喝得酩酊大醉,現(xiàn)在才宿醉醒來?!?/p>
第三局開始,Grok 精準(zhǔn)地走出了前 11 步電腦最佳走法,展現(xiàn)出了 Stockfish 般的水準(zhǔn)。
雖然中盤又出現(xiàn)了一次失誤(犧牲騎士),但關(guān)鍵時(shí)刻,它找到了一個(gè)絕妙的戰(zhàn)術(shù)組合:通過推進(jìn) e5 兵,同時(shí)威脅對方的皇后和騎士,迫使 Gemini 陷入絕境。
「這太瘋狂了!」Rozman 解說道,「無論黑方用皇后還是騎士吃掉白方在 e5 的兵,白方都能重新吃回并形成一系列走法,使黑方至少損失一個(gè)騎士?!?/p>
最終 Grok 通過主教 b5 將軍,吃掉了 Gemini 的皇后,再次扳回一城。而 Gemini 贏下第四盤棋,成功將比賽拖入決勝局。
翹首以待,終于我們迎來了決賽局。
決勝局有個(gè)需要注意的特殊規(guī)則:如果和棋,執(zhí)黑的 Grok 獲勝,在國際象棋比賽中被稱為「Armageddon」(世界末日)賽制。
因?yàn)閳?zhí)白方天生有先手優(yōu)勢,為了平衡這種優(yōu)勢,在決勝局中會給黑棋一些補(bǔ)償,比如白棋必須贏棋才能獲勝、黑棋只需要和棋就算獲勝,有時(shí)還會給白棋更多思考時(shí)間(比如白棋 6 分鐘,黑棋 5 分鐘)。
Gemini 開局氣勢如虹,皇后深入腹地制造多重威脅,一度占據(jù)明顯優(yōu)勢。然而,在關(guān)鍵時(shí)刻,Gemini 的皇后走到了一個(gè)完全不設(shè)防的位置。
不出意外,Grok 毫不客氣地吃掉了對方的皇后,但戲劇性的一幕出現(xiàn)了,Grok 后續(xù)在占據(jù)優(yōu)勢(多一個(gè)皇后)的情況下,選擇了重復(fù)移動(dòng)棋子到相同的位置,導(dǎo)致了和棋。
?。ㄗ⑨專褐貜?fù)局面是國際象棋中的一個(gè)規(guī)則,當(dāng)完全相同的棋盤位置(包括所有棋子的位置、輪到誰走棋、易位權(quán)利等)出現(xiàn)三次時(shí),任何一方都可以申請和棋。這個(gè)規(guī)則的目的是防止比賽無限進(jìn)行下去。)
最后根據(jù)規(guī)則,和棋判定執(zhí)黑的 Grok 依舊獲勝?!窯rok 在我們見過的最精彩的 AI 對決之一中淘汰了 Gemini Pro!」Rozman 總結(jié)道。
隨著半決賽塵埃落定,明天當(dāng)?shù)貢r(shí)間(8 月 7 日)的決賽名單確定:OpenAI 的 o3 將迎戰(zhàn) xAI 的 Grok 4,一場映射著奧特曼與馬斯克恩怨情仇的巔峰對決,即將在棋盤上展開。
而 o4 mini 與 Gemini 2.5 Pro 的銅牌爭奪戰(zhàn)同樣值得期待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.