夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Kaggle游戲競技場開賽:語言模型棋藝業(yè)余,AlphaZero仍是天花板

0
分享至

第一屆“AI 國際象棋棋王爭霸賽”正式開打!

當(dāng)?shù)貢r(shí)間 8 月 5 號(hào),這場由谷歌和 Kaggle 舉辦的線上大模型國際象棋比賽開啟了為期三天的直播。

目前,第一天的成績已經(jīng)出爐。


(來源:Kaggle)

上半?yún)^(qū),來自中國的兩款大模型,DeepSeek-R1 和 Kimi K2 Instruct 分別不敵 o4 mini 和 o3,以 0:4 的成績雙雙落敗。

下半?yún)^(qū),谷歌Gemini 2.5 Pro 擊敗了 Claude Opus 4,但自家小兄弟 Gemini 2.5 Flash 不敵 Grok 4。

可以看出,所有比賽都是一邊倒的情形,獲勝模型都是 4 局全勝。

但不同對(duì)手間的比賽也有快有慢。最快的是 o3 VS Kimi K2,四小局比賽總共才用了不到半小時(shí):主要原因是 Kimi K2 不停犯錯(cuò),選擇的落子位置連續(xù)違反國際象棋規(guī)則(稍后會(huì)解釋具體游戲規(guī)則)。


(來源:Kaggle)

而最久的比賽來自 o4-mini VS DeepSeek R1,用了近兩個(gè)小時(shí)才結(jié)束整場比賽,說明雙方還是很旗鼓相當(dāng)?shù)摹?/p>


圖 | o4-mini 戰(zhàn)勝 DeepSeek R1 的最后一手(來源:Kaggle)

明天,這場“AI 棋王爭霸賽”將繼續(xù),o4 mini 和 o3 將上演同門之爭,而谷歌 Gemini 2.5 Pro 將對(duì)戰(zhàn) Grok 4。

值得注意的是,這些直播比賽的性質(zhì)是表演賽,Kaggle 計(jì)劃在后臺(tái)運(yùn)行更多對(duì)決,最終目標(biāo)是生成一個(gè)具有統(tǒng)計(jì)意義的“AI 棋王”排行榜。


(來源:Kaggle)

這場比賽是在 Kaggle 游戲競技場(Game Arena)進(jìn)行的。

它是 Kaggle 與谷歌 DeepMind 聯(lián)合推出的全新 AI 基準(zhǔn)測試平臺(tái),旨在讓領(lǐng)先的人工智能模型在國際象棋等復(fù)雜策略游戲中展開正面較量。

與以往靜態(tài)任務(wù)不同,該平臺(tái)通過對(duì)抗競技的方式進(jìn)行評(píng)測:各參賽模型需要在明確的勝負(fù)條件下進(jìn)行多輪對(duì)局,其勝負(fù)結(jié)果即為模型能力的直接量化指標(biāo)。

谷歌表示,這一動(dòng)態(tài)測試方式有效避免了傳統(tǒng)基準(zhǔn)測試可能出現(xiàn)的“背題”問題,使其能夠“超越靜態(tài)分?jǐn)?shù)”,更深入地觀察 AI 在真實(shí)競爭環(huán)境中的表現(xiàn)。


圖 | 參賽的八個(gè)模型(來源:Kaggle)

這一理念的起點(diǎn)是棋盤游戲的天然優(yōu)勢:國際象棋等游戲具有結(jié)構(gòu)化和可量化的勝利標(biāo)準(zhǔn),能夠考驗(yàn)?zāi)P偷牟呗酝评?、長遠(yuǎn)規(guī)劃和動(dòng)態(tài)應(yīng)變能力,并隨著對(duì)手強(qiáng)度的提高而自動(dòng)提升難度。

事實(shí)上,谷歌 DeepMind 早在 2017 年就通過 AlphaZero 項(xiàng)目證明了自我對(duì)弈的威力:AlphaZero 僅用強(qiáng)化學(xué)習(xí)自學(xué)棋藝數(shù)小時(shí),即以壓倒性優(yōu)勢在 100 局比賽中戰(zhàn)勝當(dāng)時(shí)最強(qiáng)的國際象棋引擎 Stockfish。

不過,參加 Kaggle 對(duì)決的模型并非專用棋類引擎,而是以大型語言模型(LLM)為代表的通用 AI。

這些模型目前的棋力還遠(yuǎn)低于 AlphaZero,多數(shù)僅處于業(yè)余水平,并且經(jīng)常出現(xiàn)非法落子或荒唐認(rèn)輸?shù)儒e(cuò)誤——在直播中也屢見不鮮,而且有的大模型還很執(zhí)著,即使給它重新思考的機(jī)會(huì),它也經(jīng)常固執(zhí)己見。

盡管如此,它們能夠輸出對(duì)每一步棋的“思考過程”說明,這是傳統(tǒng)引擎所不具備的特點(diǎn)。這種動(dòng)態(tài)對(duì)抗不僅記錄勝負(fù),還讓我們得以探知 AI 的“思維過程”,為AI 戰(zhàn)略智能的發(fā)展提供了獨(dú)特視角。


(來源:Kaggle)

賽事以模擬對(duì)局方式進(jìn)行并同步在線直播,著名國際象棋大師也參與其中,包括國際象棋特級(jí)大師中村光(Hikaru Nakamura)、國際象棋特級(jí)大師馬格努斯·卡爾森(Magnus Carlsen)和國際象棋網(wǎng)紅萊維·羅斯曼(Levy Rozman,即 GothamChess)。

賽事采用單敗淘汰賽制,參賽模型通過賽前預(yù)熱賽確定種子排名,然后進(jìn)入對(duì)陣表。

谷歌表示,“排名靠前的模型將面對(duì)排名較低的對(duì)手,以確保平衡的排名,并防止兩個(gè)最強(qiáng)種子在決賽前相遇?!?/p>

每場對(duì)決按照標(biāo)準(zhǔn)的棋盤規(guī)則執(zhí)行,賽后 Kaggle 還將在其平臺(tái)上維護(hù)一個(gè)類似 Elo 的實(shí)時(shí)排行榜,用于跟蹤所有模型的表現(xiàn)。在未來計(jì)入排行榜的對(duì)決中,所有模型間將進(jìn)行全對(duì)弈(all-play-all)的形式對(duì)局:即每一對(duì)模型至少對(duì)弈上百局,以獲得統(tǒng)計(jì)穩(wěn)定的排名結(jié)果。

評(píng)分系統(tǒng)采用類似高斯分布的動(dòng)態(tài)估計(jì),勝者評(píng)分上升、敗者下降,平局則雙方分?jǐn)?shù)向均值靠攏。更新幅度取決于對(duì)局結(jié)果與比賽前預(yù)期勝率的偏差,以及各模型評(píng)分的不確定度(σ 值)。隨著比賽進(jìn)行,每個(gè)模型的 σ 逐漸降低,評(píng)分趨于穩(wěn)定。

這種機(jī)制類似國際象棋的 Elo 體系,使得模型實(shí)力隨著更多對(duì)局累積得到不斷校準(zhǔn)和量化。通過比賽產(chǎn)生的全局對(duì)局?jǐn)?shù)據(jù),Kaggle 會(huì)不斷完善各模型的能力計(jì)算方式,公眾可隨時(shí)在排行榜頁面查看最新排名和對(duì)局記錄。

值得注意的是,為了公平性和可分析性,所有參賽模型都以文本輸入輸出的方式進(jìn)行對(duì)局,并被禁止調(diào)用任何外部棋力計(jì)算工具。


圖 | Kaggle 游戲競技場介紹(來源:Kaggle)

每一步,比賽平臺(tái)向模型提供當(dāng)前棋盤狀態(tài)(采用 Forsyth-Edwards 記譜法)及棋譜歷史(采用 PGN 格式),模型必須以標(biāo)準(zhǔn)代數(shù)記譜(SAN)格式給出下一步合法落子。

模型不會(huì)被直接告知可行走法列表,必須自主判斷后輸出答案;如果模型輸出了非法走法,則會(huì)被提示重試,最多允許四次嘗試(一次初始提交加三次重試)。若模型仍無法給出合法走法,則該局判定為模型的失利,勝者贏得比賽。

同樣,為了節(jié)奏控制,每一步棋設(shè)有 60 分鐘的應(yīng)答時(shí)限。比賽直播除了記錄對(duì)局結(jié)果,還會(huì)嘗試展示每個(gè)模型的思考過程——即模型在每走一步前的輸出內(nèi)容,為賽后分析模型行為提供素材。

至于為何將棋類游戲作為 AI 能力評(píng)估的標(biāo)尺?

谷歌團(tuán)隊(duì)指出,棋局比賽提供了清晰且嚴(yán)格的成功信號(hào),能夠全面考察模型的綜合推理能力。由于國際象棋的復(fù)雜性和變化性,無論是開局還是殘局,模型都必須處理動(dòng)態(tài)變化的對(duì)抗局面,并策劃多步行動(dòng)才能取勝。

這一點(diǎn)與企業(yè)和現(xiàn)實(shí)生活中的許多復(fù)雜決策過程有相似之處:需要戰(zhàn)略規(guī)劃、記憶歷史信息、應(yīng)變對(duì)手策略,甚至涉及一定的心智理論,即推測對(duì)方意圖。

值得一提的是,目前絕大多數(shù)大型語言模型并非專門為下棋設(shè)計(jì),因此在棋盤上表現(xiàn)并不突出。不同于傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法,它們既沒有訪問專門的棋庫,也無法像專業(yè)引擎那樣自動(dòng)搜索大量變招。

谷歌也在博客中表明:“Stockfish 等專業(yè)棋類引擎與 AlphaZero 已能多年保持超人水平,對(duì)任何邊界模型都將輕松取勝;而今日的大語言模型并未針對(duì)特定游戲優(yōu)化,因此表現(xiàn)遠(yuǎn)不及專業(yè)領(lǐng)域 AI?!?/p>

短期來看,Kaggle 比賽的挑戰(zhàn)在于幫助這些通用模型縮小差距。長期而言,其初衷還是希望大模型能不斷進(jìn)化,甚至在新引入的游戲環(huán)境中達(dá)到或超越目前的水平。

參考資料:

https://www.chess.com/article/view/chatgpt-gemini-play-chess

https://www.chess.com/news/view/which-ai-model-is-the-best-at-chess-kaggle-game-arena

https://blog.google/technology/ai/kaggle-game-arena/

https://www.theregister.com/2025/07/14/atari_chess_vs_gemini/

https://www.kaggle.com/benchmarks/kaggle/chess-text/leaderboard

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
笑死了!暑假中國學(xué)生滿世界寫作業(yè)!網(wǎng)友:作業(yè)本它比我還走得遠(yuǎn)

笑死了!暑假中國學(xué)生滿世界寫作業(yè)!網(wǎng)友:作業(yè)本它比我還走得遠(yuǎn)

悠閑歷史
2025-08-05 16:31:57
拒絕山西,迪亞洛發(fā)聲,新球隊(duì)或曝光,年薪超200萬,曾嘲諷杜鋒

拒絕山西,迪亞洛發(fā)聲,新球隊(duì)或曝光,年薪超200萬,曾嘲諷杜鋒

東球弟
2025-08-06 11:33:21
女子晚上喝得酩酊大醉,躺在燒烤攤的桌子上睡著了:天亮了還沒醒

女子晚上喝得酩酊大醉,躺在燒烤攤的桌子上睡著了:天亮了還沒醒

唐小糖說情感
2025-08-02 13:10:22
當(dāng)年,新中國是如何將內(nèi)蒙古從“梅毒王國”里解救出來的?

當(dāng)年,新中國是如何將內(nèi)蒙古從“梅毒王國”里解救出來的?

阿胡
2025-08-02 16:16:18
“秋老虎有沒有,就看立秋”,今年立秋后熱多久,秋老虎兇不兇?

“秋老虎有沒有,就看立秋”,今年立秋后熱多久,秋老虎兇不兇?

農(nóng)夫也瘋狂
2025-08-07 09:32:55
湖北降雨中心已定!今晨至明天8月8號(hào)天氣預(yù)報(bào),大雨暴雨分布如下

湖北降雨中心已定!今晨至明天8月8號(hào)天氣預(yù)報(bào),大雨暴雨分布如下

望東升
2025-08-07 04:40:03
美籍外教被西南財(cái)大解聘,離開一年后成諾獎(jiǎng)獲得者,西財(cái)有些后悔

美籍外教被西南財(cái)大解聘,離開一年后成諾獎(jiǎng)獲得者,西財(cái)有些后悔

今墨緣
2025-08-01 12:18:56
中韓青年態(tài)度大反轉(zhuǎn):韓國厭華成風(fēng),中國青年“看不上”韓國?

中韓青年態(tài)度大反轉(zhuǎn):韓國厭華成風(fēng),中國青年“看不上”韓國?

甜檸聊史
2025-08-06 07:56:47
火爆“蘇小超”決賽蘇州擊敗南通奪冠,馬寧執(zhí)法&近3萬人觀戰(zhàn)

火爆“蘇小超”決賽蘇州擊敗南通奪冠,馬寧執(zhí)法&近3萬人觀戰(zhàn)

直播吧
2025-08-06 21:34:04
等不及俄倒下,7國分5路攻擊中國,打擊目標(biāo)已鎖定,中方不退一步

等不及俄倒下,7國分5路攻擊中國,打擊目標(biāo)已鎖定,中方不退一步

南權(quán)先生
2025-08-06 11:52:05
黃曉明透露baby不讓小海綿去他和葉珂那里,對(duì)baby的稱呼亮了

黃曉明透露baby不讓小海綿去他和葉珂那里,對(duì)baby的稱呼亮了

娛樂小丸子
2025-08-04 17:55:53
收手吧“資本家的丑孩子”,沒顏值沒演技,請(qǐng)不要出來禍害觀眾!

收手吧“資本家的丑孩子”,沒顏值沒演技,請(qǐng)不要出來禍害觀眾!

老呶侃史
2025-08-06 11:01:37
麥當(dāng)勞落戶寧夏最新進(jìn)展!5市都將有門店→

麥當(dāng)勞落戶寧夏最新進(jìn)展!5市都將有門店→

魯中晨報(bào)
2025-08-07 09:04:07
釋永信倒臺(tái)后,老鄉(xiāng)才敢說實(shí)話,當(dāng)年他想兩三萬一戶買下整個(gè)村

釋永信倒臺(tái)后,老鄉(xiāng)才敢說實(shí)話,當(dāng)年他想兩三萬一戶買下整個(gè)村

簡讀視覺
2025-08-04 20:10:55
菲總統(tǒng)候選人莫雷諾:如果當(dāng)選,我會(huì)讓菲律賓成為下一個(gè)新加坡!

菲總統(tǒng)候選人莫雷諾:如果當(dāng)選,我會(huì)讓菲律賓成為下一個(gè)新加坡!

聞識(shí)
2025-07-17 17:15:55
謝霆鋒缺席兒子18歲成人禮,張柏芝攜兩兄弟慶生,評(píng)論區(qū)吵翻了

謝霆鋒缺席兒子18歲成人禮,張柏芝攜兩兄弟慶生,評(píng)論區(qū)吵翻了

說歷史的老牢
2025-08-04 18:23:04
比亞迪做夢也沒想到啊!2秒之內(nèi)硬抗3次雷擊,這可以吹一輩子了…

比亞迪做夢也沒想到啊!2秒之內(nèi)硬抗3次雷擊,這可以吹一輩子了…

火山詩話
2025-08-07 09:39:15
25%關(guān)稅!剛剛,美國宣布!直線跳水

25%關(guān)稅!剛剛,美國宣布!直線跳水

證券時(shí)報(bào)
2025-08-06 23:36:03
金晨鼻子失去部分功能的瓜

金晨鼻子失去部分功能的瓜

熱鬧吃瓜大姐
2025-08-05 17:29:09
深圳電車黨:車可以全款40萬拿下,電只充5毛/度的深夜“拼好電”

深圳電車黨:車可以全款40萬拿下,電只充5毛/度的深夜“拼好電”

深圳微時(shí)光
2025-08-06 18:13:51
2025-08-07 10:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15495文章數(shù) 513968關(guān)注度
往期回顧 全部

游戲要聞

《王國之心》初代初期并非“爆款” 作曲家曾憂系列夭折

頭條要聞

牛彈琴:印度的美夢徹底破滅 特朗普對(duì)印使出最狠的招

頭條要聞

牛彈琴:印度的美夢徹底破滅 特朗普對(duì)印使出最狠的招

體育要聞

文班接受加內(nèi)特指導(dǎo) 此前曾在少林寺練功夫

娛樂要聞

趙露思直播 被關(guān)酒店驅(qū)魔只是冰山一角

財(cái)經(jīng)要聞

復(fù)旦孫金云:內(nèi)卷破局關(guān)鍵在于兩條路徑

科技要聞

蘋果宣布在美追加千億投資,股價(jià)應(yīng)聲漲5%

汽車要聞

GTS回歸GT不熄:凌渡L憑何成年輕人第一臺(tái)燃油轎跑?

態(tài)度原創(chuàng)

游戲
健康
親子
房產(chǎn)
公開課

《影之刃零》更像戰(zhàn)神? 外網(wǎng)博主稱贊玩法獨(dú)特!

呼吸科專家破解呼吸道九大謠言!

親子要聞

成績強(qiáng)求不了,但這樣“取巧”開學(xué)會(huì)有大驚喜!

房產(chǎn)要聞

瘋狂跳水!??诙址績r(jià),新低了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 国产在线欧美一区二区 | 国产凹凸在线一区二区| 国产中文字幕乱人伦在线观看| 放荡大屁股少妇高潮喷水| www.夜夜操| 日本五十六十老熟妇乱m| 狠狠爱天天综合色欲网| 欧美性爱www.1695com| 国产久操视频| 忘忧草日本高清频道| 国产精品美女久久久久久久久久久| 人妻av乱码成人小说在线| 日产中文字乱码卡一卡二卡| 亚洲精品成人影院| 五月花婷婷丁香社区中出| 亚洲精品系列| 免费啪视频观在线视频浴室| 中文字幕不卡在线高清| 老熟女太熟了--69XX.com| 欧美性猛交xxxx乱大交丰满| 国产首页Av| 激情都市亚洲| 国产亚洲精品性爱| 精品国偷自产在线电影| 日本高清毛片中文视频| 老色鬼永久精品网站| 国产欧美日韩a片免费软件| 国产乱码精品一区| AV喷水被插| 欧洲grand老妇人bbw| 亚洲av无码乱码国产精品fc2| 免费观看婬www视频| 狼群社区视频免费观看游戏| 精品高潮呻吟久久AV无码| 国产成人精品97| 欧美老年性色生活片| 无码精品毛片波多野结衣| 国产传媒19| 粗壮挺进人妻水蜜桃成熟| 一区至六区入口| 亚洲男人天堂久久|