多知8月6日消息,谷歌發(fā)起的首屆大模型對抗賽引發(fā)了廣泛關(guān)注。此次比賽于8月5日至7日在 Kaggle Game Arena 舉行,匯聚了包括 DeepSeek、Kimi 等在內(nèi)的八款頂尖 AI 模型,競爭將在策略游戲(如國際象棋和其他游戲中)中展開對決。
第一輪比賽,Grok 4 表現(xiàn)最好,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的戰(zhàn)績分別擊敗 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晉級半決賽。
Kaggle Game Arena是谷歌推出的一個全新的、公開的基準(zhǔn)測試平臺。此次參賽的模型包括 OpenAI 的 o4-mini、DeepSeek-R1、Kimi K2Instruct、Gemini2.5Pro(谷歌)、Claude Opus4(Anthropic)、Grok4(xAI)及 Gemini2.5Flash 等,每一款模型都代表了當(dāng)前 AI 領(lǐng)域的最前沿技術(shù)。組織方特別邀請了世界頂級國際象棋專家進(jìn)行解說,為比賽增添了專業(yè)性與觀賞性。
截至目前,大語言模型在象棋對弈中暴露出的問題包括:全局棋盤視覺化能力不足、棋子間互動關(guān)系理解有限……
至于Grok 4 表現(xiàn)最好,馬斯克的解釋是:“國際象棋很簡單,Grok 沒花費(fèi)太多力氣。”
馬斯克認(rèn)為,毫無疑問,Grok 的推理能力就是強(qiáng)。
一本書洞察教育行業(yè)全貌,《教育科技這一年:教育+AI新紀(jì)元》火熱銷售中從業(yè)者必入,點(diǎn)擊小程序購買?
掃碼加入多知新書交流群,共同探討教育+AI的未來
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.