Sudoku-Bench: Evaluating creative reasoning with Sudoku variants
Sudoku-Bench:通過數(shù)獨變體評估創(chuàng)造性推理
https://arxiv.org/pdf/2505.16135
現(xiàn)有的大語言模型(LLM)推理基準(zhǔn)測試常常無法捕捉真正的創(chuàng)造性,往往獎勵對已知模式的記憶。我們通過Sudoku-Bench來解決這一缺陷,這是一個精心策劃的、包含具有挑戰(zhàn)性和非傳統(tǒng)變體的數(shù)獨難題的基準(zhǔn)測試,專門用于評估創(chuàng)造性、多步驟的邏輯推理能力。數(shù)獨變體是推理研究中一個格外有效的領(lǐng)域:每個謎題都引入了獨特或微妙交互的約束條件,使得單純記憶變得不可行,要求解題者發(fā)現(xiàn)全新的邏輯突破口(“破題點”)。盡管這些變體形式多樣,但它們保持了共同且緊湊的結(jié)構(gòu),從而實現(xiàn)了清晰且一致的評估。Sudoku-Bench包含一個精心挑選的謎題集、標(biāo)準(zhǔn)化的文本格式謎題表示方法,以及兼容數(shù)千個公開可用謎題的靈活工具,便于擴展為通用研究環(huán)境?;€實驗表明,當(dāng)前最先進的大語言模型在無人輔助的情況下僅能解決不到15%的謎題,凸顯出在長視野、戰(zhàn)略性推理能力方面仍有巨大的提升空間。
1. 引言
大規(guī)模語言模型在短篇幅推理任務(wù)上表現(xiàn)出色(Long, 2023;Wei et al., 2022),但真正具有創(chuàng)造性的推理仍然難以實現(xiàn)。許多標(biāo)準(zhǔn)基準(zhǔn)測試中,當(dāng)前模型的表現(xiàn)已經(jīng)接近甚至超過人類水平(Glazer et al., 2024;Hendrycks et al., 2021;Phan et al., 2025),但這些測試往往獎勵對解題模板的記憶(Bubeck et al., 2023)。一旦這些模板被模型隱式記住,準(zhǔn)確率的微小提升就難以反映模型在新穎推理方面的真實能力。像ARC(Chollet, 2019)這樣的基準(zhǔn)測試雖然能有效抵抗記憶化;然而,它們的解法對模型而言雖屬新穎,對人類來說卻仍然簡單,不足以充分捕捉人類創(chuàng)造性推理的深度。
我們提出數(shù)獨變體(圖1)作為填補這一空白的獨特研究領(lǐng)域。數(shù)獨變體是一種邏輯謎題,由一個部分填好數(shù)字的×網(wǎng)格構(gòu)成,并配有視覺約束,甚至包含只能通過自然語言描述的特定規(guī)則。盡管如此,每個謎題仍然有唯一解——一個滿足所有約束條件的×網(wǎng)格。謎題設(shè)計者會引入原創(chuàng)規(guī)則,或?qū)⒊R娂s束以新穎方式組合。每天都有數(shù)百個用戶提交的數(shù)獨變體發(fā)布在諸如德國邏輯大師(Logic Masters Germany, Log)等平臺上,這些謎題被刻意設(shè)計為需要創(chuàng)造性洞察和微妙的邏輯突破。這類謎題恰好針對那種新穎的、多步驟的推理過程,而以記憶為主或當(dāng)前流行的推理基準(zhǔn)測試往往無法持續(xù)有效地衡量這種能力(Zhang et al., 2024)。
本文的貢獻有兩方面。首先,我們推出了開源工具,可直接與流行的數(shù)獨應(yīng)用SudokuPad(Neumann, 2021)對接,支持智能體式工具調(diào)用交互以及標(biāo)準(zhǔn)化的文本格式謎題表示。這種智能體交互提供了一個API,可用于獲取當(dāng)前棋盤狀態(tài)的圖像,并訪問SudokuPad中所有人類解題者通常依賴的標(biāo)注工具。我們的文本格式將邏輯推理與視覺處理分離,使得當(dāng)前語言模型能夠進行有效評估。其次,我們提出了Sudoku-Bench,這是一個精心篩選的包含100個數(shù)獨變體的基準(zhǔn)測試集,由我們與YouTube頻道“Cracking the Cryptic”的主持人合作選定。這些謎題涵蓋了廣泛的難度和推理風(fēng)格,特意選擇用于測試模型在多樣化邏輯路徑和謎題特有的“破題點”上的表現(xiàn)。
我們的實驗表明,Sudoku-Bench對當(dāng)前最先進的模型構(gòu)成了顯著挑戰(zhàn)。在沒有工具輔助的情況下,即使是最強的公開可用大語言模型,也僅能解決不到15%的基準(zhǔn)測試題。值得注意的是,大多數(shù)成功解答來自最簡單的4×4謎題子集,而隨著網(wǎng)格變大或更加非傳統(tǒng),模型性能迅速下降。這一現(xiàn)象在單次提示配置(即讓模型一次性輸出完整解法)和多步交互配置(模型與用戶進行多輪對話,模型至少提供一個數(shù)字,用戶反饋更新后的棋盤狀態(tài))中均被觀察到。
除了作為基準(zhǔn)測試,數(shù)獨變體還為推理研究提供了豐富的實驗平臺。大量持續(xù)增長的人工設(shè)計謎題支持可擴展的難度遞進:從適合小型模型的簡單4×4謎題,到極為復(fù)雜的9×9謎題——其中最難的題目甚至能讓絕大多數(shù)人類專家解題者陷入困境。豐富的輔助數(shù)據(jù),包括詳細的專家解題記錄和交互軌跡,為模仿學(xué)習(xí)提供了便利。作為Sudoku-Bench的一部分,我們收錄了來自“Cracking the Cryptic”這一知名YouTube頻道的數(shù)千小時解題推理記錄和操作行為數(shù)據(jù)。該頻道專注于詳細演示數(shù)獨變體的解法,視頻總觀看量超過2.5億次。這些數(shù)據(jù)完全向研究人員開放,可供探索基于監(jiān)督學(xué)習(xí)的方法,從人類推理中學(xué)習(xí)并微調(diào)模型——其深度和多樣性遠超當(dāng)前最先進的語言模型所生成的合成推理數(shù)據(jù)集(Li et al., 2025;Muennighoff et al., 2025)。
本文其余部分結(jié)構(gòu)如下:第2節(jié)概述數(shù)獨變體及其推理需求;第3節(jié)詳細介紹Sudoku-Bench數(shù)據(jù)集、文本接口及評估框架;第4節(jié)展示基線實驗結(jié)果并對模型失敗模式進行分析;第5節(jié)回顧相關(guān)工作;第6節(jié)總結(jié)并提出未來開放的研究方向。
2. 背景:數(shù)獨變體
傳統(tǒng)數(shù)獨要求完成一個9×9的網(wǎng)格,使得數(shù)字1到9在每一行、每一列以及每一個3×3的子網(wǎng)格中恰好出現(xiàn)一次。這一結(jié)構(gòu)為眾多變體奠定了基礎(chǔ),這些變體引入了額外的約束條件。例如,“殺手數(shù)獨”(Killer Sudoku)結(jié)合了數(shù)獨和卡庫羅(Kakuro)的元素,要求被劃定區(qū)域(“籠子”)內(nèi)的數(shù)字之和等于指定數(shù)值,且區(qū)域內(nèi)數(shù)字不重復(fù)。“溫度計”(Thermometers)是由相鄰格子組成的路徑,路徑上的數(shù)字必須單調(diào)遞增。沿“箭頭”方向的數(shù)字之和必須等于箭頭底部圓圈格子中的數(shù)字。格子之間的“克羅普基點”(Kropki dots)表示特定關(guān)系,例如數(shù)字相鄰(相差1)或成2倍關(guān)系(1:2比例)。
基于網(wǎng)絡(luò)的謎題制作工具的普及,使得謎題設(shè)計者能夠自行發(fā)明新的變體。2020年初,謎題發(fā)布平臺Logic Masters上的謎題數(shù)量激增。截至2025年5月,該網(wǎng)站已發(fā)布超過27,000個用戶提交的變體謎題(Log)。
謎題設(shè)計者經(jīng)常以獨特的方式組合多種約束條件。這些約束的組合往往導(dǎo)致謎題初始時僅提供極少甚至沒有已知數(shù)字,因此必須通過深入的邏輯推理才能確定最初的填數(shù)位置,這一關(guān)鍵突破口被稱為“破題點”(break-in)。這類謎題要求解題者仔細探索各約束之間的相互作用,與當(dāng)前推理大語言模型中常見的盲目猜測行為形成鮮明對比(見第4節(jié))。
除了這些標(biāo)準(zhǔn)約束類型外,出題者還經(jīng)常使用“元約束”(meta-constraints),即需要通過解題過程推斷出謎題特有的參數(shù)。例如:“某個籠子內(nèi)數(shù)字之和為一個未知值,需通過解題確定”,或“某條線需要判斷為回文序列或連續(xù)序列(renban sequence)”。這些元約束為謎題增添了額外的復(fù)雜性,也要求更高層次的創(chuàng)造性推理能力。
謎題設(shè)計者的創(chuàng)造力幾乎不受限制,他們經(jīng)常開發(fā)出奇思妙想且新穎的規(guī)則集(例如以老鼠走迷宮為主題的謎題(見圖1))。關(guān)鍵在于,所有數(shù)獨變體都保持一種結(jié)構(gòu)化的格式:一個×的網(wǎng)格、用自然語言描述的謎題規(guī)則、可輕松編碼為文本的視覺元素,以及唯一確定的解。這種結(jié)構(gòu)清晰又靈活的框架,使得數(shù)獨變體特別適合系統(tǒng)性地研究創(chuàng)造性推理能力——這意味著這些謎題既高度多樣且富有挑戰(zhàn)性,同時又有明確的根基,易于驗證解答是否正確。
謎題示例:Ascension我們通過一個例子來說明這些特點。圖2a展示了“騎士移動”限制與“箭頭”約束之間的一種新穎交互。
要找到該謎題的“破題點”(break-in),解題者必須做出三個觀察。
首先,無論綠色高亮格子(r4c6,第5宮)中的數(shù)字是什么,它都必須出現(xiàn)在第2宮中的某個位置,但不能在第6列(根據(jù)標(biāo)準(zhǔn)數(shù)獨規(guī)則),也不能在其箭頭指向的格子上,或與之成“騎士移動”(國際象棋中“馬”的走法)的位置上。因此,該數(shù)字只能出現(xiàn)在兩個半陰影格子r1c4或r1c5之中。同樣的模式也適用于中間圖中用其他顏色標(biāo)出的其他格子組。
第二個觀察是:由于箭頭路徑上的數(shù)字必須小于其末端圓圈格子中的數(shù)字,這就形成了跨越所有高亮格子的長距離鏈?zhǔn)揭蕾囮P(guān)系——具體來說,黃色、紫色、綠色、藍色,最后到紅色的圓圈格子,其數(shù)字必須單調(diào)遞增。這是一個關(guān)鍵洞察,但尚不足以確定具體數(shù)字。
第三個觀察是:紫色格子中的數(shù)字必須等于其箭頭末端兩個格子(r4c1和r4c2)中數(shù)字之和,而其中有一個數(shù)字又等于黃色格子r7c3的值;而r7c3本身又是一個箭頭末端的圓圈格,因此它等于另外兩個數(shù)獨數(shù)字之和。綜合來看,唯一既能作為三個數(shù)獨數(shù)字之和,又為后續(xù)綠色、藍色和紅色格子的單調(diào)遞增序列留下足夠空間的數(shù)字是6。因此,r4c6必須為6,后續(xù)單調(diào)鏈中的數(shù)字也隨之被唯一確定(見右側(cè)面板)。
在一段演示該謎題解法的視頻中,一位專家解題者大約用時4.5分鐘發(fā)現(xiàn)了這一破題點,整個謎題完整解出耗時約35分鐘。1 而在我們測試的所有大語言模型中,沒有任何一個模型能夠取得進展。例如,我們展示了Gemini 2.5 Pro Preview的推理摘要(圖2b),該模型能夠成功解析并識別出謎題的各個約束條件,但很快便轉(zhuǎn)向猜測和窮舉搜索。這凸顯了當(dāng)前大語言模型的推理方式與人類偏好的推理方式之間仍存在差距:大語言模型可能依賴暴力搜索,而人類則傾向于通過精確的邏輯推理尋找捷徑,以節(jié)省時間和精力。我們希望這一基準(zhǔn)測試能夠推動研究,開發(fā)出更“類人”的推理方式的大語言模型。
Ascension 這個例子突出了數(shù)獨變體的兩個特點。第一,盡管“騎士移動”和“箭頭”約束本身都很常見,但它們在此謎題中的具體交互方式是前所未有的。因此,數(shù)獨變體對記憶的抵抗性并不僅僅源于引入了全新的規(guī)則集;熟悉的約束條件也可能產(chǎn)生前所未見的解題策略。事實上,一些最難的謎題恰恰采用了看似簡單的規(guī)則集。第二點是,對于初始給定數(shù)字極少甚至為零的謎題(這在變體中很常見),搜索空間過于龐大,使得初期的隨機猜測無效。這也常常需要一種“元推理”(meta-reasoning)能力——即在解題之初就必須判斷應(yīng)采用哪些推理技術(shù),例如使用“著色法”(coloring)、集合論,或分析數(shù)字的奇偶性。
人類在面對這類謎題時,通常需要在開始階段花時間理解各種約束條件如何以新的方式相互作用,這是正常且常見的過程。這也意味著,某些最初的推理結(jié)論在整個解題過程中始終有效,因此要穩(wěn)健地完成這些可能涉及上百步的復(fù)雜謎題,模型要么需要某種形式的記憶機制(例如草稿紙),要么需要非常長的上下文窗口。
3. Sudoku-Bench:數(shù)據(jù)集與基準(zhǔn)設(shè)計
我們旨在選取100道具有代表性的數(shù)獨變體謎題,以體現(xiàn)該類謎題的廣泛多樣性。為了建立一個分級的評估曲線,我們選定了15道4×4謎題、15道6×6謎題和70道9×9謎題。其中包含15道4×4謎題,部分原因是為了衡量即使是規(guī)模較小的語言模型的進步情況。70道9×9謎題中的50道由YouTube頻道“Cracking the Cryptic”的主持人專門為此基準(zhǔn)測試精心挑選。所選謎題的難度評級覆蓋范圍均衡,從初學(xué)者友好的“一星”謎題,到專家級別的“五星”挑戰(zhàn)——后者可能需要數(shù)小時的細致分析才能確定第一個可以填入的數(shù)字。另有20道為高難度的傳統(tǒng)數(shù)獨(vanilla Sudoku),由在1980年代推廣數(shù)獨的謎題公司Nikoli提供。我們的目標(biāo)是構(gòu)建一個平滑遞增的復(fù)雜度曲線:初學(xué)者嘗試該基準(zhǔn)時能取得一些早期成功,但要完全解決整個基準(zhǔn)則極具挑戰(zhàn)性。我們希望這一基準(zhǔn)在相當(dāng)長的一段時間內(nèi)都難以被徹底攻克。
文本描述每道謎題都配有純文本表示。例如,圖3展示了一個簡單的4×4謎題,其中路徑線條用一系列“rxcy”(第x行第y列)坐標(biāo)序列表示,圓點的位置則描述為它所連接的兩個格子。規(guī)則、視覺元素、網(wǎng)格大小以及初始棋盤狀態(tài)(如有給定數(shù)字)共同構(gòu)成了對謎題的明確無歧義的描述,并可轉(zhuǎn)換為模型提示(prompt)。
盡管最近一些最先進的推理模型已轉(zhuǎn)向多模態(tài)輸入,但我們發(fā)現(xiàn),包括OpenAI o3(OpenAI, 2025)在內(nèi)的大多數(shù)模型,在將9×9謎題準(zhǔn)確轉(zhuǎn)換為坐標(biāo)時仍存在困難。像Enigma(Wang et al., 2025)和VGRP(Ren et al., 2025)等謎題基準(zhǔn)強調(diào)謎題的視覺方面,要求使用多模態(tài)模型。鑒于當(dāng)前前沿模型在精確識別數(shù)獨謎題視覺元素方面仍存在挑戰(zhàn),我們選擇將所有元素以文本形式精確描述,從而將創(chuàng)造性推理過程與視覺理解能力分離開來。
Sudoku-Bench中每道謎題的文本表示均已預(yù)先計算完成。我們提供了從SudokuPad中提取文本描述的代碼,以便研究人員將此工具應(yīng)用于其他謎題。
需要注意的是,許多謎題若能借助視覺推理將大有裨益,有些甚至可能必須依賴視覺理解,因為它們的“破題點”具有幾何特性,涉及對稱性,或某些規(guī)則直接引用了謎題中的形狀。一些謎題視覺信息極為密集(見圖1右下角),而我們測試過的當(dāng)前視覺模型尚不足以提取所有特征,例如微小的數(shù)字。我們推測,若能通過視覺方式成功解決該基準(zhǔn),將是對當(dāng)前多模態(tài)大語言模型的重大提升。
3.1 專家推理軌跡
一個核心問題是:提升大語言模型的推理能力,是否可以從采用更“類人”的思維方式中獲益?在強化學(xué)習(xí)模型中,基于人類監(jiān)督的預(yù)訓(xùn)練十分常見;而另一方面也有研究表明,在封閉環(huán)境中從零開始進行強化學(xué)習(xí)可能取得更優(yōu)性能(Hester et al., 2018;Lowe et al., 2017;Ouyang et al., 2022;Silver et al., 2016)。傳統(tǒng)數(shù)獨是一個有趣的領(lǐng)域,因為人類使用的解題策略與基于搜索的求解器存在顯著差異(Pelánek, 2011),這種差異在數(shù)獨變體中尤為明顯。
YouTube頻道“Cracking the Cryptic”為探索模仿學(xué)習(xí)(imitation learning)的優(yōu)勢提供了獨特機會。該頻道發(fā)布了超過3,000個視頻,詳細演示了各種數(shù)獨變體的解題過程。值得注意的是,主持人必須口頭描述自己的思維過程,向觀眾解釋每一步的邏輯推理。一個典型的謎題通常需要主持人約60分鐘解完,而頻道中一些更難的謎題解題視頻甚至超過3小時。
我們構(gòu)建了一個數(shù)據(jù)集,包含每次解題的音頻轉(zhuǎn)錄文本,以及從視頻中提取的SudokuPad操作序列。這些操作是通過在SudokuPad上模擬真實操作訓(xùn)練出的機器學(xué)習(xí)模型,再應(yīng)用于視頻幀提取得到的。該數(shù)據(jù)集已根據(jù)與頻道主持人的協(xié)議,以MIT許可證發(fā)布在HuggingFace2平臺上。
3.2 數(shù)據(jù)集格式
Sudoku-Bench謎題數(shù)據(jù)集3包含三個子集:challenge_100、nikoli_100 和 ctc。challenge_100 如上所述,構(gòu)成核心基準(zhǔn)測試。額外的謎題數(shù)據(jù)包括 nikoli_100,這是由Nikoli公司為此基準(zhǔn)提供的手工設(shè)計的傳統(tǒng)數(shù)獨集合(其中20道已包含在 challenge_100 中)。nikoli_100 的設(shè)計旨在突出其解題路徑中體現(xiàn)的創(chuàng)造性或類人推理能力,適用于許多將傳統(tǒng)數(shù)獨作為試驗平臺的研究方法(見第5節(jié))。ctc 子集包含2,565道已在“Cracking the Cryptic”頻道中被解答過的數(shù)獨變體。由于數(shù)獨變體種類繁多,ctc 中每道謎題的文本表示尚未經(jīng)過人工校驗,在某些情況下,要無歧義地表示棋盤狀態(tài)可能仍需截圖。
3.3 SudokuPad 環(huán)境
我們還提供了在智能體(agentic)環(huán)境中與SudokuPad交互的工具。SudokuPad支持人類解題者常用的多種筆記策略,例如對格子進行顏色標(biāo)記(如圖2a所示),或在格子中填寫候選數(shù)字(鉛筆標(biāo)記)。我們開發(fā)的簡易接口允許模型直接與該應(yīng)用程序交互,使用這些工具。將SudokuPad納入推理循環(huán),可能非常適合相關(guān)基準(zhǔn)測試——例如評估推理模型(包括視覺語言模型)在簡單游戲環(huán)境中的表現(xiàn)(Paglieri et al., 2024;Ren et al., 2025)。本文中的評估(第4節(jié))采用文本交互方式(僅依賴SudokuPad進行初始謎題數(shù)據(jù)提?。N覀円褜⑺蠸udokuPad工具發(fā)布在代碼倉庫中,供研究人員使用:https://github.com/SakanaAI/Sudoku-Bench。
3.4 評估框架
多步與單次提示(Multi-step and single-shot)
我們在多輪交互和單次提示兩種配置下對模型進行評估。
在多輪設(shè)置中,我們提示模型分析棋盤,并在每次回復(fù)中至少給出一個有效的數(shù)字填入位置。需要明確的是,該數(shù)字是“已確認提交”的,一旦填入便不可撤銷(但在模型自身的推理過程中,允許進行任意程度的內(nèi)部回溯以推導(dǎo)出該數(shù)字)。每當(dāng)模型給出一個數(shù)字后,用戶會展示更新后的棋盤狀態(tài)。此過程持續(xù)進行,直到謎題被完全解出,或模型填入了錯誤的數(shù)字為止。在多輪設(shè)置中,我們同時跟蹤兩個指標(biāo):解題成功率以及每道謎題中正確填入的數(shù)字數(shù)量。為了控制上下文窗口的大小,我們在后續(xù)對話中僅保留模型最近的5次回復(fù),但始終保留第一條包含謎題描述和指令的用戶消息。我們報告的指標(biāo)為平均解題成功率和平均每道謎題正確填入的數(shù)字數(shù)。在本次評估中,每個模型對每道謎題僅運行一次測試,因此平均值是基于該數(shù)據(jù)集中的100道謎題計算得出的。
在單次提示(single-shot)配置中,我們要求模型在一次回復(fù)中直接提供完整解答。單次提示模式適用于上下文長度足夠大的模型,也適用于對較小的4×4謎題進行更直接的評估。在單次提示設(shè)置下,我們僅報告平均解題成功率。
4. 基線性能與分析
我們在Sudoku-Bench上評估了當(dāng)前最新一代的最先進的大語言模型,結(jié)果揭示了這些數(shù)獨變體對模型構(gòu)成了巨大挑戰(zhàn)。表1總結(jié)了各模型在不同謎題尺寸和交互模式下的基準(zhǔn)測試表現(xiàn)。即使是o3 mini high和Gemini 2.5 pro preview等領(lǐng)先模型,在完整測試集上的解題成功率也均低于15%。值得注意的是,模型表現(xiàn)隨謎題尺寸變化顯著:對于較小的4×4謎題,模型的解題率普遍在40%至73%之間;但對于6×6網(wǎng)格,性能急劇下降;而在9×9謎題上,解題率幾乎降至零,凸顯出復(fù)雜度的迅速上升。
比較單次提示與多步交互兩種評估模式,允許迭代反饋雖對小型謎題的解題結(jié)果略有提升,但對較大謎題的表現(xiàn)并無實質(zhì)性改善。兩種模式之間的微小差異表明,這些模型的根本困難并不僅僅在于逐步推理能力,而更在于難以有效識別初始的邏輯突破口(“破題點”)。
模型失敗類型的分類分析
對模型失敗案例的分析揭示了若干反復(fù)出現(xiàn)的錯誤模式,我們在圖4中進行了分類。最常見的失敗模式是自信地給出錯誤解答(Incorrect Solution)。其他失敗模式包括:放棄求解(Surrender,模型明確表示放棄)、信息缺失(Missing Information,模型錯誤地聲稱謎題信息或給定約束不完整)、以及誤判矛盾(Claimed Contradiction,模型錯誤地認為謎題規(guī)則中存在矛盾)。其中,“信息缺失”尤為值得注意。由于數(shù)獨變體在基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)中遠不如傳統(tǒng)數(shù)獨常見,新的規(guī)則和變體容易使模型產(chǎn)生困惑,尤其因為變體謎題通常起始數(shù)字極少(甚至為零),而傳統(tǒng)9×9數(shù)獨至少有17個初始數(shù)字。此外,部分模型的回復(fù)中缺乏推理過程(No Reasoning Trace),導(dǎo)致我們無法對其錯誤類型進行細粒度分類;對于其余情況,我們使用Claude-3.5-Haiku將錯誤解答的回復(fù)歸類為上述四種錯誤類型之一。
一次成功的解答 盡管模型在處理復(fù)雜的“破題點”時常遇到困難,但有時它們也能通過有效縮小搜索空間,在中等復(fù)雜度的謎題上取得成功。例如,圖5展示了一個6×6的謎題“Sumthings”,Gemini 2.5 Pro Preview成功解出了該題。該模型采用的策略是先將搜索空間縮小到可管理的范圍,然后通過搜索找出正確解法。然而,隨著謎題復(fù)雜度的增加,這種方法的有效性顯著下降,此時識別特定的“破題”關(guān)鍵洞察變得至關(guān)重要,這一點在Ascension示例(圖2)中已得到充分展示。
5. 相關(guān)工作
Sudoku-Bench 補充了現(xiàn)有用于評估人工智能高級推理能力的基準(zhǔn)測試,特別聚焦于將數(shù)獨變體作為一個結(jié)構(gòu)化的領(lǐng)域,用以評估創(chuàng)造性與邏輯推理能力。
面向創(chuàng)造性演繹洞察的基準(zhǔn)測試
諸如“抽象與推理語料庫”(Abstraction and Reasoning Corpus, ARC;Chollet, 2019)等基準(zhǔn)測試,通過多樣化任務(wù)來檢驗?zāi)P驮诔侥J接洃浿獾耐评砼c泛化能力。Sudoku-Bench 同樣為每道謎題引入新穎約束,借助持續(xù)涌現(xiàn)的獨特謎題來抵抗記憶化。與 ARC 不同的是,ARC 強調(diào)的是對人類簡單但對 AI 困難的任務(wù),而數(shù)獨變體的難度范圍更廣,其中一些謎題即使對人類專家解題者也極具挑戰(zhàn)性。盡管如此,數(shù)獨謎題中的邏輯突破口通常清晰可辨,即使是推理新手也能理解,這使得 Sudoku-Bench 成為精確評估創(chuàng)造性推理能力的寶貴資源。
以謎題為核心的推理數(shù)據(jù)集
已有多個基準(zhǔn)專注于通過解謎任務(wù)評估推理能力(Giadikiaroglou et al., 2024)。例如,PUZZLES(Estermann et al., 2024)匯集了經(jīng)典的邏輯謎題;Tyagi 等人(2024)系統(tǒng)分析了大語言模型在網(wǎng)格類謎題上的求解表現(xiàn);EnigmaEval(Wang et al., 2025)評估了來自謎題競賽的大規(guī)模問題集。近期新增的包括用于視覺網(wǎng)格推理的 VGRP-Bench(Ren et al., 2025)、用于基于規(guī)則推理的 Logic Game(Gui et al., 2024),以及用于評估對話代理推理能力的 PuzzlePlex(Long et al., 2024)。BALROG(Paglieri et al., 2024)則在復(fù)雜游戲環(huán)境中評估大語言模型(LLM)和視覺語言模型(VLM)的推理能力,未來可借助 Sudoku-Bench 提供的工具,將 SudokuPad 作為環(huán)境納入其中進行擴展。
數(shù)獨作為推理試驗平臺
標(biāo)準(zhǔn)數(shù)獨謎題在機器學(xué)習(xí)研究中已被廣泛使用。相關(guān)模型包括采用消息傳遞機制的循環(huán)關(guān)系網(wǎng)絡(luò)(Recurrent Relational Networks, Palm et al., 2018)、基于可微SATNet的一致性層(Wang et al., 2019)、掩碼去噪與擴散方法(Kim et al., 2025; Ye et al., 2024),以及受 Kuramoto 振子動力學(xué)啟發(fā)的模型(Miyato et al., 2024)。此外,大語言模型通過結(jié)構(gòu)化提示和推理分解技術(shù),已在標(biāo)準(zhǔn)數(shù)獨上達到人類水平的準(zhǔn)確率(Long, 2023)。Shah 等人(2024)通過在求解器生成的步驟序列上進行訓(xùn)練,實現(xiàn)了對傳統(tǒng)數(shù)獨的高解題率。Sudoku-Bench 延續(xù)了這一研究傳統(tǒng),通過引入多樣化且新穎的謎題約束,使評估能夠?qū)iT針對多步驟、戰(zhàn)略性和創(chuàng)造性推理能力展開。
6. 討論
工具使用的作用 對模型推理能力的評估,可以根據(jù)是否允許使用外部工具(例如約束求解器或代碼執(zhí)行環(huán)境)而有所區(qū)分。
在不使用工具的情況下,評估重點在于模型自身的內(nèi)在推理能力,包括邏輯演繹、保持全局一致性,以及在內(nèi)部生成創(chuàng)造性洞察,類似于人類徒手解謎。這種方法強調(diào)純粹的認知推理能力,也是我們在基線實驗中(第4節(jié))主要采用的評估模式。
相反,允許使用工具的評估則測試模型能否將給定的謎題轉(zhuǎn)化為適合外部求解器的形式,有效與這些工具交互,并正確解釋求解器的輸出結(jié)果。對于標(biāo)準(zhǔn)數(shù)獨謎題,一旦使用求解器便變得非常簡單。那些僅包含標(biāo)準(zhǔn)約束(如箭頭、籠子等)的變體,也通??赏ㄟ^代碼執(zhí)行輕松解決。而第三類謎題涉及自然語言理解,難以直接轉(zhuǎn)化為約束滿足問題,這類謎題本身對于具備工具使用能力的推理模型而言,就是一個有意義的測試。然而,我們當(dāng)前的目標(biāo)是評估模型發(fā)現(xiàn)謎題“破題點”所需的推理能力。像圖2a中的Ascension這類謎題,若借助工具則很容易解出,但其解題路徑將與出題者設(shè)計的邏輯過程大相徑庭。因此,我們選擇的Sudoku-Bench中100道謎題,均用于在不使用外部工具的前提下評估模型。未來的研究可以考慮設(shè)立一個獨立的“工具使用”賽道,或許配合另一組專門設(shè)計的謎題。
結(jié)論 我們提出了Sudoku-Bench,這是一個圍繞現(xiàn)代數(shù)獨變體構(gòu)建的統(tǒng)一基準(zhǔn)測試,系統(tǒng)性地考驗長視野推理、規(guī)則理解與戰(zhàn)略規(guī)劃能力。此外,由于大多數(shù)謎題都包含豐富多樣的“破題點”,該基準(zhǔn)特別適合用于評估創(chuàng)造性推理?;鶞?zhǔn)包含經(jīng)過精心篩選的謎題語料庫及其文本表示,為衡量語言模型應(yīng)對新穎且高度耦合約束的能力提供了一個可控的測試平臺?;€實驗表明,前沿大語言模型在不依賴外部工具的情況下,僅能解決不到15%的題目,且在9×9變體上的表現(xiàn)急劇下降——這證明在提升推理能力方面仍有巨大的發(fā)展空間。
原文鏈接:https://arxiv.org/pdf/2505.16135
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.