比思維鏈準(zhǔn)43%！邏輯腦+大模型直覺，推理可靠性大幅提升

2025-09-22 13:41:33　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】來自中德的研究團隊發(fā)布最新成果，給大模型外掛「邏輯腦」：用答案集編程當(dāng)慢思考，LLM當(dāng)快直覺，空間推理準(zhǔn)確率一口氣提高四成多。這套會自我修正的「神經(jīng)-符號」雙系統(tǒng)，讓AI既能說清每一步邏輯，又能跨任務(wù)遷移，向更可靠的通用推理邁出關(guān)鍵一步。

大語言模型（LLMs）已在文本生成、代碼編寫乃至多模態(tài)任務(wù)中展現(xiàn)出驚人的能力，但在涉及嚴(yán)謹(jǐn)邏輯與物理的空間推理任務(wù)上，它們?nèi)燥@得力不從心。

比如，當(dāng)模型需要理解多個物體之間的相對位置關(guān)系，并在復(fù)雜語境下進行多步驟推理時，往往容易出現(xiàn)「邏輯斷裂」：可能在中間步驟中虛構(gòu)錯誤事實，或偏離目標(biāo)，最終導(dǎo)致答案不可靠。

這一問題在空間推理任務(wù)中尤為突出?？臻g推理要求模型能像人一樣，推演出「桌子在椅子左邊，燈在桌子上方，因此燈也在椅子左邊」這樣的復(fù)雜鏈條。

然而，盡管「思維鏈（Chain-of-Thought）」等提示工程方法在一定程度上提升了模型的推理表現(xiàn)，但在多步驟、動態(tài)變化的場景中，它們依舊難以保證邏輯一致性。

為了彌合神經(jīng)網(wǎng)絡(luò)的模式識別能力與符號系統(tǒng)嚴(yán)謹(jǐn)邏輯之間的鴻溝，來自德國圖賓根大學(xué)、斯圖加特大學(xué)（王榮）和同濟大學(xué)（孫坤）的科研人員合作研究發(fā)表在著名的人工智能和深度學(xué)期刊《神經(jīng)網(wǎng)絡(luò)》（Neural Networks）上，該研究提出了一種創(chuàng)新的神經(jīng)-符號（neural-symbolic）框架。

論文鏈接：

https://www.sciencedirect.com/science/article/pii/S0893608025009025

該框架通過一個精巧的自動迭代反饋循環(huán)（而非手動），成功地將大語言模型與一種名為「答案集編程」（Answer Set Programming, ASP）的聲明式邏輯編程系統(tǒng)相結(jié)合，顯著提升了機器的空間推理能力。

研究人員借鑒了認(rèn)知科學(xué)中的「雙過程理論」，該理論認(rèn)為人類思維分為兩個系統(tǒng)：系統(tǒng)1負(fù)責(zé)快速、直觀的聯(lián)想式思考，而系統(tǒng)2則進行緩慢、審慎的規(guī)則化推理。

在這套新框架中，LLM強大的語言理解和模式識別能力扮演了類似「系統(tǒng)1」的角色；而ASP作為符號推理的主干，則承擔(dān)了「系統(tǒng)2」的職責(zé)，負(fù)責(zé)精確、可驗證的邏輯推導(dǎo)。

基于DSPy框架的神經(jīng)-符號管道框架

該框架的工作流程可以概括為一種「翻譯-執(zhí)行-修正」的協(xié)同模式：

1）翻譯 (Semantic Parsing):首先，LLM接收自然語言形式的上下文和問題，并將其翻譯成ASP能夠理解的、結(jié)構(gòu)化的邏輯事實與規(guī)則代碼。

2）執(zhí)行 (Logical Reasoning):接著，ASP求解器接管這些邏輯代碼，利用其強大的非單調(diào)推理能力（即在信息不完整的情況下進行推理），計算出所有滿足約束條件的穩(wěn)定解。

3）修正 (Iterative Feedback):這是整個系統(tǒng)的核心創(chuàng)新。以往的神經(jīng)-符號方法中，LLM生成的邏輯代碼常常因語法或邏輯錯誤而導(dǎo)致整個系統(tǒng)失敗，成功率有時低至17%

新框架引入了LLM與ASP求解器之間的迭代反饋循環(huán)。如果ASP在執(zhí)行中發(fā)現(xiàn)錯誤，系統(tǒng)會將錯誤信息反饋給LLM，指導(dǎo)其對生成的邏輯程序進行多輪修正，直至代碼在語法和語義上都完全正確。

整個系統(tǒng)基于模塊化的DSPy框架構(gòu)建，它為LLMs和符號求解器之間的無縫雙向交互提供了支持，使得這種復(fù)雜的協(xié)同工作流得以實現(xiàn)。

自然語言查詢轉(zhuǎn)換為ASP表示的過程

在復(fù)雜基準(zhǔn)測試中表現(xiàn)卓越

研究團隊在兩個不同類型的基準(zhǔn)任務(wù)上檢驗了框架：

StepGame：結(jié)構(gòu)化的合成數(shù)據(jù)集，用于測試多步推理。

SpartQA：語言與邏輯復(fù)雜度極高，包含 3D 空間關(guān)系、多重量詞（如「所有」「僅僅」）等挑戰(zhàn)。

結(jié)果顯示，該框架在StepGame上的準(zhǔn)確率達(dá)到82–93%，在SpartQA上為71–80%。

相比直接提示和思維鏈方法，準(zhǔn)確率最高分別提升了43%和25%

更重要的是，這一框架使得推理過程透明、可追溯。每一步邏輯都能通過符號系統(tǒng)進行驗證和修正，避免了「黑箱式」推理難以解釋的問題。

在測試數(shù)據(jù)集SpartQA上LLMs與符號求解器的迭代反饋表現(xiàn)

通往更可靠通用AI的潛力

研究團隊強調(diào)，這項成果的意義不僅在于攻克空間推理，更在于提供了一種神經(jīng)網(wǎng)絡(luò)與符號邏輯深度融合的范式。

這條路徑有望解決 AI 長期存在的可解釋性、可靠性與泛化性難題。

尤其值得一提的是，該技術(shù)展現(xiàn)出很強的泛化能力：不僅能處理空間推理任務(wù)，還可以擴展到各種需要嚴(yán)謹(jǐn)邏輯鏈條的復(fù)雜任務(wù)場景，如法律推理、多模態(tài)推理、工程規(guī)劃乃至科學(xué)研究等。

通過為LLMs配備外部「邏輯腦」，系統(tǒng)可以在語言理解與邏輯推理之間實現(xiàn)類似人類的「雙系統(tǒng)」協(xié)作，不僅能產(chǎn)出更高質(zhì)量的答案，還能展現(xiàn)出明確的邏輯鏈條。

這種具備自我修正與類人多組件推理能力的混合架構(gòu)，這種能自我修正、跨任務(wù)泛化的「人類式推理」新路徑被認(rèn)為是邁向通用人工智能（AGI）的重要一步。

換句話說，這項研究讓大模型從「能說會道」，真正走向「能想會推理」，并具備跨任務(wù)遷移與應(yīng)用的潛力。

參考資料：https://www.sciencedirect.com/science/article/pii/S0893608025009025

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.