新智元報道
編輯:LRST
【新智元導(dǎo)讀】來自中德的研究團隊發(fā)布最新成果,給大模型外掛「邏輯腦」:用答案集編程當(dāng)慢思考,LLM當(dāng)快直覺,空間推理準(zhǔn)確率一口氣提高四成多。這套會自我修正的「神經(jīng)-符號」雙系統(tǒng),讓AI既能說清每一步邏輯,又能跨任務(wù)遷移,向更可靠的通用推理邁出關(guān)鍵一步。
大語言模型(LLMs)已在文本生成、代碼編寫乃至多模態(tài)任務(wù)中展現(xiàn)出驚人的能力,但在涉及嚴(yán)謹(jǐn)邏輯與物理的空間推理任務(wù)上,它們?nèi)燥@得力不從心。
比如,當(dāng)模型需要理解多個物體之間的相對位置關(guān)系,并在復(fù)雜語境下進行多步驟推理時,往往容易出現(xiàn)「邏輯斷裂」:可能在中間步驟中虛構(gòu)錯誤事實,或偏離目標(biāo),最終導(dǎo)致答案不可靠。
這一問題在空間推理任務(wù)中尤為突出??臻g推理要求模型能像人一樣,推演出「桌子在椅子左邊,燈在桌子上方,因此燈也在椅子左邊」這樣的復(fù)雜鏈條。
然而,盡管「思維鏈(Chain-of-Thought)」等提示工程方法在一定程度上提升了模型的推理表現(xiàn),但在多步驟、動態(tài)變化的場景中,它們依舊難以保證邏輯一致性。
為了彌合神經(jīng)網(wǎng)絡(luò)的模式識別能力與符號系統(tǒng)嚴(yán)謹(jǐn)邏輯之間的鴻溝,來自德國圖賓根大學(xué)、斯圖加特大學(xué)(王榮)和同濟大學(xué)(孫坤)的科研人員合作研究發(fā)表在著名的人工智能和深度學(xué)期刊《神經(jīng)網(wǎng)絡(luò)》(Neural Networks)上,該研究提出了一種創(chuàng)新的神經(jīng)-符號(neural-symbolic)框架。
論文鏈接:
https://www.sciencedirect.com/science/article/pii/S0893608025009025
該框架通過一個精巧的自動迭代反饋循環(huán)(而非手動),成功地將大語言模型與一種名為「答案集編程」(Answer Set Programming, ASP)的聲明式邏輯編程系統(tǒng)相結(jié)合,顯著提升了機器的空間推理能力。
研究人員借鑒了認(rèn)知科學(xué)中的「雙過程理論」,該理論認(rèn)為人類思維分為兩個系統(tǒng):系統(tǒng)1負(fù)責(zé)快速、直觀的聯(lián)想式思考,而系統(tǒng)2則進行緩慢、審慎的規(guī)則化推理。
在這套新框架中,LLM強大的語言理解和模式識別能力扮演了類似「系統(tǒng)1」的角色;而ASP作為符號推理的主干,則承擔(dān)了「系統(tǒng)2」的職責(zé),負(fù)責(zé)精確、可驗證的邏輯推導(dǎo)。
基于DSPy框架的神經(jīng)-符號管道框架
該框架的工作流程可以概括為一種「翻譯-執(zhí)行-修正」的協(xié)同模式:
1)翻譯 (Semantic Parsing):首先,LLM接收自然語言形式的上下文和問題,并將其翻譯成ASP能夠理解的、結(jié)構(gòu)化的邏輯事實與規(guī)則代碼。
2)執(zhí)行 (Logical Reasoning):接著,ASP求解器接管這些邏輯代碼,利用其強大的非單調(diào)推理能力(即在信息不完整的情況下進行推理),計算出所有滿足約束條件的穩(wěn)定解。
3)修正 (Iterative Feedback):這是整個系統(tǒng)的核心創(chuàng)新。以往的神經(jīng)-符號方法中,LLM生成的邏輯代碼常常因語法或邏輯錯誤而導(dǎo)致整個系統(tǒng)失敗,成功率有時低至17%
新框架引入了LLM與ASP求解器之間的迭代反饋循環(huán)。如果ASP在執(zhí)行中發(fā)現(xiàn)錯誤,系統(tǒng)會將錯誤信息反饋給LLM,指導(dǎo)其對生成的邏輯程序進行多輪修正,直至代碼在語法和語義上都完全正確。
整個系統(tǒng)基于模塊化的DSPy框架構(gòu)建,它為LLMs和符號求解器之間的無縫雙向交互提供了支持,使得這種復(fù)雜的協(xié)同工作流得以實現(xiàn)。
自然語言查詢轉(zhuǎn)換為ASP表示的過程
在復(fù)雜基準(zhǔn)測試中表現(xiàn)卓越
研究團隊在兩個不同類型的基準(zhǔn)任務(wù)上檢驗了框架:
StepGame:結(jié)構(gòu)化的合成數(shù)據(jù)集,用于測試多步推理。
SpartQA:語言與邏輯復(fù)雜度極高,包含 3D 空間關(guān)系、多重量詞(如「所有」「僅僅」)等挑戰(zhàn)。
結(jié)果顯示,該框架在StepGame上的準(zhǔn)確率達(dá)到82–93%,在SpartQA上為71–80%。
相比直接提示和思維鏈方法,準(zhǔn)確率最高分別提升了43%和25%
更重要的是,這一框架使得推理過程透明、可追溯。每一步邏輯都能通過符號系統(tǒng)進行驗證和修正,避免了「黑箱式」推理難以解釋的問題。
在測試數(shù)據(jù)集SpartQA上LLMs與符號求解器的迭代反饋表現(xiàn)
通往更可靠通用AI的潛力
研究團隊強調(diào),這項成果的意義不僅在于攻克空間推理,更在于提供了一種神經(jīng)網(wǎng)絡(luò)與符號邏輯深度融合的范式。
這條路徑有望解決 AI 長期存在的可解釋性、可靠性與泛化性難題。
尤其值得一提的是,該技術(shù)展現(xiàn)出很強的泛化能力:不僅能處理空間推理任務(wù),還可以擴展到各種需要嚴(yán)謹(jǐn)邏輯鏈條的復(fù)雜任務(wù)場景,如法律推理、多模態(tài)推理、工程規(guī)劃乃至科學(xué)研究等。
通過為LLMs配備外部「邏輯腦」,系統(tǒng)可以在語言理解與邏輯推理之間實現(xiàn)類似人類的「雙系統(tǒng)」協(xié)作,不僅能產(chǎn)出更高質(zhì)量的答案,還能展現(xiàn)出明確的邏輯鏈條。
這種具備自我修正與類人多組件推理能力的混合架構(gòu),這種能自我修正、跨任務(wù)泛化的「人類式推理」新路徑被認(rèn)為是邁向通用人工智能(AGI)的重要一步。
換句話說,這項研究讓大模型從「能說會道」,真正走向「能想會推理」,并具備跨任務(wù)遷移與應(yīng)用的潛力。
參考資料:https://www.sciencedirect.com/science/article/pii/S0893608025009025
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.