“神經(jīng)-符號”融合規(guī)劃器性能顯著超越o1：借鑒人類運動學(xué)習(xí)機制

2025-08-06 16:40:17　來源: 量子位

北京舉報

分享至

中國科學(xué)院磐石研發(fā)團隊投稿
量子位 | 公眾號 QbitAI

科研er看過來！還在反復(fù)嘗試材料組合方案，耗時又耗力？

新型“神經(jīng)-符號”融合規(guī)劃器直接幫你一鍵鎖定高效又精準的科研智能規(guī)劃。

不同于當前效率低下、盲目性高的傳統(tǒng)智能規(guī)劃方法，中國科學(xué)院磐石研發(fā)團隊此次提出的混合規(guī)劃器，同時融合了神經(jīng)規(guī)劃系統(tǒng)和符號規(guī)劃系統(tǒng)的優(yōu)勢。

借鑒人類的閉環(huán)反饋機制，構(gòu)建雙向規(guī)劃機制，在表達能力、適應(yīng)能力、泛化能力以及可解釋性上都實現(xiàn)了顯著提升。

還能只在正向規(guī)劃器需要時，自動激活反饋接收，在規(guī)劃覆蓋率和規(guī)劃效率上均顯著優(yōu)于OpenAI o1。

目前該智能規(guī)劃器已加入“磐石·科學(xué)基礎(chǔ)大模型”，該項目已面向科學(xué)領(lǐng)域集成了一系列專用模型。

借鑒人類運動學(xué)習(xí)的“反饋閉環(huán)理念”

基于Knowledge of Result（KR）的閉環(huán)系統(tǒng)是人類運動學(xué)習(xí)的關(guān)鍵部分，可以幫助學(xué)習(xí)者糾正錯誤，向著目標方向?qū)崿F(xiàn)有效學(xué)習(xí)。

在運動學(xué)習(xí)中KR是執(zhí)行運動后的增強信息，表明既定目標是否成功，而閉環(huán)系統(tǒng)是以反饋、錯誤檢測和錯誤糾正為核心的過程。

規(guī)劃任務(wù)中的問題、規(guī)劃器和動作序列可近似對應(yīng)于人類運動學(xué)習(xí)中的試驗、學(xué)習(xí)者和行動序列，規(guī)劃任務(wù)與運動學(xué)習(xí)有較強的相似性。

反饋閉環(huán)與對應(yīng)的規(guī)劃問題

因此，“神經(jīng)-符號”融合規(guī)劃器通過借鑒人類運動學(xué)習(xí)中的反饋閉環(huán)理念，構(gòu)建了一種閉環(huán)反饋的雙向規(guī)劃機制——KRCL(Knowledge-of-Results based Closed-Loop)，正向神經(jīng)規(guī)劃器生成問題的動作序列與反向KR反饋機制構(gòu)成動態(tài)的錯誤檢測-糾正閉環(huán)。

通過有效利用信息的雙向傳遞和反饋來評估和調(diào)整動作，在規(guī)劃中研究以KR信息為中心的閉環(huán)規(guī)劃結(jié)構(gòu)，實現(xiàn)準確的反饋以加強錯誤檢測和錯誤糾正，持續(xù)評估和調(diào)整規(guī)劃器的動作，從而促進規(guī)劃器的有效學(xué)習(xí)。

神經(jīng)規(guī)劃器與符號規(guī)劃識別器融合

“磐石”研發(fā)團隊構(gòu)建了一種神經(jīng)規(guī)劃器與符號規(guī)劃識別器的新型融合模式，實現(xiàn)了神經(jīng)系統(tǒng)與符號系統(tǒng)之間的雙向連接，通過利用兩種范式的互補優(yōu)勢，在規(guī)劃中同時實現(xiàn)的有效學(xué)習(xí)和推理。

其中，正向的神經(jīng)規(guī)劃器和反向的符號規(guī)劃識別器構(gòu)成KR閉環(huán)結(jié)構(gòu)。

“神經(jīng)-符號”融合新型規(guī)劃器架構(gòu)

在正方向，神經(jīng)規(guī)劃器利用其強大的表示和學(xué)習(xí)能力生成規(guī)劃問題的動作序列，可提高規(guī)劃效率和靈活性。

在反方向，動作序列則被輸入到符號規(guī)劃識別器中，推理出最可能的規(guī)劃目標。

符號規(guī)劃識別器具備準確、可靠和可解釋性等優(yōu)勢，可幫助神經(jīng)網(wǎng)絡(luò)訓(xùn)練、學(xué)習(xí)和推理，進而提高模型的可解釋性。

實現(xiàn)正反向閉環(huán)的KR增強信息則利用文本相似度方法來量化，通過比較推理目標和真實目標來計算它們的相似度。

KR強信息賦予規(guī)劃器思考能力并對結(jié)果進行校正。閉環(huán)反饋過程兼顧有效學(xué)習(xí)與推理能力，促進規(guī)劃器糾正錯誤并能夠更精準地指導(dǎo)規(guī)劃器尋找正確的解決方案。

只在“需要”的時候接收反饋

人類運動學(xué)習(xí)中，傳統(tǒng)的固定KR機制由指導(dǎo)者控制KR信息，限制了學(xué)習(xí)者的學(xué)習(xí)動機和獲取的反饋信息。

為了解決該問題，提出了自我控制機制，允許學(xué)習(xí)者決定何時獲得KR，這種方式不僅可以增強學(xué)習(xí)動機，還可以增強信息處理能力，特別是可以提高閉環(huán)系統(tǒng)的錯誤檢測和錯誤糾正能力。

面向規(guī)劃問題的自我控制機制

此外，過多的KR增強反饋會使正向規(guī)劃器依賴于KR，導(dǎo)致短期表現(xiàn)提升，但會影響模型的長遠表現(xiàn)和遷移能力。

因此，“磐石”研發(fā)團隊提出了面向規(guī)劃問題的自我控制機制，從規(guī)劃問題的難度和模型表現(xiàn)兩方面展開研究。

一方面，評估規(guī)劃問題的難度，基于規(guī)劃問題的對象、狀態(tài)、動作三個重要元素來計算每個問題的難度，當難度超過預(yù)定義的閾值時激活反向規(guī)劃識別器。

另一方面，當正向規(guī)劃器表現(xiàn)不佳時，反向規(guī)劃識別器也會被觸發(fā)。

自我控制機制使得反向規(guī)劃識別器只在正向規(guī)劃器“需要”的時候被激活，以優(yōu)化正向規(guī)劃器接收反饋的頻率，減少規(guī)劃器對反饋的依賴，進而提高模型的自主性，另外也為規(guī)劃器提供了更高的學(xué)習(xí)效率。

它在適當時機選擇性地引入KR反饋，避免了固定KR策略中的反饋冗余問題，從而在規(guī)劃器的學(xué)習(xí)過程中實現(xiàn)了更快的收斂和更高的覆蓋率。

規(guī)劃覆蓋率和規(guī)劃效率顯著領(lǐng)先

研發(fā)團隊在國際IPC（International Planning Competition）競賽的8個代表性規(guī)劃任務(wù)上系統(tǒng)性地評估了KRCL的性能。

8個代表性規(guī)劃任務(wù)上的系統(tǒng)評估

結(jié)果顯示KRCL的平均覆蓋率顯著優(yōu)于其他對比規(guī)劃器，證明了所提出的基于神經(jīng)-符號融合的雙向規(guī)劃器可以指導(dǎo)規(guī)劃器尋找正確的解決方案，精準有效地解決規(guī)劃任務(wù)。

此外，團隊還在PlanBench（用于評估大語言模型規(guī)劃性能的基準數(shù)據(jù)集）上對KRCL與大型語言模型OpenAI o1在規(guī)劃任務(wù)中的性能進行了對比。

PlanBench上的性能對比

實驗結(jié)果表明， KRCL在規(guī)劃覆蓋率和規(guī)劃效率方面均顯著優(yōu)于OpenAI o1，進一步驗證了該方法在規(guī)劃任務(wù)中的優(yōu)勢。

KRCL通過神經(jīng)和符號系統(tǒng)優(yōu)勢互補，能夠有效提升規(guī)劃性能，并利用其強大的閉環(huán)反饋機制、精準的推理校正能力以及高效的自主規(guī)劃特性，可為各類科學(xué)研究任務(wù)提供更可靠、更智能的規(guī)劃工具。

論文鏈接：
https://www.sciencedirect.com/science/article/abs/pii/S095070512501086X?via%3Dihub

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.