“AI 能不能真正理解你在想什么?”這看似是哲學(xué)或心理學(xué)的問題,其實是 AI 下一階段演進繞不開的技術(shù)挑戰(zhàn)。技術(shù)術(shù)語叫做“心智理論”(ToM,Theory of Mind),即模型是否能夠理解、推理和預(yù)測他人的信念與意圖。
目前,大語言模型在部分心智測試中已展現(xiàn)出一定的能力,但其對資源的依賴使得在移動設(shè)備、低功耗場景、教育陪伴型產(chǎn)品中難以直接部署。美國斯蒂文斯理工學(xué)院張登輝和徐兆卓助理教授和團隊關(guān)注的核心問題是:如何讓中小規(guī)模語言模型在生成過程中逐漸成長,最終具備“理解人”的基本能力?
為此,研究團隊提出了一種基于動態(tài)認知邏輯 (Dynamic Epistemic Logic, DEL) 與路徑評分機制的推理階段增強框架——DEL-ToM(Dynamic Epistemic Logic for Theory-of-Mind),旨在提升小模型在復(fù)雜心智測試中的可解釋推理能力。不改變模型結(jié)構(gòu)、不重新訓(xùn)練,只通過一個對于模型在心智測試中的生成過程進行評價,幫助模型推理式生成過程中選擇更合理的心智推理思路。
心智測試任務(wù)的難點不在于語言理解,而在于對多層嵌套信念的建模。模型不僅需要識別事實,還需理解“角色 A 認為角色 B 誤解了角色 C 的行為“這類高階結(jié)構(gòu)。研究團隊認為大模型心智的本質(zhì)不是知識問答,而是視角建模。
舉個經(jīng)典例子:John 把巧克力放在抽屜里,然后出門了。Mary 悄悄把巧克力移到了桌上。現(xiàn)在問題是:“John 回來后會去哪找巧克力?”
這個問題的標準答案應(yīng)該是“抽屜”,因為 John 并不知道巧克力已經(jīng)被挪走了。但很多小模型會直接說“桌上”,它們只看到了事實,而沒有理解 John 的視角。
更復(fù)雜的任務(wù)涉及三階嵌套(A 知道 B 以為 C 不知道...),這就要求模型不僅理解文字,還要構(gòu)建多角色、多時間點的動態(tài)信念邏輯,挑戰(zhàn)非常高。人類兒童在 4 歲左右逐漸習(xí)得這類推理,而語言模型并不具備內(nèi)置的信念建模機制。當它們面對“John 不知道 Mary 換了巧克力位置”的任務(wù)時,往往會直接根據(jù)事實回答,忽略主角的視角限制。這一現(xiàn)象在二階及以上信念任務(wù)中尤為明顯。這也意味著,心智能力的構(gòu)建,不只是訓(xùn)練數(shù)據(jù)覆蓋問題,更是推理機制設(shè)計問題。
(來源:資料圖)
據(jù)介紹,DEL-ToM 的核心由兩個協(xié)同模塊構(gòu)成。
第一個協(xié)同模塊是,信念路徑生成器(Belief Trace Generator),給定文本場景,語言模型生成多個可能的信念更新序列,每條路徑代表角色對世界狀態(tài)的動態(tài)理解過程。每條路徑由若干嵌套更新組成,形式化表達 DEL 動態(tài)認知邏輯中的狀態(tài)轉(zhuǎn)移。
第二個協(xié)同模塊是過程評分模型(PBM,Process Belief Model),利用 DEL 動態(tài)認知邏輯標簽訓(xùn)練的輕量化評分器,對每條路徑逐步評估其邏輯一致性與結(jié)構(gòu)合理性。最終,選取得分最高路徑作為答案來源。
研究團隊強調(diào)的是一種推理階段的“信念路徑選擇”,讓模型像人一樣“先構(gòu)建推理過程,再輸出結(jié)論”。這個方法不需要額外訓(xùn)練數(shù)據(jù),不依賴外部知識庫,僅通過邏輯約束和評分機制就能提升推理質(zhì)量。
(來源:資料圖)
研究團隊在 Hi-ToM 數(shù)據(jù)集上評估 DEL-ToM 的性能,測試模型包括 LLaMA,Qwen 等模型系列,覆蓋各種形式的 ToM 任務(wù)。
關(guān)鍵發(fā)現(xiàn)包括:
- Qwen3-4B 模型在 DEL-ToM 增強后表現(xiàn)超過 DeepSeekV3 和 GPT-4.1;
- LLaMA3.2-7B 在 DEL-ToM 增強后表現(xiàn)接近 GPT-4.1;
- DEL-ToM 顯著擴展小模型在 ToM 心智相關(guān)測試的性能,展現(xiàn)小模型的心智提升潛力。
此外,研究團隊還在心理學(xué)標準測試(Sally-Anne, Ice-Cream Van)上驗證了 DEL-ToM 在復(fù)雜信念建模方面的結(jié)構(gòu)優(yōu)勢。更重要的是:DEL-ToM 的增益與模型大小關(guān)系不大,說明其適配性良好,適合低資源環(huán)境部署。
在研究團隊的另一篇“兄弟篇”論文《敏感性與稀疏性的交匯:極端稀疏參數(shù)模式對大語言模型心智理論的影響》(Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models)中,研究團隊換了一個新研究角度:ToM 能力究竟是如何在語言模型內(nèi)部產(chǎn)生的?它是否依賴某些極度稀疏的關(guān)鍵參數(shù)?
(來源:資料圖)
研究團隊首次提出“ToM-sensitive parameters”的概念,即模型中對心智推理結(jié)果極其敏感的少量稀疏參數(shù)集合。研究團隊的方法如下:
- 利用微擾方法在保持語言能力不變的條件下,逐步擾動稀疏關(guān)鍵參數(shù);
- 精確定位哪些位置的模型參數(shù)輕微變化就會造成 心智能力崩塌;
結(jié)果發(fā)現(xiàn):只需擾動 0.001% 的參數(shù),模型的 心智 表現(xiàn)就可下降 25% 以上。
更令人驚訝的是,這些敏感參數(shù)高度集中在 Transformer 架構(gòu)中的位置編碼模塊(如 RoPE),負責(zé)調(diào)控 Query 與 Key 在不同時間步之間的對齊角度。這種變化會破壞模型對故事事件順序的理解,進而影響“誰知道了什么”這一 心智 核心要素。
(來源:資料圖)
總的來說,這項研究的意義在于:為大模型心智能力提供了神經(jīng)機制層面的解釋,即大模型心智能力并非大規(guī)模參數(shù)協(xié)同涌現(xiàn),而是具備高度結(jié)構(gòu)性;可用于未來人工智能模型心智能力檢測和注入等應(yīng)用的參數(shù)級調(diào)控工具設(shè)計。
兩項工作從不同角度強化研究團隊對“語言大模型是否真正具備心智”的理解,并為后續(xù)可解釋大模型、社會人格注入等方向提供理論基礎(chǔ)與工程方法。
圖 | 史蒂文斯理工張登輝老師和徐兆卓老師(來源:資料圖)
為什么研究團隊強調(diào)“小模型”?很多人對該團隊提出疑問:為什么不直接訓(xùn)練一個大模型解決 任務(wù)?
理由有三:
- 成本可控:邊緣場景、K12 教育、陪伴型機器人無法承載大模型部署成本;
- 可解釋性強:小模型的輸出更容易被分析、糾偏和對齊;
- 科學(xué)價值:小模型更容易研究“為什么出錯”“模型到底學(xué)到了什么”。
研究團隊相信,小模型也具備在實踐中提升心智,達到大模型心智水平的潛力。其表示,心智能力在多個實際場景中具有重要價值,尤其在資源受限設(shè)備與需要高度可解釋輸出的系統(tǒng)中,比如用于教育機器人、醫(yī)療陪護系統(tǒng)、心理健康對話系統(tǒng)等。DEL-ToM 提供的邏輯路徑可直接用于決策解釋與反饋生成,具有良好的信任感與部署價值。
研究團隊表示,DEL-ToM 并非簡單提升小模型性能的工具,更是推動“過程可解釋、結(jié)構(gòu)可控、生成可信”這一方向的一次嘗試。在研究團隊看來,心智不僅是能力評估指標,更是通向可信 AI 的橋梁。未來研究團隊還將進一步探索大模型的多路徑共識機制、心智評估與修正策略、跨模態(tài)信念建模(文本 + 圖表 + 場景模擬)。研究團隊相信,理解他人想法不僅是大模型的能力邊界,更是建立信任、服務(wù)人類的必要能力。
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.