夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

科學(xué)家提出DEL-ToM,用小模型理解他人想法

0
分享至

“AI 能不能真正理解你在想什么?”這看似是哲學(xué)或心理學(xué)的問題,其實是 AI 下一階段演進繞不開的技術(shù)挑戰(zhàn)。技術(shù)術(shù)語叫做“心智理論”(ToM,Theory of Mind),即模型是否能夠理解、推理和預(yù)測他人的信念與意圖。

目前,大語言模型在部分心智測試中已展現(xiàn)出一定的能力,但其對資源的依賴使得在移動設(shè)備、低功耗場景、教育陪伴型產(chǎn)品中難以直接部署。美國斯蒂文斯理工學(xué)院張登輝和徐兆卓助理教授和團隊關(guān)注的核心問題是:如何讓中小規(guī)模語言模型在生成過程中逐漸成長,最終具備“理解人”的基本能力?

為此,研究團隊提出了一種基于動態(tài)認知邏輯 (Dynamic Epistemic Logic, DEL) 與路徑評分機制的推理階段增強框架——DEL-ToM(Dynamic Epistemic Logic for Theory-of-Mind),旨在提升小模型在復(fù)雜心智測試中的可解釋推理能力。不改變模型結(jié)構(gòu)、不重新訓(xùn)練,只通過一個對于模型在心智測試中的生成過程進行評價,幫助模型推理式生成過程中選擇更合理的心智推理思路。

心智測試任務(wù)的難點不在于語言理解,而在于對多層嵌套信念的建模。模型不僅需要識別事實,還需理解“角色 A 認為角色 B 誤解了角色 C 的行為“這類高階結(jié)構(gòu)。研究團隊認為大模型心智的本質(zhì)不是知識問答,而是視角建模。

舉個經(jīng)典例子:John 把巧克力放在抽屜里,然后出門了。Mary 悄悄把巧克力移到了桌上。現(xiàn)在問題是:“John 回來后會去哪找巧克力?”

這個問題的標準答案應(yīng)該是“抽屜”,因為 John 并不知道巧克力已經(jīng)被挪走了。但很多小模型會直接說“桌上”,它們只看到了事實,而沒有理解 John 的視角。

更復(fù)雜的任務(wù)涉及三階嵌套(A 知道 B 以為 C 不知道...),這就要求模型不僅理解文字,還要構(gòu)建多角色、多時間點的動態(tài)信念邏輯,挑戰(zhàn)非常高。人類兒童在 4 歲左右逐漸習(xí)得這類推理,而語言模型并不具備內(nèi)置的信念建模機制。當它們面對“John 不知道 Mary 換了巧克力位置”的任務(wù)時,往往會直接根據(jù)事實回答,忽略主角的視角限制。這一現(xiàn)象在二階及以上信念任務(wù)中尤為明顯。這也意味著,心智能力的構(gòu)建,不只是訓(xùn)練數(shù)據(jù)覆蓋問題,更是推理機制設(shè)計問題。


(來源:資料圖)

據(jù)介紹,DEL-ToM 的核心由兩個協(xié)同模塊構(gòu)成。

第一個協(xié)同模塊是,信念路徑生成器(Belief Trace Generator),給定文本場景,語言模型生成多個可能的信念更新序列,每條路徑代表角色對世界狀態(tài)的動態(tài)理解過程。每條路徑由若干嵌套更新組成,形式化表達 DEL 動態(tài)認知邏輯中的狀態(tài)轉(zhuǎn)移。

第二個協(xié)同模塊是過程評分模型(PBM,Process Belief Model),利用 DEL 動態(tài)認知邏輯標簽訓(xùn)練的輕量化評分器,對每條路徑逐步評估其邏輯一致性與結(jié)構(gòu)合理性。最終,選取得分最高路徑作為答案來源。

研究團隊強調(diào)的是一種推理階段的“信念路徑選擇”,讓模型像人一樣“先構(gòu)建推理過程,再輸出結(jié)論”。這個方法不需要額外訓(xùn)練數(shù)據(jù),不依賴外部知識庫,僅通過邏輯約束和評分機制就能提升推理質(zhì)量。


(來源:資料圖)

研究團隊在 Hi-ToM 數(shù)據(jù)集上評估 DEL-ToM 的性能,測試模型包括 LLaMA,Qwen 等模型系列,覆蓋各種形式的 ToM 任務(wù)。

關(guān)鍵發(fā)現(xiàn)包括:

  • Qwen3-4B 模型在 DEL-ToM 增強后表現(xiàn)超過 DeepSeekV3 和 GPT-4.1;
  • LLaMA3.2-7B 在 DEL-ToM 增強后表現(xiàn)接近 GPT-4.1;
  • DEL-ToM 顯著擴展小模型在 ToM 心智相關(guān)測試的性能,展現(xiàn)小模型的心智提升潛力。

此外,研究團隊還在心理學(xué)標準測試(Sally-Anne, Ice-Cream Van)上驗證了 DEL-ToM 在復(fù)雜信念建模方面的結(jié)構(gòu)優(yōu)勢。更重要的是:DEL-ToM 的增益與模型大小關(guān)系不大,說明其適配性良好,適合低資源環(huán)境部署。

在研究團隊的另一篇“兄弟篇”論文《敏感性與稀疏性的交匯:極端稀疏參數(shù)模式對大語言模型心智理論的影響》(Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models)中,研究團隊換了一個新研究角度:ToM 能力究竟是如何在語言模型內(nèi)部產(chǎn)生的?它是否依賴某些極度稀疏的關(guān)鍵參數(shù)?


(來源:資料圖)

研究團隊首次提出“ToM-sensitive parameters”的概念,即模型中對心智推理結(jié)果極其敏感的少量稀疏參數(shù)集合。研究團隊的方法如下:

  • 利用微擾方法在保持語言能力不變的條件下,逐步擾動稀疏關(guān)鍵參數(shù);
  • 精確定位哪些位置的模型參數(shù)輕微變化就會造成 心智能力崩塌;

結(jié)果發(fā)現(xiàn):只需擾動 0.001% 的參數(shù),模型的 心智 表現(xiàn)就可下降 25% 以上。

更令人驚訝的是,這些敏感參數(shù)高度集中在 Transformer 架構(gòu)中的位置編碼模塊(如 RoPE),負責(zé)調(diào)控 Query 與 Key 在不同時間步之間的對齊角度。這種變化會破壞模型對故事事件順序的理解,進而影響“誰知道了什么”這一 心智 核心要素。


(來源:資料圖)

總的來說,這項研究的意義在于:為大模型心智能力提供了神經(jīng)機制層面的解釋,即大模型心智能力并非大規(guī)模參數(shù)協(xié)同涌現(xiàn),而是具備高度結(jié)構(gòu)性;可用于未來人工智能模型心智能力檢測和注入等應(yīng)用的參數(shù)級調(diào)控工具設(shè)計。

兩項工作從不同角度強化研究團隊對“語言大模型是否真正具備心智”的理解,并為后續(xù)可解釋大模型、社會人格注入等方向提供理論基礎(chǔ)與工程方法。


圖 | 史蒂文斯理工張登輝老師和徐兆卓老師(來源:資料圖)

為什么研究團隊強調(diào)“小模型”?很多人對該團隊提出疑問:為什么不直接訓(xùn)練一個大模型解決 任務(wù)?

理由有三:

  • 成本可控:邊緣場景、K12 教育、陪伴型機器人無法承載大模型部署成本;
  • 可解釋性強:小模型的輸出更容易被分析、糾偏和對齊;
  • 科學(xué)價值:小模型更容易研究“為什么出錯”“模型到底學(xué)到了什么”。

研究團隊相信,小模型也具備在實踐中提升心智,達到大模型心智水平的潛力。其表示,心智能力在多個實際場景中具有重要價值,尤其在資源受限設(shè)備與需要高度可解釋輸出的系統(tǒng)中,比如用于教育機器人、醫(yī)療陪護系統(tǒng)、心理健康對話系統(tǒng)等。DEL-ToM 提供的邏輯路徑可直接用于決策解釋與反饋生成,具有良好的信任感與部署價值。

研究團隊表示,DEL-ToM 并非簡單提升小模型性能的工具,更是推動“過程可解釋、結(jié)構(gòu)可控、生成可信”這一方向的一次嘗試。在研究團隊看來,心智不僅是能力評估指標,更是通向可信 AI 的橋梁。未來研究團隊還將進一步探索大模型的多路徑共識機制、心智評估與修正策略、跨模態(tài)信念建模(文本 + 圖表 + 場景模擬)。研究團隊相信,理解他人想法不僅是大模型的能力邊界,更是建立信任、服務(wù)人類的必要能力。

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1夜4大轉(zhuǎn)會誕生!米蘭離隊第10人,馬競第6簽,莫拉塔9年輾轉(zhuǎn)7隊

1夜4大轉(zhuǎn)會誕生!米蘭離隊第10人,馬競第6簽,莫拉塔9年輾轉(zhuǎn)7隊

阿超他的體育圈
2025-08-10 05:45:03
原周薪30萬鎊!記者:埃弗頓愿承擔(dān)格拉利什25萬鎊周薪,無租借費

原周薪30萬鎊!記者:埃弗頓愿承擔(dān)格拉利什25萬鎊周薪,無租借費

直播吧
2025-08-10 21:44:24
他睡過上官婉兒和太平公主,當過三朝宰相,死后讓唐玄宗念念不忘

他睡過上官婉兒和太平公主,當過三朝宰相,死后讓唐玄宗念念不忘

另子維愛讀史
2025-07-26 23:30:52
桑切斯嫁億萬富豪貝索斯后大回春!媒體卻爆料:光頭迷戀97年女神

桑切斯嫁億萬富豪貝索斯后大回春!媒體卻爆料:光頭迷戀97年女神

寒士之言本尊
2025-08-07 14:25:11
狐貍尾巴藏不住,撒謊成性、風(fēng)流瀟灑的張柏芝,被陳曉東撕下體面

狐貍尾巴藏不住,撒謊成性、風(fēng)流瀟灑的張柏芝,被陳曉東撕下體面

喜歡歷史的阿繁
2025-08-09 00:41:07
21歲表弟拍性愛視頻威脅表嫂離婚,被拒后,撞傷表嫂抱她一起跳河

21歲表弟拍性愛視頻威脅表嫂離婚,被拒后,撞傷表嫂抱她一起跳河

丫頭舫
2025-08-05 15:09:54
后續(xù)來了!南航上被圍毆,堅決不和解:“孩子小”不是作惡的盾牌

后續(xù)來了!南航上被圍毆,堅決不和解:“孩子小”不是作惡的盾牌

鋭娛之樂
2025-08-09 11:19:12
善良成陷阱?知名攝影師含淚控訴意大利火車精心騙局

善良成陷阱?知名攝影師含淚控訴意大利火車精心騙局

意大利華人網(wǎng)0039
2025-08-11 00:11:38
相親遇到哪些奇葩對象?網(wǎng)友:相親一男的,說在北京有幾個億資產(chǎn)

相親遇到哪些奇葩對象?網(wǎng)友:相親一男的,說在北京有幾個億資產(chǎn)

帶你感受人間冷暖
2025-08-08 00:05:17
三星堆文明并非無法解釋,而是不好解釋,它有太多令人詭異的地方

三星堆文明并非無法解釋,而是不好解釋,它有太多令人詭異的地方

文辰國學(xué)
2025-06-28 17:59:28
中東土豪有多會玩?把波蘭女人當“玩物”,120萬就能帶走一個?

中東土豪有多會玩?把波蘭女人當“玩物”,120萬就能帶走一個?

南宗歷史
2025-07-22 20:58:24
澳媒深挖隱形富豪楊蘭蘭,很神秘,只知她錢多到不敢想象

澳媒深挖隱形富豪楊蘭蘭,很神秘,只知她錢多到不敢想象

動物奇奇怪怪
2025-08-10 10:27:03
俄中將共同解決歷史遺留問題,黑瞎子和海參崴能回歸祖國懷抱嗎?

俄中將共同解決歷史遺留問題,黑瞎子和海參崴能回歸祖國懷抱嗎?

小鬼頭體育
2025-08-09 13:00:57
未來2小時,重慶這8個區(qū)縣有強降雨

未來2小時,重慶這8個區(qū)縣有強降雨

上游新聞
2025-08-10 17:38:03
張維伊回董璇家,戴著面膜拖鞋也不換,董璇媽的不喜歡都寫臉上了

張維伊回董璇家,戴著面膜拖鞋也不換,董璇媽的不喜歡都寫臉上了

娛圈小愚
2025-08-10 10:01:48
武大校長說的“上級”,究竟是誰

武大校長說的“上級”,究竟是誰

必記本
2025-08-02 02:59:37
淚目!10歲女孩張睿琪腦出血去世,出事到離世僅18天長得很漂亮

淚目!10歲女孩張睿琪腦出血去世,出事到離世僅18天長得很漂亮

農(nóng)城浪子
2025-08-02 16:34:42
前上位小花離巢TVB後事業(yè)運極強,工作不斷北上拍劇:好新奇

粵睇先生
2025-08-11 00:05:06

TVB「御用貴婦」現(xiàn)實竟是氣功治療師,傳可隔空為人療傷超猛料!

TVB「御用貴婦」現(xiàn)實竟是氣功治療師,傳可隔空為人療傷超猛料!

粵睇先生
2025-08-11 00:18:12
背靠大佬,嫁法國老頭,癱瘓難自理?李宇春不再隱瞞,首回應(yīng)真相

背靠大佬,嫁法國老頭,癱瘓難自理?李宇春不再隱瞞,首回應(yīng)真相

小故事娛樂
2025-07-06 17:43:33
2025-08-11 02:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15506文章數(shù) 513973關(guān)注度
往期回顧 全部

科技要聞

機器人大會:展臺水泄不通 觀眾眼里放光!

頭條要聞

正式測定:土耳其發(fā)生6.3級地震 震源深度10千米

頭條要聞

正式測定:土耳其發(fā)生6.3級地震 震源深度10千米

體育要聞

時隔10年全勝出線,中國男籃收獲了什么?

娛樂要聞

謝霆鋒:把世人的唾棄碾成階梯

財經(jīng)要聞

機器人企業(yè)老總要200萬月薪 投資人怒了

汽車要聞

長安啟源全新Q05:10萬級配激光雷達和小藍燈

態(tài)度原創(chuàng)

家居
教育
親子
時尚
數(shù)碼

家居要聞

通透流暢 時尚簡約新居

教育要聞

新校區(qū)提前竣工!成都這所百年名校,9月能投用嗎?

親子要聞

當孩子說讓我休息一下,幫我剪視頻,廢話都剪掉

日常穿衣簡約才高級,快看看這27套基礎(chǔ)穿搭,大方舒適得體

數(shù)碼要聞

三星時隔七年重啟 Z-NAND 技術(shù):目標是 NVMe SSD 約 15 倍性能

無障礙瀏覽 進入關(guān)懷版 国产97色在线 | 免| 日本50人大乱加勒比| 少妇人妻偷人精品免费视频| GoGo国产色视频| 国产成人亚洲综合无码精品| 一区二区免费视频播放器 | 国产精品福利视频一区| Free XXXX HD video中国| 日本福利一区二区精品| 亚洲gay无套网站| 无码人妻精品一区二区三区99仓本 | 久久99精品国产免费观观 | 国产人妻精品一区二区三区| 国产一二三区成人在线视频观看| 精品影院日韩无码| 一级呦女专区毛片| 亚洲国产精品98久久无色无码| 九色九九九老阿姨| 丁香五月六月天| 视频一区视频二区视频三| 黄色毛片黄色毛片| 中文字幕久热精品视频在线| 美女露出粉嫩小奶头在视频18禁| 国产在线无码免费视频2021| 国产精品伦子伦免费视频| av无码不卡| 99人妻在线| 97超碰国产精品| 国产精品自在线拍国产| 粗又长好猛好爽视频免费| 精品人妻无码一二三区| 久久小说亚州| 国产欧美日韩亚洲精品区| 久久,五色婷婷| 少妇精品一区二区电影| 丁香婷婷二月| 国产精品一区不卡| 国产日产精品_国产精品毛片| 青青青爽在线视频观看| 精品中文字幕一区| 2018av无码视频在线播放|