夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型「有心了」:首個(gè)情感大模型Echo-N1,32B勝過200B

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

長(zhǎng)期以來,大模型圈流傳著一個(gè)詛咒:LLM 懂微積分、會(huì)寫 Python,但在情感這件事上,它們?nèi)恰钢蹦小埂?/p>

即使是 GPT-4,在面對(duì)人類細(xì)膩的情感崩潰時(shí),往往也只能吐出 “多喝熱水”、“別難過,一切都會(huì)好起來的” 這種正確的廢話。原因很簡(jiǎn)單:「情商」沒有標(biāo)準(zhǔn)答案,傳統(tǒng)的強(qiáng)化學(xué)習(xí)(RL)根本無從下手。

但今天,這個(gè)詛咒被打破了。

近日,來自 NatureSelect(自然選擇)的研究團(tuán)隊(duì) Team Echo發(fā)布了首個(gè)情感大模型 Echo-N1,提出了一套全新的「情感模型訓(xùn)練方法」,成功將 RL 用在了不可驗(yàn)證的主觀情感領(lǐng)域。

結(jié)果相當(dāng)震撼:

  • 僅 32B 參數(shù)的 Echo-N1,在多輪情感陪伴任務(wù)中勝率(Success Rate)達(dá)到 46.7%。作為對(duì)比,擁有千億參數(shù)量的商業(yè)模型 Doubao 1.5 Character,勝率僅為 13.3%。
  • 相比基座模型(Qwen3-32B)0% 的成功率,經(jīng)過 RL 后性能直接起飛,對(duì)模型的共情模式帶來了質(zhì)變。
  • 團(tuán)隊(duì)首度提出了「共情的心理物理模型」(EPM),把玄學(xué)的「共情」變成了可計(jì)算的「物理做功」。



  • 論文標(biāo)題:Echo-N1: Affective RL Frontier
  • 論文鏈接:https://arxiv.org/pdf/2512.00344v1

為什么你的 AI 對(duì)象總是「聊天終結(jié)者」?

在數(shù)學(xué)和代碼領(lǐng)域,RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))之所以好用,是因?yàn)榇鸢阜呛诩窗?。但在情感陪伴中,真誠和冒犯、玩笑和油膩,往往只有一線之隔。

現(xiàn)有的模型(尤其是開源模型)普遍存在三大問題:

1.無法量化: 用戶一句 「I'm fine」 背后可能藏著崩潰、無奈甚至拒絕溝通,傳統(tǒng)的標(biāo)量獎(jiǎng)勵(lì)根本無法有效捕捉這種細(xì)微的情緒信號(hào)。

2.Reward Hacking: 模型為了拿高分自然學(xué)會(huì)了堆砌華麗辭藻,經(jīng)常說些不痛不癢的美麗的廢話,對(duì)緩解用戶情緒不僅毫無幫助,甚至可能適得其反。

3.評(píng)測(cè)失真: 通過基于 SOTA 閉源模型(GPT-4,Claude-4.5-sonnet,Gemini-2.5-pro)的打分研究不難發(fā)現(xiàn),這些模型自己都分不清什么樣的表達(dá)屬于「像人」、什么樣的屬于「像 AI」。

為了解決這些問題,Team Echo決定推翻現(xiàn)有的 RL 范式,給 AI 裝上一顆真正的「心」

核心技術(shù):給 RL 裝上「讀心術(shù)」



獎(jiǎng)勵(lì)模型:告別「打分」,開始「寫評(píng)語」

團(tuán)隊(duì)意識(shí)到,僅依賴標(biāo)量獎(jiǎng)勵(lì)(Scalar Reward)的信息維度過于單一。

情感是流動(dòng)的、細(xì)膩的,簡(jiǎn)單的數(shù)值反饋難以捕捉用戶在交互中的細(xì)膩情感變化,無法有效引導(dǎo)策略模型(Policy Model)對(duì)用戶情緒做出合適的共情反饋。

受 O1、R1 等架構(gòu)在復(fù)雜推理任務(wù)上成功的啟發(fā),團(tuán)隊(duì)的思考是:情感感知雖然主觀,但本質(zhì)上依然是基于上下文的復(fù)雜推理過程,只是思維模式與理科任務(wù)有所不同。

因此,Echo-N1 創(chuàng)新性地提出了生成式獎(jiǎng)勵(lì)模型(Generative Reward Model)。團(tuán)隊(duì)將思維鏈(CoT)的杠桿效應(yīng)遷移至獎(jiǎng)勵(lì)端 —— 獎(jiǎng)勵(lì)模型在輸出結(jié)果前,必須先生成一段邏輯嚴(yán)密的情感推理路徑。在該路徑下,模型需要先對(duì)用戶畫像進(jìn)行深度側(cè)寫,再基于此推導(dǎo)出 “什么樣的回答能引發(fā)共鳴”。通過將隱性的情感判斷過程顯化,模型的判別精度顯著提升,從而實(shí)現(xiàn)對(duì)策略模型更精細(xì)、更準(zhǔn)確的反饋引導(dǎo)。

在這一框架下,團(tuán)隊(duì)通過 RL 訓(xùn)練了兩種生成式獎(jiǎng)勵(lì)模型:

  • Humanlike Reward(擬人度獎(jiǎng)勵(lì)): 旨在消除 “助手味”。它具備上下文感知(Context-aware)能力,能敏銳識(shí)別并懲罰那些邏輯不通、或?yàn)榱藴愖謹(jǐn)?shù)而生成的 “幻覺” 內(nèi)容,確?;貜?fù)邏輯自洽且具備「活人感」。
  • Empathy Reward(共情獎(jiǎng)勵(lì)): 旨在實(shí)現(xiàn) User-specific 的深度共情。先根據(jù)歷史上文來推斷用戶的潛在畫像(User Context Mining),再判斷回復(fù)是否符合人類認(rèn)知、情感、動(dòng)機(jī)三種最本質(zhì)的共情需求。由于人類偏好的多樣性,團(tuán)隊(duì)提出了一種「從公理推定理」的新穎范式:將普世價(jià)值觀視為 “公理”,將千人千面的個(gè)性化需求視為 “定理”,由此出發(fā)設(shè)計(jì)了一套共情偏好數(shù)據(jù)合成框架。為了校驗(yàn)自動(dòng)化管線生成數(shù)據(jù)的可靠性,團(tuán)隊(duì)引入了「人機(jī)回環(huán)」驗(yàn)證機(jī)制,通過讓原始標(biāo)注員對(duì)模型推演的用戶畫像與回復(fù)策略進(jìn)行一致性校驗(yàn),確保了合成數(shù)據(jù)在 “客觀準(zhǔn)確” 與 “主觀共情” 上的高度統(tǒng)一。

為保證生成式獎(jiǎng)勵(lì)模型的情感推理路徑的準(zhǔn)確性,團(tuán)隊(duì)在訓(xùn)練中額外引入了過程性獎(jiǎng)勵(lì)(Process Reward)引導(dǎo)推理路徑的修正。此外,針對(duì) RL 中常見的 Reward Hacking 問題,團(tuán)隊(duì)采用了離散化獎(jiǎng)勵(lì)(Discrete Rewards)參考答案錨定(Reference Anchoring)的策略。不追求分?jǐn)?shù)的絕對(duì)值膨脹,而是通過與 Reference 對(duì)比進(jìn)行相對(duì)優(yōu)劣排序。實(shí)驗(yàn)表明,這些策略相比 Scalar Reward 極大提升了訓(xùn)練策略模型的穩(wěn)定性。



評(píng)測(cè)革命:當(dāng)「AI 共情」變成可計(jì)算的物理模型

大模型訓(xùn)練的下半場(chǎng),靜態(tài)刷榜已經(jīng)沒有意義,未來的決勝關(guān)鍵在于「動(dòng)態(tài)交互」。尤其在情感陪伴這條終極賽道上,現(xiàn)有的 “真空式刷分評(píng)測(cè)” 根本無法衡量 AI 在長(zhǎng)程、復(fù)雜的心理博弈中的真實(shí)表現(xiàn)。

為了打破空白和僵局,NatureSelect(自然選擇)的研究團(tuán)隊(duì)首先解決了一個(gè)根本性的科學(xué)難題:

如何客觀量化「共情」與「療愈」?

EPM 情感物理模型 —— 給 “共情” 一把科學(xué)標(biāo)尺

為了量化對(duì)話中復(fù)雜的心理博弈,Team Echo 以物理學(xué)定律為啟發(fā),結(jié)合認(rèn)知科學(xué)和心理物理法,打造了一套全新的機(jī)器共情科學(xué)標(biāo)尺 —— 將抽象的心理療愈,轉(zhuǎn)化為可計(jì)算的物理過程。

  • 心理勢(shì)能 (Potential Energy): 用戶的痛苦與情緒阻抗不再是模糊的形容詞,而被建模為有待克服的心理「阻力」或高位的「負(fù)勢(shì)能」。
  • 做功 (Work): AI 的每一次回復(fù),本質(zhì)上都是在對(duì)用戶的心理場(chǎng)「施加作用力」,試圖推動(dòng)其狀態(tài)向良性躍遷。有效共情就是有效做功。
  • 矢量空間 (Vector Space): 這種復(fù)雜的作用力被精準(zhǔn)分解到可計(jì)算的 MDEP 三維心理空間 —— 認(rèn)知重構(gòu)(C)、情感共鳴(A)、主動(dòng)賦能(P)。

有了 EPM,共情效果不再是主觀猜測(cè),而是可視化追蹤的能量軌跡和可計(jì)算的物理功

擬人化認(rèn)知沙盒 —— 一場(chǎng)關(guān)于心智計(jì)算的大戲

人類真實(shí)的共情對(duì)話,是人類大腦多重認(rèn)知模塊協(xié)同運(yùn)作的結(jié)果 ——實(shí)時(shí)的思考推理、鮮活的情緒反應(yīng)、聯(lián)想性的記憶檢索,缺一不可。為了讓 AI 真正像人一樣思考和交流,Team Echo 進(jìn)一步打造了一個(gè) “擬人化認(rèn)知沙盒”。這是一個(gè)由模擬人類 “中央執(zhí)行腦區(qū)” 所統(tǒng)籌的多智能體協(xié)作系統(tǒng),旨在共同演繹出有血有肉的真實(shí)互動(dòng)。

這個(gè)多智能體系統(tǒng)最引人注目的地方,在于其動(dòng)態(tài)、簡(jiǎn)潔、基于環(huán)境反饋的 Function Call 機(jī)制。整個(gè)系統(tǒng)是一個(gè)敏銳的幕后大腦,時(shí)刻捕捉著對(duì)話中的心理變化和深層情感流動(dòng) —— 它會(huì)根據(jù)現(xiàn)場(chǎng)情景靈活推理決策、調(diào)配記憶資源、激活特定故事;還能根據(jù)互動(dòng)反饋,即時(shí)調(diào)整策略重點(diǎn),掌控對(duì)話節(jié)奏和結(jié)束時(shí)機(jī),確保每一輪交流都充滿新鮮感和挑戰(zhàn)性。憑借這種智能且不可預(yù)測(cè)的調(diào)度能力,沙盒測(cè)試得以真正實(shí)現(xiàn)多輪鮮活的復(fù)雜心智模擬。

殘酷的大考:基座模型全面崩塌

有了這套殘酷而真實(shí)的擬人化認(rèn)知沙盒,我們終于可以對(duì) AI 進(jìn)行一場(chǎng)前所未有的 “社會(huì)共情能力的大考”。

結(jié)果令人震驚,卻也在意料之中。

在覆蓋 30 個(gè)高難度心理場(chǎng)景的壓力測(cè)試下,未經(jīng) post-train 的基座模型 (Qwen3-32B) 全面崩塌,通過率為驚人的 0%。更具揭示性的是 EPM 3D 軌跡圖:基座模型陷入無序的的隨機(jī)游走和病態(tài)收斂,它的軌跡幾乎全部指向了負(fù)能量區(qū)域 —— 不僅無法提供情感支持,反而讓用戶滋生了更負(fù)面的情緒和心理阻抗,在錯(cuò)誤的道路上越走越遠(yuǎn)。

即便是千億參數(shù)級(jí)別的商業(yè)模型Doubao 1.5 Character,在這場(chǎng)嚴(yán)苛的測(cè)試中也顯得力不從心,成功率僅為13.3%

這些數(shù)據(jù)充分證明:真實(shí)的共情能力,絕非單純堆砌參數(shù)就能涌現(xiàn),它需要專門的、科學(xué)的訓(xùn)練范式



Echo-N1 的崛起:畫像對(duì)齊,溫柔堅(jiān)定「做功」

在基座模型全面潰敗的背景下,經(jīng)過情感強(qiáng)化學(xué)習(xí) (Affective RL)訓(xùn)練的Echo-N1 模型,實(shí)現(xiàn)了顛覆性的跨越。在同樣的測(cè)試中,Echo-N1 的軌跡發(fā)生了根本性的逆轉(zhuǎn),它同時(shí)學(xué)會(huì)了多種畫像對(duì)齊的策略,不僅能敏銳地捕捉用戶的情緒落差,還能一步步把用戶從負(fù)面泥潭里拉出來,推向良性的心理狀態(tài)。



在這場(chǎng)殘酷的沙盒大考中,Team Echo 反而拒絕以單一成敗論英雄,而是深入到 “方向?qū)R率” 與 “有效能量投影” 等多維量化指標(biāo),透視模型共情策略的真實(shí)質(zhì)量與做功效率。

為了實(shí)現(xiàn)物理基準(zhǔn)與人文體驗(yàn)的雙重互證,他們進(jìn)一步引入 NEE(Narrative & Experience Evaluator) 機(jī)制,組織 GPT-4o、Claude-3.5 等頂尖 SOTA 模型專家團(tuán)進(jìn)行盲測(cè)審視。最終,將嚴(yán)謹(jǐn)?shù)奈锢砹炕笜?biāo)與深度的人文體驗(yàn)評(píng)分融為一體,形成證據(jù)閉環(huán):Echo-N1 斬獲了 73.54 分的綜合高分,遠(yuǎn)超商業(yè)模型 Doubao 的 42.95 分和基座模型的 29.66 分,有力證明了其在科學(xué)精度與人文溫度上的雙重跨越。



邁向「有溫度」的 AGI

Echo-N1 的誕生證明:AI 的「情商」并非無法量化,它本質(zhì)上是可以被數(shù)學(xué)建模、被 RL 優(yōu)化的硬核能力

這項(xiàng)研究不僅讓 32B 小模型擁有了越級(jí)挑戰(zhàn)千億參數(shù)模型的共情能力,更重要的是,它為 RL 在主觀、不可驗(yàn)證領(lǐng)域的應(yīng)用打開了一種新的可能。

也許很快,你的 AI 伴侶不再只會(huì)說些無用的話、冷冰冰地列 To-Do List,而是那個(gè)與你超級(jí)對(duì)齊、能陪你一起面對(duì)這個(gè)世界不確定性的「靈魂伴侶」。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陳夢(mèng)拒絕國家隊(duì)教練,回山東當(dāng)副主任,她為何不愿當(dāng)國家隊(duì)教練?

陳夢(mèng)拒絕國家隊(duì)教練,回山東當(dāng)副主任,她為何不愿當(dāng)國家隊(duì)教練?

達(dá)文西看世界
2025-12-11 18:24:26
疑似有俄羅斯現(xiàn)役軍官討論如何擊沉中國076艦,這事情很嚴(yán)重嗎

疑似有俄羅斯現(xiàn)役軍官討論如何擊沉中國076艦,這事情很嚴(yán)重嗎

張斌說
2025-12-10 09:46:21
浙江跨年晚會(huì)爆料嘉賓名單,網(wǎng)友:這陣容,連廁所都不敢去上了

浙江跨年晚會(huì)爆料嘉賓名單,網(wǎng)友:這陣容,連廁所都不敢去上了

冷紫葉
2025-12-11 15:54:05
比亞迪正建造有史以來最大的工業(yè)綜合體

比亞迪正建造有史以來最大的工業(yè)綜合體

喜之春
2025-12-11 06:37:06
廣東汕頭起火12人遇難后,家里視頻曝光,樓上沒有明火,物品完好

廣東汕頭起火12人遇難后,家里視頻曝光,樓上沒有明火,物品完好

魔都姐姐雜談
2025-12-11 19:25:31
應(yīng)被“開除”軍籍的三位明星,貪財(cái)穿和服,一個(gè)比一個(gè)丟臉

應(yīng)被“開除”軍籍的三位明星,貪財(cái)穿和服,一個(gè)比一個(gè)丟臉

老謝談史
2025-12-03 20:57:41
他是廣東知名主持人,32歲娶了女老師,如今女兒接班主持為他爭(zhēng)光

他是廣東知名主持人,32歲娶了女老師,如今女兒接班主持為他爭(zhēng)光

阿訊說天下
2025-12-11 18:46:43
野心勃勃!中超新土豪大手筆不斷 一口氣敲定4大國腳+2名巴西新援

野心勃勃!中超新土豪大手筆不斷 一口氣敲定4大國腳+2名巴西新援

零度眼看球
2025-12-11 07:39:27
李小萌曬娃引熱議,兒子長(zhǎng)相被說像“返祖”

李小萌曬娃引熱議,兒子長(zhǎng)相被說像“返祖”

鋒哥與八卦哥
2025-12-10 13:20:32
11日一大早,NBA交易市場(chǎng)傳來4個(gè)不得不說的勁爆消息

11日一大早,NBA交易市場(chǎng)傳來4個(gè)不得不說的勁爆消息

毒舌NBA
2025-12-11 08:16:45
老公一說晚點(diǎn)到家,保姆就悄悄出門,第2天我給保姆漲了2千工資

老公一說晚點(diǎn)到家,保姆就悄悄出門,第2天我給保姆漲了2千工資

秀秀情感課堂
2025-12-11 16:15:08
“一代鞋王”達(dá)芙妮沒落,關(guān)6000家店虧40億,都是紅顏禍水惹得禍

“一代鞋王”達(dá)芙妮沒落,關(guān)6000家店虧40億,都是紅顏禍水惹得禍

冒泡泡的魚兒
2025-12-10 14:17:13
錢再多有啥用?不到兩個(gè)月,4位億萬富豪接連去世,最小的才 46歲

錢再多有啥用?不到兩個(gè)月,4位億萬富豪接連去世,最小的才 46歲

一娛三分地
2025-12-11 18:54:25
美軍丟人丟大發(fā)了!剛從南海撈出戰(zhàn)機(jī)卻遭全網(wǎng)嘲諷,理由出奇一致

美軍丟人丟大發(fā)了!剛從南海撈出戰(zhàn)機(jī)卻遭全網(wǎng)嘲諷,理由出奇一致

云上烏托邦
2025-12-11 00:20:04
萬科債跌幅擴(kuò)大

萬科債跌幅擴(kuò)大

每日經(jīng)濟(jì)新聞
2025-12-11 11:06:12
辛選集團(tuán)董事長(zhǎng)初瑞雪:今年主播簽約制改合伙制,完成了一次溫暖轉(zhuǎn)身丨請(qǐng)回答2025

辛選集團(tuán)董事長(zhǎng)初瑞雪:今年主播簽約制改合伙制,完成了一次溫暖轉(zhuǎn)身丨請(qǐng)回答2025

封面新聞
2025-12-11 14:45:03
定調(diào)了,政治局會(huì)議釋放五大信號(hào),2026年你的錢袋子這樣安排!

定調(diào)了,政治局會(huì)議釋放五大信號(hào),2026年你的錢袋子這樣安排!

墨蘭史書
2025-12-11 13:20:04
冬天,打死都不要買的5種蔬菜,不僅沒營養(yǎng)還傷身體,菜販都不吃

冬天,打死都不要買的5種蔬菜,不僅沒營養(yǎng)還傷身體,菜販都不吃

阿龍美食記
2025-12-08 14:57:54
2025年返鄉(xiāng)潮爆發(fā)!你猜誰是主力軍?

2025年返鄉(xiāng)潮爆發(fā)!你猜誰是主力軍?

老特有話說
2025-12-11 22:43:07
全聯(lián)盟最冤老大!湖人輸球怪東契奇?場(chǎng)均9助叫獨(dú),湖迷別太離譜

全聯(lián)盟最冤老大!湖人輸球怪東契奇?場(chǎng)均9助叫獨(dú),湖迷別太離譜

阿衃體育
2025-12-12 05:48:37
2025-12-12 06:44:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11898文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

豆包剛被微信淘寶們"群毆" ,又有人來搶位

頭條要聞

村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

頭條要聞

村支書賣小米被小米法務(wù)投訴下架:希望給我們條活路

體育要聞

你最看不上的人,關(guān)鍵時(shí)刻卻最想救你...

娛樂要聞

黃慧頤曝保劍鋒出軌細(xì)節(jié)!

財(cái)經(jīng)要聞

明年經(jīng)濟(jì)工作怎么干 中央經(jīng)濟(jì)工作會(huì)議定調(diào)

汽車要聞

長(zhǎng)途穿越更輕松 二代哈弗H9穿越版限時(shí)售23.29萬

態(tài)度原創(chuàng)

家居
手機(jī)
旅游
房產(chǎn)
教育

家居要聞

歐式風(fēng)格 純粹優(yōu)雅氣質(zhì)

手機(jī)要聞

OPPO Reno15c現(xiàn)身,有望本月發(fā)布

旅游要聞

美媒:重慶因何成為電影主題旅游目的地

房產(chǎn)要聞

成交量漲了!??谶@10個(gè)小區(qū),二手房最好賣!

教育要聞

5分鐘掌握函數(shù)積分三大方法!從此不再怕積分題

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美成人性爱电影网址| 亚洲国产精液| 无码av免费毛片一区二区| 亚洲婷婷免费观看| 囯产精品久久久久久久久久三级| 欧美亚洲综合成人A∨在线| 69人妻久久精品一区二区绯色 | 国产精品久久久久久久久免费无码| 无码人妻精品中文字幕免费东京热| XXX 无码视频| 精品国产av 无码一区二区三区| 日韩久久无码精品不卡一区二区电影 | 国产AV激情久久无码天堂| 国模冰莲大胆自慰难受| 日本丰满少妇精品视频| 午夜无码国产理论在线| www.yw网站在线观看| 成熟人妻619视频| 亚洲最大av一区二区| 99国产精品白浆在线播放| 欧美性爱不卡一二三区| 色吊丝二区三区中文写幕| 国产成人影片免费观看| 夜夜躁狠狠躁日日躁211| 国产韩国精品一区二区三区| 刺激videoschina偷拍| 国产gv在线| www.啊,啊| 国产成人亚洲综合a∨婷婷| 精品无码无人网站免费视频| 欧美伦乱又伦又乱| 日韩人妻无码久久精品a免费| 精品国产AV鲁一鲁一区| 久久久婷婷五月亚洲97色| 欧美人与zoxxxx另类| 人人操插人人操| 黄色成人免费高清| 欧美亚洲高清日韩成人| 手机AV在线| 午夜夫妻激情AV在线播放| 国产在线精品中文字幕|