夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從「知題」到「知人」:UserRL讓智能體學會「以人為本」

0
分享至



“知人者智,自知者明。”——《道德經(jīng)》

古人早已洞見:真正的人類智慧,不僅僅在于公式推演、掌握技藝,更是能理解他人、洞察人心。今天的大語言模型已能在代碼、數(shù)學與工具使用上出色地完成任務,然而距離成為真正的用戶伙伴,它們依舊缺少那份 “知人” 的能力。這主要源于現(xiàn)實交互遠比解題更加復雜:

  • 現(xiàn)實交互中,用戶目標常常未在最初完全成形(underspecification)、而是在多輪對話中逐步顯露(incrementality)、并且以含蓄 / 間接的方式表達(indirectness)。
  • 在這種不確定、動態(tài)、多目標的語境里,模型不止要會解決用戶需求,更要主動澄清(clarification)、持續(xù)適配(adaptation)、善用工具(tool-use)并做出明智的權衡(decision-making)。

這正是智能體面臨的下一個時代課題:從 “會解題” 邁向 “懂用戶”。而要真正回答這一課題,我們需要全新的動態(tài)評測框架與訓練機制:不僅能測量模型在交互中的表現(xiàn),還能驅(qū)動其學會在用戶不確定與多目標的世界里,問之有道,斷之有衡,答之有據(jù)。為此,來自 UIUC 與 Salesforce 的研究團隊提出了一套系統(tǒng)化方案:

  • UserBench—— 首次將 “用戶特性” 制度化,構建交互評測環(huán)境,用于專門檢驗大模型是否真正 “懂人”;
  • UserRL—— 在 UserBench 及其他標準化 Gym 環(huán)境之上,搭建統(tǒng)一的用戶交互強化學習框架,并系統(tǒng)探索以用戶為驅(qū)動的獎勵建模。

二者相輔相成,把 “以用戶為中心” 從理念落地為可復現(xiàn)的流程、接口與評測指標。



  • UserBench 論文鏈接:https://arxiv.org/pdf/2507.22034
  • UserBench 代碼倉庫:https://github.com/SalesforceAIResearch/UserBench



  • UserRL 論文鏈接:https://arxiv.org/pdf/2509.19736
  • UserRL 代碼倉庫:https://github.com/SalesforceAIResearch/UserRL

UserBench

先把 “用戶價值” 量化,才能倒逼智能體進化

核心思想

UserBench 的核心出發(fā)點是:真正的智能體價值不在于完成任務本身,而在于是否能夠理解用戶、服務用戶。不同于傳統(tǒng)評測大多進行的 “做題比賽”,其通過刻畫三類 “用戶特征”,并將它們嵌入到可復現(xiàn)的環(huán)境與標準化接口之中,從而把 “用戶價值” 從抽象理念轉(zhuǎn)化為量化的研究對象。

1. 設計原則

長期以來,智能體的評測大多集中在工具調(diào)用與任務完成,但卻鮮少觸及一個更根本的問題:模型是否真正對齊了用戶的潛在與動態(tài)意圖。

UserBench 的設計正是為了解決這一缺口。它把 “用戶真實交互三大特征” 作為評測核心:

  • 模糊性(underspecification):用戶目標往往并未完整表達;
  • 漸進性(incrementality):意圖需要在對話中逐步顯露;
  • 間接性(indirectness):用戶偏好常常通過隱含線索體現(xiàn)。

在這樣的環(huán)境里,模型不再是 “照題答題”,而是必須主動追問、澄清約束,并在復雜條件下做出連貫而明智的決策。



UserBench 設計與交互流程示意圖

2. 環(huán)境與數(shù)據(jù)構造

UserBench 的標志性設計是旅行規(guī)劃任務,覆蓋五個子場景。每個維度都設置了數(shù)十條隱式偏好表述,如 “行程很緊” 暗含 “直飛 / 少中轉(zhuǎn)”,要求模型在與環(huán)境中的模擬用戶進行交互時,需要理解用戶每一句話背后的語義邏輯。同時,環(huán)境中內(nèi)置了穩(wěn)定數(shù)據(jù)庫后段,并且搜索返回采用了混合式選項進一步增加了模型認知難度:

  • 正確項:完全滿足全部偏好;
  • 錯誤項:違背至少一條偏好;
  • 噪聲項:與需求不符或信息缺失。

這使得模型必須學會過濾噪聲、權衡約束,而非直接機械化地比對。UserBench 同時也進行了數(shù)據(jù)難度分層,根據(jù)用戶偏好的復雜程度涵蓋了 Easy/Medium/Hard 三檔,這種設計讓其既保有真實性(場景、語言與需求均來自真實語料指導下的 LLM 用戶模擬),又具備實驗可控性。

3. 以工具為界面:標準化交互接口

以往針對模型,用戶以及環(huán)境的三方交互接口復雜。而在文章中,這種復雜交互被抽象為了三類原語操作

  • Action:與用戶對話(澄清、追問、確認偏好);
  • Search:檢索數(shù)據(jù)庫(返回混合候選集,模擬真實世界的不完美檢索);
  • Answer:提交推薦(直接完成用戶需求)。

這三類操作高度濃縮了 “理解 — 檢索 — 決策” 的鏈路,使不同任務可以在同一坐標系下被評估與比較。在 UserRL 訓練框架中,這個標準化接口被保留并得以進一步拓展,使模型訓練也變得可以自由定制化和拓展。



UserBench 上不同模型主要評測結果以及分析指標

4. 評價指標與關鍵發(fā)現(xiàn)

UserBench 的評分體系兼顧結果與過程:

  • 核心指標:歸一化得分。對于每一項旅行需求,在數(shù)據(jù)庫中選到最優(yōu)解記 1.0;選到正確但次優(yōu)解記 0.8;其余記 0。在一個問題中用戶需求可能會涵蓋多個場景(例如交通和酒店住宿),需要被測試模型深入挖掘,理解偏好,再進行判斷和抉擇。
  • 除此之外,文章還提出了若干過程指標以進行綜合分析:
  • Valid Search / Action Attempt:搜索與用戶對話操作的有效率;
  • Preference Elicited:偏好在用戶交互是否被主動 / 被動引出。

主要結論:模型并非輸在 “不會算”,而是常常沒能問對問題、沒能挖出關鍵信息。換言之,真正的挑戰(zhàn)不是推理鏈,而是智能體與人的交互中進行有效的 “用戶價值” 提煉與捕捉。

關鍵發(fā)現(xiàn)

  • 單選比多選難很多:對于每一項旅行需求,如果把模型可回答的次數(shù)限制為一次,平均分數(shù)下滑約 40%,暴露了 “只能給一次答案” 時的抉擇困難
  • 用戶偏好揭示率普遍偏低:主流模型僅~20% 的答案完全貼合全部用戶意圖,即便是強模型,通過主動互動挖掘到的偏好不到 30%,顯示了當下模型 “主動問對問題” 能力仍然欠缺。
  • 會用工具 ≠ 真懂用戶:模型普遍有效搜索 > 80%,但有效對話顯著更低,說明 “循證澄清” 的難度更高。
  • 難點在 “單一維度的偏好多而復雜”:當總偏好數(shù)固定時,把偏好更平均地分散到多個旅行需求中更容易,而集中在少數(shù)需求上會顯著拉低分數(shù),這揭示了本質(zhì)挑戰(zhàn)來自局部約束的組合復雜度
  • 更多對話輪數(shù)≠更好表現(xiàn):盲目拉長交互輪數(shù)并不能帶來收益;同時,命中答案的 “時效性”(更早給出有效答案)與整體模型對話質(zhì)量也并不總是正相關:小模型 “早早猜中” 整體也不如大模型的 “穩(wěn)扎穩(wěn)打”。



盲目增加交互輪數(shù)并不能增強交互質(zhì)量

UserRL

把 “能測試” 擴展為 “會訓練”

核心思想

UserRL 的出發(fā)點相比更加直接:在 UserBench 抽象出的三個原語接口之上,構建一個統(tǒng)一的 gym 環(huán)境,把 User-in-th-Loop 的多輪交互轉(zhuǎn)化為一個可訓練的強化學習問題。這意味著,智能體不再只是完成一次問答,而是要在一個有明確定義的交互環(huán)境中,通過多輪對話和工具調(diào)用來優(yōu)化回報。



UserRL 中進行訓練的八個用戶中心場景設計

1. 八大 Gym Environments:能力光譜的全覆蓋

UserRL 對接了八類環(huán)境,覆蓋從個性化推薦到復雜推理的多維能力:

  • TravelGym:側重個性化偏好挖掘與多目標權衡;
  • TauGym:強調(diào)工具編排與用戶任務實現(xiàn);
  • PersuadeGym:模擬論證與說服場景,關注對抗式對話能力;
  • TurtleGym:創(chuàng)造性推理環(huán)境(“海龜湯” 游戲);
  • TelepathyGym:意圖猜測與假設檢驗;
  • FunctionGym:數(shù)理模式識別與規(guī)律發(fā)現(xiàn);
  • IntentionGym:針對真實場景的意圖澄清;
  • SearchGym:外部知識檢索與基于檢索的問答。

所有環(huán)境都統(tǒng)一在Action / Search / Answer的接口下,但考察指標有所差異。這種統(tǒng)一接口 + 多元任務的設計,使得 UserRL 既能橫向比較不同方法,又能縱向推動能力遷移。



UserRL 完整訓練框架示意圖

2. 用戶模擬與多輪 Rollout

在每個環(huán)境中,用戶同樣由 LLM 進行模擬,并且可以更換不同用戶模擬模型,以實現(xiàn)交互的多樣性。UserRL 框架的核心特點包括:

  • 確定性任務狀態(tài) + 可驗證獎勵函數(shù)
  • 自然語言互動,保留了動態(tài)模擬用戶對話的開放性;
  • 多輪 rollout,讓模型在交中做出策略性的交互選擇。

3. 獎勵建模:讓過程價值變成可學信號

在 UserRL 中,我們重點探索了雙層獎勵設計:回合層(Turn-level)以及軌跡層(Trajectory-level)。在回合層中,我們重新映射 Gym 環(huán)境在每一輪中反饋的獎勵信號,探索了多種方法以區(qū)分不同層的重要性:

  • Naive:直接用環(huán)境獎勵,但往往非常稀疏,在實際環(huán)境中并不適合訓練。
  • Equalized:為所有回合賦予同樣的獎勵,確保所有鋪墊性動作不被忽視。
  • Reward-to-Go (R2G):把未來的預期獎勵收益折扣回流,以體現(xiàn)當前輪次對于未來獎勵的價值。



  • Exponential Mapping (EM):對原始獎勵做非線性映射,讓某些小進展也能帶來正反饋獎勵信號。



在軌跡層中,我們將每一輪的獎勵反饋整合成與用戶多輪交互的總體得分,以便于后續(xù)適配 GRPO 等下游各種 RL 算法,其中我們主要探索了兩種整合方式:

  • Sum:直接累積每回合的獎勵,以衡量整體任務完成度。
  • R2G:對早期進展賦予更高價值,更強調(diào)任務完成效率。



在實際訓練中這兩層獎勵可以靈活組合以適配不同交互任務。



UserRL 訓練主要試驗結果

4. 評價指標與關鍵發(fā)現(xiàn)

文章主要采用了GRPO算法進行優(yōu)化:在同一 query 下采樣多條軌跡,組內(nèi)歸一化優(yōu)勢,再結合回合與軌跡獎勵進行聯(lián)合優(yōu)化。同時,在 RL 訓練之前,模型預先進行了 SFT 小規(guī)模優(yōu)化,實驗發(fā)現(xiàn) SFT 冷啟動能夠有效幫助后續(xù) RL 訓練。

UserRL 用其中的五個 Gym 的訓練集數(shù)據(jù)進行訓練,另外三個 Gym 則作為 OOD 環(huán)境進行測試。所有主實驗均采用 Qwen3-32B 作為用戶模擬。不同任務的測試指標不盡相同,但是都是以準確度作為衡量基礎。

主要結論:模型的提升并非來自更復雜的算力堆疊,而是得益于對過程價值的刻畫與利用。換言之,真正的突破點不在于 “終局答案對不對”,而在于能否在多輪交互中持續(xù)累積小進展、盡早對齊用戶意圖,并把這種過程性價值轉(zhuǎn)化為學習信號

關鍵總結果

  • 回合均等 + 軌跡 Reward-to-Go 在 4B/8B 模型上最穩(wěn)健、平均最好;反觀回合均等 + 軌跡 Sum最弱,說明軌跡級計分比回合級細分更具有決定性價值。
  • 經(jīng)過 UserRL 訓練的 Qwen3 在 TravelGym、PersuadeGym、IntentionGym 等交互型任務上超過強閉源模型;跨 8 個 gym 的平均也領先閉源對照,體現(xiàn)出 “針對用戶交互的 RL 訓練” 能實打?qū)嵦嵘芰Α?/li>
  • SFT 冷啟動是必要條件:先做 SFT 再 RL,能顯著避免早期坍塌,部分任務收益超 100%。
  • 用戶模擬器選擇很關鍵:用 GPT-4o 做模擬用戶訓練的模型下游更強;但 Qwen3-32B 作為開源模擬器具備性價比高且可遷移的優(yōu)勢。





SFT 冷啟動(左側對照)與 GPT-4o 作為模擬用戶(右側對照)均能帶來更好的 RL 效果

結語:從 “完成任務” 到 “成就用戶”

UserBench 提供了一面 “明鏡”,讓我們得以量化模型是否真正理解用戶;UserRL 則把這面鏡子變成 “磨刀石”,推動模型在交互中不斷迭代,學會在模糊與多目標之間提煉價值。

《論語》有云:“君子和而不同?!?未來的通用智能體,也應當在理解用戶多元價值的同時,學會和而不同:既能尊重偏好,又能提供建設性選擇;既能滿足需求,又能引導更優(yōu)解。這,才是通向真正通用智能的必要一課。

所有環(huán)境、數(shù)據(jù)以及訓練框架已開源,歡迎研究人員探索。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新國標電動車無法解鎖限速?九號等多家車企回應

新國標電動車無法解鎖限速?九號等多家車企回應

新浪財經(jīng)
2025-12-10 20:27:18
港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

木子愛娛樂大號
2025-07-05 09:37:33
最大規(guī)模雨雪來襲,為何重慶降溫幅度不大?氣象專家:冷空氣來去匆匆

最大規(guī)模雨雪來襲,為何重慶降溫幅度不大?氣象專家:冷空氣來去匆匆

上游新聞
2025-12-11 22:07:06
停不住,維拉各項賽事8連勝!

停不住,維拉各項賽事8連勝!

體壇周報
2025-12-12 08:23:41
后妃侍寢規(guī)矩嚴:全程禁聲成鐵律,另有一條更羞恥卻不見史書記載

后妃侍寢規(guī)矩嚴:全程禁聲成鐵律,另有一條更羞恥卻不見史書記載

曉艾故事匯
2025-12-09 17:00:16
前港姐朱智賢吐槽保姆:工作時還想用手機,真想叫她回鄉(xiāng)下

前港姐朱智賢吐槽保姆:工作時還想用手機,真想叫她回鄉(xiāng)下

黔鄉(xiāng)小姊妹
2025-12-12 08:22:30
泰國和緬甸剛打起來,洪森就迫不及待喊話全國人民趕緊捐大米抗戰(zhàn)

泰國和緬甸剛打起來,洪森就迫不及待喊話全國人民趕緊捐大米抗戰(zhàn)

我心縱橫天地間
2025-12-11 23:43:59
為什么網(wǎng)絡上的“傻子”越來越多?網(wǎng)友:很多人連基本常識都不懂

為什么網(wǎng)絡上的“傻子”越來越多?網(wǎng)友:很多人連基本常識都不懂

夜深愛雜談
2025-12-11 20:52:23
月銷再破1萬臺,中國合資新能源冠軍出現(xiàn),老勢力們終于蘇醒了

月銷再破1萬臺,中國合資新能源冠軍出現(xiàn),老勢力們終于蘇醒了

柳先說
2025-12-10 16:31:18
普京智囊做出預言:下一個爆發(fā)戰(zhàn)爭的地方不是臺海,也不是南海

普京智囊做出預言:下一個爆發(fā)戰(zhàn)爭的地方不是臺海,也不是南海

策略述
2025-12-11 17:29:18
大反轉(zhuǎn)!網(wǎng)紅藍戰(zhàn)非“南非綁架案”太癲了

大反轉(zhuǎn)!網(wǎng)紅藍戰(zhàn)非“南非綁架案”太癲了

李東陽朋友圈
2025-12-11 18:34:15
《芳華》,是誰的芳華?

《芳華》,是誰的芳華?

亮見
2025-12-09 14:55:14
中國4勝5負!趙心童21-34出局,再爆冷門!中國女將贏了世界第10

中國4勝5負!趙心童21-34出局,再爆冷門!中國女將贏了世界第10

小火箭愛體育
2025-12-11 23:12:10
這位空姐顏值真的太漂亮了,不去當明星屈才了

這位空姐顏值真的太漂亮了,不去當明星屈才了

情感大頭說說
2025-12-12 09:09:18
歐協(xié)2-1:意甲倒數(shù)第一掀翻基輔迪納摩,米哈伊連科飆世界波難救主

歐協(xié)2-1:意甲倒數(shù)第一掀翻基輔迪納摩,米哈伊連科飆世界波難救主

凌空倒鉤
2025-12-12 07:44:03
又有一球隊喊出奪冠宣言!朱芳雨夠霸氣,杜鋒有底氣,能如愿嗎?

又有一球隊喊出奪冠宣言!朱芳雨夠霸氣,杜鋒有底氣,能如愿嗎?

萌蘭聊個球
2025-12-12 08:48:32
一場大火燒怕了有錢人!11月:理想MEGA交出一份“黑色”成績單

一場大火燒怕了有錢人!11月:理想MEGA交出一份“黑色”成績單

言車有徐
2025-12-10 15:55:09
努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

努爾哈赤叛亂早期,從鐵嶺到遼陽,只要滿清八旗兵來攻城,城門就會突然失守,豁然洞開,跟兒戲一樣

歷史按察使司
2025-12-11 17:48:06
省港杯變天?草根球隊參賽引爭議,廣東沖擊三連冠遇挑戰(zhàn)

省港杯變天?草根球隊參賽引爭議,廣東沖擊三連冠遇挑戰(zhàn)

野薔薇觀察所
2025-12-11 12:00:27
英媒:特朗普有意讓匈牙利意大利脫離歐盟

英媒:特朗普有意讓匈牙利意大利脫離歐盟

參考消息
2025-12-11 21:45:05
2025-12-12 10:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11898文章數(shù) 142509關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

澤連斯基:已向美提交修訂后的和平計劃 更新五點信息

頭條要聞

澤連斯基:已向美提交修訂后的和平計劃 更新五點信息

體育要聞

你最看不上的人,關鍵時刻卻最想救你...

娛樂要聞

黃慧頤曝保劍鋒出軌細節(jié)!

財經(jīng)要聞

美國要組建C5,全世界大吃一驚

汽車要聞

長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

態(tài)度原創(chuàng)

教育
房產(chǎn)
本地
數(shù)碼
公開課

教育要聞

韓國高考英語超高難度引爭議 韓國教育部嚴厲問責

房產(chǎn)要聞

中交天翠掀起改善熱潮,搶先鎖定城芯終極入場券!

本地新聞

打工人夢想中的生活,寵物已經(jīng)提前過上了

數(shù)碼要聞

蘋果HomePad曝光:定位AI智能家居中樞,能“刷臉”識別你的家人

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 老熟女乱子伦| 精品无码一区二区三区三十路| 国产精品成人3p一区二区三区 | “亚洲av网址”| 天天视频黄网站在线观看| 第一次小处女大片网站| 人人干人人干人人干| 人妻一本久道久久综合鬼色| aⅴ网站在线观看| 国产一区内射最近更新| 国产精品日日摸夜夜添夜夜添2021| 人人搞人人操人人搞| 97国产精品视频在线观看| 天天燥日日燥| 亚洲狠狠婷婷综合久久蜜芽| 玩弄丰满少妇视频| 九九久久精品国产| 少妇扒开小泬无遮挡久久久| 一区二区三区精密机械| 久久精品夜色噜噜亚洲a∨| 少妇被骚的喷水高潮了| 久久久久久精品久久久| 亚洲精品人妻在线| 人人操人人操人人操| 国产富婆推油SPA高潮了| 奇米网视频大全免费| 国产女人18毛片水真多18精品| 亚洲AAAAA片在观看| 超碰在线99热| 樱桃视频影院在线播放| 四虎永久在线精品免费播放| 国内农村老女人HD网站| 免费精品无套人妻内射| 亚洲无码97| 久久久精品无码国产一区二区三| 精精国产xxxx视频在线播放| 天天躁日日躁狠狠躁日日躁| 人人看人莫人人| 一区二区三区精品自拍视频| 无码人妻精品中文字幕| 亚洲AV成人片不卡无码|