大家每天都在和推薦系統(tǒng)打交道。無論是刷短視頻、逛電商、聽音樂還是看新聞,背后都有一套「聰明」的算法在猜測(cè)你可能喜歡什么。但你是不是偶爾覺得推薦內(nèi)容千篇一律?這其實(shí)暴露了傳統(tǒng)推薦系統(tǒng)的一個(gè)核心問題:它們大多數(shù)是基于過去數(shù)據(jù)來預(yù)測(cè),被動(dòng)的「猜你喜歡」,而缺乏和你真正的互動(dòng)。
最近,Meta 推薦系統(tǒng)團(tuán)隊(duì)提出了一個(gè)全新的思路 ——RecoWorld。
RecoWorld的獨(dú)特之處在于其雙視圖架構(gòu):模擬用戶和智能體推薦系統(tǒng)進(jìn)行多輪交互,旨在最大化用戶留存率。
用戶模擬器會(huì)查看推薦商品,更新其思維模式,并在察覺到用戶可能脫離互動(dòng)時(shí)生成反思性指令。智能體推薦系統(tǒng)則通過整合這些用戶指令和推理軌跡,調(diào)整其推薦內(nèi)容,形成一個(gè)主動(dòng)吸引用戶的動(dòng)態(tài)反饋循環(huán)。這一過程利用了大語言模型出色的推理能力。
研究者探索了模擬器中的多樣內(nèi)容表示形式,包括基于文本、 多模態(tài)和語義ID建模,并討論了多輪強(qiáng)化學(xué)習(xí)如何使推薦系統(tǒng)通過迭代交互來不斷完善其策略。RecoWorld還支持多智能體模擬,允許創(chuàng)作者模擬目標(biāo)用戶群體的響應(yīng)。它標(biāo)志著向一個(gè)新的推薦系統(tǒng)邁出了重要的第一步,在這個(gè)系統(tǒng)中,用戶和智能體共同塑造個(gè)性化的信息流。他們?cè)O(shè)想了一種新的互動(dòng)范式:「用戶指令,推薦系統(tǒng)響應(yīng)」,共同優(yōu)化用戶留存和參與度。
- 論文標(biāo)題:RecoWorld: Building Simulated Environments for Agentic Recommender Systems
- 論文鏈接:https://arxiv.org/abs/2509.10397
它不僅是一個(gè)推薦算法,而是一個(gè)「虛擬世界」,讓推薦系統(tǒng)和模擬用戶能在里面進(jìn)行交互、反饋和優(yōu)化,做到「你說我改」。
為什么推薦系統(tǒng)需要「進(jìn)化」?
過去,研究人員想改進(jìn)推薦系統(tǒng),主要有兩種辦法:
1.用歷史數(shù)據(jù)做離線評(píng)估:但這樣容易「路徑依賴」,系統(tǒng)會(huì)在老套路里兜圈子。
2.做線上 A/B 測(cè)試:能看到真實(shí)用戶反饋,但風(fēng)險(xiǎn)很高,測(cè)試失敗就可能傷害用戶體驗(yàn)。
而隨著「智能體(Agentic RecSys)」概念興起,推薦系統(tǒng)不再只是被動(dòng)推送,而是能理解指令、主動(dòng)學(xué)習(xí),甚至根據(jù)用戶的語音、行為即時(shí)調(diào)整推薦。為訓(xùn)練 agentic recsys,Meta 提出 RecoWorld:一個(gè)仿真環(huán)境,把「模擬用戶」和「推薦系統(tǒng)」放進(jìn)一個(gè)虛擬世界,讓它們多輪互動(dòng),避免和真實(shí)用戶交互損害用戶體驗(yàn)。
RecoWorld 是怎么工作的?
RecoWorld 的核心是一個(gè)「虛擬對(duì)手戲」。一邊是「模擬用戶」,會(huì)點(diǎn)擊、跳過、點(diǎn)贊、抱怨等;另一邊是「智能體推薦系統(tǒng)」,會(huì)根據(jù)這些反饋不斷調(diào)整推薦內(nèi)容。兩者來回互動(dòng),幫助推薦系統(tǒng)學(xué)會(huì)如何真正留住用戶。
關(guān)鍵要素與流程:
- 模擬用戶(User Simulator):像真人一樣,它會(huì)抱怨、會(huì)點(diǎn)贊,還會(huì)給指令。比如說:「別再給我推美妝了,換點(diǎn)別的!」
大語言模型強(qiáng)大的推理和內(nèi)容理解能力為模擬人類行為提供了巨大的潛力。研究者通過預(yù)測(cè)用戶在看到推薦商品列表時(shí)的下一步操作來模擬真實(shí)用戶的行為。
如圖 2 所示,模擬用戶針對(duì)每個(gè)商品的操作空間 A 包括:(1) 點(diǎn)擊、(2) 評(píng)論、(3) 分享、(4) 點(diǎn)贊、(5) 觀看 [指定時(shí)長(以秒為單位)]、(6) 跳過以及 (7) 離開會(huì)話。
如果用戶選擇離開(操作 7),系統(tǒng)會(huì)提示他們反思體驗(yàn),說明不滿意的原因,并向 RecSys 提供改進(jìn)說明,或者用戶可以直接退出,無需進(jìn)一步輸入。
用戶的決策受到當(dāng)前環(huán)境 C 和過去交互 H 的影響。如圖 2 所示,研究者考慮與用戶相關(guān)的環(huán)境因素,例如時(shí)間(一天中的時(shí)間、季節(jié)性)、人口統(tǒng)計(jì)(年齡、性別、位置等)、行為(花費(fèi)的時(shí)間、搜索查詢等)和社會(huì)聯(lián)系(團(tuán)體關(guān)系等)。
會(huì)話從用戶打開應(yīng)用程序開始,到用戶退出應(yīng)用程序結(jié)束。每個(gè)推薦都會(huì)呈現(xiàn)一個(gè)包含 k 個(gè)項(xiàng)目的列表,這些項(xiàng)目是從候選集 C 中選擇出來的,并按順序顯示。
智能體和模擬用戶可能在會(huì)話中多次交互,例如,用戶請(qǐng)求更多有趣的內(nèi)容,智能體會(huì)更新列表。每個(gè)列表顯示后都會(huì)生成獎(jiǎng)勵(lì)信號(hào)。至關(guān)重要的是,其目標(biāo)是優(yōu)化長期用戶留存作為獎(jiǎng)勵(lì)信號(hào),即最大化會(huì)話時(shí)長并最小化會(huì)話間隔,這與每日活躍用戶 (DAU) 相關(guān)。
具體來說,模擬用戶會(huì)逐一瀏覽每個(gè)推薦。對(duì)于每個(gè)項(xiàng)目,用戶需要采取三個(gè)步驟:1. 仔細(xì)思考:你回應(yīng)的理由是什么?2. 采取行動(dòng):寫下你實(shí)際會(huì)做的事情。3. 更新你的思維方式:這會(huì)如何影響你當(dāng)前的想法?
圖 3 顯示了一個(gè)匯總表,其中包含初始模擬器結(jié)果,包括模擬用戶對(duì)每個(gè)項(xiàng)目的操作和理由。
- 智能推薦(Agentic RecSys):像一個(gè)聰明助手,會(huì)調(diào)整推薦內(nèi)容,努力把你留下來。比如說:「好的,這里有一些新鮮的推薦!」
- 動(dòng)態(tài)反饋循環(huán):用戶給指令 → 推薦系統(tǒng)調(diào)整 → 用戶再反饋 → 系統(tǒng)再優(yōu)化…… 就像一場(chǎng)雙向?qū)υ挕?/li>
除此之外,RecoWorld 的設(shè)計(jì)不僅局限于單一用戶層面,它還能構(gòu)建多用戶、多群體的交互場(chǎng)景。這意味著,創(chuàng)作者可以在里面測(cè)試不同的內(nèi)容策略,比如:
- 如果我一天發(fā)三條視頻,粉絲會(huì)不會(huì)嫌煩?
- 如果我嘗試一個(gè)爭(zhēng)議話題,會(huì)帶來更多流量還是掉粉?
這些問題都能在 RecoWorld 里先「演練」,再?zèng)Q定是否在真實(shí)世界嘗試。未來的推薦系統(tǒng)可能會(huì)變成這樣:
- 你說一句:「別再給我發(fā)型視頻了」,系統(tǒng)立刻調(diào)整。
- 你想學(xué)吉他,它不會(huì)只給你「吉他教學(xué)視頻」,還會(huì)根據(jù)你的堅(jiān)持程度,逐步推薦合適的練習(xí)曲。
- 甚至你刷短視頻刷累了,系統(tǒng)能主動(dòng)察覺你的疲憊,推薦一些輕松、治愈的內(nèi)容。
換句話說,推薦系統(tǒng)正在從「猜你喜歡」變成「聽你說話」,從「冷冰冰的算法」變成「能交流的伙伴」。
為什么說這是「第一步」?
RecoWorld 并不是一個(gè)最終產(chǎn)品,而是一個(gè)基礎(chǔ)設(shè)施。它像 OpenAI 的 Gym 之于強(qiáng)化學(xué)習(xí)一樣,為推薦系統(tǒng)研究搭建了一個(gè)安全的試驗(yàn)場(chǎng)。研究人員和開發(fā)者可以在里面測(cè)試新算法、對(duì)比不同模型,甚至建立一個(gè)「排行榜」,讓全球團(tuán)隊(duì)公平切磋。這意味著:
- 推薦系統(tǒng)的研發(fā)會(huì)更快,試錯(cuò)成本更低;
- 創(chuàng)作者有了「內(nèi)容風(fēng)洞」,可以先預(yù)測(cè)受眾反應(yīng);
- 普通用戶未來會(huì)遇到更聰明、更懂你的推薦。
總結(jié)
從單向推送到雙向互動(dòng),從「算法支配用戶」到「用戶指揮算法」,RecoWorld 代表了一種全新范式。未來推薦系統(tǒng)不僅僅是「信息過濾器」,而是一個(gè)能和我們對(duì)話、一起探索興趣的「數(shù)字伙伴」。
在這一框架下,推薦不再是靜態(tài)的預(yù)測(cè),而是一個(gè)不斷演化的交互過程?;蛟S今后,當(dāng)你說:「推薦點(diǎn)更有意思的吧」,你的推薦系統(tǒng)就真的能理解,并回應(yīng):好的,我猜你可能會(huì)喜歡這個(gè)。RecoWorld 的設(shè)計(jì)愿景,正是推動(dòng)推薦系統(tǒng)向更高水平的人機(jī)共建與興趣探索邁進(jìn)。
這,就是 RecoWorld 想帶來的未來。
更多詳見原論文:https://arxiv.org/abs/2509.10397
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.