作者 | Shopee 傅聰團(tuán)隊(duì)
前 言
2025 年,生成式推薦(Generative Recommender,GR)的發(fā)展如火如荼,其背后主要的驅(qū)動(dòng)力源自大語(yǔ)言模型(LLM)那誘人的 scaling law 和通用建模能力(general-purpose modeling),將這種能力遷移至搜推廣工業(yè)級(jí)系統(tǒng)大概是這兩年每一個(gè)從業(yè)者孜孜不倦的追求。然而目前,工業(yè)界絕大多數(shù)落地嘗試集中在序列化建模上,在針對(duì)傳統(tǒng)深度學(xué)習(xí)加特征工程范式(Deep Learning based Recommender Model,DLRM)的替換上往往遭遇重重阻力。這是因?yàn)榛?attention 的用戶歷史行為建模不是生成式推薦的“專利”,在一個(gè)集合了十幾年工程和建模經(jīng)驗(yàn)的大型 DLRM 面前,單純的序列化建模并不具備明顯的優(yōu)勢(shì)。
回顧 LLM 的發(fā)家史,現(xiàn)在大多數(shù)生成式推薦框架在做的事情——next token 或 next item 的預(yù)測(cè)——其實(shí)對(duì)標(biāo)的是 GPT1~3 的過程。如果要讓搜推廣建模追平 GPT4o 級(jí)別的能力,生成式推薦的技術(shù)地圖還缺少幾個(gè)重要拼圖:上下文工程、推理和有效的訓(xùn)練策略。
在這個(gè)背景下,來自 Shopee Search 的傅聰團(tuán)隊(duì)聯(lián)合人大高瓴學(xué)院提出了 OnePiece 范式【1】,該范式是業(yè)內(nèi)首個(gè)融合了上下文工程、隱式推理和多目標(biāo)訓(xùn)練策略的生成式搜推建??蚣?,旨在將缺失的拼圖補(bǔ)全。
具體來說,OnePiece 框架包含三個(gè)核心貢獻(xiàn):
我們?yōu)樾蛄谢扑]建模設(shè)計(jì)了專屬的上下文工程框架,讓模型可以根據(jù)精心設(shè)計(jì)的 context,捕捉細(xì)粒度的預(yù)測(cè)意圖,讓模型“指哪打哪”。
我們提出了 Block-wise Latent Reasoning,讓模型在各種“ID”構(gòu)成的序列上也能“深度思考”,也提升了推理過程的“信息帶寬”。
我們?yōu)?Latent Reasoning 量身定制了漸進(jìn)式訓(xùn)練策略,讓生成式推薦模型無(wú)縫適應(yīng)多目標(biāo)排序的推薦系統(tǒng)的同時(shí),引導(dǎo)模型“差異化思考”。
Context Engineering For GR
提到上下文工程,大家可能自然而然地想到思維鏈(CoT)技術(shù),它仿佛是引導(dǎo) LLM 像人一樣思考的“咒語(yǔ)”,可以大大提升 LLM 的邏輯能力,其特點(diǎn)是需要用明確的文本描述出 LLM 應(yīng)當(dāng)遵從的 step-by-step 的思考過程。然而,切換到搜推廣場(chǎng)景,這個(gè)事情就沒那么簡(jiǎn)單了。
傳統(tǒng)意義上,我們送給 GR 模型的輸入是用戶的歷史行為序列,比如在電商場(chǎng)景,它往往是一串用戶曾經(jīng)點(diǎn)擊或購(gòu)買過的商品 ID:item A、Item B、Item C、Item D。按照 CoT 的格式,我們需要根據(jù)用戶歷史購(gòu)買的商品,構(gòu)造出用戶下一個(gè)購(gòu)買行為中間的思考過程,來引導(dǎo)模型“逐步”推理出用戶的購(gòu)買動(dòng)機(jī)。且不說每個(gè)人的購(gòu)物決策過程千差萬(wàn)別,即便是我們能還原用戶的思考過程,這一過程的文本表達(dá)與前面的行為序列也顯得“格格不入”,這種“異構(gòu)”序列往往也因?yàn)椤罢Z(yǔ)言不通”,而難以被模型理解。
如何為生成式推薦構(gòu)造提示詞呢?我們不妨返璞歸真。要知道幾年前,上下文工程還有一個(gè)更樸素的叫法:(test-time)few shot learning。而 few shot learning 用大白話講就是舉例子,希望模型能獲得舉一反三的能力。而這種數(shù)據(jù),后來也逐漸被固化到訓(xùn)練數(shù)據(jù)中,被稱為 Instruct Following SFT。如何給推薦模型“舉例子”,讓序列推薦模型“跟隨指令”以及跟隨什么樣的指令呢?我們發(fā)現(xiàn)可以通過構(gòu)造“錨點(diǎn)物品序列”來實(shí)現(xiàn)。例如,在 Shopee Search 場(chǎng)景,我們可以把用戶們?cè)谀硞€(gè)關(guān)鍵詞下面的高頻點(diǎn)擊商品序列、高頻下單商品序列,作為“樣例”拼接在用戶自己的交互序列之后,通過引入 domain expert knowledge 的方式引入一些特殊的 inductive bias。
更正式地,我們提出了上下文工程框架如下圖:
Interation History(IH):就是常規(guī)理解的用戶行為歷史。
Preference Anchors(PA):根據(jù)工程師的領(lǐng)域知識(shí),構(gòu)造的錨點(diǎn)序列,輔助引導(dǎo)預(yù)測(cè)和思考方向。
- Situational Descriptor(SD):一些表達(dá)場(chǎng)景或其它異構(gòu)信息的特殊 token,一般放在序列末尾聚合信息,例如我們?cè)谒阉鲌?chǎng)用到的 user token、query token 等。
Candidate Item Set(CIS):潛在目標(biāo)候選物品的集合,這個(gè)是 ranking 模式下特有的,也是相對(duì)于召回模式的優(yōu)勢(shì)所在,ranking 模式下,候選物品對(duì)模型可見,可提供更多上下文信息。
Latent Reasoning For GR
推理是 LLM(以 GPT-o 系列為代表)激發(fā)強(qiáng)大 test-time scaling law 的基石,但這對(duì)于生成式推薦來說也是一大難題。LLM 以文本為媒介表達(dá)“思考過程”,但 GR 模型都是在 ID 序列上操作,天然不具備這個(gè)環(huán)境,如何能讓 GR 模型也激發(fā)思考能力呢?幸運(yùn)的是,在 2024 年,少部分 LLM 領(lǐng)域的研究人士關(guān)注到了隱式推理這個(gè)方向,我們關(guān)注到人大高瓴學(xué)院的研究團(tuán)隊(duì)也在 2025 年初發(fā)表了 ReaRec【2】,嘗試在 GR 語(yǔ)境下進(jìn)行 Latent Reasoning。隱式推理在產(chǎn)業(yè)界落地也就成為了我們的合作契機(jī)。
那么什么是隱式推理呢?直白來說就是在模型做 next token 計(jì)算的時(shí)候不做 decoding。如下圖所示:
在模型在產(chǎn)出了紅框中的“output token”后,我們不通過 token 碼表和 softmax 解碼得到 next token,而是直接把它原模原樣拿下來,填到 next token 的位置上,如此往復(fù)循環(huán)幾步,再進(jìn)行解碼操作。因此,模型不是在 token space 展開思考,而直接在 latent representation space 進(jìn)行思考,同時(shí)還可以大大節(jié)約思考 token 的消耗(不像 CoT 那樣需要消耗大量思考模板 token),這簡(jiǎn)直就是為生成式推薦量身定制的思考模式!(你別管 GR model 在想啥,反正人家就是在努力想?。?/p>
Progressive Training For Multi-Task System
在對(duì)比研究了顯式推理和隱式推理的利弊后,我們發(fā)現(xiàn)隱式推理最大的劣勢(shì)在于缺少“過程監(jiān)督”。簡(jiǎn)單來說,如果你不告訴模型應(yīng)該“思考什么”、“往什么方向思考”,那它很有可能會(huì)陷入思考的“次優(yōu)解陷阱”。在我們之前的工作 GNOLR【3】的基礎(chǔ)上,我們把漸進(jìn)式多任務(wù)建模的思想融入到了 OnePiece 的推理建模中。
具體地,我們?cè)诙嗖酵评砩席B加了漸進(jìn)式的監(jiān)督信號(hào),引導(dǎo)模型進(jìn)行由簡(jiǎn)入繁、由淺入深的思考方式,如下圖所示:
以電商排序任務(wù)為例,我們?cè)诘谝徊?Latent reasoning step 上疊加點(diǎn)擊目標(biāo),而在后續(xù)兩步上分別疊加加購(gòu)物車、下單目標(biāo)。同時(shí),配合推理過程,我們構(gòu)建了如左圖的階梯式 attention mask,目的是為了讓前置位的思考看不到后置位的思考,但讓后置位的思考能看到前置位的信息。這樣不僅可以強(qiáng)化漸進(jìn)式思考的模式,還可以最大化利用 kv-cache 來降低推理開銷。
從我們的 attention mask 也可以看出來,不同于 ReaRec,我們是 block-wise reasoning 而不是 token-wise reasoning。換句話說,在一步推理的時(shí)候,我們會(huì)攜帶以往序列中多個(gè)位置的聚合信息向前推進(jìn),而不是像 ReaRec Latent reasoning,只使用單個(gè) reasoning token 聚合信息。除了實(shí)踐中發(fā)現(xiàn)這種 block-wise latent reasoning 有奇效外,其背后的原因也比較明顯?;趩蝹€(gè) token 的循環(huán)隱式推理,容易在第一個(gè)推理 token 位置開始形成信息瓶頸,而多個(gè) token 并行前推可以顯著增大推理的“信息帶寬”。同時(shí),我們通過 attention 可視化發(fā)現(xiàn),不同的 latent reasoning token 肩負(fù)不同的信息收集、推衍使命,分開更適合他們發(fā)揮作用。
實(shí)驗(yàn)結(jié)果與分析
離線實(shí)驗(yàn)
為了深度分析 OnePiece 的效果,我們進(jìn)行了詳細(xì)的對(duì)比和 Ablation。
上表 Table2 中,我們可以看到,Shopee 的 DLRM 基線是一個(gè)很強(qiáng)的 baseline,naive 的生成式推薦是難以 PK 的。進(jìn)一步地,PA 是通過上下文工程引入額外的 domain knowledge,這種手法是模型 backbone 無(wú)關(guān)的,HSTU 和 ReaRec 都可以從中受益。OnePiece 相對(duì)于 ReaRec+PA 的提升,主要來源于 block-wise reasoning 帶來的信息帶寬收益和漸進(jìn)式的訓(xùn)練策略。
從 Table3 我們可以看出來,side info 對(duì)模型效果有巨大影響。目前 One Piece 引入 side info 的方式是在輸入 transformer 之前增加一個(gè) Linear Adaptor,在每個(gè) token 位置上聚合 item ID 以及其對(duì)應(yīng)的 side info:
此外,延長(zhǎng)、優(yōu)化 PA 序列呈現(xiàn)了一定程度的 scaling law,SD token 對(duì)收攏、聚合全局信息有重要作用,上下文工程框架中的每個(gè)組分都能夠提升效果。
表 4 和 5 說明雙向注意力在搜推廣范式下更有優(yōu)勢(shì)。這其實(shí)比較容易理解,目前主流的搜推系統(tǒng)的用戶交互模式依然是“一次請(qǐng)求返回一個(gè)頁(yè)面”的方式,GR 模型不會(huì)依賴自己生成的 token 逐步解碼,每次請(qǐng)求來了以后,生成的過程都是“一錘子買賣”。因此,不存在解碼性能壓力的前提下,對(duì) pre-filling 部分的序列施加雙向注意力可以更好的聚合信息。
此外,多步推理有 scaling 的效果,但效果逐漸收斂。漸進(jìn)式引導(dǎo)相比于只監(jiān)督最后一步更有效。值得注意的是,對(duì)于 ranking 模式下,candidate item 在 attention mask 內(nèi)互相“可見”非常重要。
疊加了有效上下文工程、block-wise推理和訓(xùn)練策略,transformer展現(xiàn)出了更強(qiáng)的data scaling能力,在更長(zhǎng)周期的訓(xùn)練中,相對(duì)于HSTU和DLRM逐漸拉開差距。
attention 可視化分析
我們?cè)陔S機(jī)抽樣分析模型 attention 的時(shí)候,發(fā)現(xiàn)了驚人的一致性表現(xiàn)!這給我們理解 One Piece 模式下模型的建模方式提供了豐富的 insights。
首先是召回模型:
召回模式下的特點(diǎn)是,第一層(淺層)主要是在上下文工程框架的不同組分內(nèi)部,進(jìn)行信息搜索和聚合:上圖第一列深色區(qū)域集中在用戶近期行為挖掘以及 PA 序列中參考 item 的挖掘。第二層(深層)開始出現(xiàn)高密度的跨區(qū)域信息搜索和聚合。
其次是排序模型:
我們可以看到淺層不同 head 各司其職,有的挖掘用戶近期相關(guān)行為,有的挖掘 PA 中參考 item,有的在傳遞、聚合場(chǎng)景上下文(SD token)信息,有的在挖掘目標(biāo)(candidate token)和序列的相關(guān)性。在深層,各個(gè) head 則主要從不同側(cè)面挖掘 candidate item 內(nèi)部互相之間的關(guān)系,我們認(rèn)為模型是在進(jìn)行 candidate item 內(nèi)部的互相對(duì)比,以決優(yōu)劣。
而在推理階段:
我們可以看到不同的推理步驟下,信息在向 reasoning block 內(nèi)部不同的 token 位置方向發(fā)生信息聚合和交流。
在線實(shí)驗(yàn)
我們?cè)?Shopee 主搜場(chǎng)景進(jìn)行了實(shí)驗(yàn),具體地,我們?cè)谡倩仉A段和 prerank 階段兩個(gè)正交的實(shí)驗(yàn)層進(jìn)行了在線 AB 實(shí)驗(yàn)。在召回階段,我們將 OnePiece 召回替代了原有的 DeepU2I 召回,取得了 1.08% 的 GMV/user 增長(zhǎng);在 prerank 階段,我們用 OnePiece ranking model 替換了原有的 DLRM model,取得了 1.12% 的 GMV/user 增長(zhǎng)和 2.9% 的廣告收入增長(zhǎng),可以說是相當(dāng)大幅度的提升。
需要說明的是,我們?cè)?Prerank 階段上線的模型并不是“滿血”的 OnePiece。由于線上系統(tǒng)是一個(gè)針對(duì) point-wise 打分深度定制化優(yōu)化的系統(tǒng),而 OnePiece 的 block-wise reasoning 需要對(duì)候選排序商品進(jìn)行隨機(jī)分組,我們將 prerank 的 block size 壓縮至 1 來滿足上線需求,這會(huì)對(duì)模型 auc 帶來顯著損失:
本次實(shí)驗(yàn)的定位也是針對(duì) OnePiece 能力的探路性實(shí)驗(yàn),先自證價(jià)值,以驅(qū)動(dòng)我們對(duì)在線系統(tǒng)乃至整個(gè)搜推廣技術(shù)團(tuán)隊(duì)架構(gòu)設(shè)計(jì)的深度革新。
值得注意的是,我們對(duì) OnePiece 召回進(jìn)行了深度數(shù)據(jù)分析拆解:
“新上馬”的 OnePiece 召回,相對(duì)于其它召回路來說,可以說是碾壓式覆蓋。通過優(yōu)化、平衡上下文工程中的 IH 和 PA 序列,OnePiece 在覆蓋了文本召回曝光的 60%+ 商品的同時(shí),覆蓋了個(gè)性化導(dǎo)向召回(如 SwingI2I)的 70%+。這在以往的召回迭代的經(jīng)驗(yàn)下是幾乎不可能的事情,以前要么是側(cè)重個(gè)性化但相關(guān)性不足、損傷體驗(yàn),要么是側(cè)重相關(guān)性但個(gè)性化不足,損傷效率指標(biāo)。相比于 DLRM 的 U2I 召回,OnePiece 貢獻(xiàn)了 10% 的獨(dú)立曝光和 5.7% 的獨(dú)立點(diǎn)擊:
這說明 OnePiece 選出來的內(nèi)容,通過了下游粗排、精排、重排的重重考驗(yàn),獲得了用戶的認(rèn)可,在 Explore&Exploit 這個(gè)推薦經(jīng)典問題上實(shí)現(xiàn)了難以置信的平衡,證明了推理模型的強(qiáng)大外推能力。
未來工作
OnePiece 是我們?cè)?One For All 的通用推薦模型上的一次初步探索,它證明了我們可以通過特殊的上下文工程和推理模式,引導(dǎo)模型的預(yù)測(cè)方向。OnePiece 1.0 讓我們看到了,“提示詞優(yōu)化”可能會(huì)成為搜推廣技術(shù)棧下的一個(gè)全新方向,OnePiece 2.0 將會(huì)在 General Recommender Model 的探索上更進(jìn)一步,嘗試用一個(gè)模型來建模多場(chǎng)景和多召回策略:
此外,OnePiece 1.0 雖然挖掘出了生成式推薦 style 的新型推理框架,但它也有著顯而易見的劣勢(shì),即推理步驟和漸進(jìn)多任務(wù)系統(tǒng)的綁定,我們會(huì)探索可變長(zhǎng)的推理形態(tài),充分挖掘序列推薦下真正的 test time scaling law。
更多詳細(xì)內(nèi)容,請(qǐng)移步我們的技術(shù)報(bào)告【1】。OnePiece 的命名,既取自補(bǔ)全生成式推薦框架技術(shù)拼圖的寓意,也因?yàn)槲覀兊膱F(tuán)隊(duì)來自 Sea Group(Shopee 母體),以 Sailor 自稱,歡迎學(xué)界、業(yè)界更多小伙伴加入我們,一起開啟生成式推薦的大航海時(shí)代,追尋其中的大秘寶!
【1】OnePiece: http://arxiv.org/abs/2509.18091, hugging face daily: https://huggingface.co/papers/2509.18091
【2】ReaRec: https://arxiv.org/pdf/2503.22675
【3】GNOLR: https://arxiv.org/pdf/2505.20900
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.