夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Scaling Law 仍然成立,企業(yè)搜廣推怎么做才能少踩“坑”?

0
分享至


作者 | AICon 全球人工智能開發(fā)與應用大會

策劃 | 羅燕珊

編輯 | 宇琪

當大模型從通用技術探索深入產(chǎn)業(yè)場景,搜索、廣告與推薦系統(tǒng)作為連接用戶需求與業(yè)務價值的核心鏈路,正迎來全鏈路智能重構。那么,生成式推薦真正落地后的關鍵挑戰(zhàn)是什么?又應該如何解決?

近日 InfoQ《極客有約》X AICon 直播欄目特別邀請了京東內(nèi)容推薦架構負責人顏林擔任主持人,和榮耀 AI 算法專家馮曉東、京東算法總監(jiān)張澤華、中科大計算機學院副教授王皓一起,在AICon全球人工智能開發(fā)與應用大會2025 北京站即將召開之際,共同探討生成式推薦的落地洞察。

部分精彩觀點如下:

  • 行業(yè)真正做到端到端的統(tǒng)一 pipeline 仍有較大差距,更多工作還是在 pipeline 的單點與大模型結合。

  • 搜廣推場景中的 scaling law 依然成立,并且仍在快速上升階段。

  • 低價值場景用小模型覆蓋,高價值場景用大模型爭取額外收益。

  • 不應拘泥于某項技術是否是主流,也不必期待每次都帶來爆發(fā)式收益,所有革命性進展都是逐步積累而成的。


完整直播回放可查看:
https://www.infoq.cn/video/0ViWrdqyQwNvO7TdQpyD

以下內(nèi)容基于直播速記整理,經(jīng) InfoQ 刪減。

1 大模型改變了搜廣推了什么?

顏林:在各位負責的業(yè)務里,如果只用一句話概括:大模型真正改變的是搜廣推系統(tǒng)的哪一塊?能否結合一個典型場景簡單對比一下以前和現(xiàn)在的做法?

馮曉東:目前變化最大的環(huán)節(jié)在于特征工程,因為我們現(xiàn)階段的線上模型尚未完全接入生成式模型,而是主要利用大語言模型,為特征構建提供更豐富的補充。

以廣告業(yè)務為例,我們擁有大量廣告素材,需要從中提取合適的特征。過去一年我們嘗試了多種多模態(tài)大模型,用于生成標簽化特征,甚至獲取向量化的語義特征。特征挖掘一直是搜廣推領域的痛點,同時也是提升效果的關鍵。大模型在大量開源語料上完成預訓練,具備推理能力,不僅能基于用戶歷史行為挖掘特征,也能補充具有推理性質的增量知識。

因此,我們在用戶側嘗試了多項探索,將傳統(tǒng)依賴歷史統(tǒng)計、序列、交叉等方式構建的特征統(tǒng)一規(guī)劃為長序列特征,再結合大語言模型或生成式推薦的序列建模能力,離線提取用戶偏好或向量化表示。通過這種方式,我們預計能在很大程度上解決特征工程中的瓶頸,同時減少線上模型對統(tǒng)計類、交叉類特征的依賴,從而提升推理效率。

王皓:從學術界的角度來說,過去一年,我們持續(xù)關注如何讓模型規(guī)模擴大并具備可擴展性(scaling)。我們發(fā)現(xiàn),模型能否真正實現(xiàn) scaling,很大程度取決于數(shù)據(jù)的質量、配比以及整體準備情況。在不同任務下,只要數(shù)據(jù)質量與結構設置得當,模型做大做深后往往都能呈現(xiàn)出良好的 scaling 能力。

但從高校環(huán)境來看,算力受限,使得許多工程化方案較難落地。因此,學界近年來更加關注如何在有限算力下讓模型訓練得更長、序列更長、行為信息更豐富,或者探索更輕量化的 attention 機制,以提升長序列計算效率。同時,推薦系統(tǒng)是否能夠在推理層面具備更強的 reasoning 能力,也是正在探索的方向。當前大部分研究仍基于傳統(tǒng)的 HSTU 路線,但未來是否繼續(xù)沿用或需要回到既有路徑,學界也在不斷討論。

張澤華:大模型剛出現(xiàn)時大家非常興奮,但過去一年這種熱情有所回落,核心原因在于:大模型看似“fancy”,但要讓這件“fancy”的事情持續(xù)發(fā)揮價值,需要大量基礎性的“dirty work”。例如,如何清洗數(shù)據(jù)、如何構建高質量的思維鏈樣本、如何在多模態(tài)場景中實現(xiàn)語義對齊等。這些工作占去了我們大量時間和精力,一旦處理不夠扎實,大模型在搜廣推場景中的實際收益就會受到明顯限制,算力堆得再多也難以發(fā)揮其真正潛力。

因此,我們過去一年最大的體會之一,是從傳統(tǒng)特征工程轉向更系統(tǒng)化的數(shù)據(jù)與樣本構建方式。這不僅需要新的方法,也需要投入大量人力物力,建立有效的數(shù)據(jù)組織體系,才能真正讓樣本構建落地。

2 系統(tǒng)與模型怎么成長?

顏林:在架構演進上,大家所在團隊更偏向于在現(xiàn)有 pipeline 上逐步疊加大模型,還是會針對某些環(huán)節(jié)重新設計新鏈路?這中間有沒有經(jīng)歷過比較激烈的取舍或爭論?

馮曉東:在實際落地中,全面重構 pipeline 的成本極高,帶來的收益也難以量化,特別是在低價值場景中更是如此。因此,盡管我們會持續(xù)討論生成式架構的未來形態(tài),但在真實實驗中,仍是圍繞 pipeline 的某些環(huán)節(jié)逐步探索。例如在特征工程中,我們優(yōu)先思考如何與大模型結合、如何疊加其能力。第一階段是讓大模型先進行補充;第二階段再嘗試用大模型替代某些環(huán)節(jié);再往后,我們考慮在現(xiàn)有的召回、粗排、精排、重排鏈路中,先替代召回,再進一步替代召回與重排等模塊。這會是一個逐步迭代的過程,但我們依然相信從長期看,顛覆式 pipeline 有機會最終落地。

張澤華:最初我們對大模型非常樂觀,期望能“一步到位”,由模型直接端到端輸出推薦或搜索結果。以電商搜索為例,我們希望大模型能同時理解用戶 query、上下文信息以及隱性偏好,從而一次性完成檢索。但實際結果發(fā)現(xiàn),這種端到端方式在多數(shù)場景中不僅無收益,甚至出現(xiàn)負向效果,因此我們開始系統(tǒng)性拆解問題。過去一年中,我和團隊幾乎把召回、粗排、精排、創(chuàng)意機制、計費、出價等所有環(huán)節(jié)逐一拆開,并在每個環(huán)節(jié)單獨驗證收益。

最終驗證發(fā)現(xiàn),大模型能力主要體現(xiàn)在兩個方面:第一是強語義理解,第二是一定程度的推理能力。它們適合的場景,一是傳統(tǒng)算法語義理解較弱的部分;二是具有較長邏輯鏈路的任務。比如曝光后立即點擊,這類毫秒級反饋鏈路較短,大模型難以發(fā)揮優(yōu)勢;但在電商中,從興趣形成到?jīng)Q策、下單甚至收貨后的行為,這是一條極長鏈路,在這類任務中,大模型往往能取得明顯收益。

因此,我們內(nèi)部很多爭論都圍繞取舍展開。第一,大模型規(guī)模變大,會大幅增加實時推理成本和算力開銷,而效果提升卻未必成比例。傳統(tǒng)模型幾分鐘或數(shù)小時即可上線驗證,但大模型訓練和驗證可能需要周級甚至月級周期,這就引發(fā)了效率與收益之間的矛盾。

第二,大模型需要大量標準化、高質量的新樣本,而傳統(tǒng)場景中這類數(shù)據(jù)往往缺失,需要投入巨大的人力物力重新構造。一旦標注不足或質量不穩(wěn),大模型不僅無收益,還可能產(chǎn)生負向效果;但標注足夠多時,成本又極高。工業(yè)界必須考慮投入產(chǎn)出比(ROI),而我們也觀察到大模型不僅在參數(shù)規(guī)模上存在 scaling law,在精煉樣本的數(shù)量和質量上也呈現(xiàn) scaling 曲線。

王皓:近期大家雖然都在構建完整的大模型 pipeline,但深入分析后可以看到,真正被大規(guī)模使用的大模型能力通常集中在個別環(huán)節(jié)。例如做特征交互、生成更豐富的特征;或將大模型融入召回模塊,以增強召回效果。行業(yè)真正做到端到端的統(tǒng)一 pipeline 仍有較大差距,更多工作還是在 pipeline 的單點與大模型結合。學界也是類似的趨勢,主要在各個模塊上做針對性創(chuàng)新,而不是已經(jīng)完全實現(xiàn)一體化的推薦鏈路。目前學界與業(yè)界都更接近于“多點突破”,而非“全鏈路重構”。

顏林:在推薦 / 廣告場景下,如何看待 scaling law?

馮曉東:推薦領域的模型同樣具備 scaling law,而且我認為其邊際效益遠未觸及上限,尚未像大語言模型那樣出現(xiàn)明顯的邊際遞減。

原因主要涉及兩個方面:數(shù)據(jù)與線上推理能力。首先,搜廣推依賴的是用戶行為數(shù)據(jù),與語言模型相比,我們的樣本量更大、序列 token 更長。當前模型普遍覆蓋億級用戶,單個用戶的行為序列長度動輒上千甚至上萬。在如此規(guī)模下,若想完全挖掘行為模式,模型需要具備極高復雜度,甚至可能比語言模型更復雜。因此,我們必須在模型復雜度與線上推理能力之間尋找平衡。由于線上資源受限,我們實際上并未釋放模型的全部潛能。其次,盡管 scaling law 的趨勢明確,但要讓模型能力真正最大化,目前主要仍依賴在線下進一步擴大規(guī)模。如何把線下能力有效遷移到線上,是后續(xù)需要重點解決的問題。

王皓:第一個問題是:推薦領域的 scaling law 應該如何定義?它是否等同于語言模型中的 scaling law?我們最近做了一個推薦 Scaling Law 方向的工作,過程中發(fā)現(xiàn)不同數(shù)據(jù)集、不同任務擬合得到的 scaling 曲線差異很大,并不存在像語言模型那樣一個統(tǒng)一的公式,尤其是在推薦領域中,performance 更依賴 loss,而我們觀察到的 scaling 規(guī)律也主要體現(xiàn)在 loss 層面。

基于此,我們提出了 P-law(performance law)的定義形式:在不同推薦數(shù)據(jù)集上,將 item ID 詞表歸一為相同規(guī)模,將數(shù)據(jù)質量約束統(tǒng)一為一致指標后,我們發(fā)現(xiàn)不論是在傳統(tǒng)模型還是 LLama、SOTA 模型上,都能擬合出較為統(tǒng)一的 scaling 規(guī)律。說明推薦領域是可以研究通用 scaling law 的,而非完全碎片化。

第二個問題是:既然 scaling law 可以擬合,我們是否已經(jīng)接近它的上限?推薦模型到底需要多大規(guī)模?當前的模型與數(shù)據(jù)是否足以支撐繼續(xù)擴大?我的看法是:推薦模型規(guī)模普遍還不夠大,還遠未到達 scaling law 的極限。而且推薦未來到底走哪條技術路線,是繼續(xù)沿著 sequence-to-sequence(S2S),還是朝 unified LLM 發(fā)展,目前也沒有共識。

張澤華:在推薦與廣告場景中,我們距離 scaling law 的天花板還非常遙遠。首先,以典型搜廣推場景為例,如果假設使用一個真正端到端的模型,在 300 毫秒的推理預算內(nèi)完成所有計算,要同時理解用戶特征、興趣序列和候選 item,經(jīng)過反算后,我們推測模型參數(shù)量至少需要十幾個 billion 才能支撐。然而,即使如此,工程、算力和網(wǎng)絡通信必須全部壓到極限,300 毫秒已經(jīng)接近行業(yè)上限。

第二個例子來自我們對模型推理的可視化研究。以 7B 規(guī)模模型為例,我們逐步分析其每一層的中間狀態(tài)后發(fā)現(xiàn),不少區(qū)域的參數(shù)幾乎不影響最終結果。這意味著小模型能力不足的原因并非單純參數(shù)量少,而是有效參數(shù)比例低。

第三,當我們采用 MoE 結構處理如 query–SKU 這種典型任務時,隨著模型參數(shù)規(guī)模擴大,尤其是有效參數(shù)占比提升時,性能呈現(xiàn)明確的 scaling 趨勢。這證明在推薦領域,有效參數(shù)規(guī)模比總參數(shù)規(guī)模更關鍵。

此外,我們目前的許多模型,無論傳統(tǒng)模型還是 MoE,都做了大量裁剪和折中,有效計算量和可分辨度受到限制。因此,僅僅從 8B 換到 10B 不能保證提升,關鍵是有效參與推理的部分是否真正擴大。一旦擴大,效果提升趨勢非常明顯。

接下來分享幾個我們在放寬約束后的實驗發(fā)現(xiàn)。第一,如果暫時不考慮 300 毫秒的實時限制,而允許 3 秒甚至 30 秒推理,我們即可使用更大規(guī)模的模型。在不做結構裁剪的前提下,模型參與推理的有效參數(shù)大幅增加。在線下評測中,當規(guī)模擴大到 200B–300B 時,其效果明顯優(yōu)于 8B–10B。

第二,當我們放寬 input 的限制,把用戶 query、歷史行為以及商品豐富的描述全部作為輸入時,模型效果進一步提升。此時的 prompt 已非常復雜,但 scaling 趨勢依然明顯,只是斜率不如前幾項那么陡。

綜合以上,我認為搜廣推場景中的 scaling law 依然成立,并且仍在快速上升階段。關鍵問題是如何讓 scaling 趨勢不僅體現(xiàn)在論文和離線評測中,而是真正轉化為線上收益。如何在推理耗時、工程成本與規(guī)模擴展之間找到平衡,將是未來最重要的研究方向。

顏林:通常是如何平衡模型規(guī)模、收益和算力 / 時延成本的?在哪些場景里會更傾向于“小而精”的模型?

馮曉東:大模型上線時勢必面臨性能瓶頸,而要突破這些瓶頸往往需要投入大量人力物力進行優(yōu)化,并配備更多或更高規(guī)格的 GPU。因此在實際過程中,我們首先的目標自然是盡可能降低成本。在這一點上,我們主要做了兩類探索。第一類是模型蒸餾,無論是大語言模型還是生成式序列模型,我們都嘗試用大模型去蒸餾小模型,或以對比學習等方式讓教師網(wǎng)絡幫助線上小模型學習,從而在保持線下效果的前提下降低線上推理成本。

第二類方法是分層剪枝,也可以理解為壓縮。例如某些模型可能有十幾層,我們會先嘗試只保留一兩層,觀察其在序列任務中是否仍有收益,并據(jù)此裁剪后上線。另一種類似做法借鑒了 DeepSeek 的 MoE 機制,將大專家拆分成多個小專家并加入路由機制,以減少推理時的激活參數(shù)量,提升線上性能。

理想情況當然是所有場景都能用小而精的模型取得良好效果,但當前小模型仍有明顯天花板。因此我們會優(yōu)先在低價值場景中使用小模型甚至通用小模型;在高價值場景中,如果 ROI 能覆蓋成本,我們才會嘗試規(guī)模更大的模型。整體策略仍是:低價值場景用小模型覆蓋,高價值場景用大模型爭取額外收益。

王皓:從學術角度看,我們還觀察到一個現(xiàn)象:在推薦的長鏈路中,不同階段所需的模型規(guī)模其實不同。例如從召回到粗排再到精排,每一階段對模型大小的需求并不一致,這意味著模型規(guī)模并非越大越好,而是可以在不同階段進行區(qū)分設計。

第二個觀察是,很多人希望用 2B 規(guī)模模型達到 8B 或 10B 的表現(xiàn)。除了蒸餾,我們也嘗試從另一個方向切入:既然許多場景的高質量數(shù)據(jù)尚未觸頂,我們能否通過生成更多高質量數(shù)據(jù),訓練出性能更好的小模型?我們并不是直接做蒸餾,而是利用大模型生成更純凈、更高質量的訓練數(shù)據(jù),讓小模型在數(shù)據(jù)端突破瓶頸。按照我們提出的 P-Law 規(guī)律,小模型仍有很大提升空間。如果目標模型處于 2B–3B 區(qū)間,我們會用更大模型持續(xù)生成數(shù)據(jù),讓小模型逐步逼近這一能力上限。

張澤華:模型只要能在特定場景中達到目標效果,它就是合格的模型。剩下的都是 ROI 的問題,包括算力、人力與數(shù)據(jù)成本。因此關鍵是資源的最優(yōu)分配,而非一味追求更大規(guī)模。

推薦領域存在三類“類 scaling law”趨勢?;诖耍绻覀兪掷镏挥幸粋€ 2B 的模型,如何讓它的能力最大化?無非幾條路徑:第一,提高有效參與推理的參數(shù)比例;第二,給予模型更高質量、更純凈的訓練樣本;第三,即便模型小,也可以在輸入、輸出的設計上擴大規(guī)模,讓其“物盡其用”。

此外,在企業(yè)環(huán)境中還有一個現(xiàn)實因素:老板是否認可 ROI。例如一個 671B 的模型,可能需要 16 卡或 32 卡主流 GPU 才能跑起來,并且要支撐每秒上萬次請求,還得在幾秒內(nèi)完成完整推理,這帶來的成本是指數(shù)級增長的。與此同時,推理延遲無法通過無限堆卡來無限降低,因此必須在算力投入與延遲之間找到最優(yōu)的平衡區(qū)間。

低價值場景自然更適合小模型,即便只達到大模型 40% 的能力也完全足夠。而在核心高價值場景,例如開屏、信息流、搜索核心位,即便大模型只能帶來小幅提升,大家仍愿意投入資源去擴模型規(guī)模以爭取額外收益。

顏林:當大模型真正上線到生產(chǎn)系統(tǒng)之后,大家遇到過的主要工程挑戰(zhàn)是什么(時延、吞吐、資源成本、穩(wěn)定性等)?從這些經(jīng)歷中總結下來,有哪些坑是可以提醒下同行的?

馮曉東:搜廣推領域的模型高度依賴用戶的近期或實時數(shù)據(jù),因此模型必須能夠快速迭代。傳統(tǒng)推薦模型已經(jīng)能夠實現(xiàn)分鐘級或小時級更新,但我們當前采用的大模型,其訓練和推理都在線下進行,要同步更新就非常困難。核心問題在于,如何讓實時或進線產(chǎn)生的大量用戶行為能夠及時輸入模型,并支撐模型快速迭代更新。

我們嘗試的優(yōu)化方向包括:其一,設計更高效的數(shù)據(jù)流 pipeline,確保生成式推薦模型在訓練時能迅速獲取樣本及必要的序列特征,并以合適方式輸入模型。其二是模型的更新方式。對于增量更新,我們需要判斷究竟是進行全量全參更新,還是只更新部分參數(shù)。因此我們做了許多實驗,例如僅更新最后幾層、僅更新關鍵任務的幾個塔、或只更新共享網(wǎng)絡等。我們也嘗試過全參更新,但會遇到上一批生產(chǎn)數(shù)據(jù)尚未訓練完、下一批數(shù)據(jù)又已到來的情況。為平衡訓練成本和更新效率,我們最終更多采用“凍結部分參數(shù)”的方式,以取得更穩(wěn)定的更新效果。

王皓:最大的困難之一是在線與離線結果長期無法對齊,離線實驗表現(xiàn)良好,但上線后的結果常常差異很大。另一個問題是,當我們嘗試上線一個更大規(guī)?;蛐掳娴哪P蜁r,會發(fā)現(xiàn)線上已有一個相對老舊但長期訓練的模型。雖然該模型結構簡單、規(guī)模較小,但因長期基于歷史數(shù)據(jù)持續(xù)更新,它對一年甚至更長周期的數(shù)據(jù)都有充分學習。而新模型往往只基于最近幾個月的數(shù)據(jù)訓練,盡管離線驗證中性能更優(yōu),但在真實線上場景中卻很難打敗長期訓練的舊模型。

因此,即便驗證通過,新模型依舊難以上線。我們面臨的問題是:如何讓更新后的新模型既利用近期數(shù)據(jù),又能有效繼承長期數(shù)據(jù),從而真正超過線上模型?隨著版本增多,需要重新訓練的歷史數(shù)據(jù)越來越多,訓練與驗證成本也隨之大幅上升。

張澤華:王皓老師提到的“離在線對不齊”,是在模型穩(wěn)定運行之后仍然存在的問題。而在模型能夠穩(wěn)定運行之前,其實還有更多“坑”。大模型時代算法迭代非???,新模型的發(fā)布節(jié)奏往往以周甚至小時計,這帶來巨大的適配成本。很多算法工程師希望下載一個開源模型就能直接跑在業(yè)務場景上,但業(yè)務數(shù)據(jù)有自身結構,訓練平臺與資源組織方式也不同,因此實際適配難度遠比預期高。

適配完成后,大家又希望盡快做在線 AB 實驗。但離線能跑通并不意味著能滿足線上 serving 的資源和時延要求,尤其是在工業(yè)環(huán)境中,這個 gap 通常非常大。國內(nèi)雖然有組織會做 0-day 的在線適配,但一旦你在模型結構中做了任何微調(diào),線上 serving 圖通常需要大規(guī)模重寫,迭代成本非常高。

此外,不同版本模型常常使用不同的 tokenizer,但許多工程師在上線前并不會特別關注 tokenizer 的變更,而是更關注參數(shù)量是否更新。一旦 tokenizer 未對齊,模型效果就會出現(xiàn)不可預測的問題。

另一個難點在于,工業(yè)場景下用戶行為的分布本身就是算法系統(tǒng)長期影響的結果。例如,在某些 App 中,歷史模型已篩選出一批習慣“搜→看→點→買”的高效率用戶。如果你的新模型更適合“慢節(jié)奏、喜歡比較”的用戶,即使模型本身更好,在現(xiàn)有交互環(huán)境下也可能表現(xiàn)不佳。因此,模型上線后往往需要通過大量隨機流量,經(jīng)歷一個漫長的“探索—利用”期,才能評估其真實表現(xiàn)。

很多情況下,新模型上線表現(xiàn)不佳并非模型本身的問題,而是實驗環(huán)境不夠友好。為解決這一點,我們開發(fā)了一套工具,包括多智能體強化學習模擬器,能夠基于上下文和系統(tǒng)行為構造沙箱環(huán)境,讓基線模型和新模型先在模擬環(huán)境中對比,從而獲得相對客觀的評價?,F(xiàn)實環(huán)境中無法獲得某個用戶在兩種模型下的“反事實”表現(xiàn),而模擬器可以一定程度上彌補這一缺失。此外,我們會不斷將線上樣本回放到離線或進線的模擬器中,支持大規(guī)模持續(xù)強化學習。在大模型場景下,無論全參還是局部參數(shù)更新,其校驗機制都必須更加嚴謹。

3 從推薦到廣告:生成式、智能體與知識工程

顏林:目前生成式能力在各位所負責業(yè)務中的主要定位是什么?更多是做創(chuàng)意 / 文案 / 特征輔助,還是已經(jīng)開始承擔候選生成、策略規(guī)劃等更核心的工作?以及,個人最期待、但覺得還需要一段時間才能成熟的應用方向是什么?

馮曉東:目前生成式技術在我們業(yè)務中集中在多模態(tài)內(nèi)容的理解與生成,例如營銷與廣告素材的自動生成。在算法落地方面,我們也在探索生成式推薦的可能性。由于生成式模型具備一定推理能力,我們會基于用戶歷史的離線數(shù)據(jù),先進行推理特征的生成,相當于在用戶已有知識體系上補充增量知識。

我們內(nèi)部也持續(xù)討論一個重要問題:生成式推薦是否能夠完全替代線上推薦系統(tǒng)的能力。大家的愿景是一致的,即希望逐步朝這個方向演進。若生成式推薦能承擔全流程線上推斷,首先能顯著簡化線上工程體系,從而進一步節(jié)省成本;其次,它在大規(guī)模在線推斷中可能帶來顯著的業(yè)務效果提升。

王皓:沿著生成式推薦的發(fā)展趨勢來看,它正逐漸呈現(xiàn)系統(tǒng)工程化的特征,即構建完整的推薦 pipeline,將各環(huán)節(jié)流程化,并在統(tǒng)一范式下解決多個任務。因此,學界的研究重點也逐步轉向如何優(yōu)化 pipeline 各細節(jié)、打通不同模塊的銜接,而在此框架內(nèi)做顛覆式創(chuàng)新的空間似乎相對有限。

張澤華:從工業(yè)界的視角來看,大家的目標都是盡可能發(fā)揮大模型的作用。創(chuàng)意文案類任務已經(jīng)大規(guī)模應用,尤其是圖像、視頻等多模態(tài)內(nèi)容的生成,在擴散模型階段就已展示出巨大潛力,如今在 AIGC 的演進中仍然保持高速發(fā)展。語言類模型出現(xiàn)后,文案生成進一步普及。我最近參加行業(yè)交流時發(fā)現(xiàn),無論是營銷、電商還是微商領域,很多團隊已經(jīng)非常熟練地使用大模型智能體進行視頻制作、文案生成及創(chuàng)意加工。

在零售等企業(yè)內(nèi)部,這類能力也逐漸滲透到更多場景中。例如本次直播過程中,自動翻譯、自動文案總結、會議紀要生成、要點抽取等能力,都是基于大模型的自然延伸。在更核心的業(yè)務任務中,例如 item 篩選、廣告投放策略規(guī)劃等,許多團隊也在嘗試使用大模型提升效率。特別是在面向“小 B 端”,即沒有專門研發(fā)團隊的商家群體,自動化工具尤為受歡迎。無論是生成營銷文案、整合外部數(shù)據(jù)還是自動挑選關鍵評論,這類功能都已非常普遍。

我個人認為接下來值得期待的方向,是出現(xiàn)真正具有高度靈活性的智能體。當前的大部分智能體仍基于人工定義的 workflow,由人預設步驟與業(yè)務邏輯,本質上屬于流水線式執(zhí)行。而未來更具價值的智能體,應具備自主規(guī)劃與自主研究能力,能夠在更少人工干預的情況下完成復雜任務。

顏林:從智能體、知識工程、系統(tǒng)架構、行業(yè)標準等不同角度出發(fā),你會如何描述:大模型時代,一個“成熟的”搜廣推系統(tǒng)應該長成什么樣的生態(tài)?這對團隊分工和角色有什么影響?

馮曉東:我認為未來特征工程可能會逐漸弱化甚至消失,并被知識工程取代。也就是說,模型學習可能直接基于用戶的原始行為語料來構建,不再依賴大量人工設計的特征,而是需要通過增量知識進行補充。這類增量知識,例如基于大模型能力構建的知識庫,可以為推薦系統(tǒng)帶來新的優(yōu)勢。以冷啟動為例,有了更多開源或預訓練的知識,知識工程能夠彌補冷啟動過程中的信息不足。

此外,隨著模型直接使用大量用戶行為序列和原始特征,我們還需要引入上下文信息、item 畫像或用戶基礎畫像等內(nèi)容,這些都可以通過知識工程進行系統(tǒng)性豐富。

再說系統(tǒng)架構的變化,未來智能體可能在搜廣推中扮演更重要的角色。目前各家公司在智能體編排方面已有大量實踐,我們也在思考是否可以將特征工程或模型訓練流程以智能體編排的方式推進。換句話說,未來搜廣推的算法工程師可能會逐漸演變?yōu)椤芭苣9こ處煛薄?/p>

王皓:從學術角度來看,有兩個根本性問題需要明確。第一個問題是搜廣推的基礎模型究竟應該是什么?它應該基于怎樣的機制來實現(xiàn)決策?只有想清楚基礎的決策模型,我們才有可能進一步討論智能體、自動編排等能力。如果不解決“如何將 ID 這樣的離散表示融入模型”這一核心問題,我們很難真正往下推進。

第二個問題是:如果我們希望讓整個系統(tǒng)最終變成 workflow 或 problem-based 的形式,并通過智能體來完成任務,那就必須首先把這個任務形式化定義出來。我們需要明確任務的邊界、結構與規(guī)則,使模型能夠理解并解決它。怎么定義任務、怎么表達問題本身,是比解決模型細節(jié)更難的環(huán)節(jié)。

張澤華:在不同業(yè)務場景下,問題的定義確實差異很大。例如傳統(tǒng)推薦的召回與粗排,本質上就是信息檢索:粗排是對子集的篩選,召回策略寬松或嚴格都能接受;而精排與重排階段,則需要大量 ID 之外的輔助信息。

輔助信息大致有幾類:第一,item 與 item 之間的關系;第二,用戶在前一次結果與當前展示之間是否產(chǎn)生興趣變化;第三,一些人為定義的重排指標,如多樣性、新穎性;第四,則是多模態(tài)信息。例如推薦一件商品時,不僅是商品本身,還有價格變化、優(yōu)惠信息、圖片質量等因素都會帶來影響。比如圖片美觀度、上下文差異甚至一些“反常圖片”帶來的好奇心,都會顯著提升點擊率。

在基礎模型的測試上,我們發(fā)現(xiàn)對于傳統(tǒng)信息檢索類任務,目前的大語言模型(尤其是稠密結構)表現(xiàn)相對適用,引入 MoE 也沒有太大問題。但對于典型的曝光→點擊→轉化這樣的單鏈路任務,HSTU 類模型,需要結合用戶與當前上下文交互,再疊加大量背景信息,會更適合具體業(yè)務場景。

觀眾:離線和在線不對齊,新模型打不過舊模型,這樣的問題該如何處理?

張澤華:新舊模型對不齊大致有兩個層面的原因。第一,在傳統(tǒng)模型中,在線模型在 online learning 的過程中會不斷累積數(shù)據(jù),而離線模型只能在特定時間點獲取有限數(shù)據(jù),因此離線效果即使優(yōu)于在線,但由于在線模型長期積累,實際仍可能更強,這就導致新模型難以在短期內(nèi)打過舊模型。

第二個層面是離線評測與線上環(huán)境之間存在失真,這在工業(yè)界非常常見。在大模型中,這類失真甚至會被放大,原因主要有兩點。第一,傳統(tǒng) CTR 類模型本質上是“小稠密 + 大 embedding table”,大量依賴稀疏 ID 特征,而真正可學習的稠密參數(shù)很有限,因此模型具有更多不可變結構,導致線上失真程度較低。第二,大模型的參數(shù)量巨大,離線推理與在線推理的路由機制可能存在差異,導致誤差被進一步放大。

對于傳統(tǒng) online learning 無法打平的問題,如果離線訓練無法提供足夠數(shù)據(jù),就要判斷取舍。若離線模型雖然離線評估更好,但潛力不足,而在線實驗表現(xiàn)不如舊模型,那繼續(xù)維護舊模型是更合理的;但如果離線模型雖然短期略差,但擴大參數(shù)或數(shù)據(jù)后會有更陡峭的 scaling 曲線,那么可以接受短期損失,將新模型推上線上,保證團隊整體迭代節(jié)奏順暢。

第二類結構性誤差問題沒有絕對解法。若誤差特別大,要回到訓練與評測環(huán)節(jié)排查;若誤差在可接受范圍內(nèi),則應直接通過 AB 實驗檢驗其是否能隨著時間逐步收斂。

王皓:在推薦領域,HSTU 這套范式是否可能成為未來的推薦基礎大模型?我們未來應該走向“RL for reward”的方向,將推薦轉化為反語言模型式的決策任務,還是繼續(xù)沿用 HSTU,讓其成為長期的反推選模型結構?

馮曉東:之所以包括我們在內(nèi)的許多團隊都選擇 HSTU,是因為它本質上仍是 Transformer 風格的結構,但對長序列用戶行為的處理具有獨特優(yōu)勢。因此可以明確的是:序列模型是推薦領域的關鍵方向。

目前 HSTU 作為一種生成式序列模型,為我們提供了不錯的 base model。盡管推薦系統(tǒng)和大語言模型都尚未跳出 Transformer 結構,但過去推薦系統(tǒng)的發(fā)展確實大量借鑒了 NLP 與 CV 的網(wǎng)絡結構,例如 CNN 在推薦中的應用。因此我始終期待未來推薦系統(tǒng)能夠結合自身數(shù)據(jù)特征與業(yè)務特征,發(fā)展出新的、更貼合長序列特點的模型結構。

顏林:在過去這一兩年大模型和搜廣推的實踐里,有哪一件事情是讓你改變過自己原本的判斷的?比如:曾經(jīng)覺得不重要但現(xiàn)在很重要,或者相反?

馮曉東:我們一直關注一個問題:大模型是否會在推薦領域產(chǎn)生顛覆性的影響。我最初的判斷是,基于語言 Token 的建模方式并不完全適用于推薦場景。因為用戶行為序列在轉換成 Token 后,其上下文之間往往不具備類似自然語言那種強邏輯性的結構,因此傳統(tǒng)語言模型并不能直接替代推薦模型來生成推薦結果。直到 Meta 提出 HSTU,我才意識到序列模型在推薦場景的潛力被進一步釋放。HSTU 以 Transformer 為基礎,但對用戶長行為序列的處理方式更契合推薦系統(tǒng)的需求,也為我們提供了全新的方向啟發(fā)。序列建模會是推薦領域的核心方向,大語言模型在網(wǎng)絡結構設計和整體建模思想上確實為我們提供了重要參考。

王皓:推薦系統(tǒng)實際上一直在沿著大語言模型的路線演進,只是過程中會遇到如何處理 ID、擴大詞表、推理時延等工程與結構問題。從長期趨勢看,推薦系統(tǒng)仍需與基礎語言模型深度結合。只有在此基礎上,我們才能構建面向不同業(yè)態(tài)和公司場景的通用大模型。

另一個關鍵挑戰(zhàn)在于數(shù)據(jù)。模型性能的上限取決于高質量數(shù)據(jù)的數(shù)量,而未來的重要研究點仍會集中于如何構建更多高質量數(shù)據(jù)、如何擴大模型規(guī)模以及如何進一步提升性能。

張澤華:行業(yè)共識是“有多少人工,就有多少智能”。過去一年,業(yè)界在結構、優(yōu)化器、attention 等方面不斷創(chuàng)新,但真正落到工業(yè)場景,數(shù)據(jù)是決定性因素,沒有高質量數(shù)據(jù),所有結構創(chuàng)新都無法發(fā)揮。通用大模型在垂直領域的效果往往很差,因此我們必須沉淀專業(yè)化的知識工程。我們內(nèi)部將其總結為六大類知識體系,并在推薦、廣告、搜索等場景中帶來了顯著提升,很多改進都達到兩位數(shù)甚至更高收益。

回到“推薦系統(tǒng)到底在解決什么用戶問題”。以電商為例,用戶可能帶著明確意圖進入 App,例如搜索特定型號,這時系統(tǒng)只需快速給出直接結果。但在用戶漫無目的瀏覽時,他們有更高耐心接收不同品類的內(nèi)容;而當進入“貨比三家”的深度對比階段,用戶會進行反復思考,此時推薦系統(tǒng)的任務不再是傳統(tǒng)召回與排序,而是利用模型的推理能力來輔助決策。

例如比較手機規(guī)格、容量或屏幕優(yōu)劣,本質是一種反復權衡的 reasoning 過程。傳統(tǒng)算法可以部分支持,但新一代大模型的推理能力能夠提供新的解決手段。因此我們在探索新的推薦路徑,例如在不同意圖狀態(tài)下的搜推策略:用戶隨意瀏覽、明確搜索、深度對比、爭取優(yōu)惠等。

顏林:如果讓你給現(xiàn)在在一線做推薦 / 廣告算法的同學一句建議,結合大模型的浪潮,你會建議什么?

馮曉東:最初探索大模型與推薦系統(tǒng)結合時,我們也并不確定最終形態(tài)。傳統(tǒng)推薦模型本身也是從不同方向借鑒、引入并不斷改進的。因此在真正落地時,我們首先思考的問題是:未來如果走向生成式推薦,那么我們在現(xiàn)階段應該如何切入?我們的做法是先把業(yè)務鏈路完整拆解,無論是廣告還是傳統(tǒng)推薦,逐段分析每個環(huán)節(jié)的核心目標,并判斷哪些環(huán)節(jié)最適合與大模型結合。

找到切入點后,不必過度關注模型上線后究竟能提升多少效果。我們更看重的是是否真正解決了某個問題,只要能在效果、運營成本或推理成本中帶來任何方面的優(yōu)化,都值得嘗試。不應拘泥于某項技術是否是主流,也不必期待每次都帶來爆發(fā)式收益,所有革命性進展都是逐步積累而成的。在未來回望時,可能某一次迭代便成為真正的突破。

王皓:一個真正的基礎模型應該能解決多類任務,并能在不同公司間遷移、共享和復用,這是生態(tài)價值的核心。另一個重要思考是,我們的系統(tǒng)是完整鏈路,而不僅是單點技術。模型或系統(tǒng)需要形成“產(chǎn)品力”,需要讓別人看到其獨特性和不可替代性。盡管理論上的鏈路類似,但我們必須思考自身的壁壘和差異化:我們的場景優(yōu)勢是什么?哪些能力是別人無法輕易獲得的?這將決定最終的競爭力。

張澤華:在過去幾年,大模型演進的趨勢始終指向更綜合的方向。從早期簡單的 CV 模型,到 NLP 時代的 BERT,再到如今的 Transformer 大模型,以及行業(yè)內(nèi)大量嘗試的多模態(tài)融合模型,如 ViT、DiT 等等。無論是搜索、推薦,還是傳統(tǒng)算法升級,本質要解決的業(yè)務問題并不會消失,它們只會轉移。比如先解決某一模態(tài)的問題,另一模態(tài)仍需要處理;先解決檢索問題,排序問題仍然存在。只是方法和路徑不同,本質問題依舊。因此我對大家最大建議是,不要給自己設定過強的邊界或挑揀式學習,所有核心問題最終都必須被解決,而且需要被解決得足夠好。

AI 重塑組織的浪潮已至,Agentic 企業(yè)時代正式開啟!當 AI 不再是單純的輔助工具,而是深度融入業(yè)務核心、驅動組織形態(tài)與運作邏輯全面革新的核心力量。

把握行業(yè)變革關鍵節(jié)點,12 月 19 日 - 20 日,AICon 全球人工智能開發(fā)與應用大會(北京站) 即將重磅啟幕!本屆大會精準錨定行業(yè)前沿,聚焦大模型訓練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
醫(yī)學奇跡!跟腱斷裂,僅需7個月就恢復,1月或回歸,說好的擺爛呢

醫(yī)學奇跡!跟腱斷裂,僅需7個月就恢復,1月或回歸,說好的擺爛呢

球童無忌
2025-12-12 22:43:23
官媒發(fā)文,高調(diào)官宣“最快女護士”喜訊,網(wǎng)友:終于等到這一天

官媒發(fā)文,高調(diào)官宣“最快女護士”喜訊,網(wǎng)友:終于等到這一天

以茶帶書
2025-12-11 19:12:06
男子稱妻子在安徽一景區(qū)不慎落水,被演員印小天從水中救起;印小天本人回復:本能反應,小事一件

男子稱妻子在安徽一景區(qū)不慎落水,被演員印小天從水中救起;印小天本人回復:本能反應,小事一件

大風新聞
2025-12-12 10:02:04
西城兵馬司騰退,補償款大幅上漲,單價可達16萬每平

西城兵馬司騰退,補償款大幅上漲,單價可達16萬每平

北京安置房大全
2025-12-11 18:19:24
釜底抽薪了!浙金中心發(fā)文聲明,所有無法兌付產(chǎn)品,均與平臺無關

釜底抽薪了!浙金中心發(fā)文聲明,所有無法兌付產(chǎn)品,均與平臺無關

火山詩話
2025-12-12 06:58:52
中國洋浦港橫空出世,新加坡光速沒落,它上躥下跳是有原因的

中國洋浦港橫空出世,新加坡光速沒落,它上躥下跳是有原因的

花謝依然美
2025-12-10 18:44:17
三十年后,街機游戲突然非法了

三十年后,街機游戲突然非法了

街機時代
2025-12-12 10:00:03
小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

小楊哥停播一年多,小楊嫂大變樣,從清純臉變歐美臉,差點認不出

娛說瑜悅
2025-12-11 19:14:01
宋喆出獄后生活曝光:隱居縣城窮困潦倒,難怪馬蓉不想要他了!

宋喆出獄后生活曝光:隱居縣城窮困潦倒,難怪馬蓉不想要他了!

豐譚筆錄
2025-12-10 07:35:09
WTT總決賽日乒前4慘敗一輪游,女單四強對陣出爐王曼昱迎大考

WTT總決賽日乒前4慘敗一輪游,女單四強對陣出爐王曼昱迎大考

章民解說體育
2025-12-12 09:04:08
官方:俄羅斯貧困率降至6.5%,提前實現(xiàn)2030減貧目標

官方:俄羅斯貧困率降至6.5%,提前實現(xiàn)2030減貧目標

桂系007
2025-12-13 04:20:40
得分后衛(wèi)中,誰的關鍵時刻硬解能力最強?

得分后衛(wèi)中,誰的關鍵時刻硬解能力最強?

董先森愛籃球
2025-12-13 08:29:06
在朝鮮待了三個月,發(fā)現(xiàn)網(wǎng)上說的都是假的,現(xiàn)實更扎心

在朝鮮待了三個月,發(fā)現(xiàn)網(wǎng)上說的都是假的,現(xiàn)實更扎心

我不叫阿哏
2025-12-11 14:38:22
兒子留學英國順便結了個婚,7年后老兩口去探親,見到兒媳傻眼了

兒子留學英國順便結了個婚,7年后老兩口去探親,見到兒媳傻眼了

卡西莫多的故事
2025-11-21 10:03:44
太低俗了!江門加油站促銷找漂亮女模站臺,被當?shù)亟型#l(fā)爭議

太低俗了!江門加油站促銷找漂亮女模站臺,被當?shù)亟型#l(fā)爭議

火山詩話
2025-12-12 16:51:50
中超賽季頒獎:泰山外援當選MVP 王鈺棟最佳新人 冠軍海港遭冷落

中超賽季頒獎:泰山外援當選MVP 王鈺棟最佳新人 冠軍海港遭冷落

我愛英超
2025-12-12 20:52:37
有一種痛苦叫“買了第四代住宅”,幻想很高級,入住后一言難盡!

有一種痛苦叫“買了第四代住宅”,幻想很高級,入住后一言難盡!

裝修秀
2025-12-11 10:45:03
坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

青史樓蘭
2025-08-25 10:50:56
美推演結果:中美開戰(zhàn)7天,解放軍4萬陣亡,美10余基地被毀

美推演結果:中美開戰(zhàn)7天,解放軍4萬陣亡,美10余基地被毀

世界新趨勢
2025-12-10 14:05:41
87歲范曾喜得獨子后續(xù):曝和兒女斷絕關系原因,還是范一夫聰明!

87歲范曾喜得獨子后續(xù):曝和兒女斷絕關系原因,還是范一夫聰明!

古希臘掌管松餅的神
2025-12-11 13:08:12
2025-12-13 08:51:01
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術社區(qū)媒體
11817文章數(shù) 51624關注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實測感受來了

頭條要聞

開寶馬男子盜車搶走金店老板價值237萬首飾 獲刑15年

頭條要聞

開寶馬男子盜車搶走金店老板價值237萬首飾 獲刑15年

體育要聞

15輪2分,他們怎么成了英超最爛球隊?

娛樂要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財經(jīng)要聞

鎂信健康闖關港交所:被指竊取商業(yè)秘密

汽車要聞

表面風平浪靜 內(nèi)里翻天覆地!試駕銀河星艦7 EM-i

態(tài)度原創(chuàng)

時尚
藝術
旅游
教育
房產(chǎn)

秋冬發(fā)色天花板!5款顯白溫柔發(fā)色拿圖給Tony,染完被夸到過年

藝術要聞

三大名家畫雪景

旅游要聞

云南昆明:海洪濕地公園再迎越冬 “小精靈”

教育要聞

你的學校為何停滯?可能是校長的“觀念水位”不夠

房產(chǎn)要聞

每日狂增1300+企業(yè)!封關在即,海南徹底爆發(fā)!

無障礙瀏覽 進入關懷版 成熟丰满熟妇xxxxx丰满| 最新国产网站| 狠狠色婷婷久久一区二区三区浪潮| 久久久久中文字幕精品无码免费| 色色一区二区| 成人免费无码大片a毛片拍搐 | 无码人妻影院| 亚洲日韩精品无码av海量| 久久精品免费无码区| 欧美黑人巨大videos| 国产精品久久久久精品| 蜜臀av久久国产午夜| 国精产品一区二区三区有限| 国产乱乱一区| 麻豆精品在线播放| 尤物av.com| 国自产拍AV在线天天更新| av永久天堂一区| 黑人上司大战丰满人妻| 人人爽人人舔| 久久99精品久久久久久清纯| 在线观看av永久免费| 亚洲AV无码成人网站久久精品| www.好屌妞.com| 精品人妻久久久久久| 亚洲欧美日韩精品久久亚洲区| 老司机99精品99| 国内精品自线一区二区三区| 中文幕无线码中文字夫妻| 激情小说第一页| 日韩中文字幕国产精品| 国产精品热久久无码av| 欧美freesex呦交国产中文| 欧美精品无码久久久久久| 呦系列视频一区二区三区| 狠狠色丁香婷婷久久综合| 寡妇一区二区三区| 免费永久在线观看黄网站| 久久99精品久久只有精品| 夜夜躁狠狠躁日日躁老女八| 亚洲国产精品久久久久久无码|