夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從繁雜技巧到極簡(jiǎn)方案:ROLL團(tuán)隊(duì)帶來RL4LLM新實(shí)踐

0
分享至



本研究由淘天集團(tuán)算法技術(shù)—未來生活實(shí)驗(yàn)室與愛橙科技智能引擎事業(yè)部聯(lián)合完成,核心作者劉子賀,劉嘉順, 賀彥程和王維塤等。未來生活實(shí)驗(yàn)室匯聚淘天集團(tuán)的算力、數(shù)據(jù)與頂尖技術(shù)人才,專注于大模型、多模態(tài)等前沿 AI 方向,致力于打造基礎(chǔ)算法、模型能力及各類 AI Native 應(yīng)用,引領(lǐng) AI 在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。愛橙科技則在大模型訓(xùn)練與優(yōu)化方面具有豐富的實(shí)踐經(jīng)驗(yàn)。雙方此前聯(lián)合開源了高效大模型強(qiáng)化學(xué)習(xí)訓(xùn)練框架 ROLL,此次論文工作同樣是基于 ROLL 框架的實(shí)踐探索。

近年來,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)在提升大語言模型(LLM)復(fù)雜推理能力方面展現(xiàn)出顯著效果,廣泛應(yīng)用于數(shù)學(xué)解題、代碼生成等任務(wù)。通過 RL 微調(diào)的模型常在推理性能上超越僅依賴監(jiān)督微調(diào)或預(yù)訓(xùn)練的模型。也因此催生了大量的相關(guān)研究。但隨之而來的,是一系列令人困惑的現(xiàn)象:不同研究提出了不同的 RL 優(yōu)化技巧,卻缺乏統(tǒng)一的實(shí)驗(yàn)對(duì)比和機(jī)制解釋,有的甚至得出相互矛盾的結(jié)論。對(duì)于研究者和工程師而言,這種 “方法多、結(jié)論亂” 的局面,反而增加了落地應(yīng)用的難度。

為此,阿里巴巴淘天集團(tuán)和愛橙科技聯(lián)合多所高校,基于自研并開源的 RL 框架ROLL, 開展了系統(tǒng)化研究。通過大規(guī)模實(shí)驗(yàn),全面評(píng)估了當(dāng)前主流 RL for LLM 方法中的關(guān)鍵技術(shù)組件,揭示其在不同設(shè)置下的有效性以及每類策略的底層機(jī)制,并最終提出一種僅包含兩項(xiàng)核心技術(shù)的簡(jiǎn)化算法 ——Lite PPO,在多個(gè)基準(zhǔn)上表現(xiàn)優(yōu)于集成多種技巧的復(fù)雜方案。





  • 論文《Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning》
  • 論文鏈接:https://arxiv.org/pdf/2508.08221

問題背景:技術(shù)多樣性帶來的選擇困境

當(dāng)前 RL4LLM 領(lǐng)域發(fā)展迅速,但存在以下問題:

  • 標(biāo)準(zhǔn)不一:歸一化方式、剪裁策略、損失聚合、樣本過濾規(guī)則等策略存在多種實(shí)現(xiàn)方案,彼此之間缺乏統(tǒng)一比較基礎(chǔ)。
  • 結(jié)論不一:不同研究因模型初始性能、數(shù)據(jù)分布、超參設(shè)置等差異,得出相互矛盾的結(jié)果,導(dǎo)致實(shí)際應(yīng)用中難以判斷某項(xiàng)技術(shù)是否真正有效。
  • 機(jī)制解釋不足:多數(shù)方法缺乏對(duì) “為何有效” 的理論或?qū)嵶C分析,導(dǎo)致技術(shù)使用趨于經(jīng)驗(yàn)化,形成 “調(diào)參依賴”。

針對(duì)上述問題,該研究旨在回答兩個(gè)核心問題:

  • 不同 RL 優(yōu)化技術(shù)在何種條件下有效?背后的機(jī)制是什么?
  • 是否存在更簡(jiǎn)單、穩(wěn)定且通用的技術(shù)組合?



公平競(jìng)技場(chǎng):用統(tǒng)一框架拆解 RL 技巧

為了確保公平對(duì)比和結(jié)論可靠,該研究設(shè)計(jì)了嚴(yán)格的實(shí)驗(yàn)體系:

  • 統(tǒng)一實(shí)現(xiàn)平臺(tái):所有實(shí)驗(yàn)基于開源的 ROLL 框架完成,避免因工程實(shí)現(xiàn)差異引入偏差。
  • 清晰基線設(shè)定:以基于 REINFORCE 算法計(jì)算優(yōu)勢(shì)值的 PPO 損失(無價(jià)值函數(shù))作為基線,逐項(xiàng)添加對(duì)應(yīng)算法技術(shù),精確量化每個(gè)模塊的真實(shí)效果。
  • 多種場(chǎng)景覆蓋:涵蓋不同模型規(guī)模(4B/8B)、模型類型(Base 模型 與 Instruct 模型)、任務(wù)難度(Easy/Medium/Hard)下的實(shí)驗(yàn)分析。訓(xùn)練集從開源數(shù)據(jù)集(SimpleRL-Zoo-Data, DeepMath 等)中采樣過濾,按照難度等級(jí)劃分為為:Easy, Medium, Hard



各難度數(shù)據(jù)集中 rollout 8 次的正確次數(shù)分布。

  • 解耦式評(píng)估:將歸一化、剪裁策略、損失形式、過濾機(jī)制等關(guān)鍵模塊獨(dú)立測(cè)試,避免多因素耦合干擾判斷。
  • 多維度評(píng)估任務(wù):在六個(gè)數(shù)學(xué)推理數(shù)據(jù)集上進(jìn)行測(cè)試,覆蓋從基礎(chǔ)算術(shù)到國際數(shù)學(xué)奧林匹克難度的問題。



不同模型在不同數(shù)據(jù)難度下的準(zhǔn)確率和回答長(zhǎng)度變化趨勢(shì)。為了確保對(duì)比清晰直觀,所有曲線均使用相同的參數(shù)進(jìn)行平滑處理。

核心發(fā)現(xiàn):技巧并非普適,需因 “場(chǎng)景” 而異

優(yōu)勢(shì)歸一化:Group-Mean + Batch-Std 最穩(wěn)健

理論介紹

優(yōu)勢(shì)歸一化通過平移 / 縮放優(yōu)勢(shì)值,降低梯度方差,穩(wěn)定更新。常見的兩種歸一化方式包括:

  • 組內(nèi)歸一化(Group-level):同一問題的 K 條響應(yīng)之間做對(duì)比,強(qiáng)化組內(nèi)相對(duì)優(yōu)劣。



  • 批次歸一化(Batch-level):對(duì)整個(gè)批次內(nèi)的 N*K 個(gè)響應(yīng)進(jìn)行獎(jiǎng)勵(lì)歸一化,利用更大樣本估計(jì)方差,抑制極端樣本主導(dǎo)梯度。



關(guān)鍵發(fā)現(xiàn)

1. 對(duì)獎(jiǎng)勵(lì)分布的敏感性:

  • 組內(nèi)歸一化(Group-level)在不同獎(jiǎng)勵(lì)設(shè)置下都更穩(wěn)定,尤其在稀疏 / 偏斜分布下。
  • 批次歸一化(Batch-level)對(duì)獎(jiǎng)勵(lì)分布的偏斜高度敏感,在數(shù)據(jù)分布不平衡的情況下更容易崩潰,因?yàn)樯贁?shù)極端樣本會(huì)主導(dǎo)優(yōu)勢(shì)估計(jì)。



各個(gè)模型在不同優(yōu)勢(shì)歸一化方式下的準(zhǔn)確率變化趨勢(shì)。

2. 標(biāo)準(zhǔn)差項(xiàng)的風(fēng)險(xiǎn):

  • 當(dāng)樣本獎(jiǎng)勵(lì)分布高度集中的場(chǎng)景下(例如簡(jiǎn)單數(shù)據(jù)集下幾乎全對(duì)的樣本分布),標(biāo)準(zhǔn)差極小會(huì)放大梯度,導(dǎo)致訓(xùn)練不穩(wěn)定乃至崩潰。
  • 去掉標(biāo)準(zhǔn)差(僅做均值平移)在此類場(chǎng)景更穩(wěn)??;在高方差場(chǎng)景下,兩種方式差異不大。



左圖:在不同難度數(shù)據(jù)上的標(biāo)準(zhǔn)差變化趨勢(shì)。右圖:在批次歸一化下移除標(biāo)準(zhǔn)差前后的準(zhǔn)確率變化趨勢(shì)。

3. 混合方案的優(yōu)勢(shì):

  • 實(shí)驗(yàn)發(fā)現(xiàn),“組內(nèi)均值 + 批次標(biāo)準(zhǔn)差”的混合歸一化更穩(wěn)健,旨在兼顧局部相對(duì)比較的語義合理性與全局方差估計(jì)的統(tǒng)計(jì)穩(wěn)健性。



各個(gè)模型上不同標(biāo)準(zhǔn)差計(jì)算方式的準(zhǔn)確率變化趨勢(shì)。

裁剪機(jī)制:Clip-Higher 并非普適

理論介紹

PPO 通過限制新舊策略概率比的變化,避免過大步長(zhǎng)導(dǎo)致策略崩塌。但其同等限制上 / 下方向變化,常會(huì)過度壓制低概率 token 的提升,導(dǎo)致熵快速下降、探索不足。

  • Clip-Higher:DAPO 提出將上界放寬(上行允許更大更新,下行保持保守),給 “潛力 token” 更大爬升空間,緩解熵塌陷,促進(jìn)結(jié)構(gòu)性探索。



生效機(jī)制解析:

1. 模型能力依賴性:

  • 對(duì)于對(duì)齊后的 Instruct 模型,提升上剪裁閾值(ε_(tái)high)能有效減緩熵值下降,促進(jìn)探索。。
  • 對(duì)于未對(duì)齊的 Base 模型,單純擴(kuò)大上剪裁范圍作用十分有限,甚至可能擾亂優(yōu)化過程、降低整體表現(xiàn)。
  • 形成這一差異的原因可能在于:基礎(chǔ)模型初始表現(xiàn)不穩(wěn)定,如果一開始就貿(mào)然增大探索空間,容易出現(xiàn)非預(yù)期行為導(dǎo)致優(yōu)化偏離正確方向;相反,經(jīng)過對(duì)齊的模型分布更均勻,適度增加上限能釋放潛藏 “優(yōu)質(zhì)” 輸出(詳見論文 Figure 10)。



各個(gè)模型在不同裁剪上限下的訓(xùn)練趨勢(shì)對(duì)比。



各個(gè)模型在使用不同裁剪上限下的熵變化趨勢(shì)。

2. 從語言結(jié)構(gòu)視角解析:

  • 當(dāng)采用低上界時(shí),被剪裁頻發(fā)的是 “語篇連接詞”(如 "therefore,"" "if"),它們往往開啟新推理分支,被抑制會(huì)壓縮思維路徑。
  • 將上界放寬后,剪裁焦點(diǎn)轉(zhuǎn)向 “功能詞”(如 "is", "the" 等),連接詞更自由,推理結(jié)構(gòu)更豐富,同時(shí)保留句法骨架穩(wěn)定。



左圖:不同裁剪上限下的 token ratio 可視化展示。右圖:出現(xiàn)頻率最高的前 20 個(gè)被剪裁的 token

3. 上界選擇的 “Scaling Law”:

  • 針對(duì)不同大小的模型,參數(shù)調(diào)節(jié)需要差異化:在較小規(guī)模(如 4B 參數(shù))情況下,隨著剪裁閾值增加,模型性能持續(xù)提升;
  • 而更大規(guī)模(如 8B),性能提升存在拐點(diǎn),閾值過高則效果反而減弱。因此,剪裁參數(shù)應(yīng)根據(jù)模型體量靈活設(shè)置,尋求最優(yōu)解。



各個(gè)模型使用不同裁剪上限的準(zhǔn)確率變化趨勢(shì)。

損失聚合方式:token-level 更適合 Base 模型

理論介紹

當(dāng)前主流方案分別有 sequence-level loss 和 token-level loss:

  • 序列級(jí)損失:聚焦于句子或樣本整體,適合結(jié)構(gòu)已對(duì)齊、輸出穩(wěn)定的模型。



  • 詞元級(jí)損失:以 token 為基本單位,每個(gè) token 都對(duì)總 loss 平均貢獻(xiàn),抑制短句偏置,補(bǔ)足長(zhǎng)推理激勵(lì);



關(guān)鍵發(fā)現(xiàn):

  • 基礎(chǔ)模型:采用 token-level 的損失聚合方式更優(yōu),收斂速度和準(zhǔn)確率大幅提升;
  • 對(duì)齊模型:采用 sequence-level 的損失聚合方式普遍更優(yōu)。



各個(gè)模型上采用不同損失聚合方式的準(zhǔn)確率變化趨勢(shì)。

過長(zhǎng)樣本過濾:效用依賴于模型輸出特征

理論介紹

訓(xùn)練時(shí)設(shè)定最大生成長(zhǎng)度,復(fù)雜推理常被截?cái)啵形唇o出結(jié)論就被判負(fù),形成 “錯(cuò)誤懲罰” 噪聲,污染學(xué)習(xí)信號(hào)。過濾策略:對(duì)超長(zhǎng) / 截?cái)鄻颖镜莫?jiǎng)勵(lì)進(jìn)行屏蔽,避免把 “尚未完成” 當(dāng)成 “錯(cuò)誤”, 從而引入噪聲。

實(shí)驗(yàn)發(fā)現(xiàn)

1. 推理長(zhǎng)度影響:

  • 當(dāng)最大生成長(zhǎng)度設(shè)為 8k tokens 時(shí),應(yīng)用過長(zhǎng)樣本過濾能有效提升模型的訓(xùn)練質(zhì)量,并且能夠縮短輸出的響應(yīng)長(zhǎng)度。
  • 當(dāng)長(zhǎng)度限制放寬至 20k tokens,模型有更充分的空間完成復(fù)雜推理,生成的響應(yīng)長(zhǎng)度增加。此時(shí),被過濾的樣本更多是重復(fù)或無法自然終止的退化輸出,而這類樣本本身占比有限且學(xué)習(xí)價(jià)值較低,從而導(dǎo)致過濾操作帶來的增益減弱。
  • 結(jié)果表明,overlong filtering 的實(shí)際效用高度依賴于模型在當(dāng)前數(shù)據(jù)下的輸出特征,需按場(chǎng)景動(dòng)態(tài)調(diào)整。



不同訓(xùn)練長(zhǎng)度下是否使用超長(zhǎng)樣本過濾的實(shí)驗(yàn)表現(xiàn)。

2. 生效機(jī)制探究:

  • 通過對(duì)過濾掉的樣本類型進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)引入 Overlong Filtering 能夠降低訓(xùn)練中 “不能正確預(yù)測(cè) EOS 導(dǎo)致重復(fù)生成” 的比例(repeat-ratio),這表明其增強(qiáng)了模型的終止建模能力。



左圖:在不同訓(xùn)練長(zhǎng)度下,正確回答和錯(cuò)誤回答的重復(fù)樣本分布。右圖:在采用和未采用超長(zhǎng)樣本截?cái)鄨?chǎng)景下的重復(fù)樣本分布。

極簡(jiǎn)新范式:Lite PPO—— 兩步勝五技

綜合上述系統(tǒng)分析,該研究提出 Lite PPO—— 一個(gè)僅包含兩項(xiàng)技術(shù)的簡(jiǎn)化 RL 流程:

  • 混合優(yōu)勢(shì)歸一化(組內(nèi)均值 + 批次標(biāo)準(zhǔn)差);
  • token-level 損失聚合。

在以基礎(chǔ)模型為初始策略的設(shè)置下,Lite PPO 在多個(gè)數(shù)學(xué)推理任務(wù)上達(dá)到甚至超過 DAPO 等融合五項(xiàng)技巧的復(fù)雜方法的表現(xiàn)。其優(yōu)勢(shì)體現(xiàn)在:

  • 訓(xùn)練過程更穩(wěn)定;
  • 超參敏感性更低;
  • 工程實(shí)現(xiàn)簡(jiǎn)單;
  • 性能更優(yōu)。

這充分說明:“技巧堆疊” 并非性能提升的主要途徑,合理的組合能帶來更強(qiáng)的魯棒性和高效性。



結(jié)論

本文貢獻(xiàn)主要體現(xiàn)在三方面:

1. 建立首個(gè)系統(tǒng)性對(duì)比框架

對(duì)歸一化、剪裁、損失聚合、樣本過濾等關(guān)鍵技術(shù)進(jìn)行了獨(dú)立、可控的實(shí)證分析,明確了各項(xiàng)技術(shù)的適用邊界。

2. 驗(yàn)證極簡(jiǎn)設(shè)計(jì)的優(yōu)越性

提出的 Lite PPO 方案表明,復(fù)雜的 “多技巧堆疊” 并非必要。在多數(shù)實(shí)際場(chǎng)景下,精簡(jiǎn)而有針對(duì)性的技術(shù)組合反而更具魯棒性和可擴(kuò)展性。

3. 推動(dòng)可復(fù)現(xiàn)與標(biāo)準(zhǔn)化研究

基于開源 ROLL 框架開展實(shí)驗(yàn),所有配置公開,為后續(xù)研究提供了可復(fù)現(xiàn)基準(zhǔn),有助于提升領(lǐng)域透明度與協(xié)作效率。

從中我們獲得如下啟發(fā):

  • 開發(fā)者的建議:別再追求 “trick 大全”,應(yīng)根據(jù)模型類型(Base/Align)、任務(wù)特性(長(zhǎng)度、難度)、獎(jiǎng)勵(lì)設(shè)計(jì)等實(shí)際需求,有針對(duì)性地配置合理技巧。
  • 學(xué)術(shù)界的啟示:新方法若想 “立得住”,必須重視廣泛適用性與易復(fù)現(xiàn)性。Lite PPO 的成功案例表明,RL 優(yōu)化未必復(fù)雜即優(yōu),而是貴在精粹。

關(guān)于 ROLL 團(tuán)隊(duì)

本研究由阿里巴巴 ROLL 團(tuán)隊(duì)完成。ROLL 是一套面向高效、可擴(kuò)展、易用的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,支持從十億到千億參數(shù)大模型的優(yōu)化訓(xùn)練,已在多個(gè)場(chǎng)景中展現(xiàn)出顯著性能提升。

此次論文正是 ROLL 團(tuán)隊(duì)在開源框架實(shí)踐中的又一次探索成果,未來,ROLL 團(tuán)隊(duì)將持續(xù)關(guān)注 RL 社區(qū)發(fā)展并分享更多實(shí)踐經(jīng)驗(yàn)。同時(shí),我們也將繼續(xù)完善自研的 ROLL 框架,以靈活地適應(yīng)各種技術(shù),為在各種場(chǎng)景中有效應(yīng)用強(qiáng)化學(xué)習(xí)提供實(shí)用支持。

項(xiàng)目地址:github.com/alibaba/ROLL

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學(xué)費(fèi)

森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學(xué)費(fèi)

蜉蝣說
2025-09-01 10:50:52
梅根去留已定,毫無翻身之地!王室表明態(tài)度:我只和哈里王子談

梅根去留已定,毫無翻身之地!王室表明態(tài)度:我只和哈里王子談

八斗小先生
2025-09-02 08:55:22
鄭杰忠已任廣西壯族自治區(qū)地礦局黨組書記

鄭杰忠已任廣西壯族自治區(qū)地礦局黨組書記

澎湃新聞
2025-09-02 12:48:26
香港警察被騙入園區(qū)后,內(nèi)部聊天曝光,騙子公司愿意AA救人

香港警察被騙入園區(qū)后,內(nèi)部聊天曝光,騙子公司愿意AA救人

社會(huì)醬
2025-09-01 17:34:13
49歲李湘胖成汽油桶!走路肥肉都在打顫,熱愛吃甜食網(wǎng)友擔(dān)心她三高

49歲李湘胖成汽油桶!走路肥肉都在打顫,熱愛吃甜食網(wǎng)友擔(dān)心她三高

扒星人
2025-08-13 14:15:40
“反詐老陳”連續(xù)7次喊話酷派質(zhì)疑產(chǎn)品資質(zhì),“嘎子哥”曬產(chǎn)品證書自證,酷派客服回應(yīng)

“反詐老陳”連續(xù)7次喊話酷派質(zhì)疑產(chǎn)品資質(zhì),“嘎子哥”曬產(chǎn)品證書自證,酷派客服回應(yīng)

極目新聞
2025-09-01 14:40:05
小學(xué)生“畫下媽媽睡姿”走紅,畫面過于寫實(shí),老師不得不打滿分

小學(xué)生“畫下媽媽睡姿”走紅,畫面過于寫實(shí),老師不得不打滿分

熙熙說教
2025-08-24 21:20:14
1架專機(jī)抵華,中方迎來一位稀客,沙利文:特朗普幫中國“大忙”

1架專機(jī)抵華,中方迎來一位稀客,沙利文:特朗普幫中國“大忙”

通文知史
2025-09-02 13:50:03
訪華訴求被中方回應(yīng)后,特朗普見好就收,收回對(duì)中國的錯(cuò)誤決定

訪華訴求被中方回應(yīng)后,特朗普見好就收,收回對(duì)中國的錯(cuò)誤決定

議紀(jì)史
2025-09-01 12:55:03
大蒜再次被關(guān)注!醫(yī)生直言:經(jīng)常生吃大蒜的人,要多注意這7點(diǎn)

大蒜再次被關(guān)注!醫(yī)生直言:經(jīng)常生吃大蒜的人,要多注意這7點(diǎn)

牛鍋巴小釩
2025-09-02 09:26:04
2025年創(chuàng)新藥十大龍頭股:政策紅利+技術(shù)突破,誰將成全球藥王?

2025年創(chuàng)新藥十大龍頭股:政策紅利+技術(shù)突破,誰將成全球藥王?

K線論勢(shì)
2025-09-02 08:39:07
腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點(diǎn)

腐乳再次被關(guān)注!醫(yī)生直言:經(jīng)常吃腐乳的人,要多注意這4點(diǎn)

荷蘭豆愛健康
2025-08-30 08:55:46
拉美集體聲援委內(nèi)瑞拉抵御美軍,這個(gè)新興產(chǎn)油國卻站隊(duì)美國

拉美集體聲援委內(nèi)瑞拉抵御美軍,這個(gè)新興產(chǎn)油國卻站隊(duì)美國

界面新聞
2025-09-02 13:53:15
福州夫妻用1234萬購得清代府邸,翻修繡樓時(shí)發(fā)現(xiàn)暗室,查看后傻眼

福州夫妻用1234萬購得清代府邸,翻修繡樓時(shí)發(fā)現(xiàn)暗室,查看后傻眼

今天說故事
2025-08-28 18:30:53
差距擴(kuò)大!中美歐GDP“更新”:美國7.32萬億,歐盟4.85萬億

差距擴(kuò)大!中美歐GDP“更新”:美國7.32萬億,歐盟4.85萬億

巢客HOME
2025-09-01 13:07:49
日本名模三吉彩花!雌雄莫辨長(zhǎng)相高級(jí),胸圍身材更是極品?

日本名模三吉彩花!雌雄莫辨長(zhǎng)相高級(jí),胸圍身材更是極品?

娛樂領(lǐng)航家
2025-09-01 21:00:02
心理學(xué)上有一個(gè)詞叫:心理投射(有人欺負(fù)你、打壓你,最好的辦法不是反擊,而是應(yīng)對(duì) “心理投射”)

心理學(xué)上有一個(gè)詞叫:心理投射(有人欺負(fù)你、打壓你,最好的辦法不是反擊,而是應(yīng)對(duì) “心理投射”)

德魯克博雅管理
2025-08-20 17:10:33
女子喊話未來女婿:我女兒習(xí)慣國際商務(wù)艙,從小吃壽司,被打臉!

女子喊話未來女婿:我女兒習(xí)慣國際商務(wù)艙,從小吃壽司,被打臉!

知曉科普
2025-09-01 10:31:56
國民黨主席朱立倫:不用禁止個(gè)人參加九三閱兵

國民黨主席朱立倫:不用禁止個(gè)人參加九三閱兵

看看新聞Knews
2025-09-01 18:11:04
閱兵前一天:特朗普突然改口,歐洲決定出兵,普京有必要作出決定

閱兵前一天:特朗普突然改口,歐洲決定出兵,普京有必要作出決定

素年文史
2025-09-02 13:40:21
2025-09-02 14:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11210文章數(shù) 142435關(guān)注度
往期回顧 全部

科技要聞

iPhone生產(chǎn)線大變革:蘋果強(qiáng)制自動(dòng)化

頭條要聞

杭州一面館一碗面賣2188元 老板:半月內(nèi)賣出十多碗

頭條要聞

杭州一面館一碗面賣2188元 老板:半月內(nèi)賣出十多碗

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂要聞

閆妮憑“佟掌柜”走紅 現(xiàn)如今變成這樣

財(cái)經(jīng)要聞

中央?yún)R金掃貨路線圖曝光

汽車要聞

反卷"同質(zhì)化紅海" iCAR將"風(fēng)格"進(jìn)行到底

態(tài)度原創(chuàng)

時(shí)尚
數(shù)碼
旅游
本地
軍事航空

三種風(fēng)格,穿出秋冬高級(jí)感和知性美!

數(shù)碼要聞

銳龍7 9800X3D網(wǎng)游、酷睿Ultra 9 285K對(duì)比:Intel搭配頂級(jí)8400MHz內(nèi)存依然差距巨大

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

換個(gè)城市過夏天 | “中式美學(xué)”打開夏日濰坊

軍事要聞

九三閱兵 具體安排來了

無障礙瀏覽 進(jìn)入關(guān)懷版 www.爽上天con| 成人制服亚洲第一页| 国产性自爱拍偷在在线播放| 国产线观看免费观看| 美女又色又爽视频免费| 亚洲午夜中文字幕| 欧美日韩性爱网| 亚洲欧美在线观看品| 欧美群交乱伦| 欧美性大战xxxxx久久久| 蜜桃成人导航| 亚洲欧美日韩综合一区在线| 亚洲一区视频| 国产wwwⅹⅹⅹ| 国产乱伦一二三四区| 欧美做受 高潮| 色日人色日人色日人| 国产久9视频这里只有精品| 亚洲风情亚aⅴ在线发布| 亚洲精品三区二区一区一| 黑人成人一区二区三区| 换着玩人妻中文字幕| 妺妺窝人体色聚色窝www视频 | 国产亚洲精品a在线看| 内谢少妇xxxxx8老少交| 国产v欧美v日韩v综合精品| 无码在线流出| 午夜精品国产| 国产黄色在线免费观看| 日本AAA少妇高潮免费中国| 少妇BB一二区| 熟女熟妇一区| 精品久久久无码人妻字幂| 国产a级理论| video少妇| 无码少妇一级AV在公交车不卡 | 无码熟妇人妻av在线网站| 亚洲成年人三级片| 日本欧美视频在线观看| 日韩干一二三| 好吊色欧美一区二区三区视频|