夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

只要強(qiáng)化學(xué)習(xí)1/10成本!翁荔的Thinking Machines盯上了Qwen的黑科技

0
分享至


新智元報(bào)道

編輯:KingHZ 定慧

【新智元導(dǎo)讀】用1/10成本就能「吊打」強(qiáng)化學(xué)習(xí),Thinking Machines最新一篇文章開(kāi)源的這個(gè)策略,不看真OUT了!可在Tinker直接復(fù)現(xiàn)。

現(xiàn)在的大模型在特定領(lǐng)域能夠達(dá)到專家級(jí)表現(xiàn)已經(jīng)不足為奇。

但是能不能讓模型變小的同時(shí),也能在特定領(lǐng)域達(dá)到接近專家級(jí)表現(xiàn)?

現(xiàn)在通常的答案就是「模型蒸餾」(Model Distillation)。

比如DeepSeek-R1發(fā)布時(shí),順帶著也發(fā)布了多個(gè)蒸餾模型(R1模型參數(shù)為671B,蒸餾模型都比較小,1.5B、7B、14B等)。


那還有沒(méi)有更好的辦法?

這就是今天要講的On-Policy Distillation(同策略/在線策略蒸餾)。

這是一個(gè)Thinking Machines整的新活,這個(gè)新策略既有強(qiáng)化學(xué)習(xí)等在線策略方法的相關(guān)性和可靠性;又具備離線策略(Off-policy)方法的數(shù)據(jù)效率。


Mira Murati認(rèn)為這個(gè)策略可以讓小模型提升特定領(lǐng)域的表現(xiàn),還能持續(xù)學(xué)習(xí)。


Lilian Weng夸贊新方法「優(yōu)雅」。認(rèn)為這個(gè)策略提供了一種優(yōu)雅的方式,將教師模型作為過(guò)程獎(jiǎng)勵(lì)模型來(lái)提供稠密獎(jiǎng)勵(lì)。


在進(jìn)入正題前,還是簡(jiǎn)單提一下這家「奇葩的」公司。

作為一家0產(chǎn)品0模型的公司(準(zhǔn)確的說(shuō)有一個(gè)產(chǎn)品Tinker),這家前OpenAI CTO Mira Murati創(chuàng)辦的公司總是能吸引AI圈的注意力。


比如這篇最新的文章就是在他們發(fā)布Tinker之后的最新方法,本質(zhì)是為了驗(yàn)證他們的這個(gè)產(chǎn)品。

Tinker是一個(gè)用于微調(diào)(fine-tune)開(kāi)源LLMs(LLM)的開(kāi)發(fā)者API平臺(tái)。

過(guò)去要微調(diào)一個(gè)大模型,通常你要買或者租GPU集群、管理訓(xùn)練腳本、分布式同步、故障恢復(fù)、模型并行、存儲(chǔ)、優(yōu)化器調(diào)參……非常繁瑣。

Tinker把這些基礎(chǔ)設(shè)施工作抽象掉,讓研究者更專注于「數(shù)據(jù)、算法、任務(wù)」而不是「訓(xùn)練流水線的運(yùn)維」。

回到正題。

想要講清楚為何On-Policy Distillation(在線策略蒸餾)能夠讓模型真正「學(xué)會(huì)」某種領(lǐng)域知識(shí),還要從LLM訓(xùn)練講起。


順便說(shuō)一句,這項(xiàng)新工作基于Qwen之前的工作。


以下內(nèi)容對(duì)Thinking Machines的這篇博客進(jìn)行節(jié)選。

大模型為何會(huì)有專家級(jí)表現(xiàn)?

LLMs能夠在特定領(lǐng)域展現(xiàn)出專家級(jí)的性能,這是多種能力疊加的結(jié)果:輸入感知、知識(shí)檢索、計(jì)劃選擇和可靠執(zhí)行。

為此需要一套訓(xùn)練方法,這套方法目前大致可分為三個(gè)階段:

  • 預(yù)訓(xùn)練用于教授語(yǔ)言使用、廣義推理和世界知識(shí)等通用能力。

  • 中期訓(xùn)練用于傳授代碼、醫(yī)療數(shù)據(jù)庫(kù)或公司內(nèi)部文檔等領(lǐng)域知識(shí)。

  • 后訓(xùn)練用于引導(dǎo)模型產(chǎn)生遵循指令、解決數(shù)學(xué)問(wèn)題或聊天等目標(biāo)行為。

經(jīng)過(guò)更強(qiáng)訓(xùn)練的小模型,在其專長(zhǎng)的領(lǐng)域中,其性能往往優(yōu)于更大型的通用模型。

使用小模型有諸多益處:出于隱私或安全考慮,它們可以進(jìn)行本地部署;可以更輕松地持續(xù)訓(xùn)練和更新;同時(shí)還能節(jié)省推理成本。

要利用這些優(yōu)勢(shì),就需要為訓(xùn)練的后期階段選擇正確的方法。

后訓(xùn)練「學(xué)生」模型的方法可分為兩種:

  • 同策略/在線策略訓(xùn)練On-policy)從學(xué)生模型自身采樣軌跡,并為其分配一定的獎(jiǎng)勵(lì)。

  • 異策略/離線策略訓(xùn)練Off-policy)依賴于外部來(lái)源提供的目標(biāo)輸出,學(xué)生通過(guò)學(xué)習(xí)來(lái)模仿這些輸出。

例如,我們可能希望訓(xùn)練一個(gè)緊湊模型來(lái)解決如下的數(shù)學(xué)問(wèn)題:


我們可以通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行同策略訓(xùn)練,依據(jù)學(xué)生生成的每個(gè)軌跡是否解決了問(wèn)題來(lái)進(jìn)行評(píng)分。

評(píng)分可由人工完成,也可以由一個(gè)能可靠得出正確答案的「教師」模型來(lái)完成。


同策略訓(xùn)練的優(yōu)點(diǎn)在于,通過(guò)對(duì)自己生成的樣本進(jìn)行訓(xùn)練,學(xué)生能以更直接的方式學(xué)會(huì)避免錯(cuò)誤。

但強(qiáng)化學(xué)習(xí)有一個(gè)主要缺點(diǎn):它提供的反饋非常稀疏,無(wú)論使用多少Token,每個(gè)訓(xùn)練回合只傳遞固定比特?cái)?shù)的信息。

在上面的例子中,學(xué)生學(xué)到「21」是錯(cuò)誤答案,并更新模型以避免再次生成它嘗試過(guò)的軌跡。

但它并沒(méi)有學(xué)到錯(cuò)誤究竟出在哪里——是運(yùn)算順序搞錯(cuò)了,還是算術(shù)本身出錯(cuò)了。

這種反饋的稀疏性使得強(qiáng)化學(xué)習(xí)在許多應(yīng)用中效率低下。

異策略訓(xùn)練通常通過(guò)監(jiān)督微調(diào)(SFT)來(lái)完成:即在一組精選的、面向特定任務(wù)的標(biāo)注樣本上進(jìn)行訓(xùn)練。

這些標(biāo)注樣本可以來(lái)源于一個(gè)已被證明在該任務(wù)上表現(xiàn)出色的教師模型。

我們可以使用蒸餾機(jī)制:訓(xùn)練學(xué)生模型來(lái)匹配教師模型的輸出分布。

我們?cè)诮處熫壽E上進(jìn)行訓(xùn)練,即包含中間思考步驟在內(nèi)的、所生成Token的完整序列。

我們可以使用教師模型在每一步的完整「下一Token分布」(常被稱為「logit蒸餾」),也可以僅采樣給定的序列。

實(shí)踐中,采樣序列能提供對(duì)教師分布的無(wú)偏估計(jì),并達(dá)到相同的目標(biāo)。學(xué)生模型會(huì)根據(jù)自身生成序列中各個(gè)Token的概率大小進(jìn)行更新:它自己越不可能生成某個(gè)Token,那么朝這個(gè)Token更新的幅度就越大。在下方案例中,更新幅度由顏色的深淺表示:


事實(shí)證明,從大模型教師進(jìn)行蒸餾,在訓(xùn)練小模型遵循指令、進(jìn)行數(shù)理科學(xué)推理、從醫(yī)療筆記中提取臨床信息以及參與多輪聊天對(duì)話等方面非常有效。

用于這些及其他應(yīng)用的蒸餾數(shù)據(jù)集通常是開(kāi)源和公開(kāi)發(fā)布的。

異策略訓(xùn)練的缺點(diǎn)是,學(xué)生模型是在教師模型頻繁遇到的情境下學(xué)習(xí),而非它自己將來(lái)會(huì)頻繁遇到的情境。

這可能導(dǎo)致誤差累積:如果學(xué)生模型在早期犯了一個(gè)教師模型從未犯過(guò)的錯(cuò)誤,它會(huì)發(fā)現(xiàn)自己越來(lái)越偏離在訓(xùn)練中觀察到的狀態(tài)。

當(dāng)關(guān)心學(xué)生模型在長(zhǎng)序列上的表現(xiàn)時(shí),這個(gè)問(wèn)題變得尤為突出。為避免這種偏離,學(xué)生模型必須學(xué)會(huì)從自己的錯(cuò)誤中恢復(fù)。

在異策略蒸餾中觀察到的另一個(gè)問(wèn)題是,學(xué)生模型可能學(xué)會(huì)模仿教師的風(fēng)格和自信程度,但未必能學(xué)會(huì)其事實(shí)的準(zhǔn)確性。

如果你在學(xué)下棋,同策略強(qiáng)化學(xué)習(xí)就好比沒(méi)有任何教練指導(dǎo)自己下棋。贏棋或輸棋的反饋雖然直接和你自己的下法掛鉤,但每盤棋你只能得到一次反饋,而且它也不會(huì)告訴你,究竟是哪幾步棋決定了最終的勝負(fù)。

異策略蒸餾則好比觀看一位特級(jí)大師下棋——你觀察到的是極其高超的棋步,但這些棋步是在新手棋手幾乎遇不到的局面下走出來(lái)的。

研究者希望將強(qiáng)化學(xué)習(xí)的同策略相關(guān)性與蒸餾的密集獎(jiǎng)勵(lì)信號(hào)相結(jié)合。

對(duì)學(xué)下棋而言,這就好比有一位老師,能將你的每一步棋從「大錯(cuò)」到「絕妙」劃分等級(jí)。

對(duì)于LLMs的后訓(xùn)練而言,這就是同策略蒸餾(On-Policy Distillation)。


截圖來(lái)自chess.com。分析引擎對(duì)每一步棋進(jìn)行顏色分級(jí),將棋步標(biāo)記為大錯(cuò)(紅色)、錯(cuò)誤(橙色)、不準(zhǔn)確(黃色)或絕妙(藍(lán)色)。

同策略蒸餾——兩全其美之道

同策略蒸餾的核心思想是:從學(xué)生模型中采樣軌跡,并使用一個(gè)高性能的教師模型為每條軌跡中的每個(gè)Token評(píng)分?;氐街暗臄?shù)學(xué)例子,同策略蒸餾會(huì)為解題過(guò)程的每一步打分,懲罰那些導(dǎo)致學(xué)生得出錯(cuò)誤答案的步驟,同時(shí)強(qiáng)化那些執(zhí)行正確的步驟。


本文將探討了同策略蒸餾在特定任務(wù)中的應(yīng)用,例如訓(xùn)練模型進(jìn)行數(shù)學(xué)推理,以及訓(xùn)練一個(gè)兼具領(lǐng)域知識(shí)和指令遵循能力的助手模型。

在那些已通過(guò)預(yù)訓(xùn)練和中期訓(xùn)練打下能力基礎(chǔ)的模型上,研究者應(yīng)用同策略蒸餾。

結(jié)果發(fā)現(xiàn),這是一種廉價(jià)而強(qiáng)大的后訓(xùn)練方法,它結(jié)合了同策略訓(xùn)練的優(yōu)勢(shì)與密集的獎(jiǎng)勵(lì)信號(hào)。


同策略蒸餾的工作受到了DAGGER的啟發(fā),這是一種迭代式的SFT算法,包含了教師模型對(duì)學(xué)生模型所訪問(wèn)狀態(tài)的評(píng)估。

它也類似于過(guò)程獎(jiǎng)勵(lì)建模,這是一種對(duì)學(xué)生模型思維鏈中每一步都進(jìn)行評(píng)分的強(qiáng)化學(xué)習(xí)方法。

研究者擴(kuò)展了Agarwal等人和Qwen3團(tuán)隊(duì)先前的同策略蒸餾工作。

通過(guò)使用Tinker訓(xùn)練API,他們復(fù)現(xiàn)了Qwen3的成果:利用同策略蒸餾,在推理基準(zhǔn)上達(dá)到了同等性能,而成本僅為強(qiáng)化學(xué)習(xí)的一小部分。

用于推理的蒸餾

他們使用蒸餾來(lái)訓(xùn)練Qwen3-8B-Base模型的數(shù)學(xué)推理能力,并以Qwen3-32B為教師模型。

教師模型(Qwen3-32B)和學(xué)生模型(Qwen3-8B-Base)目前都是Tinker支持的模型,因此可以通過(guò)Tinker指南復(fù)現(xiàn)實(shí)驗(yàn)。

異策略蒸餾

如前所述,所有的實(shí)驗(yàn)都始于以異策略蒸餾形式進(jìn)行的中期訓(xùn)練——即在一個(gè)由教師生成的樣本數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)。

用于數(shù)學(xué)推理的數(shù)據(jù)集是OpenThoughts-3,這是一個(gè)由QwQ-32B(一個(gè)與Qwen3-32B類似的推理模型)生成的推理提示詞和響應(yīng)的集合。

研究者用40萬(wàn)個(gè)提示詞對(duì)學(xué)生模型(Qwen3-8B-Base)進(jìn)行完全微調(diào),在數(shù)學(xué)基準(zhǔn)AIME'24上取得了60%的分?jǐn)?shù)。

當(dāng)然,也可以使用LoRA進(jìn)行訓(xùn)練,但當(dāng)訓(xùn)練數(shù)據(jù)量較大時(shí),其效果不如完全微調(diào)。

在所有情況下,性能都呈對(duì)數(shù)線性增長(zhǎng)——初始的性能提升成本很低,但越往后成本越高昂。


異策略蒸餾(SFT)的AIME'24得分曲線

在最初的5-10萬(wàn)個(gè)提示詞訓(xùn)練后,性能遵循一條可預(yù)測(cè)的對(duì)數(shù)線性規(guī)模變化曲線。在進(jìn)行大規(guī)模、高批量大小的SFT時(shí),察到LoRA的性能較差,這與《LoRA Without Regret》中的預(yù)測(cè)一致。

研究者將在40萬(wàn)個(gè)提示詞上微調(diào)過(guò)的模型視為一個(gè)檢查點(diǎn),再嘗試采用各種后訓(xùn)練方法來(lái)進(jìn)一步提升其性能。

若要將AIME'24基準(zhǔn)測(cè)試的分?jǐn)?shù)從60%提高到70%,各種方法分別需要付出多大代價(jià)。

默認(rèn)方法是在更多提示詞上進(jìn)行微調(diào),即延續(xù)異策略蒸餾的過(guò)程。根據(jù)對(duì)數(shù)線性趨勢(shì)進(jìn)行外推,研究者估計(jì)模型在使用約200萬(wàn)個(gè)提示詞訓(xùn)練后,將在AIME’24上達(dá)到70%的分?jǐn)?shù)。

這一外推成立的前提是,規(guī)模定律能夠持續(xù)生效而不會(huì)停滯,但這并非易事。

不過(guò),確實(shí)存在一些通過(guò)大規(guī)模異策略蒸餾將8B模型性能提升至70%以上的案例,例如OpenThoughts-3和DeepSeek-R1-0528-Qwen3-8B。這一外推結(jié)果可以用作異策略蒸餾成本性能比的樂(lè)觀估計(jì)。

強(qiáng)化學(xué)習(xí)

Qwen3的技術(shù)報(bào)告指出,在相似的SFT初始化模型基礎(chǔ)上,再進(jìn)行17,920 GPU小時(shí)的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型在基準(zhǔn)測(cè)試上的性能達(dá)到了67.6%。

這個(gè)成本很難直接與蒸餾的成本進(jìn)行比較。但如果對(duì)SFT訓(xùn)練棧做一些合理假設(shè),那么該成本與使用200萬(wàn)個(gè)異策略蒸餾提示詞進(jìn)行訓(xùn)練的成本大致相當(dāng)。


Qwen團(tuán)隊(duì)還報(bào)告稱,他們通過(guò)同策略蒸餾,僅用強(qiáng)化學(xué)習(xí)十分之一的成本,就在AIME’24上取得了74.4%的更高分?jǐn)?shù),這為這次的工作提供了靈感。研究人員嘗試在下文的基礎(chǔ)配置中復(fù)現(xiàn)這一結(jié)果。

同策略蒸餾

作為異策略蒸餾或強(qiáng)化學(xué)習(xí)的替代方案,研究人員采用了上文所述的同策略蒸餾方法。

從經(jīng)過(guò)40萬(wàn)提示詞SFT訓(xùn)練的檢查點(diǎn)開(kāi)始,同策略蒸餾僅用約150步就使模型在AIME’24上的分?jǐn)?shù)達(dá)到了70%。


額外的計(jì)算量以訓(xùn)練FLOPs(浮點(diǎn)運(yùn)算次數(shù))來(lái)衡量。

同策略蒸餾的計(jì)算效率明顯高于SFT,對(duì)LoRA模型而言尤其如此。

在秩(rank)=32的情況下,經(jīng)過(guò)SFT后,LoRA的性能落后于完全微調(diào)13%,但在同策略蒸餾后,差距縮小至僅6%

跨方法比較計(jì)算成本并非易事,因?yàn)橛?xùn)練、采樣和對(duì)數(shù)概率計(jì)算這三者之間的成本比例,會(huì)因具體實(shí)現(xiàn)方式而顯著不同。下面以FLOPs為單位計(jì)算成本,但這種計(jì)算方式對(duì)那些可以被GPU高效并行化的方法有所不利。特別是,它會(huì)高估計(jì)算對(duì)數(shù)概率的實(shí)際成本。

結(jié)果發(fā)現(xiàn),如果SFT數(shù)據(jù)集是現(xiàn)成的(如OpenThoughts-3示例),或者其成本可以分?jǐn)偟蕉啻斡?xùn)練中,那么基準(zhǔn)成本可以節(jié)約9倍。

在這種情況下,不計(jì)算異策略訓(xùn)練中教師模型的FLOPs成本,但會(huì)計(jì)算同策略訓(xùn)練中的,因?yàn)楸仨氝\(yùn)行教師模型來(lái)計(jì)算學(xué)生軌跡的對(duì)數(shù)概率。由于該計(jì)算能以很低的成本在多個(gè)GPU間并行化,因此若以GPU小時(shí)計(jì),成本節(jié)約接近18倍。

然而,大家常常需要為一個(gè)沒(méi)有現(xiàn)成異策略蒸餾數(shù)據(jù)集的新任務(wù)訓(xùn)練一個(gè)小模型。如果將教師模型在異策略蒸餾中的全部成本都計(jì)算在內(nèi)——即包括從教師模型采樣的額外成本——那么總成本可節(jié)約約30倍。

個(gè)性化蒸餾

除了訓(xùn)練小模型在通用任務(wù)上達(dá)到高性能外,蒸餾的另一個(gè)用例是個(gè)性化。例如,在對(duì)話中遵循特定的語(yǔ)氣和輸出格式,或掌握工具使用和成本預(yù)算等能力。

大家通常希望在傳授新領(lǐng)域知識(shí)的同時(shí),訓(xùn)練模型掌握這些行為。

同時(shí)訓(xùn)練這兩者通常很困難,輕量級(jí)微調(diào)往往不足以實(shí)現(xiàn)此目標(biāo),因此需要更大規(guī)模的中間訓(xùn)練。

在新知識(shí)的基礎(chǔ)上學(xué)習(xí)后訓(xùn)練行為,需要一套復(fù)雜的后訓(xùn)練流程,通常包含專有數(shù)據(jù)和獎(jiǎng)勵(lì)模型。盡管這種方法對(duì)前沿實(shí)驗(yàn)室而言觸手可及,但對(duì)于其他從業(yè)者來(lái)說(shuō),復(fù)現(xiàn)起來(lái)可能十分困難或成本過(guò)高。

這部分展示了同策略蒸餾能有效地用于專業(yè)化行為的后訓(xùn)練。

該方法也適用于持續(xù)學(xué)習(xí)或「測(cè)試時(shí)訓(xùn)練」:在模型部署后進(jìn)行更新,同時(shí)不降低其基礎(chǔ)性能;將以一個(gè)內(nèi)部文檔上進(jìn)行中期訓(xùn)練的模型為例,進(jìn)行說(shuō)明。

新知識(shí)的訓(xùn)練會(huì)削弱已習(xí)得的行為

這次研究將從Qwen3-8B模型開(kāi)始,而非基礎(chǔ)模型。

Qwen3-8B已經(jīng)過(guò)后訓(xùn)練,具備了作為助手所需的實(shí)用技能,例如通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行指令遵循和推理。先前的研究表明,這類強(qiáng)化學(xué)習(xí)只訓(xùn)練了原始模型的一小部分子網(wǎng)絡(luò),因此當(dāng)網(wǎng)絡(luò)在大量數(shù)據(jù)上進(jìn)行進(jìn)一步訓(xùn)練時(shí),這些能力可能很脆弱。

他們研究了這種情況發(fā)生的程度,以及如何恢復(fù)期望的行為。

為減少這種災(zāi)難性遺忘,中期訓(xùn)練中的一個(gè)常見(jiàn)方法是混入來(lái)自原始模型預(yù)訓(xùn)練分布的「背景數(shù)據(jù)」。

在案例中,研究人員無(wú)法訪問(wèn)Qwen3的預(yù)訓(xùn)練分布。因此,考慮一個(gè)更強(qiáng)但成本更高的基準(zhǔn)方案:采用Tulu3提示詞——一個(gè)涵蓋廣泛聊天和指令遵循的數(shù)據(jù)集——并用Qwen3-8B對(duì)其重新采樣,以用作聊天背景數(shù)據(jù)。

由Qwen3-8B采樣的這種「同策略」背景數(shù)據(jù),在整個(gè)中期訓(xùn)練過(guò)程中充當(dāng)了正向KL正則化器,從而強(qiáng)化了模型的原始行為。

結(jié)果發(fā)現(xiàn),在中期訓(xùn)練期間,從Qwen3-8B采樣比從Qwen3-32B采樣更能保留聊天能力,這凸顯了數(shù)據(jù)源的敏感性;Chen等人也發(fā)現(xiàn)了類似的同策略SFT結(jié)果。

研究者推測(cè),這種方法的有效性甚至可能超過(guò)直接訪問(wèn)原始預(yù)訓(xùn)練數(shù)據(jù)分布,但代價(jià)是必須采樣一個(gè)大規(guī)模的數(shù)據(jù)集。

接著,研究者在不同混合比例的內(nèi)部文檔和聊天數(shù)據(jù)上對(duì)Qwen3-8B進(jìn)行微調(diào)。增加文檔數(shù)據(jù)的比例能直接提升模型的知識(shí)水平。然而,盡管混入至少30%的聊天數(shù)據(jù)有助于保留大部分指令遵循能力,但沒(méi)有一種權(quán)重分配能維持模型在IF-eval上的原始性能。

在中期訓(xùn)練中對(duì)內(nèi)部文檔與背景聊天數(shù)據(jù)的比例進(jìn)行掃描。盡管混入少量聊天數(shù)據(jù)有助于防止災(zāi)難性的性能衰退,但沒(méi)有任何一種權(quán)重能維持原始的IF-eval性能。


對(duì)于任何給定的混合比例,IF-eval性能在微調(diào)過(guò)程中會(huì)下降。延長(zhǎng)訓(xùn)練難以進(jìn)一步提升模型的專業(yè)化能力。


在所有數(shù)據(jù)混合比例下,IF-eval的分?jǐn)?shù)在中期訓(xùn)練期間都會(huì)下降。當(dāng)使用線性學(xué)習(xí)率(如上圖所示)時(shí),性能下降最終會(huì)趨于平緩,并隨著學(xué)習(xí)率的衰減而緩慢開(kāi)始恢復(fù)。然而,性能從未完全恢復(fù)。

另一種常用方法是使用LoRA來(lái)約束參數(shù)更新,從而減少災(zāi)難性遺忘的可能性。然而,這種方法仍然不足以保住IF-eval的性能,并且LoRA學(xué)到的知識(shí)也更少。


當(dāng)把LoRA應(yīng)用于已完成后訓(xùn)練的Qwen3-8B模型,進(jìn)行個(gè)性化中期訓(xùn)練時(shí),它不僅學(xué)到的知識(shí)更少,而且仍然會(huì)忘記原有的后訓(xùn)練行為。

同策略蒸餾可恢復(fù)后訓(xùn)練行為

接下來(lái),研究者嘗試在對(duì)內(nèi)部文檔進(jìn)行微調(diào)后,恢復(fù)模型的指令遵循行為。

這種行為最初是通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的,成本高昂,而且它很脆弱。

作為替代,研究者以模型的早期版本Qwen3-8B為教師,在Tulu3提示詞上運(yùn)行同策略蒸餾。值得注意的是,這個(gè)訓(xùn)練階段與內(nèi)部文檔數(shù)據(jù)無(wú)關(guān),其唯一目的就是恢復(fù)指令遵循能力。

使用模型的早期版本作為教師來(lái)「重新喚醒」在微調(diào)過(guò)程中丟失的能力,這使得同策略蒸餾在持續(xù)學(xué)習(xí)方面展現(xiàn)出巨大潛力。

研究者可以交替進(jìn)行「微調(diào)新數(shù)據(jù)」和「通過(guò)蒸餾恢復(fù)行為」這兩個(gè)階段,從而讓模型能夠隨著時(shí)間的推移不斷學(xué)習(xí)并保持知識(shí)的更新。Cobbe等人先前已經(jīng)探索過(guò)這種階段交替的方法。


預(yù)印本:https://arxiv.org/abs/2009.04416

在按70-30比例混合的內(nèi)部文檔數(shù)據(jù)和聊天數(shù)據(jù)上微調(diào)后,同策略蒸餾幾乎完全恢復(fù)了模型在IF-eval上的性能,且沒(méi)有造成任何知識(shí)損失;研究者還觀察到,聊天能力與模型在內(nèi)部問(wèn)答評(píng)估上的「知識(shí)」性能之間存在一定的正向遷移。


中期訓(xùn)練后的領(lǐng)域特定性能(內(nèi)部問(wèn)答評(píng)估)和聊天性能(IF-eval)

盡管中期訓(xùn)練會(huì)導(dǎo)致Qwen3-8B忘記其后訓(xùn)練行為,但這些行為可以通過(guò)同策略蒸餾以低成本恢復(fù),同時(shí)還能保留中期訓(xùn)練學(xué)到的額外知識(shí)。

從本質(zhì)上講,這次把語(yǔ)言模型本身當(dāng)作了一個(gè)獎(jiǎng)勵(lì)模型,那些高概率的行為會(huì)得到獎(jiǎng)勵(lì)。

這與逆向強(qiáng)化學(xué)習(xí)(InverseRL)有關(guān):在一個(gè)假設(shè)的潛在偏好模型中,高概率的行為對(duì)應(yīng)于更有利的獎(jiǎng)勵(lì)。

從這個(gè)意義上說(shuō),任何經(jīng)過(guò)指令調(diào)優(yōu)的開(kāi)源權(quán)重模型都可以用作獎(jiǎng)勵(lì)模型;只需要能夠訪問(wèn)其compute_logprobs函數(shù)即可。

將蒸餾作為整合行為和知識(shí)的工具,也已在混合推理模型(Qwen3)和專家蒸餾等領(lǐng)域得到探索。

正如之前研究結(jié)果所表明的,對(duì)于增強(qiáng)類似的、基于蒸餾的「模型合并」方案而言,同策略學(xué)習(xí)可以是一個(gè)至關(guān)重要的工具。


預(yù)印本:https://arxiv.org/abs/2510.18874

關(guān)于同策略的討論

密集監(jiān)督:顯著提升計(jì)算效率

強(qiáng)化學(xué)習(xí)和同策略蒸餾都通過(guò)反向KL散度進(jìn)行學(xué)習(xí),對(duì)基礎(chǔ)策略中的動(dòng)作空間進(jìn)行修剪。其區(qū)別在于獎(jiǎng)勵(lì)的密度。

在信息論的視角上,強(qiáng)化學(xué)習(xí)每個(gè)回合只傳遞O(1)比特的信息。相比之下,蒸餾每個(gè)回合能傳遞O(N)比特的信息,其中N是Token的數(shù)量。那么,通過(guò)更密集的獎(jiǎng)勵(lì),訓(xùn)練效率究竟能提升多少呢?

在《LoRA Without Regret》一文中,研究者早疑問(wèn)。

這次進(jìn)行了一項(xiàng)實(shí)驗(yàn)來(lái)直接比較這兩者:


  1. 從Qwen3-8B-Base(未進(jìn)行額外SFT)開(kāi)始。

  2. 在DeepMath數(shù)據(jù)集上運(yùn)行強(qiáng)化學(xué)習(xí),流程與《LoRA Without Regret》中的一致。研究人員使用128的LoRA秩。最終得到的模型作為蒸餾過(guò)程中的教師模型。

  3. 從經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型(2)同策略蒸餾回基礎(chǔ)模型(1)。



結(jié)果顯示,在模型架構(gòu)匹配(LoRA秩為128)的情況下,從相同的初始化狀態(tài)出發(fā),同策略蒸餾只需約7-10分之一的梯度步數(shù),就能學(xué)會(huì)經(jīng)強(qiáng)化學(xué)習(xí)訓(xùn)練好的策略,這對(duì)應(yīng)著50-100倍的計(jì)算效率提升

總的來(lái)說(shuō),所需計(jì)算量的減少達(dá)到了50-100倍的量級(jí):

強(qiáng)化學(xué)習(xí)需要在接近評(píng)估長(zhǎng)度的上下文環(huán)境中訓(xùn)練(以便策略能學(xué)習(xí)上下文限制,避免格式錯(cuò)誤懲罰)。相比之下,蒸餾在較短的上下文中也能有效學(xué)習(xí),因?yàn)楠?jiǎng)勵(lì)信號(hào)不會(huì)在軌跡生成結(jié)束時(shí)發(fā)生劇變。

當(dāng)SFT初始化效果很好時(shí),同策略蒸餾在小得多的批量大小下也能高效工作,因?yàn)樗總€(gè)回合能提供多得多的信息,從而減少了梯度噪聲。

盡管通常難以通過(guò)過(guò)程監(jiān)督來(lái)訓(xùn)練強(qiáng)化學(xué)習(xí)模型,但這些結(jié)果表明,作為一個(gè)宏觀方向,過(guò)程監(jiān)督和密集獎(jiǎng)勵(lì)有潛力將學(xué)習(xí)效率提升一個(gè)數(shù)量級(jí)。這與Lightman等人早期的強(qiáng)化學(xué)習(xí)研究結(jié)果相符。

蒸餾:有效重用數(shù)據(jù),提升數(shù)據(jù)效率

對(duì)于從業(yè)者而言,收集大規(guī)模的訓(xùn)練提示詞數(shù)據(jù)集既困難又耗時(shí)。因此,研究者希望能夠在訓(xùn)練中多次重用提示詞。

在使用強(qiáng)化學(xué)習(xí)時(shí),對(duì)同一個(gè)提示詞進(jìn)行多輪次訓(xùn)練,往往會(huì)導(dǎo)致模型死記硬背最終答案,在大模型上尤其如此。

相比之下,同策略蒸餾最小化反向KL散度,學(xué)習(xí)近似教師模型的完整分布,而非僅僅記憶單個(gè)答案。

這使大家能夠從同一個(gè)提示詞生成并訓(xùn)練多個(gè)樣本。

研究者重復(fù)了上述在數(shù)學(xué)任務(wù)上訓(xùn)練Qwen3-8B-Base的實(shí)驗(yàn),但這次僅使用數(shù)據(jù)集中隨機(jī)抽取的一個(gè)提示詞。


他們用這一個(gè)提示詞連續(xù)訓(xùn)練20步,每步一個(gè)批次包含256條軌跡,總共處理了5120條經(jīng)評(píng)分的序列。他們采用順序方式在同一個(gè)提示詞上訓(xùn)練多步,這種做法通常會(huì)導(dǎo)致過(guò)擬合。

盡管這種方式的計(jì)算效率自然較低,但僅憑這一個(gè)提示詞的訓(xùn)練,模型性能就已接近教師模型。


在此例中,對(duì)單個(gè)訓(xùn)練樣本進(jìn)行多輪次訓(xùn)練,足以讓學(xué)生模型學(xué)到教師模型在AIME'24上的性能。

強(qiáng)化學(xué)習(xí):在語(yǔ)義策略空間中探索

同策略蒸餾能用少得多的訓(xùn)練步數(shù),復(fù)現(xiàn)強(qiáng)化學(xué)習(xí)所達(dá)成的學(xué)習(xí)效果。

對(duì)此結(jié)果的一種解讀是,與預(yù)訓(xùn)練不同,強(qiáng)化學(xué)習(xí)本身并不在梯度更新步驟上消耗大量計(jì)算資源。

我們應(yīng)將強(qiáng)化學(xué)習(xí)的核心計(jì)算開(kāi)銷理解為「搜索」——即生成策略軌跡并進(jìn)行功勞分配——而非「更新」本身。

通過(guò)隨機(jī)梯度下降進(jìn)行的預(yù)訓(xùn)練,是在探索高維的參數(shù)空間。預(yù)訓(xùn)練需要海量信息,且極難被蒸餾,部分原因在于每個(gè)網(wǎng)絡(luò)的參數(shù)空間在某種程度上都是獨(dú)一無(wú)二的。預(yù)訓(xùn)練所需的梯度更新步驟,其計(jì)算成本極高、耗時(shí)極長(zhǎng)。

相比之下,我們應(yīng)將強(qiáng)化學(xué)習(xí)理解為在「語(yǔ)義策略」的空間中進(jìn)行探索。在每一步,強(qiáng)化學(xué)習(xí)都會(huì)嘗試對(duì)過(guò)去發(fā)現(xiàn)的某個(gè)策略進(jìn)行微調(diào)。它并非在參數(shù)空間中探索,而是靠運(yùn)氣「偶然發(fā)現(xiàn)」新策略——它從已有的權(quán)重集合中進(jìn)行隨機(jī)采樣。

一旦找到一個(gè)好的策略,蒸餾便成為學(xué)習(xí)該策略的捷徑:同策略蒸餾無(wú)需對(duì)強(qiáng)化學(xué)習(xí)過(guò)程中的所有中間策略進(jìn)行建模,只需學(xué)習(xí)最終的策略即可。如果我們只關(guān)心最終策略(這在生產(chǎn)環(huán)境中很常見(jiàn)),就無(wú)需耗費(fèi)計(jì)算資源去建模所有中間過(guò)程。

不妨思考一個(gè)類比:在科學(xué)研究中,我們投入大量時(shí)間和資源去尋找答案、探索新思想。一旦某個(gè)成果被發(fā)現(xiàn),通過(guò)自然語(yǔ)言將其傳授給他人就變得簡(jiǎn)單得多。

與之相對(duì)的是一些直覺(jué)性的身體技能,比如體育運(yùn)動(dòng)。這些技能就很難傳授給他人,因?yàn)橄嚓P(guān)知識(shí)存在于一種「天生」的語(yǔ)言中(如肌肉記憶),只有我們自己才能輕易理解。

體育運(yùn)動(dòng)只能通過(guò)反復(fù)練習(xí)來(lái)掌握。

同策略學(xué)習(xí):持續(xù)學(xué)習(xí)的利器

在關(guān)于個(gè)性化蒸餾中,同策略蒸餾能夠?qū)⒔?jīng)過(guò)專門訓(xùn)練的行為重新引入模型。

這一能力可推廣至更廣泛的持續(xù)學(xué)習(xí)任務(wù)——

在不削弱既有能力的前提下,這些任務(wù)要求模型獲取新知識(shí)。

先前的研究發(fā)現(xiàn),同策略學(xué)習(xí)(RL)相比異策略學(xué)習(xí),遺忘更少。然而,強(qiáng)化學(xué)習(xí)只能塑造行為,卻無(wú)法有效地傳授新知識(shí),因此它本身不足以支撐持續(xù)學(xué)習(xí)。


正如前文所言,SFT(包括異策略蒸餾)無(wú)法有效支持持續(xù)學(xué)習(xí),因?yàn)樗鼤?huì)削弱模型的原有行為。

下面一個(gè)直接的例子來(lái)更深入地探究這一點(diǎn)。

與之前類似,他們通過(guò)對(duì)Tulu3提示詞進(jìn)行采樣來(lái)構(gòu)建數(shù)據(jù)集,采樣模型為Qwen3-32B,溫度設(shè)為1.0,無(wú)其他修改。因此,該數(shù)據(jù)集與Qwen3-32B的KL散度期望為零。

當(dāng)在模型自身的樣本數(shù)據(jù)集上運(yùn)行SFT時(shí)會(huì)發(fā)生什么?

結(jié)果看到,任何大于零的實(shí)際學(xué)習(xí)率都會(huì)導(dǎo)致模型在指令遵循評(píng)估上的性能下降!


在Qwen3-32B自身的樣本上運(yùn)行SFT會(huì)導(dǎo)致性能下降

實(shí)驗(yàn)使用了與個(gè)性化部分相同的學(xué)習(xí)率,該學(xué)習(xí)率是基于實(shí)際性能考量而選擇的。

線性學(xué)習(xí)率可以防止正向KL散度/IF-eval持續(xù)衰退,但在學(xué)習(xí)率衰減至零之前,性能無(wú)法完全恢復(fù)。

一種可能的解釋是,雖然KL散度的期望為0,但在實(shí)踐中,每個(gè)有限的批次都會(huì)呈現(xiàn)出略微不同的分布。

在這些有限批次上訓(xùn)練會(huì)產(chǎn)生非零的梯度更新,從而使更新后模型的策略偏離其原始狀態(tài)。

久而久之,這種在自身樣本上訓(xùn)練的過(guò)程就演變成了異策略訓(xùn)練,從而導(dǎo)致了與標(biāo)準(zhǔn)異策略訓(xùn)練相同的錯(cuò)誤累積和長(zhǎng)序列發(fā)散問(wèn)題。

同策略蒸餾始終保持「在策略」?fàn)顟B(tài),并且由于教師模型固定不變,學(xué)生模型會(huì)收斂于教師模型的理想行為,不會(huì)像SFT在自蒸餾設(shè)置中那樣出現(xiàn)性能衰退。

這使得同策略蒸餾成為一個(gè)極具潛力的持續(xù)學(xué)習(xí)工具。

結(jié)論

通過(guò)結(jié)合來(lái)自學(xué)生模型的同策略采樣和來(lái)自教師模型的密集監(jiān)督,同策略蒸餾這一方案能夠以遠(yuǎn)低于前沿高算力強(qiáng)化學(xué)習(xí)的成本,達(dá)到同等的能力水平。

在Tinker指南中可找到實(shí)現(xiàn)代碼。

他們希望能繼續(xù)研究蒸餾的新應(yīng)用、改進(jìn)教師監(jiān)督的新方法,以及提升數(shù)據(jù)效率和持續(xù)學(xué)習(xí)能力的新途徑。

Thinking Machines的使命是打造兼具前沿性能、高度適應(yīng)性與個(gè)性化的AI模型,以此賦能于人。而同策略蒸餾,正是實(shí)現(xiàn)這一宏偉目標(biāo)的強(qiáng)大工具。

參考資料:

https://x.com/thinkymachines/status/1982856272023302322

https://x.com/lilianweng/status/1982862795961184572ZFnwd

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
嚴(yán)重可致死!醫(yī)生緊急提醒:千萬(wàn)不要一起吃!目前正大量上市,很多人愛(ài)吃

嚴(yán)重可致死!醫(yī)生緊急提醒:千萬(wàn)不要一起吃!目前正大量上市,很多人愛(ài)吃

上觀新聞
2025-10-29 10:57:08
荒唐!韓國(guó)剛對(duì)中國(guó)免簽,就有人脫團(tuán)!澳洲20人團(tuán)全逃,20萬(wàn)押金都不要了!

荒唐!韓國(guó)剛對(duì)中國(guó)免簽,就有人脫團(tuán)!澳洲20人團(tuán)全逃,20萬(wàn)押金都不要了!

最英國(guó)
2025-10-28 19:35:46
1975年張愛(ài)萍落難,妻子請(qǐng)粟裕幫忙說(shuō)話,粟裕:趕快去找宋老鬼

1975年張愛(ài)萍落難,妻子請(qǐng)粟裕幫忙說(shuō)話,粟裕:趕快去找宋老鬼

歷史龍?jiān)w
2025-10-29 05:20:04
外資重點(diǎn)加倉(cāng)A股高端制造業(yè)

外資重點(diǎn)加倉(cāng)A股高端制造業(yè)

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-10-29 20:44:27
放棄NBA冷板凳!楊瀚森做出最明智選擇,G聯(lián)賽首秀倒計(jì)時(shí)考驗(yàn)

放棄NBA冷板凳!楊瀚森做出最明智選擇,G聯(lián)賽首秀倒計(jì)時(shí)考驗(yàn)

小犙拍客在北漂
2025-10-29 09:31:10
美國(guó)沒(méi)想到,南海墜機(jī)事大了,中方主動(dòng)出手,特朗普反應(yīng)耐人尋味

美國(guó)沒(méi)想到,南海墜機(jī)事大了,中方主動(dòng)出手,特朗普反應(yīng)耐人尋味

梁訊
2025-10-28 14:34:25
新能源車自燃你以為是技術(shù)問(wèn)題,其實(shí)是商業(yè)模式問(wèn)題

新能源車自燃你以為是技術(shù)問(wèn)題,其實(shí)是商業(yè)模式問(wèn)題

沈素明
2025-10-29 08:44:26
一個(gè)披著資本主義外衣的共產(chǎn)主義國(guó)家

一個(gè)披著資本主義外衣的共產(chǎn)主義國(guó)家

霹靂炮
2025-10-29 22:51:12
因奔馳車較勁,88歲謝賢聽(tīng)到許紹雄去世哽咽:討厭我的都快走沒(méi)了

因奔馳車較勁,88歲謝賢聽(tīng)到許紹雄去世哽咽:討厭我的都快走沒(méi)了

樂(lè)悠悠娛樂(lè)
2025-10-29 15:29:46
隨著日本4-0,中國(guó)隊(duì)0-3,女足世界杯八強(qiáng)全部出爐:亞洲2隊(duì)晉級(jí)

隨著日本4-0,中國(guó)隊(duì)0-3,女足世界杯八強(qiáng)全部出爐:亞洲2隊(duì)晉級(jí)

侃球熊弟
2025-10-30 04:59:20
錢再多有啥用?成為“老賴”不到48小時(shí),于謙被扒了個(gè)底朝天

錢再多有啥用?成為“老賴”不到48小時(shí),于謙被扒了個(gè)底朝天

書(shū)雁飛史oh
2025-10-29 18:28:48
0-3出局!利物浦雙線5連敗崩盤 創(chuàng)恥辱紀(jì)錄 斯洛特用廢11.5億豪陣

0-3出局!利物浦雙線5連敗崩盤 創(chuàng)恥辱紀(jì)錄 斯洛特用廢11.5億豪陣

侃球熊弟
2025-10-30 05:40:19
翁帆被曝已經(jīng)搬出清華別墅!楊振寧留給她的現(xiàn)金在1億元左右

翁帆被曝已經(jīng)搬出清華別墅!楊振寧留給她的現(xiàn)金在1億元左右

金牌娛樂(lè)
2025-10-29 11:46:27
特朗普談美機(jī)墜毀原因,沒(méi)什么可隱瞞的,中方表態(tài)愿伸出援手

特朗普談美機(jī)墜毀原因,沒(méi)什么可隱瞞的,中方表態(tài)愿伸出援手

張殿成
2025-10-29 12:31:16
經(jīng)濟(jì)觀察報(bào)還是很敢說(shuō)的

經(jīng)濟(jì)觀察報(bào)還是很敢說(shuō)的

林中木白
2025-10-28 16:18:29
這說(shuō)明什么?本周中糧集團(tuán)購(gòu)買了三批美國(guó)大豆,共約18萬(wàn)噸

這說(shuō)明什么?本周中糧集團(tuán)購(gòu)買了三批美國(guó)大豆,共約18萬(wàn)噸

止戈軍是我
2025-10-29 22:06:19
黃仁勛深夜甩出新一代核彈AI芯片,投資諾基亞搞6G,英偉達(dá)即將成為首家5萬(wàn)億市值公司

黃仁勛深夜甩出新一代核彈AI芯片,投資諾基亞搞6G,英偉達(dá)即將成為首家5萬(wàn)億市值公司

AppSo
2025-10-29 11:44:53
楊振寧葬禮長(zhǎng)子缺席,被曝深圳換肺后病逝于美國(guó)。

楊振寧葬禮長(zhǎng)子缺席,被曝深圳換肺后病逝于美國(guó)。

環(huán)球趣聞分享
2025-10-28 16:03:26
賣糧28萬(wàn)被凍結(jié)后續(xù):騙子賬號(hào)曝光,官方介入,已查到小麥去向

賣糧28萬(wàn)被凍結(jié)后續(xù):騙子賬號(hào)曝光,官方介入,已查到小麥去向

以茶帶書(shū)
2025-10-29 17:57:40
最嚴(yán)查車風(fēng)暴!在家里被帶走,幾點(diǎn)跑的車都知道!

最嚴(yán)查車風(fēng)暴!在家里被帶走,幾點(diǎn)跑的車都知道!

網(wǎng)約車焦點(diǎn)
2025-10-29 10:03:08
2025-10-30 06:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13739文章數(shù) 66233關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)GTC:黃仁勛撒錢、造芯、造夢(mèng)

頭條要聞

日媒:“高市早苗當(dāng)面拒絕美國(guó)”

頭條要聞

日媒:“高市早苗當(dāng)面拒絕美國(guó)”

體育要聞

門前冷靜拉球過(guò)人,蘇契奇打進(jìn)國(guó)米生涯處子球

娛樂(lè)要聞

她二婚嫁給許紹雄,恩愛(ài)40年不離不棄

財(cái)經(jīng)要聞

美聯(lián)儲(chǔ)降息25個(gè)基點(diǎn) 12月起結(jié)束縮表

汽車要聞

自信大廠做派 全新瑞虎8詮釋什么是穩(wěn)中進(jìn)化

態(tài)度原創(chuàng)

教育
家居
旅游
本地
藝術(shù)

教育要聞

轉(zhuǎn)存:山東2025冬季學(xué)考(合格考)30日起報(bào)名!附:保姆式教程

家居要聞

純白質(zhì)感 簡(jiǎn)約而不簡(jiǎn)單

旅游要聞

“工廠游”成文旅新寵 彰顯工業(yè)文化強(qiáng)大魅力

本地新聞

全網(wǎng)圍觀,到底多少人被這個(gè)野人大學(xué)生笑瘋了

藝術(shù)要聞

白春禹:中國(guó)當(dāng)代寫實(shí)油畫(huà)家

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲免费高精影视一区二区三区| AV在线麻免费观看网站| 丝袜香蕉AV| 国产成人精品a视频| 精品人妻一91区二区三区久久嗨 - 百度 | 国产精品丝袜WWW爽爽爽| 姝姝窝人体色www国产| 99国产**精品****| 欧美一区二区三区大片| 麻豆人妻无码性色av专区| 在线视频精品中文无码| 国产 中文 制服丝袜 另类| XXXX互换人妻四人互换按摩 | 久久亚洲精品无码怀孕| 日韩孕交AV| 加勒比中文字幕无码一区| 六月天色婷婷| 久久中文精品无码中文字幕下载| 人人干人人射人人摸人人操| 性欧美高清视频在线观看| 精品久久免费| 四川熟女白浆| 亚洲无码先锋| 熟女AV 系列| 亚洲av网祉| 欧洲精品一区| 四虎永久免费网站| 亚洲国产精品lv| 欧美va亚洲va香蕉在线| 成人 免费视频| 人妻无码一区二区在线影院| 亚洲欧美太紧了| 九九.这里只有精品| 国产96精品久久久久久| 亚洲日韩日本中文在线| 深田えいみ禁欲后被隔壁人妻| 综合色区亚洲熟妇P| www奇米影视com| 无码在线观看精品| 成人区精品一区二区不卡| 精品午夜福利在线观看|