夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

北大與字節(jié)團隊BranchGRPO,「樹形分叉 + 剪枝」重塑擴散模型

0
分享至



快分叉與穩(wěn)收斂

在擴散 / 流匹配模型的人類偏好對齊中,實現(xiàn)高效采樣與穩(wěn)定優(yōu)化的統(tǒng)一,一直是一個重大挑戰(zhàn)。

近期,北京大學與字節(jié)團隊提出了名為 BranchGRPO 的新型樹形強化學習方法。不同于順序展開的 DanceGRPO,BranchGRPO 通過在擴散反演過程中引入分叉(branching)與剪枝(pruning),讓多個軌跡共享前綴、在中間步驟分裂,并通過逐層獎勵融合實現(xiàn)稠密反饋。

該方法在 HPDv2.1 圖像對齊與 WanX-1.3B 視頻生成上均取得了優(yōu)異表現(xiàn)。最令人矚目的是,BranchGRPO 在保證對齊效果更優(yōu)的同時,迭代時間最高近 5×(Mix 變體 148s vs 698s)。



  • 論文鏈接: https://arxiv.org/pdf/2509.06040
  • 項目主頁:
  • https://fredreic1849.github.io/BranchGRPO-Webpage/
  • 代碼鏈接:
  • https://github.com/Fredreic1849/BranchGRPO
  • PKU HMI 實驗室主頁:https://pku-hmi-lab.github.io/HMI-Web/index.html
  • 單位:該項目主要由來自北京大學、北京師范大學、字節(jié)跳動的師生聯(lián)合研究,作者包括李聿明、王一凱等,通訊作者為北京大學仉尚航。

研究背景與挑戰(zhàn)

近年來,擴散模型與流匹配模型憑借在圖像與視頻生成上的高保真、多樣性與可控性,已成為視覺生成的主流方案。然而,僅靠大規(guī)模預訓練并不能保證與人類意圖完全對齊:模型生成的結果常常偏離美學、語義或時間一致性的需求。

為解決這一問題,「人類反饋強化學習(RLHF)」被引入,用以直接優(yōu)化生成模型,使其輸出更貼近人類偏好。

在 RLHF 體系中,「群體相對策略優(yōu)化(GRPO)」被證明在圖生文、文生圖和視頻生成中具有良好的穩(wěn)定性與可擴展性。然而,當 GRPO 應用于擴散 / 流模型時,依舊面臨兩大根本性瓶頸:

低效性:標準 GRPO 采用順序 rollout,每條軌跡必須在舊策略和新策略下獨立采樣,復雜度達到 O (N×T)(其中 T 是擴散步數(shù),N 是組大小)。這種重復采樣帶來大量計算冗余,嚴重限制了大規(guī)模生成任務的擴展性。

稀疏獎勵:現(xiàn)有方法通常只在最終生成結果上計算單一獎勵,并將其均勻回傳至所有步。這種 “稀疏且均勻” 的反饋忽視了中間狀態(tài)中蘊含的關鍵信號,導致 credit assignment 不準確,訓練波動大、收斂不穩(wěn),甚至出現(xiàn)高方差梯度。

因此,一個關鍵問題被提出:如何在不破壞多樣性的前提下,既提升采樣效率,又讓獎勵信號更稠密、更穩(wěn)定地作用于訓練過程?

正是在這一背景下,我們提出了 BranchGRPO。通過樹形分叉、獎勵融合與剪枝機制,BranchGRPO 做到了「又快又穩(wěn)、又強又準」,為大規(guī)模視覺生成對齊開辟了新路徑。

BranchGRPO如何在擴散過程中分化出樹形結構

為突破順序 rollout 的低效與稀疏獎勵瓶頸,BranchGRPO 將原本單一路徑的采樣過程,重構為一種樹形展開:



  1. 分叉(Branching):在若干預設的擴散步上進行分裂,每條軌跡可以向多個子路徑擴展,前綴計算被復用,大幅減少冗余采樣。這種結構既保持了擴散過程的完整性,又讓探索更高效。

  2. 獎勵融合與逐層歸因(Reward Fusion & Depth-wise Advantage):不同于將單一終末獎勵均勻分配到所有步驟,BranchGRPO 將葉子節(jié)點的獎勵自底向上傳遞,并在每一深度上進行標準化,形成逐步稠密的優(yōu)勢信號,使訓練過程更穩(wěn)定、更精準。

  3. 剪枝(Pruning):為避免樹形結構帶來的指數(shù)級成本,BranchGRPO 設計了兩種剪枝策略:

  • 寬度剪枝:僅保留關鍵葉子參與反向傳播,減少梯度計算量;
  • 深度剪枝:跳過部分層的反傳(但保留前向和獎勵評估),進一步壓縮開銷。

這一系列設計使得 BranchGRPO 在效率和穩(wěn)定性之間實現(xiàn)了統(tǒng)一:既能顯著加速訓練、降低迭代開銷,又能在獎勵歸因上更精細、更穩(wěn)定,從而在圖像與視頻生成任務中同時提升對齊效果與收斂速度。

精度、速度、穩(wěn)定度

1.圖像對齊(HPDv2.1):



在圖像對齊測試中,BranchGRPO 帶來了真正的「又快又好」:

更快:

DanceGRPO (tf=1.0) 每迭代 698s;BranchGRPO 493s;剪枝版 314s;Mix 變體 148s(相對 698s 最高近 4.7× 加速)

更穩(wěn)更準:

HPS-v2.1 0.363–0.369,穩(wěn)定高于 DanceGRPO 的 0.360;ImageReward 1.319(DepPru) 為全表最佳。

對比其他方法:

MixGRPO 雖然也能壓縮時間到 289 秒,但對齊分數(shù)略有下降,并且 MixGRPO 訓練常常不穩(wěn)定;相比之下,BranchGRPO-Mix 在極致加速的同時,依舊保持了與原始 BranchGRPO 相當?shù)膶R效果和穩(wěn)定的訓練,展現(xiàn)出驚人的性價比。



2.視頻生成(WanX-1.3B)

在視頻生成任務中,BranchGRPO 同樣展現(xiàn)了強大的優(yōu)勢:

更清晰:

不使用 RLHF 的基礎模型常出現(xiàn)嚴重的閃爍和變形;DanceGRPO 雖有所改善,但畫面依舊模糊、不夠穩(wěn)定。相比之下,BranchGRPO 生成的視頻幀更銳利,細節(jié)更豐富,角色和物體在時間維度上保持一致,真正實現(xiàn)了「流暢不掉幀」的觀感。

更快:

在相同硬件條件下,DanceGRPO 每次迭代大約需要 近 20 分鐘;而 BranchGRPO 僅需約 8 分鐘 就能完成一次迭代,訓練效率直接翻 2 倍以上。



3.消融實驗

從消融實驗可以看到:適中的分支相關度、早期更密集的分裂能加快獎勵提升;路徑加權的獎勵融合讓訓練更穩(wěn);深度剪枝帶來最佳最終效果;而混合 ODE–SDE 調(diào)度則在保持穩(wěn)定的同時達到最快訓練速度。



4.多樣性保持:

分叉并未削弱樣本分布,MMD2≈0.019,幾乎與順序采樣一致。



5. 擴展性(Scaling Law):

得益于 BranchGRPO 的高效性與訓練穩(wěn)定性,我們能夠輕松擴大分支規(guī)模而不崩潰:無論是增加分支因子還是分支次數(shù),性能都持續(xù)提升。比如在 81 個樣本規(guī)模下,DanceGRPO 每次迭代要花 2400 秒,而 BranchGRPO 只需 680 秒,真正把大規(guī)模對齊訓練變得可行。



總結與展望

BranchGRPO 通過樹形分叉、獎勵融合與輕量剪枝,創(chuàng)新性地融合了效率與穩(wěn)定,獎勵從「終點一錘子」變「全程有信號」—— 在速度、穩(wěn)定與對齊效果上全面提升(HPDv2.1 最高近 5×,視頻生成更清晰更一致)。成為視覺生成對齊的新一代解決方案。

未來,若引入自適應分裂 / 剪枝策略,并拓展至多模態(tài)與更大規(guī)模生成任務,BranchGRPO 有望成為擴散 / 流模型 RLHF 的核心方法,為高效、穩(wěn)定的人類偏好對齊提供新的范式。

如果您在研究中使用BranchGRPO,歡迎引用我們的工作:

@article{li2025branchgrpo,

title={BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models},

author={Li, Yuming and Wang, Yikai and Zhu, Yuying and Zhao, Zhongyu and Lu, Ming and She, Qi and Zhang, Shanghang},

journal={arXiv preprint arXiv:2509.06040},

year={2025}

DanceGRPO: Unleashing GRPO on Visual Generation:https://arxiv.org/abs/2505.07818

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE:

https://arxiv.org/abs/2507.21802

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
證監(jiān)會、滬深交易所最新發(fā)布!

證監(jiān)會、滬深交易所最新發(fā)布!

每日經(jīng)濟新聞
2025-09-22 23:44:14
“喜馬拉雅山煙花秀”最新進展:環(huán)保專家已在現(xiàn)場處置,正清理紫銅、塑料桶等

“喜馬拉雅山煙花秀”最新進展:環(huán)保專家已在現(xiàn)場處置,正清理紫銅、塑料桶等

魯中晨報
2025-09-22 20:53:03
羅永浩從香港返回內(nèi)地,發(fā)文稱他們敢蠻干就完了,網(wǎng)友:真是怕了

羅永浩從香港返回內(nèi)地,發(fā)文稱他們敢蠻干就完了,網(wǎng)友:真是怕了

蜜桔娛樂
2025-09-22 22:23:10
“蔡國強煙花秀”遭痛批!始祖鳥被抵制,安踏市值一夜蒸發(fā)114億

“蔡國強煙花秀”遭痛批!始祖鳥被抵制,安踏市值一夜蒸發(fā)114億

葉公子
2025-09-22 16:10:02
清華孫教授:我們這代人將成為歷史的罪人,后代不會原諒我們

清華孫教授:我們這代人將成為歷史的罪人,后代不會原諒我們

一針見娛
2025-09-22 18:38:37
楊某花辱罵于法官視頻曝光,夫妻系村里無賴,霸占鄰居房子被打

楊某花辱罵于法官視頻曝光,夫妻系村里無賴,霸占鄰居房子被打

奇思妙想草葉君
2025-09-22 21:48:49
2-7!中國男足轟然倒下,亞洲杯遭越南隊打爆,小組2連敗提前出局

2-7!中國男足轟然倒下,亞洲杯遭越南隊打爆,小組2連敗提前出局

侃球熊弟
2025-09-22 23:31:57
中國臺灣大學生918穿“旭日旗”T恤,遭韓國男子扇三耳光:這是日本納粹符號

中國臺灣大學生918穿“旭日旗”T恤,遭韓國男子扇三耳光:這是日本納粹符號

不掉線電波
2025-09-22 13:28:12
黨魁改選終于有選手挺“一國兩制”!洪秀柱的支持對象讓人意外

黨魁改選終于有選手挺“一國兩制”!洪秀柱的支持對象讓人意外

策略述
2025-09-22 15:28:31
網(wǎng)傳國企高管喜歡“霸占”朋友老婆?倆人車庫密會照片流出評論區(qū)炸鍋

網(wǎng)傳國企高管喜歡“霸占”朋友老婆?倆人車庫密會照片流出評論區(qū)炸鍋

浪花媽媽
2025-09-22 23:44:07
汽車熱失控時自動彈射電池?網(wǎng)友質(zhì)疑“把災難彈射給他人”,上市公司緊急回應

汽車熱失控時自動彈射電池?網(wǎng)友質(zhì)疑“把災難彈射給他人”,上市公司緊急回應

每日經(jīng)濟新聞
2025-09-22 21:45:11
廣東超10個城市停工

廣東超10個城市停工

界面新聞
2025-09-23 08:33:48
布魯克林籃網(wǎng)隊簽約曾凡博

布魯克林籃網(wǎng)隊簽約曾凡博

界面新聞
2025-09-23 07:11:29
51歲清華晨跑大神劉小平離世!8年自律沒躲過意外,離世原因被扒

51歲清華晨跑大神劉小平離世!8年自律沒躲過意外,離世原因被扒

哄動一時啊
2025-09-20 14:17:59
不裝了?全智賢拒不道歉、林允兒發(fā)文挑釁,惡心的一幕還是出現(xiàn)了

不裝了?全智賢拒不道歉、林允兒發(fā)文挑釁,惡心的一幕還是出現(xiàn)了

丁丁鯉史紀
2025-09-22 16:26:18
再次打臉西貝!羅永浩返回上海就奔赴現(xiàn)炒餐飲企業(yè),直言自己害怕

再次打臉西貝!羅永浩返回上海就奔赴現(xiàn)炒餐飲企業(yè),直言自己害怕

火山詩話
2025-09-23 04:42:53
31歲女子和高校博士連開9天房,61頁爆料流出:丈夫鬧大!

31歲女子和高校博士連開9天房,61頁爆料流出:丈夫鬧大!

農(nóng)村情感故事
2025-09-22 22:47:28
波蘭萬萬沒想到,中國竟這么狠!關閉口岸想拿捏中國,卻被反制

波蘭萬萬沒想到,中國竟這么狠!關閉口岸想拿捏中國,卻被反制

輝哥說動漫
2025-09-23 06:13:14
中方開始掀桌子,再拋257億美債,美國大動脈被切,逼出2個接盤國

中方開始掀桌子,再拋257億美債,美國大動脈被切,逼出2個接盤國

南權先生
2025-09-22 16:10:05
廣西一高校教師讀博后辭職被索賠17萬:聘用關系仲裁解除,校方欲起訴

廣西一高校教師讀博后辭職被索賠17萬:聘用關系仲裁解除,校方欲起訴

澎湃新聞
2025-09-22 18:40:29
2025-09-23 09:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11334文章數(shù) 142454關注度
往期回顧 全部

科技要聞

1000億美元!英偉達宣布投資OpenAI

頭條要聞

牛彈琴:西方現(xiàn)兩道不同風景線 以色列的最大麻煩來了

頭條要聞

牛彈琴:西方現(xiàn)兩道不同風景線 以色列的最大麻煩來了

體育要聞

曼城擺出大巴車,阿爾特塔:師父你變了!

娛樂要聞

巴圖:不怨父親英達 不嫉妒弟弟英如鏑

財經(jīng)要聞

杰理科技4次IPO:銷售模式異于同行遭質(zhì)疑

汽車要聞

外觀/性能/智能全面升級 第三代領克03靜態(tài)評測

態(tài)度原創(chuàng)

旅游
時尚
教育
房產(chǎn)
數(shù)碼

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

杭州尋寶大戰(zhàn)爆笑收官!張顏齊轉盤轉到手軟!

教育要聞

為啥家里老二大多特別精

房產(chǎn)要聞

保利天曜A2棟加推!50億紅盤領銜,搶藏珠江新城終極機遇

數(shù)碼要聞

天馬發(fā)布“天工屏”,高端OLED技術品牌

無障礙瀏覽 進入關懷版 黑人巨大精品欧美一区二区| 亚洲精品一线| 亚洲av成人区| 一区二区三区综合| 日本三级视频在线播放网址| 丝诱惑视频一区| 依人九九宗合九九九| 中文字幕亚洲码在线观看| 狠狠噜天天噜日日噜| 亚洲视频久久精品| 亚洲第一综合婷婷成人APP| 日韩视频在线观看| XXXX互换人妻四人互换按摩 | 人妻夜夜爽天天天爽欧美色院| 亚洲美女一区二区三区四区五区综合| 天天天天躁天天爱天天碰2018| 亚洲日韩精品一区二区无码| 人妻又白又大30P| 日韩欧美成人免费观看| 日产精品一线二线三线京东| 久青草无码视频在线播放| 日韩AV高潮喷水在线观看| 少妇人妻精品一区二区传媒蜜臀| 久久人人爽狠狠色噜噜狠狠| 欧洲熟妇色| 国产乱人无码伦av在线a| 人人操插人人操| 这里只有精品国产| 亚洲一区亚洲二区| 日韩人妻无码一区二区三区99| 日韩精品人妻中文字幕在线有码| 亚洲高清WWW色好看美女| 被强奸到潮喷| 国产三级精品片| 国产推油按摩A视频免费| av无码精品色午夜| 久久久久久久久久久久久久| 婷婷色在线观看| 97午夜理论电影影院| 视频一区二区三区四区在线观看| 日韩精品人妻av一区二区三区|