夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

騰訊最新開源太牛了,AI一鍵去油、告別塑料感!登頂Hugging Face模型榜

0
分享至


智東西
作者 陳駿達(dá)
編輯 心緣

那些畫風(fēng)“油膩”的AI生圖,終于有救了?

智東西9月16日報(bào)道,騰訊近期開源勢頭太猛了,最新發(fā)布的圖像模型算法SRPO登上Hugging Face趨勢榜首,并在趨勢榜前3占2。


目前Hugging Face模型趨勢榜前6中,有5個(gè)均來自國內(nèi)企業(yè),被騰訊、百度、阿里包攬。

SRPO由騰訊混元生圖團(tuán)隊(duì)聯(lián)合香港中文大學(xué)(深圳)、清華大學(xué)聯(lián)合開發(fā),9月13日開源,已發(fā)布完整訓(xùn)練代碼及技巧,社區(qū)量化版本下載量達(dá)1.6萬次,Github Star數(shù)量超過600。


SRPO的全稱是Semantic Relative Preference Optimization(語義相對偏好優(yōu)化),旨在解決當(dāng)前開源社區(qū)中熱門AI生圖模型Flux生成人像時(shí)皮膚質(zhì)感差、過于油膩的問題。

通過在線調(diào)整獎(jiǎng)勵(lì)偏好、優(yōu)化早期生成軌跡等手段,SRPO可改善圖像生成效果,能將模型生成圖片的真實(shí)度、美學(xué)優(yōu)秀率的人類評估提升超300%。


▲Flux與SRPO生成效果對比

在取得更好效果的同時(shí),SRPO大幅提升了訓(xùn)練效率,在32卡設(shè)置下,僅需10分鐘(5.3GPU卡時(shí))就可以完成訓(xùn)練,效率相比DanceGRPO提升了75倍。


開發(fā)者可在ComfyUI中使用SRPO,僅需將下圖導(dǎo)入ComfyUI即可獲取完整工作流,或者直接加載SRPO-workflow的JSON文件。


目前,SRPO已被上傳至Hugging Face、Github等開源托管平臺(tái),相關(guān)技術(shù)報(bào)告已發(fā)布。

論文鏈接:

https://arxiv.org/abs/2509.06942

項(xiàng)目主頁:

https://tencent.github.io/srpo-project-page/

GitHub:

https://github.com/Tencent-Hunyuan/SRPO

Hugging Face:

https://huggingface.co/tencent/SRPO

開源社區(qū)還在其基礎(chǔ)上制作了多個(gè)量化版本。


量化版本鏈接:

https://huggingface.co/wikeeyang/SRPO-Refine-Quantized-v1.0

https://huggingface.co/befox/SRPO-GGUF

https://huggingface.co/rockerBOO/flux.1-dev-SRPO

一、引入新型采樣策略,給去噪提供“標(biāo)準(zhǔn)答案”

在SRPO中,研究團(tuán)隊(duì)引入了一種用于擴(kuò)散微調(diào)的新型采樣策略Direct-Align,可以有效地恢復(fù)高度噪聲的圖像,從而使優(yōu)化過程更加穩(wěn)定且計(jì)算要求更低,尤其是在初始時(shí)間步驟中。

當(dāng)前主流的方法主要依賴多步采樣器(如DDIM)結(jié)合直接梯度反傳來將生成過程與獎(jiǎng)勵(lì)偏好對齊,計(jì)算成本高且容易出現(xiàn)梯度爆炸和優(yōu)化不穩(wěn)定。因此,現(xiàn)有方法通常只能優(yōu)化生成軌跡的后半段。

這種“僅優(yōu)化后半段”的策略極易導(dǎo)致獎(jiǎng)勵(lì)模型在高頻信息上的過擬合問題。實(shí)驗(yàn)結(jié)果表明,模型會(huì)逐漸學(xué)會(huì)“鉆獎(jiǎng)勵(lì)模型的空子”——具體表現(xiàn)為:HPSv2獎(jiǎng)勵(lì)模型會(huì)偏好偏紅色調(diào)的圖像,PickScore傾向于紫色圖像,而ImageReward則容易對過曝區(qū)域給出過高評分。

SRPO的研究團(tuán)隊(duì)發(fā)現(xiàn),解決采樣瓶頸的秘密就在于擴(kuò)散模型的前向公式:中間圖像是噪聲和干凈圖像的插值。這一發(fā)現(xiàn)表明只要掌握噪聲先驗(yàn)的參考信息,就可以通過精確插值重建擴(kuò)散軌跡上的任意中間狀態(tài)。

基于這一理論發(fā)現(xiàn),該團(tuán)隊(duì)創(chuàng)新性地提出了Direct-Align方法:首先對輸入圖像進(jìn)行可控的噪聲注入,隨后通過單步模型推理,最后借助預(yù)先注入的噪聲作為“參考錨點(diǎn)”進(jìn)行圖像重建。


這種帶有“標(biāo)準(zhǔn)答案”的去噪方式,相比ReFL等直接依賴模型預(yù)測的傳統(tǒng)方法,顯著降低了重建誤差,實(shí)現(xiàn)了更精準(zhǔn)的獎(jiǎng)勵(lì)信號(hào)傳導(dǎo)。


二、有效避免獎(jiǎng)勵(lì)破解,給模型加上“語義方向盤”

SRPO的研究團(tuán)隊(duì)改進(jìn)了直接利用獎(jiǎng)勵(lì)信號(hào)進(jìn)行反向傳播的方法(例如ReFL和DRaFT)的訓(xùn)練策略,并直接使用負(fù)獎(jiǎng)勵(lì)對模型進(jìn)行正則化,無需KL散度或單獨(dú)的獎(jiǎng)勵(lì)系統(tǒng)。同時(shí),該團(tuán)隊(duì)還首次在模型中加入了動(dòng)態(tài)可控的文本條件,能夠在獎(jiǎng)勵(lì)模型范圍內(nèi)動(dòng)態(tài)調(diào)整對風(fēng)格的獎(jiǎng)勵(lì)偏好。

上述調(diào)整的原因是,文生圖的在線強(qiáng)化學(xué)習(xí)方法(如ReFL、DRaFT)通過直接采樣圖片并反傳可微獎(jiǎng)勵(lì)梯度,訓(xùn)練效率高,但高度依賴預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型,這些模型難以滿足多樣化、高質(zhì)量的后訓(xùn)練需求。

例如,用舊獎(jiǎng)勵(lì)模型優(yōu)化新架構(gòu)(如SD3、Flux)或提升特定美學(xué)維度時(shí),效果有限。傳統(tǒng)做法需大量離線優(yōu)化、微調(diào)獎(jiǎng)勵(lì)模型或手工設(shè)計(jì)復(fù)合獎(jiǎng)勵(lì)函數(shù),耗時(shí)且難以快速應(yīng)對新需求。

SRPO的研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前主流的圖像-文本雙分支獎(jiǎng)勵(lì)模型,可以視為以文本分支的輸出為模型參數(shù)關(guān)于圖片特征的函數(shù)。這樣一來,通過調(diào)整文本分支的語義特征,就能有效引導(dǎo)整個(gè)獎(jiǎng)勵(lì)模型的偏好方向。

基于此,SRPO的研究團(tuán)隊(duì)性提出了“語義引導(dǎo)偏好”機(jī)制,通過為獎(jiǎng)勵(lì)模型添加特定的控制提示詞(如“真實(shí)感”)來定向調(diào)整其優(yōu)化目標(biāo)。實(shí)驗(yàn)結(jié)果顯示,某些精心設(shè)計(jì)的控制詞能夠增強(qiáng)獎(jiǎng)勵(lì)模型在真實(shí)感等特定維度的優(yōu)化能力。


然而,研究團(tuán)隊(duì)進(jìn)一步發(fā)現(xiàn),單純的語義引導(dǎo)仍存在獎(jiǎng)勵(lì)破解(reward hacking)的風(fēng)險(xiǎn),而獎(jiǎng)勵(lì)偏差主要源自圖像分支(因?yàn)槲谋痉种Р粎⑴c梯度反傳)。

針對這一問題,團(tuán)隊(duì)提出了創(chuàng)新的“語義相對偏好優(yōu)化”策略:同時(shí)使用正向詞和負(fù)向詞作為引導(dǎo)信號(hào),通過負(fù)向梯度有效中和獎(jiǎng)勵(lì)模型的一般性偏差,同時(shí)保留語義差異中的特定偏好。

在具體實(shí)現(xiàn)上,為了平衡訓(xùn)練效率和負(fù)向詞強(qiáng)度,團(tuán)隊(duì)采用了加權(quán)獎(jiǎng)勵(lì)公式的設(shè)計(jì),其實(shí)現(xiàn)機(jī)制類似于無分類器引導(dǎo)(classifier-free guidance)。

實(shí)驗(yàn)結(jié)果顯示,SRPO顯著增強(qiáng)獎(jiǎng)勵(lì)模型在真實(shí)度等特定維度的優(yōu)化能力。這一突破性方法為長期受困于高質(zhì)量數(shù)據(jù)獲取難題的研究者,提供了一條更加直接高效的優(yōu)化路徑,有望顯著降低模型優(yōu)化的門檻和成本。

三、美學(xué)優(yōu)秀率、真實(shí)度提升超300%,未出現(xiàn)明顯獎(jiǎng)勵(lì)破解

SRPO的研究團(tuán)隊(duì)在HPDv2基準(zhǔn)測試上對方法進(jìn)行了評估。HPDv2是一個(gè)文生圖領(lǐng)域廣泛使用的基準(zhǔn),用來衡量模型生成圖像的質(zhì)量,特別是與人類偏好(human preferences)對齊的程度。

在測試中,Direct-Align方法在Aesthetic predictor v2.5(AE)、PickScore等主流評測指標(biāo)上均已達(dá)到SOTA水平,而結(jié)合SRPO后,在AE和PickScore等關(guān)鍵指標(biāo)上更是取得明顯提升。


在人類評估方面,與Direct-Align等直接優(yōu)化獎(jiǎng)勵(lì)偏好的方法不同,SRPO不會(huì)因獎(jiǎng)勵(lì)破解而犧牲真實(shí)感,能夠在不依賴額外訓(xùn)練數(shù)據(jù)的情況下,將模型的美學(xué)優(yōu)秀率從8.2%提升至38.9%,提升幅度超過300%,圖像感知真實(shí)度提升同樣超過300%。

用SRPO增強(qiáng)后的FLUX.1.dev超過了最新的開源模型FLUX.1.krea,僅需不到1500張圖像即可實(shí)現(xiàn)有效訓(xùn)練。


更為關(guān)鍵的是,SRPO未出現(xiàn)明顯的獎(jiǎng)勵(lì)破解現(xiàn)象,驗(yàn)證了Direct-Align的設(shè)計(jì)能夠有效去除獎(jiǎng)勵(lì)偏差,模型真實(shí)感顯著提升。


在主流獎(jiǎng)勵(lì)模型上,SRPO也未出現(xiàn)偏色等獎(jiǎng)勵(lì)破解問題。


SRPO具備細(xì)粒度的人類偏好優(yōu)化能力,通過引入控制詞能夠顯著提升在常見風(fēng)格(如亮度調(diào)整、漫畫、概念藝術(shù))上的可控性,但在低頻風(fēng)格(如賽博朋克)中則受到獎(jiǎng)勵(lì)模型識(shí)別能力的限制。


最后,研究還發(fā)現(xiàn)Direct-Align具備類似監(jiān)督微調(diào)的擬合特性,當(dāng)結(jié)合真實(shí)照片作為離線數(shù)據(jù)時(shí),SRPO能進(jìn)一步增強(qiáng)圖像真實(shí)感。

結(jié)語:系統(tǒng)提升擴(kuò)散模型真實(shí)感,可控性與可解釋性將成優(yōu)化方向

與單純的數(shù)據(jù)擬合方法不同,SRPO同時(shí)整合了人類偏好信號(hào)與強(qiáng)化學(xué)習(xí)優(yōu)化。SRPO研究團(tuán)隊(duì)認(rèn)為,這是首個(gè)大規(guī)模擴(kuò)散模型中系統(tǒng)性提升真實(shí)感的完整方法。

不過,SRPO在可控性和可解釋性上仍存在一定局限。該團(tuán)隊(duì)計(jì)劃通過更系統(tǒng)的控制策略、可學(xué)習(xí)的控制詞以及針對控制信號(hào)優(yōu)化的視覺語言模型獎(jiǎng)勵(lì)來提升方法的可控性與泛化能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
劉震云:世界上有3件事最愚蠢:一是把錢借出去,等別人主動(dòng)還...

劉震云:世界上有3件事最愚蠢:一是把錢借出去,等別人主動(dòng)還...

清風(fēng)拂心
2025-08-21 17:15:06
起底索要千萬逼死前夫獲刑12年的翟欣欣:曾是大學(xué)“院花”、北交大碩士,兩次閃婚閃離

起底索要千萬逼死前夫獲刑12年的翟欣欣:曾是大學(xué)“院花”、北交大碩士,兩次閃婚閃離

極目新聞
2025-09-19 13:53:49
被排擠打壓,鄭麗文若敗選將另擇新枝!

被排擠打壓,鄭麗文若敗選將另擇新枝!

放開他讓wo來
2025-09-19 14:55:39
扇打?qū)O女后續(xù)!孩子爸“身份”被曝光,奶奶正臉曝光,相由心生?

扇打?qū)O女后續(xù)!孩子爸“身份”被曝光,奶奶正臉曝光,相由心生?

奇思妙想草葉君
2025-09-15 21:57:05
失蹤34年的志愿軍戰(zhàn)俘程立人,在阿根廷成巨富,坐擁60萬畝土地

失蹤34年的志愿軍戰(zhàn)俘程立人,在阿根廷成巨富,坐擁60萬畝土地

娛樂圈的嗶嗶王
2025-09-14 11:49:19
調(diào)整正是機(jī)會(huì)!這個(gè)方向接下來還有大牛股!

調(diào)整正是機(jī)會(huì)!這個(gè)方向接下來還有大牛股!

證券市場周刊市場號(hào)
2025-09-19 20:33:26
今日上市!標(biāo)配華為ADS4,續(xù)航達(dá)1200km,網(wǎng)友:小米YU7買早了

今日上市!標(biāo)配華為ADS4,續(xù)航達(dá)1200km,網(wǎng)友:小米YU7買早了

隔壁說車?yán)贤?/span>
2025-09-20 08:38:16
國民黨主席之爭已無懸念?鄭麗文選票遙遙領(lǐng)先,張亞中通告全島:兩岸是一家人!

國民黨主席之爭已無懸念?鄭麗文選票遙遙領(lǐng)先,張亞中通告全島:兩岸是一家人!

奇思妙想生活家
2025-09-20 06:53:21
張晚意的天塌了!出門上了趟綜藝,回來發(fā)現(xiàn)演不了正劇了

張晚意的天塌了!出門上了趟綜藝,回來發(fā)現(xiàn)演不了正劇了

秋姐居
2025-09-17 19:24:28
佩通坦哥哥潘通泰:他信長子,父親入獄也沒公開露面,是家族遺憾

佩通坦哥哥潘通泰:他信長子,父親入獄也沒公開露面,是家族遺憾

照見古今
2025-09-19 18:36:51
單日票房僅20萬,資方老板針對《731》:昧良心推薦一律拉黑

單日票房僅20萬,資方老板針對《731》:昧良心推薦一律拉黑

光影新天地
2025-09-19 14:43:27
萬千惠向老公哭訴創(chuàng)業(yè)不易、運(yùn)轉(zhuǎn)困難,三寶一語雙關(guān):你去拍戲吧

萬千惠向老公哭訴創(chuàng)業(yè)不易、運(yùn)轉(zhuǎn)困難,三寶一語雙關(guān):你去拍戲吧

喜歡歷史的阿繁
2025-09-19 16:00:31
【關(guān)注】官媒發(fā)聲:調(diào)整公立醫(yī)院分配制度,醫(yī)務(wù)人員收入應(yīng)為公務(wù)員2倍以上

【關(guān)注】官媒發(fā)聲:調(diào)整公立醫(yī)院分配制度,醫(yī)務(wù)人員收入應(yīng)為公務(wù)員2倍以上

魏子檸說
2025-09-17 00:12:47
撞臉劉亦菲網(wǎng)紅曝做主播原因,工資低無法生活,深圳實(shí)習(xí)才兩千多

撞臉劉亦菲網(wǎng)紅曝做主播原因,工資低無法生活,深圳實(shí)習(xí)才兩千多

扒蝦侃娛
2025-09-18 19:49:00
網(wǎng)傳李佩霞下月出獄?法律專家:減刑后刑期已過半!謠言誤導(dǎo)

網(wǎng)傳李佩霞下月出獄?法律專家:減刑后刑期已過半!謠言誤導(dǎo)

巷子里的歷史
2025-09-19 08:06:10
楊尚昆問周總理:小平自稱參加過遵義會(huì)議,此事確否,是何職務(wù)?

楊尚昆問周總理:小平自稱參加過遵義會(huì)議,此事確否,是何職務(wù)?

大運(yùn)河時(shí)空
2025-09-03 11:55:59
豪擲100億,賽力斯,再攀高峰!

豪擲100億,賽力斯,再攀高峰!

浪哥財(cái)經(jīng)V
2025-09-18 18:13:11
我國每年近千萬人做腸鏡!醫(yī)生直言:做一次腸鏡,或管十年無礙

我國每年近千萬人做腸鏡!醫(yī)生直言:做一次腸鏡,或管十年無礙

劉哥談體育
2025-09-19 12:36:27
福建一戶人家,因“直接入住毛坯房”而爆紅,那叫一個(gè)高級,曬曬

福建一戶人家,因“直接入住毛坯房”而爆紅,那叫一個(gè)高級,曬曬

手工制作阿愛
2025-09-20 01:21:13
于朦朧事件被扒出更多往事!任嘉倫李現(xiàn)陳曉,為了保住清白出大招

于朦朧事件被扒出更多往事!任嘉倫李現(xiàn)陳曉,為了保住清白出大招

史行途
2025-09-15 16:54:01
2025-09-20 11:24:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10492文章數(shù) 116856關(guān)注度
往期回顧 全部

科技要聞

字節(jié)跳動(dòng)凌晨發(fā)布公告

頭條要聞

牛彈琴:中美元首通話信息量很大 特朗普宣布訪華時(shí)間

頭條要聞

牛彈琴:中美元首通話信息量很大 特朗普宣布訪華時(shí)間

體育要聞

亞洲天王效應(yīng) 孫興慜球衣售150萬件破梅西紀(jì)錄

娛樂要聞

香港愛馬仕大秀,古天樂面相變了

財(cái)經(jīng)要聞

最重要的一個(gè)電話,信息量果然很大

汽車要聞

對話周光:一個(gè)技術(shù)理想主義者的“蛻變”

態(tài)度原創(chuàng)

教育
房產(chǎn)
數(shù)碼
本地
藝術(shù)

教育要聞

出名了!錢永剛:教育最缺的不是分?jǐn)?shù),而是被刷題磨滅的求知欲

房產(chǎn)要聞

全民撐廣州,不止于賽場!與“有態(tài)度”者共筑城市驕傲

數(shù)碼要聞

NVIDIA確認(rèn)N1筆記本處理器為GB10“Grace Blackwell”芯片的變種

本地新聞

大學(xué)生軍訓(xùn)哪家強(qiáng),廣西申請“出戰(zhàn)”!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 国产精品精品一区二区三| 蜜臀AⅤ国产精品久久久国产老师| 免费的成年私人影院网站| 最新精品国偷自产在线美女足| 欧美性爱怡红院| 亚洲天堂免费在线观看视频| 亚洲成人av社区| 亚洲日韩精品a∨片无码加勒比| 黄色录像片蜜芽| 国产免费人成在线视频| 欧美性爱视频一级| 337p日本大胆欧美裸体艺术| 国产大片黄在线观看私人影院| 亚洲欧美偷拍另类a∨| 亚洲精品潮久久久| 亚洲老师熟妇色XXXXX无码| 日韩精品在线一区| 高清国产午夜精品久久久久久| 欧美日韩亚洲TV不卡久久| 免费黄色观看成人电影| 成人高清无码在线观看| xxxx黄色影院| 亚洲一区二区观看播放| 色色网免费播放| 传媒久久尤物伊人| 亚州不卡一区二区三区| 亚洲第一无码| 午夜五码av高清| 西西人体大胆4444www| 免费无码大片| 伦人伦xxxx国语对白| 蜜桃av抽搐高潮一区二区| 亚洲欧洲一区二区综合精品| 国际AV高清在线观看| 国产成人av一区二区三区不卡| 亚洲国产成人无码AV在线影院L| 六月丁香五月婷婷| 欧美黑人又粗又大又硬免费视频| 亚洲AV无码乱码国产精精东影业| 人人超人人超碰超国产 | 麻豆短视频在线观看|