夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI
讓AI生成的圖像更符合人類精細偏好,在32塊H20上訓(xùn)練10分鐘就能收斂。
騰訊混元新方法讓微調(diào)的FLUX1.dev模型人工評估的真實感和美學(xué)評分提高3倍以上。
當(dāng)前的擴散模型雖然能通過獎勵機制來貼合人類喜好,但存在兩個問題:一是優(yōu)化步驟少,容易出現(xiàn) “獎勵作弊”,也就是模型為了拿高分生成質(zhì)量差的圖;二是需要離線調(diào)整獎勵模型才能達到好的美學(xué)效果,不夠靈活。
為此,團隊提出兩個關(guān)鍵方法:
一個是Direct-Align,通過預(yù)先注入噪聲,能從任意時間步恢復(fù)原圖,避免了只在后期步驟優(yōu)化的局限,減少了 “獎勵作弊”。
另一個是語義相對偏好優(yōu)化(SRPO),它把獎勵變成受文本控制的信號,通過添加正面和負面提示詞,能在線調(diào)整獎勵,不用額外數(shù)據(jù)就能靈活適配需求。
論文公開后,有開發(fā)者評價SRPO看起來就像下一代RLHF。
在整個擴散軌跡上進行優(yōu)化
研究團隊首先指出了現(xiàn)有方法的兩個核心痛點:第一,多步去噪過程中的梯度計算成本極高,導(dǎo)致優(yōu)化只能局限在擴散過程的最后幾步;第二,為了達到理想的美學(xué)效果,往往需要不斷地離線調(diào)整獎勵模型。
為了解決第一個問題,團隊提出了Direct-Align方法。
首先預(yù)定義一個噪聲先驗,通過插值直接從任意時間步恢復(fù)原始圖像。團隊發(fā)現(xiàn),擴散狀態(tài)實際上就是噪聲和目標(biāo)圖像之間的插值。
這個方法讓模型能夠從高噪聲狀態(tài)直接恢復(fù)出清晰圖像,避免了傳統(tǒng)方法在早期時間步反向傳播時的梯度爆炸問題。實驗表明,即使在只有5%去噪進度的極早期階段,Direct-Align也能恢復(fù)出圖像的粗略結(jié)構(gòu)。
更重要的是,這種方法支持在整個擴散軌跡上進行優(yōu)化,而不是像ReFL、DRaFT等方法那樣只能在后期步驟訓(xùn)練。
實驗發(fā)現(xiàn),僅在后25%時間步訓(xùn)練會導(dǎo)致嚴(yán)重的獎勵黑客問題,模型會過度擬合獎勵函數(shù)的偏好,比如HPSv2偏好紅色調(diào)、PickScore偏好紫色圖像等。
SRPO讓獎勵信號更聰明
第二個創(chuàng)新是語義相對偏好優(yōu)化(SRPO)。傳統(tǒng)方法通常需要多個獎勵模型來平衡不同的偏好,但團隊發(fā)現(xiàn)這只是調(diào)整了獎勵的規(guī)模,并沒有真正對齊優(yōu)化方向。
SRPO的核心思想是將獎勵重新定義為文本條件信號。具體來說,對于同一張圖像,模型會使用正面和負面提示詞分別計算獎勵,然后取其相對差值作為優(yōu)化目標(biāo)。
在實際應(yīng)用中,團隊只需在原始提示詞前添加控制短語(如”. “)就能實現(xiàn)在線調(diào)整。實驗顯示,通過添加”Realistic photo”等控制詞,模型生成圖像的真實感提升了約3.7倍,美學(xué)質(zhì)量提升了3.1倍。
SRPO能夠通過簡單的提示詞控制實現(xiàn)多種風(fēng)格調(diào)整,包括亮度調(diào)節(jié)、漫畫風(fēng)格轉(zhuǎn)換等。有趣的是,控制效果的強弱與控制詞在獎勵模型訓(xùn)練集中的出現(xiàn)頻率相關(guān)——高頻詞如”painting”效果最好,而低頻詞如”Cyberpunk”則需要與其他高頻詞組合使用。
實驗結(jié)果
研究團隊在FLUX.1-dev模型上進行了全面的實驗驗證。與ReFL、DRaFT、DanceGRPO等最新方法相比,SRPO在多個評估指標(biāo)上都取得了最佳成績。
在HPDv2基準(zhǔn)測試的3200個提示詞上,SRPO不僅在自動評估指標(biāo)(Aesthetic Score v2.5、PickScore、ImageReward等)上領(lǐng)先,更重要的是在人工評估中表現(xiàn)出色。團隊組織了10名訓(xùn)練有素的標(biāo)注員和3名領(lǐng)域?qū)<?,?00個提示詞生成的圖像進行了全面評估。
結(jié)果顯示,在真實感維度上,原始FLUX模型的優(yōu)秀率僅為8.2%,而經(jīng)過SRPO訓(xùn)練后飆升至38.9%。在美學(xué)質(zhì)量上,優(yōu)秀率從9.8%提升到40.5%,總體偏好度更是達到了29.4%的優(yōu)秀率。
值得一提的是,DanceGRPO雖然也能提升美學(xué)質(zhì)量,但經(jīng)常引入不良偽影,如過度的光澤感和明顯的邊緣高光。相比之下,SRPO生成的圖像在保持高美學(xué)質(zhì)量的同時,紋理細節(jié)更加自然真實。
團隊還進行了一項有趣的對比實驗:他們發(fā)現(xiàn)經(jīng)過短短10分鐘SRPO訓(xùn)練的FLUX.1-dev,在HPDv2基準(zhǔn)上的表現(xiàn)已經(jīng)超越了最新的開源版本FLUX.1.Krea。
論文地址:
https://arxiv.org/abs/2509.06942
[1]https://x.com/_akhaliq/status/1966911634657390890
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.