既能將 DeepSeek R1 技術(shù)遷移到多模態(tài)領(lǐng)域,也能讓 Qwen2 VL 學(xué)會(huì)批判性思維,最低只需 10 條數(shù)據(jù)就能提升模型性能,這便是來(lái)自上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室和香港中文大學(xué)的研究人員打造的名為 Visual-RFT(Visual Reinforcement Fine-Tuning)的視覺(jué)強(qiáng)化微調(diào)開(kāi)源項(xiàng)目,它進(jìn)一步擴(kuò)展了強(qiáng)化微調(diào)在視覺(jué)任務(wù)上的應(yīng)用領(lǐng)域。
(來(lái)源:arXiv)
在只有大約 100 個(gè)樣本的數(shù)據(jù)極其有限的采樣條件下,Visual-RFT 的準(zhǔn)確率比基線(xiàn)提高 24.3%,而監(jiān)督微調(diào)則下降了 4.3%。
在小樣本實(shí)驗(yàn)中,盡管 Visual-RFT 使用最少的訓(xùn)練數(shù)據(jù),但是與監(jiān)督微調(diào)相比,它展示了更卓越的小樣本學(xué)習(xí)能力。在推理定位方面,Visual-RFT 在高度依賴(lài)推理的 LISA 數(shù)據(jù)集上表現(xiàn)出色,超過(guò)了像 GroundedSAM 這樣的專(zhuān)門(mén)模型。
此外,在開(kāi)放詞匯對(duì)象檢測(cè)中,Visual-RFT 將識(shí)別能力快速轉(zhuǎn)移到新類(lèi)別,包括 LVIS(Large Vocabulary Instance Segmentation)中的罕見(jiàn)類(lèi)別,表現(xiàn)出很強(qiáng)的泛化能力。
具體而言,2B 模型在新類(lèi)別的 COCO 數(shù)據(jù)集上實(shí)現(xiàn)了從 9.8 到 31.3 的平均精度均值(mAP,mean Average Precision)改進(jìn),在特定的罕見(jiàn)類(lèi)別的 LVIS 上實(shí)現(xiàn)了 2.7 到 20.7 的平均精度均值改善。
這些多樣化的視覺(jué)感知任務(wù)不僅突顯了 Visual-RFT 在視覺(jué)識(shí)別中的強(qiáng)大泛化能力,還凸顯了強(qiáng)化學(xué)習(xí)在增強(qiáng)視覺(jué)感知和推理方面的關(guān)鍵作用。
Visual-RFT:微調(diào)大型視覺(jué)語(yǔ)言模型的范式轉(zhuǎn)變
Visual-RFT,也是第一種采用基于群體相對(duì)策略?xún)?yōu)化的強(qiáng)化學(xué)習(xí)策略來(lái)增強(qiáng)大型視覺(jué)語(yǔ)言模型的視覺(jué)感知能力和定位能力的方法。
Visual-RFT 在后訓(xùn)練階段使用基于群體相對(duì)策略?xún)?yōu)化的強(qiáng)化算法和可驗(yàn)證的獎(jiǎng)勵(lì),來(lái)增強(qiáng)模型的視覺(jué)感知能力和推理能力,從而能夠提高大型視覺(jué)語(yǔ)言模型在處理各種視覺(jué)任務(wù)時(shí)的性能,特別是在微調(diào)數(shù)據(jù)有限的情況下。
具體來(lái)說(shuō),Visual-RFT 使用大型視覺(jué)語(yǔ)言模型為每個(gè)輸入生成包含推理 tokens 和最終答案的多個(gè)響應(yīng),然后使用視覺(jué)感知可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),通過(guò)群體相對(duì)策略?xún)?yōu)化(GRPO,Group Relative Policy Optimization)算法來(lái)更新模型。
研究中,研究人員為不同的感知任務(wù)設(shè)計(jì)了不同的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),例如用于物體檢測(cè)的聯(lián)合交叉(IoU,Intersection over Union)獎(jiǎng)勵(lì)。在細(xì)粒度圖像分類(lèi)、少量樣本物體檢測(cè)、推理基礎(chǔ)以及開(kāi)放詞匯對(duì)象檢測(cè)基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,與監(jiān)督微調(diào)(SFT,Supervised Fine-tuning)相比,Visual-RFT 具有更強(qiáng)的性能和泛化能力。
例如,在大約 100 個(gè)樣本的一次細(xì)粒度圖像分類(lèi)中,Visual-RFT 的準(zhǔn)確率比基線(xiàn)提高 24.3%。在少量樣本物體檢測(cè)中,Visual-RFT 在 COCO 數(shù)據(jù)集的 two-shot 設(shè)置上也超過(guò)了基線(xiàn) 21.9,在 LVIS 上超過(guò)了基線(xiàn) 15.4。
概括來(lái)說(shuō):
首先,Visual-RFT 將具有可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)擴(kuò)展到視覺(jué)感知任務(wù)中,而這些任務(wù)在微調(diào)數(shù)據(jù)有限的情況下是有效的。
其次,研究人員為不同的視覺(jué)任務(wù)設(shè)計(jì)不同的可驗(yàn)證獎(jiǎng)勵(lì),以幾乎可以忽略不計(jì)的成本實(shí)現(xiàn)了高效、高質(zhì)量的獎(jiǎng)勵(lì)計(jì)算。
再次,研究人員對(duì)各種視覺(jué)感知任務(wù)進(jìn)行了廣泛的實(shí)驗(yàn),包括細(xì)粒度圖像分類(lèi)、小樣本物體檢測(cè)、推理基礎(chǔ)和開(kāi)放詞匯表物體檢測(cè)。在所有設(shè)置中,Visual-RFT 都實(shí)現(xiàn)了顯著的性能提升,大大超越了監(jiān)督微調(diào)基線(xiàn)。
通過(guò)使用基于規(guī)則的可驗(yàn)證獎(jiǎng)勵(lì)系統(tǒng),Visual-RFT 減少了手動(dòng)標(biāo)記的需要并簡(jiǎn)化了獎(jiǎng)勵(lì)計(jì)算,從而在各種視覺(jué)感知任務(wù)中取得了顯著的進(jìn)步。Visual-RFT 在最小數(shù)據(jù)下優(yōu)于監(jiān)督微調(diào),并顯示出很強(qiáng)的泛化能力,借此展示了強(qiáng)化學(xué)習(xí)在增強(qiáng)大型視覺(jué)語(yǔ)言模型能力方面的潛力,使它們?cè)谝曈X(jué)感知任務(wù)中變得更加高效和有效。
Visual-RFT:與依賴(lài)于記住正確答案的監(jiān)督微調(diào)形成對(duì)比
Visual-RFT 的框架下圖所示,其由來(lái)自用戶(hù)的多模態(tài)輸入數(shù)據(jù)由圖像和問(wèn)題組成。
(來(lái)源:arXiv)
策略模型 πθ 輸出推理過(guò)程,并根據(jù)輸入生成一組響應(yīng)。每個(gè)響應(yīng)都通過(guò)一個(gè)可驗(yàn)證的獎(jiǎng)勵(lì)函數(shù)來(lái)計(jì)算獎(jiǎng)勵(lì)。在對(duì)每個(gè)輸出的獎(jiǎng)勵(lì)進(jìn)行分組計(jì)算后,評(píng)估每個(gè)響應(yīng)的質(zhì)量并用于更新策略模型。為了確保策略模型訓(xùn)練的穩(wěn)定性,Visual-RFT 使用 KL 散度(Kullback-Leibler Divergence)來(lái)限制策略模型和參考模型之間的差異。(注:KL 散度,也稱(chēng)為相對(duì)熵,是一種衡量?jī)蓚€(gè)概率分布之間差異的指標(biāo)。)
為了在可視化任務(wù)上擴(kuò)展強(qiáng)化微調(diào),研究人員給出了可視化強(qiáng)化微調(diào)的實(shí)現(xiàn)細(xì)節(jié)。對(duì)于每個(gè)輸入,Visual-RFT 使用大型視覺(jué)語(yǔ)言模型生成包含推理 tokens 和最終答案的多個(gè)響應(yīng)。
(來(lái)源:arXiv)
研究人員表示,Visual-RFT 與依賴(lài)于記住正確答案的監(jiān)督微調(diào)形成對(duì)比。相反,Visual-RFT 能夠探索不同的潛在解決方案,并學(xué)習(xí)優(yōu)化由研究人員設(shè)計(jì)的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)所定義的期望結(jié)果,而不僅僅是模仿預(yù)先定義的答案。
Visual-RFT 能夠?qū)⒂?xùn)練范式從監(jiān)督微調(diào)中的數(shù)據(jù)縮放(data scaling),轉(zhuǎn)變?yōu)獒槍?duì)特定多模態(tài)任務(wù)量身定制的可變獎(jiǎng)勵(lì)函數(shù)的戰(zhàn)略設(shè)計(jì)。
可驗(yàn)證獎(jiǎng)勵(lì)和視覺(jué)感知能力(例如檢測(cè)、定位、分類(lèi))的協(xié)同結(jié)合,讓研究人員所使用的模型能夠通過(guò)詳細(xì)的推理過(guò)程,快速且高效地掌握新概念。
(來(lái)源:arXiv)
Visual-RFT:讓 Qwen2 VL 學(xué)會(huì)批判性思維
據(jù)介紹,研究人員采用少樣本學(xué)習(xí)方法,為模型提供最少數(shù)量的樣本進(jìn)行訓(xùn)練。對(duì)于圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù),采用小樣本設(shè)置來(lái)評(píng)估模型的細(xì)粒度判別和識(shí)別能力,在有限的數(shù)據(jù)上應(yīng)用強(qiáng)化學(xué)習(xí)。
然后,針對(duì)注重推理基礎(chǔ)、需要強(qiáng)大推理能力的 LISA 數(shù)據(jù)集,使用 Visual-RFT 訓(xùn)練模型并評(píng)估其推理性能和感知性能。
同時(shí),對(duì)于開(kāi)放詞匯表對(duì)象檢測(cè),研究人員通過(guò)在包含 65 個(gè)基類(lèi)的細(xì)分 COCO 數(shù)據(jù)集上使用 Visual-RFT 訓(xùn)練 Qwen2-VL-2/7B,來(lái)評(píng)估模型的泛化能力。
然后,在 COCO 數(shù)據(jù)集的 15 個(gè)新類(lèi)別和 LVIS 的 13 個(gè)罕見(jiàn)類(lèi)別上進(jìn)行測(cè)試。
需要說(shuō)明的是,該模型的視覺(jué)感知和推理能力是在開(kāi)放的詞匯檢測(cè)環(huán)境中進(jìn)行評(píng)估的。
實(shí)驗(yàn)中,研究人員首先提示模型檢查圖像中是否存在類(lèi)別,然后預(yù)測(cè)圖像中存在的類(lèi)別的邊界框。
首先,研究人員進(jìn)行了小樣本分類(lèi)實(shí)驗(yàn)。
為了展示 Visual-RFT 在視覺(jué)領(lǐng)域的廣泛泛化能力,研究人員在細(xì)粒度圖像分類(lèi)上進(jìn)行少樣本實(shí)驗(yàn)。
研究人員選擇了四個(gè)數(shù)據(jù)集:Flower102、Pets37、FGVCAircraft 和 Car196,它們包含數(shù)十到數(shù)百個(gè)類(lèi)似的類(lèi)別,因此這一分類(lèi)任務(wù)的難度較大。
結(jié)果顯示,僅需一次數(shù)據(jù),Visual-RFT 就可以顯著提高性能(+24.3%)。
(來(lái)源:arXiv)
相比之下,在相同的最小數(shù)據(jù)量下,監(jiān)督微調(diào)顯示出明顯的下降(-4.3%)。在 4-shot 設(shè)置下,監(jiān)督微調(diào)的性能仍略低于基線(xiàn),而使用 Visual-RFT 的強(qiáng)化微調(diào)模型的平均性能提高了 25.9。
在 8-shot 和 16-shot 設(shè)置下,隨著數(shù)據(jù)量的增加,監(jiān)督微調(diào)的性能略微超過(guò)基線(xiàn)。
然而,監(jiān)督微調(diào)的性能仍然明顯落后于 Visual-RFT。如下圖,研究人員展示了在處理細(xì)粒度分類(lèi)任務(wù)時(shí),經(jīng)過(guò)強(qiáng)化微調(diào)后模型的一些推理案例。
(來(lái)源:arXiv)
這些結(jié)果不僅證明了 Visual-RFT 的強(qiáng)大泛化能力及其從有限數(shù)據(jù)中學(xué)習(xí)的能力,而且證實(shí)了與監(jiān)督微調(diào)相比,強(qiáng)化微調(diào)可以真正理解任務(wù)并從推理中進(jìn)行更深入的學(xué)習(xí)。
隨后,研究人員進(jìn)行了小樣本物體檢測(cè)實(shí)驗(yàn)。
小樣本學(xué)習(xí)一直是傳統(tǒng)視覺(jué)模型和大規(guī)模視覺(jué)語(yǔ)言模型面臨的核心挑戰(zhàn)之一。強(qiáng)化微調(diào)為該問(wèn)題提供了新的解決方案,使模型能夠利用少量數(shù)據(jù)快速學(xué)習(xí)和理解。
研究人員從 COCO 數(shù)據(jù)集中選擇了 8 個(gè)類(lèi)別,每個(gè)類(lèi)別有 1、2、4、8 和 16 幅圖像,以構(gòu)建數(shù)據(jù)有限的訓(xùn)練集。
對(duì)于 LVIS 數(shù)據(jù)集,研究人員選擇了 6 個(gè)罕見(jiàn)類(lèi)別。
由于這些罕見(jiàn)類(lèi)別的訓(xùn)練圖像非常稀疏,每個(gè)類(lèi)別有 1 到 10 張圖像,將其近似為 10-shot 設(shè)置。
然后,研究人員使用強(qiáng)化微調(diào)和監(jiān)督微調(diào)對(duì) Qwen2-VL-2/7B 模型進(jìn)行 200 步訓(xùn)練,以評(píng)估模型在有限數(shù)據(jù)下的學(xué)習(xí)能力。雖然監(jiān)督微調(diào)和強(qiáng)化微調(diào)都能提升模型在小樣本設(shè)置下的識(shí)別準(zhǔn)確率,但強(qiáng)化微調(diào)后的模型表現(xiàn)始終大幅優(yōu)于監(jiān)督微調(diào)模型,保持了顯著的領(lǐng)先優(yōu)勢(shì)。
在 COCO 類(lèi)別中,隨著訓(xùn)練數(shù)據(jù)的增加,監(jiān)督微調(diào)模型的平均精度均值約為 31,而強(qiáng)化微調(diào)模型接近 47。
在 LVIS 小樣本實(shí)驗(yàn)結(jié)果中,對(duì)于 LVIS 中六個(gè)更具挑戰(zhàn)性的罕見(jiàn)類(lèi)別,強(qiáng)化微調(diào)仍然優(yōu)于監(jiān)督微調(diào)。
(來(lái)源:arXiv)
實(shí)驗(yàn)結(jié)果清晰地展現(xiàn)了強(qiáng)化微調(diào)在少樣本設(shè)置下的優(yōu)異性能,讓模型僅通過(guò)少量數(shù)據(jù)就能通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)視覺(jué)感知能力的顯著提升。
研究人員進(jìn)一步測(cè)試了一些抽象的域外數(shù)據(jù)集。具體來(lái)說(shuō),其選擇了 MG(Monster Girls)數(shù)據(jù)集,其中包含不同類(lèi)型的動(dòng)漫風(fēng)格怪物女孩。通過(guò)使用域外數(shù)據(jù),增加了模型識(shí)別和推理的難度,并在 4-shot 和 16-shot 設(shè)置下進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,強(qiáng)化微調(diào)取得了顯著的性能提升,超過(guò)了監(jiān)督微調(diào)。
(來(lái)源:arXiv)
接著,研究人員進(jìn)行了推理依據(jù)實(shí)驗(yàn)。
視覺(jué)語(yǔ)言智能的另一個(gè)關(guān)鍵方面是根據(jù)用戶(hù)需求確定精確的對(duì)象。
此前的專(zhuān)業(yè)檢測(cè)系統(tǒng)缺乏推理能力,無(wú)法完全理解用戶(hù)的意圖。
在 LISA 訓(xùn)練集的幫助下,人們已經(jīng)開(kāi)展了多項(xiàng)工作,使得大型語(yǔ)言模型能夠?yàn)槠渌P洼敵隹刂?tokens 或通過(guò)監(jiān)督微調(diào)直接預(yù)測(cè)邊界框坐標(biāo)。
在本次研究中,研究人員探索了 Visual-RFT 在這項(xiàng)任務(wù)中的能力,借此發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)比監(jiān)督微調(diào)有著顯著改進(jìn)。
具體來(lái)說(shuō),研究人員使用 Visual-RFT 和監(jiān)督微調(diào)針對(duì) LISA 訓(xùn)練集上的 Qwen2 VL 2B/7B 模型進(jìn)行微調(diào),該訓(xùn)練集由 239 幅具有真實(shí)推理對(duì)象的圖像組成。
研究人員遵循與 LISA 相同的測(cè)試設(shè)置,并比較監(jiān)督微調(diào)和本次的結(jié)果,兩者都經(jīng)過(guò)了 500 步微調(diào)。
與監(jiān)督微調(diào)相比,Visual-RFT 在邊界框聯(lián)合交叉方面顯著提高了最終結(jié)果。
(來(lái)源:arXiv)
此外,研究人員使用 Qwen2 VL 預(yù)測(cè)邊界框提示 SAM 來(lái)生成分割掩碼。
借此發(fā)現(xiàn),Visual-RFT 能夠顯著增強(qiáng)了定位能力,并且優(yōu)于之前的專(zhuān)用檢測(cè)系統(tǒng)。
其中,模型在思維過(guò)程中顯著提高了推理能力和定位準(zhǔn)確性。
(來(lái)源:arXiv)
通過(guò) Visual-RFT,Qwen2 VL 學(xué)會(huì)了批判性思維,并能夠通過(guò)仔細(xì)檢查圖像來(lái)產(chǎn)生準(zhǔn)確的結(jié)果。
為了進(jìn)一步證明強(qiáng)化微調(diào)的泛化能力,研究人員進(jìn)行了開(kāi)放詞匯對(duì)象檢測(cè)實(shí)驗(yàn)。
Visual-RFT 相對(duì)于監(jiān)督微調(diào)的優(yōu)勢(shì)在于,前者對(duì)于任務(wù)有著真正深入的理解,而不僅僅是記住數(shù)據(jù)。為此,研究人員首先從 COCO 數(shù)據(jù)集中隨機(jī)抽取了 6K 個(gè)注釋?zhuān)渲邪?65 個(gè)基本類(lèi)別。
研究人員使用這些數(shù)據(jù)對(duì) Qwen2-VL-2/7B 模型進(jìn)行了可視化強(qiáng)化微調(diào)和監(jiān)督微調(diào),并在 15 個(gè)以前從未見(jiàn)過(guò)的新類(lèi)別上對(duì)模型進(jìn)行了測(cè)試。
為了增加難度,研究人員進(jìn)一步測(cè)試了 LVIS 數(shù)據(jù)集中的 13 個(gè)罕見(jiàn)類(lèi)別。
經(jīng)過(guò)強(qiáng)化微調(diào)后,Qwen2-VL-2/7B 模型在 COCO 數(shù)據(jù)集中的 15 個(gè)新類(lèi)別上實(shí)現(xiàn)了平均精度均值增加 21.5 和 9.5。
在 LVIS 數(shù)據(jù)集中更具挑戰(zhàn)性的罕見(jiàn)類(lèi)別中,平均精度均值分別增加了 18.0 和 14.7。
Visual-RFT 不僅將其檢測(cè)能力從 COCO 基本類(lèi)別轉(zhuǎn)移到新的 COCO 類(lèi)別,而且在更具挑戰(zhàn)性的罕見(jiàn) LVIS 類(lèi)別上也取得了重大改進(jìn)。
值得注意的是,對(duì)于下表中的一些罕見(jiàn)的 LVIS 類(lèi)別,原始模型或監(jiān)督微調(diào)訓(xùn)練的模型無(wú)法識(shí)別這些類(lèi)別,導(dǎo)致 AP 值為 0。
(來(lái)源:arXiv)
然而,經(jīng)過(guò)強(qiáng)化微調(diào)后,該模型在識(shí)別這些以前無(wú)法識(shí)別的類(lèi)別(如蛋卷和蒲團(tuán))方面顯示出從 0 到 1 的質(zhì)的飛躍。這表明 Visual-RFT 對(duì)于提高大型視覺(jué)語(yǔ)言模型視覺(jué)識(shí)別的性能和泛化能力具有重大影響。
可以說(shuō),Visual-RFT 代表了微調(diào)大型視覺(jué)語(yǔ)言模型的范式轉(zhuǎn)變,它提供了一種數(shù)據(jù)高效、獎(jiǎng)勵(lì)驅(qū)動(dòng)的方法,增強(qiáng)了特定領(lǐng)域任務(wù)的推理和適應(yīng)性。它成功地?cái)U(kuò)展了強(qiáng)化微調(diào),使大型視覺(jué)語(yǔ)言模型能夠在各種多模態(tài)任務(wù)中使用,例如用于少樣本分類(lèi)和開(kāi)放詞匯目標(biāo)檢測(cè)之中。目前,研究人員已經(jīng) Github 上完全開(kāi)源了訓(xùn)練代碼、訓(xùn)練數(shù)據(jù)和評(píng)估腳本。
參考資料:
https://arxiv.org/pdf/2503.01785
https://github.com/Liuziyu77/Visual-RFT
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.