隨著AI技術(shù)的發(fā)展,視覺語言模型(VLM)在理解自然圖像方面已經(jīng)取得了長足的進步。但如果把這些模型直接用到地球觀測(EO),也就是遙感衛(wèi)星圖像上,效果往往不盡如人意。畢竟,從“上帝視角”看地球,和我們平時看生活照片,是完全不同的體驗。
遙感圖像的解讀包含很多獨特的挑戰(zhàn),比如目標(biāo)檢測、區(qū)域描述、變化檢測、時序分析等等。最近,來自IBM、INSAIT、蘇黎世聯(lián)邦理工學(xué)院、穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)等多個頂尖機構(gòu)的研究者們,聯(lián)合提出了一種名為 GeoVLM-R1 的新方法,專門解決這個問題。他們的論文 《GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning》,為我們展示了如何通過強化學(xué)習(xí)(RL)來“特訓(xùn)”VLM,使其成為一個遙感圖像的理解專家。
論文標(biāo)題 :GeoVLM-R1: Reinforcement Fine-Tuning for Improved Remote Sensing Reasoning
作者 :Mustansar Fiaz, Hiyam Debary, Paolo Fraccaro, Danda Paudel, Luc Van Gool, Fahad Khan, Salman Khan
機構(gòu) :IBM、INSAIT、蘇黎世聯(lián)邦理工學(xué)院、穆罕默德·本·扎耶德人工智能大學(xué)、林雪平大學(xué)、澳大利亞國立大學(xué)
論文地址 :https://arxiv.org/abs/2509.25026
項目主頁 :https://mustansarfiaz.github.io/GeoVLM-R1/
強化學(xué)習(xí)在提升模型推理能力方面已經(jīng)展現(xiàn)了巨大潛力,但在遙感領(lǐng)域的應(yīng)用還非常有限。直接將為自然圖像設(shè)計的RL方法用于遙感VLM,會遇到兩個主要問題:
任務(wù)多樣性 :遙感領(lǐng)域任務(wù)五花八門,一個通用的獎勵信號(比如“回答正確/錯誤”)無法為模型提供精確的指導(dǎo)。
獎勵稀疏 :有效的獎勵信號很難獲得,導(dǎo)致模型訓(xùn)練不穩(wěn)定,難以收斂。
為了解決這些問題,研究者們提出了一個新穎的后訓(xùn)練框架,其核心思想就是 “因材施教”——為不同的遙感任務(wù)設(shè)計不同的獎勵函數(shù)。
GeoVLM-R1的“兩階段”訓(xùn)練法
GeoVLM-R1的訓(xùn)練過程分為兩個階段,如下圖所示,首先進行監(jiān)督微調(diào),然后進行強化學(xué)習(xí)優(yōu)化。
第一階段:監(jiān)督微調(diào) (Supervised Fine-tuning)
首先,模型在一個包含多種地球觀測任務(wù)的數(shù)據(jù)集上進行標(biāo)準(zhǔn)的監(jiān)督微調(diào)。這一步的目的是讓模型對遙感圖像和相關(guān)任務(wù)有一個基本的了解,相當(dāng)于“打好基礎(chǔ)”。
第二階段:基于任務(wù)感知獎勵的強化學(xué)習(xí)
這是整個框架的精髓所在。在基礎(chǔ)模型之上,研究者們采用了一種基于強化學(xué)習(xí)的優(yōu)化策略(GRPO),并為其設(shè)計了獨特的 任務(wù)感知獎勵(Task-aware Rewards) 機制。
具體來說,獎勵函數(shù)由兩部分組成:
格式獎勵 (Format Reward) :確保模型的輸出遵循預(yù)定義的結(jié)構(gòu),比如必須包含
...
的思考過程和...
的最終答案。這保證了模型輸出的可解釋性。任務(wù)感知準(zhǔn)確率獎勵 (Task-aware Accuracy Reward) :這部分是“因材施教”的關(guān)鍵。針對不同的任務(wù),使用不同的評價指標(biāo)作為獎勵。例如:
對于 目標(biāo)檢測 任務(wù),使用 交并比(IoU) 作為獎勵。
對于 多標(biāo)簽分類 任務(wù),使用 召回率(Recall) 作為獎勵。
對于 圖像描述 任務(wù),使用 ROUGE-L或SBERT分?jǐn)?shù) 作為獎勵。
通過這種方式,模型在訓(xùn)練的每一步都能得到非常具體和精確的反饋,知道自己應(yīng)該朝哪個方向優(yōu)化,從而大大提升了訓(xùn)練的穩(wěn)定性和最終的性能。
全面超越,效果顯著
經(jīng)過“特訓(xùn)”的GeoVLM-R1,在多個遙感任務(wù)基準(zhǔn)上都表現(xiàn)出了優(yōu)異的性能,一致性地超越了現(xiàn)有的通用VLM和專門為遙感設(shè)計的VLM。
在分類任務(wù)上,無論是零樣本學(xué)習(xí)還是多標(biāo)簽分類,GeoVLM-R1都取得了穩(wěn)定的性能提升。
在更具挑戰(zhàn)性的指代目標(biāo)檢測、區(qū)域描述和定位描述等任務(wù)上,GeoVLM-R1同樣展示了其強大的定位和理解能力。
此外,在變化檢測和圖像描述等時序相關(guān)任務(wù)上,GeoVLM-R1也表現(xiàn)出色。
這些實驗結(jié)果充分證明,通過引入任務(wù)感知的強化學(xué)習(xí)后訓(xùn)練,可以有效提升VLM在復(fù)雜多樣的遙感任務(wù)上的推理能力和魯棒性。
這項工作為如何將強大的基礎(chǔ)模型適配到特定專業(yè)領(lǐng)域提供了一個極具價值的范例。雖然作者尚未放出代碼,但他們承諾會公開發(fā)布模型和代碼,值得我們持續(xù)關(guān)注。
大家覺得這種針對特定領(lǐng)域定制強化學(xué)習(xí)獎勵的思路,還能應(yīng)用在哪些專業(yè)場景(比如醫(yī)療影像、工業(yè)檢測)?歡迎來評論區(qū)討論!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.