大家在用一些AI識圖軟件時,有沒有想過,它到底是怎么“思考”的?為什么它能認出這是一只“北極燕鷗”而不是“普通燕鷗”?為了讓AI不那么像個黑箱,可解釋性AI(XAI)應(yīng)運而生,其中一個很火的流派就是“原型網(wǎng)絡(luò)(Prototype-based Network)”。
簡單來說,這種網(wǎng)絡(luò)會學(xué)習(xí)一些典型的“原型”部件,比如鳥的“尖嘴”、汽車的“圓形車輪”,然后通過判斷一張新圖片里包含了哪些原型,來做出最終分類。但這里有個問題,大多數(shù)模型在比較圖片特征和原型時,用的是最簡單的歐氏距離(Euclidean distance),也就是兩點之間的直線距離??商卣骺臻g往往是彎曲的,走直線“抄近道”反而會出錯。
今天,來自杭州電子科技大學(xué)、浙江大學(xué)等機構(gòu)的研究者們就針對這個問題,提出了一個名為GeoProto的新框架。它放棄了“抄近道”的歐氏距離,選擇沿著特征空間的“道路”(流形)來計算距離,讓原型匹配變得更符合語義,也更準確。
論文標題:GEODESIC PROTOTYPE MATCHING VIA DIFFUSION MAPS FOR INTERPRETABLE FINE-GRAINED RECOGNITION
作者:Junhao Jia, Yunyou Liu, Yifei Sun, Huangwei Chen, Feiwei Qin, Changmiao Wang, Yong Peng
機構(gòu):杭州電子科技大學(xué),浙江大學(xué),深圳大數(shù)據(jù)研究院
論文地址:https://arxiv.org/abs/2509.17050
歐氏距離的“近路”與測地距離的“正途”
咱們先用一張圖來理解下歐氏距離錯在哪。在做細粒度分類時,比如區(qū)分不同種類的鳥,特征空間里,同一類鳥的特征會聚集在一起,形成一個“類流形(class-manifold)”。
如上圖所示,兩個在流形上其實離得很遠的點(語義差異大),它們的歐氏直線距離可能非常近。這就導(dǎo)致模型在匹配原型時,可能會把一個“鳥頭”原型錯誤地匹配到一個背景里相似的紋理上,因為它倆在特征空間里的“直線距離”很近。這就是所謂的“歐氏捷徑(Euclidean shortcuts)”問題。
GeoProto的核心思想就是,不應(yīng)該走直線,而應(yīng)該沿著數(shù)據(jù)本身所在的彎曲流形表面走,這個距離叫作測地距離(Geodesic Distance)。這樣才能真正反映兩個特征點的語義相似度。
GeoProto:在流形上學(xué)習(xí)和匹配原型
為了實現(xiàn)這個想法,GeoProto設(shè)計了一個端到端的框架,主要分為訓(xùn)練和推理兩個階段。
訓(xùn)練階段
構(gòu)建類流形:首先,對于訓(xùn)練集里的每一個類別,模型會提取所有樣本的深度特征。然后,基于這些特征構(gòu)建一個k近鄰圖(k-NN graph),用這個圖來近似表達該類別的潛在流形結(jié)構(gòu)。
學(xué)習(xí)擴散圖嵌入:接著,模型使用擴散圖(Diffusion Maps)技術(shù),將這個高維、彎曲的流形“展開”成一個更低維、更平坦的“擴散空間”。在這個空間里,兩點間的歐氏距離就等價于原始流形上的擴散距離,而擴散距離是測地距離的一個很好的近似。
原型嵌入:模型學(xué)習(xí)到的原型(Prototypes)也會被映射到這個擴散空間中。為了讓這個過程可微分且高效,作者采用了一種名為Nystr?m擴展的方法,使得任何新的特征點(無論是測試樣本還是原型)都能被快速地嵌入到已經(jīng)構(gòu)建好的流形中。
當一張新的查詢圖片到來時:
特征提取與嵌入:圖片先通過CNN主干網(wǎng)絡(luò)提取特征。
計算測地相似度:然后,利用Nystr?m擴展將該特征嵌入到 每一個 類別的擴散流形中,并計算它與該類別所有原型的測地距離(也就是在擴散空間中的歐氏距離)。
聚合與分類:最后,模型會聚合這些距離分數(shù),轉(zhuǎn)換成相似度,并根據(jù)最相似的原型組合來判斷圖片屬于哪個類別,同時給出“這張圖的這個部分像某個原型的這個部分”這樣的可視化解釋。
實驗效果:更準也更“懂”
GeoProto不僅在理論上聽起來很棒,在實際測試中也表現(xiàn)出了優(yōu)越的性能。
上表展示了在CUB-200-2011(鳥類)和Stanford Cars(汽車)兩個經(jīng)典細粒度識別數(shù)據(jù)集上的準確率??梢钥吹?,在不同的骨干網(wǎng)絡(luò)下,GeoProto(最后一行)的準確率全面超越了其他所有基于原型的可解釋方法。例如,在CUB數(shù)據(jù)集上使用ResNet-50時,GeoProto達到了87.8%的準確率,比之前的SOTA方法MGProto高出1.6%。
準確率的提升是一方面,更重要的是,這種提升來自于更合理的原型匹配。
上圖的對比一目了然。對于同一個原型(比如鳥頭),GeoProto找到的匹配圖像塊(a)都非常精準地對應(yīng)著其他鳥的頭部。而基于歐氏距離的方法(b)則找來了一些背景或無關(guān)紋理,顯然是“抄近道”抄錯了地方。
作者還通過一系列消融實驗證明了框架中各個組件的有效性,比如測地距離的替換、圖的構(gòu)建方式、Nystr?m擴展的參數(shù)選擇等,都對最終性能有重要影響。
CV君有話說
GeoProto這個工作非常巧妙,它點出了一個在可解釋AI領(lǐng)域可能被長期忽視的問題:度量“相似性”的方式是否真的合理?它提醒人們,在深度學(xué)習(xí)構(gòu)建的復(fù)雜特征空間中,幾何結(jié)構(gòu)至關(guān)重要,簡單地“拉直線”很可能會誤導(dǎo)模型。
將流形學(xué)習(xí)的思想引入到原型網(wǎng)絡(luò)中,不僅提升了分類的準確性,更重要的是讓模型的解釋變得更加忠實和可信。這個思路對于所有依賴距離度量的可解釋性方法,甚至更廣泛的度量學(xué)習(xí)領(lǐng)域,都具有很好的啟發(fā)意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.