近年來,隱式神經(jīng)表示(Implicit Neural Representations, INR)技術(shù)大放異彩,特別是像NeRF這樣能夠用一個小小的神經(jīng)網(wǎng)絡(luò)來表示復(fù)雜三維場景的方法,讓大家驚嘆不已。在這些方法背后,有一類基于周期激活函數(shù)(比如sin函數(shù))的INR網(wǎng)絡(luò),如SIREN和FINER,它們在表示高頻細節(jié)方面表現(xiàn)出色。
然而,這些看似強大的網(wǎng)絡(luò)內(nèi)部卻存在著一個“浪費”的問題——特征冗余。簡單來說,同一層網(wǎng)絡(luò)里的很多神經(jīng)元,其實在干著重復(fù)的活兒。這極大地限制了網(wǎng)絡(luò)的表達能力。
最近,來自卡內(nèi)基梅隆大學(xué)(CMU)和谷歌的研究者們,從經(jīng)典的信號處理理論中汲取靈感,提出了一個簡單而又極其有效的改進方法。在他們的新論文 《FM-SIREN & FM-FINER: Nyquist-Informed Frequency Multiplier for Implicit Neural Representation with Periodic Activation》 中,他們介紹了一種全新的頻率分配策略,讓每個神經(jīng)元都能“各司其職”,從而將特征冗余降低了近 50%!
論文標題 : FM-SIREN & FM-FINER: Nyquist-Informed Frequency Multiplier for Implicit Neural Representation with Periodic Activation
作者 : Mohammed Alsakabi, Wael Mobeirek, John M. Dolan, Ozan K. Tonguz
機構(gòu) : 卡內(nèi)基梅隆大學(xué)、谷歌
論文地址 : https://arxiv.org/abs/2509.23438
要理解這個問題,我們得先簡單了解一下SIREN這類網(wǎng)絡(luò)的工作原理。它們的核心是使用sin函數(shù)作為激活函數(shù),即 sin(ω * x + b)
。這里的 ω
是一個頻率乘子,它決定了神經(jīng)元對輸入信號的敏感頻率。在SIREN和FINER中,同一層的所有神經(jīng)元都共享一個 固定的、需要手動調(diào)節(jié)的頻率乘子 ω
。
這就好比一個交響樂隊,指揮家卻讓所有小提琴手都用完全相同的音高和節(jié)奏來演奏。結(jié)果可想而知,聲音會很單調(diào),很多樂手的能力被浪費了,因為他們都在做同樣的事情。在網(wǎng)絡(luò)中,這就導(dǎo)致了不同的神經(jīng)元卻在捕獲重疊的頻率成分,造成了嚴重的特征冗余。
奈奎斯特的智慧:為每個神經(jīng)元分配專屬頻率
如何解決這個問題?新提出的 FM-SIREN 和 FM-FINER 框架,其核心思想是打破這種“一刀切”的模式,為 每一個神經(jīng)元分配一個獨特的、專屬的頻率乘子。
更妙的是,這些專屬頻率不是隨便給的,而是基于經(jīng)典的 奈奎斯特定理(Nyquist Theorem) 和離散正弦變換(DST)的原理來確定的。這保證了分配給不同神經(jīng)元的頻率能夠均勻且有效地覆蓋整個信號的頻譜范圍,就像讓樂隊里的樂手們分別負責高、中、低等不同音區(qū),協(xié)同演奏出和諧豐富的樂章。
這個改動非常簡潔,但效果卻立竿見影:
無需調(diào)參 :頻率是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)自動計算的,省去了繁瑣的超參數(shù)調(diào)整。
無需加深網(wǎng)絡(luò) :在不增加任何網(wǎng)絡(luò)深度和參數(shù)量的情況下,提升了模型的表達能力。
頻率多樣性 :從根本上引入了頻率的多樣性,讓每個神經(jīng)元都專注于自己負責的頻率范圍。
這個簡單的改動帶來了多大的提升呢?首先,從理論上,研究者通過計算網(wǎng)絡(luò)隱藏層特征的協(xié)方差矩陣,直觀地證明了新方法的有效性。
在上圖中,顏色越“冷”(藍色),代表神經(jīng)元之間的相關(guān)性越低??梢钥吹?,F(xiàn)M-SIREN和FM-FINER的協(xié)方差圖明顯比原始版本“更冷”,整體的協(xié)方差范數(shù)(圖中右上角的數(shù)字)也顯著降低。這表明神經(jīng)元之間的特征冗余確實大大減少了。
在實際應(yīng)用中,這種改進轉(zhuǎn)化為了實實在在的性能提升。無論是一維音頻、二維圖像、三維形狀重建,還是NeRF,F(xiàn)M-SIREN和FM-FINER都全面超越了它們的基線版本。
圖像重建
在圖像重建任務(wù)中,新方法生成的圖像明顯更清晰,細節(jié)更豐富,PSNR值也更高。
音頻重建
在音頻信號擬合任務(wù)中,F(xiàn)M-SIREN和FM-FINER重建的波形與真實波形的誤差(MSE)顯著低于基線方法。
3D形狀與NeRF
在三維重建和NeRF任務(wù)中,新方法同樣表現(xiàn)出色,能夠恢復(fù)出更精細的幾何細節(jié)。
跨多個任務(wù)的定量結(jié)果也一致地證明了新方法的優(yōu)越性。
這項工作最亮眼的地方在于它的簡潔與深刻。它沒有堆砌復(fù)雜的模塊,而是回歸到信號處理的本源,用一個充滿智慧的簡單修改,就解決了現(xiàn)有INR網(wǎng)絡(luò)的一個核心缺陷。這種“古為今用”、跨學(xué)科獲取靈感的思路,非常值得我們學(xué)習。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.