文章來源:我愛計算機視覺(ID:aicvml)
大家好,今天想和大家聊一篇非常有意思的新工作,來自清華大學、Joy Future Academy和香港科技大學(廣州)的研究者們,他們聯(lián)手打造了一款名為 PocketSR 的超分模型。
想象一下,手機里的照片模糊不清,細節(jié)全無,如果能像變魔術(shù)一樣,一鍵讓它變得高清銳利,是不是很酷?這就是“真實世界圖像超分辨率”(Real-world image super-resolution, RealSR)技術(shù)要做的事。但長久以來,效果好的模型都太“重”了,動輒幾十億參數(shù),在手機這種算力有限的設備上跑起來簡直是天方夜譚。
而 PocketSR 的出現(xiàn),就是為了解決這個痛點。它的名字非常形象——“口袋里的超分專家”,目標就是讓高質(zhì)量的生成式超分模型能輕松裝進手機里。
下面是這篇論文的基本信息,感興趣的朋友可以深入研究:
論文標題 :PocketSR: The Super-Resolution Expert in Your Pocket Mobiles
作者團隊 :Haoze Sun, Linfeng Jiang, Fan Li, Renjing Pei, Zhixin Wang, Yong Guo, Jiaqi Xu, Haoyu Chen, Jin Han, Fenglong Song, Yujiu Yang, Wenbo Li
所屬機構(gòu) :清華大學、Joy Future Academy、香港科技大學(廣州)
論文地址 :https://arxiv.org/abs/2510.03012
現(xiàn)有方法的困境與 PocketSR 的破局之道
近幾年,基于擴散模型(Diffusion Models)的生成式AI大放異彩,它們在圖像生成、修復和超分上都取得了驚人的效果。比如 Stable Diffusion (SD),能夠創(chuàng)造出細節(jié)豐富、充滿真實感的圖像。然而,這種強大能力的背后是巨大的計算開銷。一個標準的SD模型,參數(shù)量巨大,推理一次需要好幾秒甚至更久,這對于追求“即時”體驗的移動端應用來說,顯然是無法接受的。
上圖展示了 PocketSR 的實際效果和效率優(yōu)勢??梢钥吹?,無論是建筑的紋理還是人像的細節(jié),PocketSR 都處理得相當出色,同時在模型大小和計算成本上實現(xiàn)了數(shù)量級的壓縮。
為了讓超分模型“飛入尋常百姓家”,研究者們必須對這些龐然大物進行極致的輕量化改造。PocketSR 團隊就從兩個核心部件下手:VAE(變分自編碼器)和 U-Net。
PocketSR 的兩大核心創(chuàng)新
PocketSR 的整體框架如下圖所示。它巧妙地替換了 Stable Diffusion 中最臃腫的 VAE 部分,并對核心的 U-Net 網(wǎng)絡進行了大刀闊斧的“瘦身”。
1. LiteED:給 VAE 來一次極限壓縮
在 Stable Diffusion 中,VAE 負責將圖像在像素空間和隱空間之間進行轉(zhuǎn)換。它雖然效果好,但計算量和參數(shù)量都非常驚人。PocketSR 的作者們設計了一個全新的輕量級編碼器-解碼器結(jié)構(gòu),名為 LiteED。
上圖是原始 SD VAE 解碼器和 LiteED 解碼器的結(jié)構(gòu)對比,可以直觀地看到 LiteED 在結(jié)構(gòu)上的簡化。
LiteED 通過一系列精巧的設計,比如簡化網(wǎng)絡層、減少通道數(shù)等,成功地將 VAE 的參數(shù)量 減少了 97.5%,同時還能保持高質(zhì)量的圖像編解碼能力。這可以說是整個模型能夠“瘦身”成功的第一大功臣。
這張圖展示了關于 LiteED 設計的消融研究,證明了其在不同數(shù)據(jù)集上都能在保持高質(zhì)量輸出的同時,實現(xiàn)輕量化。
2. 在線退火剪枝:讓 U-Net “智能瘦身”
U-Net 是擴散模型的核心,負責去噪和生成圖像細節(jié)。直接裁剪 U-Net 很容易導致性能嚴重下降。為此,作者提出了一種名為“在線退火剪枝”(Online Annealing Pruning)的策略。
這個策略非常聰明,它不是一刀切地砍掉模型組件,而是在訓練過程中,逐步地 將知識從復雜的、即將被剪掉的模塊“蒸餾”到保留的輕量級模塊中。就像金屬退火一樣,通過一個平滑、漸進的過程,讓模型在瘦身的同時,最大限度地保留原有的“功力”。
為了配合剪枝,作者還引入了“多層特征蒸餾”(Multi-layer Feature Distillation)損失。這能確保在剪枝過程中,輕量化模型不僅學習最終的輸出,還能學習到原始大模型中間層的豐富特征,從而更好地繼承其強大的生成先驗知識。
上圖是剪枝策略的消融研究,展示了在線退火和多層特征蒸餾對于維持模型性能的關鍵作用。
這張表更詳細地對比了不同剪枝策略的效果,數(shù)據(jù)證明了在線退火和多層蒸餾的組合是最優(yōu)的。
作者還對剪枝的位置和比例進行了詳盡的實驗分析,確保每一刀都砍在最合適的地方,實現(xiàn)了效率和性能的最佳平衡。
以上表格分別展示了在殘差塊、交叉注意力、自注意力、前饋網(wǎng)絡等不同模塊上進行剪枝的性能對比,最終選出了最優(yōu)的剪枝方案。
作者還探討了通道剪枝比例的影響,并用實驗證明了多層特征蒸餾在不同剪枝率下都能帶來穩(wěn)定的性能提升。
驚人的效果與效率
經(jīng)過這一系列優(yōu)化,PocketSR 的最終成品非常驚艷。
模型大小 :僅為 146M 參數(shù),相比動輒上十億參數(shù)的SOTA模型,小了近10倍。
推理速度 :處理一張 512x512 的圖片,在單張 GPU 上可以達到 超過 60 FPS 的實時性能。更夸張的是,處理一張 4K 分辨率 的超大圖像,也僅僅需要 0.8 秒 !
上表將 PocketSR 與當前最先進的方法進行了定量比較??梢钥吹剑琍ocketSR 在多個真實世界數(shù)據(jù)集上,性能與那些需要多步推理的復雜模型不相上下,甚至在某些指標上更優(yōu),而速度卻快了幾個數(shù)量級。
在經(jīng)典的 DIV2K 數(shù)據(jù)集上,PocketSR 同樣表現(xiàn)出色。
除了冷冰冰的數(shù)字,再來看看實際的視覺效果。
上圖展示了 PocketSR 與其他方法的定性對比,即使是與需要多步推理的復雜模型相比,PocketSR 生成的圖像在結(jié)構(gòu)和紋理細節(jié)上都毫不遜色。
更多真實世界圖像的超分結(jié)果對比,進一步證明了 PocketSR 的強大實力。
作者還通過消融實驗證明了 Stable Diffusion 先驗知識對于提升模型性能的重要性。
總結(jié)
CV君認為,PocketSR 這項工作最大的意義在于,它展示了一條如何將龐大的生成模型“馴服”并部署到邊緣設備的清晰路徑。它沒有滿足于簡單的模型壓縮,而是深入到模型結(jié)構(gòu)和訓練策略的每一個細節(jié),通過 LiteED 和在線退火剪枝等一系列創(chuàng)新,實現(xiàn)了性能和效率的極致平衡。
這不僅讓高質(zhì)量的圖像超分在手機上成為可能,也為其他大模型在端側(cè)的落地提供了借鑒。
大家對這個把大模型塞進手機里的思路怎么看?歡迎在評論區(qū)留下你的看法!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.