清華大學等提出PocketSR：把超分專家放進口袋，4K圖像處理僅需0.8秒

2025-10-07 15:42:59　來源: 算法與數(shù)學之美

北京舉報

分享至

文章來源：我愛計算機視覺（ID：aicvml）

大家好，今天想和大家聊一篇非常有意思的新工作，來自清華大學、Joy Future Academy和香港科技大學（廣州）的研究者們，他們聯(lián)手打造了一款名為 PocketSR 的超分模型。

想象一下，手機里的照片模糊不清，細節(jié)全無，如果能像變魔術(shù)一樣，一鍵讓它變得高清銳利，是不是很酷？這就是“真實世界圖像超分辨率”（Real-world image super-resolution, RealSR）技術(shù)要做的事。但長久以來，效果好的模型都太“重”了，動輒幾十億參數(shù)，在手機這種算力有限的設備上跑起來簡直是天方夜譚。

而 PocketSR 的出現(xiàn)，就是為了解決這個痛點。它的名字非常形象——“口袋里的超分專家”，目標就是讓高質(zhì)量的生成式超分模型能輕松裝進手機里。

下面是這篇論文的基本信息，感興趣的朋友可以深入研究：

論文標題 ：PocketSR: The Super-Resolution Expert in Your Pocket Mobiles
作者團隊 ：Haoze Sun, Linfeng Jiang, Fan Li, Renjing Pei, Zhixin Wang, Yong Guo, Jiaqi Xu, Haoyu Chen, Jin Han, Fenglong Song, Yujiu Yang, Wenbo Li
所屬機構(gòu) ：清華大學、Joy Future Academy、香港科技大學（廣州）
論文地址 ：https://arxiv.org/abs/2510.03012

現(xiàn)有方法的困境與 PocketSR 的破局之道

近幾年，基于擴散模型（Diffusion Models）的生成式AI大放異彩，它們在圖像生成、修復和超分上都取得了驚人的效果。比如 Stable Diffusion (SD)，能夠創(chuàng)造出細節(jié)豐富、充滿真實感的圖像。然而，這種強大能力的背后是巨大的計算開銷。一個標準的SD模型，參數(shù)量巨大，推理一次需要好幾秒甚至更久，這對于追求“即時”體驗的移動端應用來說，顯然是無法接受的。

上圖展示了 PocketSR 的實際效果和效率優(yōu)勢?？梢钥吹?，無論是建筑的紋理還是人像的細節(jié)，PocketSR 都處理得相當出色，同時在模型大小和計算成本上實現(xiàn)了數(shù)量級的壓縮。

為了讓超分模型“飛入尋常百姓家”，研究者們必須對這些龐然大物進行極致的輕量化改造。PocketSR 團隊就從兩個核心部件下手：VAE（變分自編碼器）和 U-Net。

PocketSR 的兩大核心創(chuàng)新

PocketSR 的整體框架如下圖所示。它巧妙地替換了 Stable Diffusion 中最臃腫的 VAE 部分，并對核心的 U-Net 網(wǎng)絡進行了大刀闊斧的“瘦身”。

1. LiteED：給 VAE 來一次極限壓縮

在 Stable Diffusion 中，VAE 負責將圖像在像素空間和隱空間之間進行轉(zhuǎn)換。它雖然效果好，但計算量和參數(shù)量都非常驚人。PocketSR 的作者們設計了一個全新的輕量級編碼器-解碼器結(jié)構(gòu)，名為 LiteED。

上圖是原始 SD VAE 解碼器和 LiteED 解碼器的結(jié)構(gòu)對比，可以直觀地看到 LiteED 在結(jié)構(gòu)上的簡化。

LiteED 通過一系列精巧的設計，比如簡化網(wǎng)絡層、減少通道數(shù)等，成功地將 VAE 的參數(shù)量 減少了 97.5%，同時還能保持高質(zhì)量的圖像編解碼能力。這可以說是整個模型能夠“瘦身”成功的第一大功臣。

這張圖展示了關于 LiteED 設計的消融研究，證明了其在不同數(shù)據(jù)集上都能在保持高質(zhì)量輸出的同時，實現(xiàn)輕量化。

2. 在線退火剪枝：讓 U-Net “智能瘦身”

U-Net 是擴散模型的核心，負責去噪和生成圖像細節(jié)。直接裁剪 U-Net 很容易導致性能嚴重下降。為此，作者提出了一種名為“在線退火剪枝”（Online Annealing Pruning）的策略。

這個策略非常聰明，它不是一刀切地砍掉模型組件，而是在訓練過程中，逐步地 將知識從復雜的、即將被剪掉的模塊“蒸餾”到保留的輕量級模塊中。就像金屬退火一樣，通過一個平滑、漸進的過程，讓模型在瘦身的同時，最大限度地保留原有的“功力”。

為了配合剪枝，作者還引入了“多層特征蒸餾”（Multi-layer Feature Distillation）損失。這能確保在剪枝過程中，輕量化模型不僅學習最終的輸出，還能學習到原始大模型中間層的豐富特征，從而更好地繼承其強大的生成先驗知識。

上圖是剪枝策略的消融研究，展示了在線退火和多層特征蒸餾對于維持模型性能的關鍵作用。

這張表更詳細地對比了不同剪枝策略的效果，數(shù)據(jù)證明了在線退火和多層蒸餾的組合是最優(yōu)的。

作者還對剪枝的位置和比例進行了詳盡的實驗分析，確保每一刀都砍在最合適的地方，實現(xiàn)了效率和性能的最佳平衡。

以上表格分別展示了在殘差塊、交叉注意力、自注意力、前饋網(wǎng)絡等不同模塊上進行剪枝的性能對比，最終選出了最優(yōu)的剪枝方案。

作者還探討了通道剪枝比例的影響，并用實驗證明了多層特征蒸餾在不同剪枝率下都能帶來穩(wěn)定的性能提升。

驚人的效果與效率

經(jīng)過這一系列優(yōu)化，PocketSR 的最終成品非常驚艷。

模型大小 ：僅為 146M 參數(shù)，相比動輒上十億參數(shù)的SOTA模型，小了近10倍。
推理速度 ：處理一張 512x512 的圖片，在單張 GPU 上可以達到 超過 60 FPS 的實時性能。更夸張的是，處理一張 4K 分辨率 的超大圖像，也僅僅需要 0.8 秒 ！

上表將 PocketSR 與當前最先進的方法進行了定量比較?？梢钥吹剑琍ocketSR 在多個真實世界數(shù)據(jù)集上，性能與那些需要多步推理的復雜模型不相上下，甚至在某些指標上更優(yōu)，而速度卻快了幾個數(shù)量級。

在經(jīng)典的 DIV2K 數(shù)據(jù)集上，PocketSR 同樣表現(xiàn)出色。

除了冷冰冰的數(shù)字，再來看看實際的視覺效果。

上圖展示了 PocketSR 與其他方法的定性對比，即使是與需要多步推理的復雜模型相比，PocketSR 生成的圖像在結(jié)構(gòu)和紋理細節(jié)上都毫不遜色。

更多真實世界圖像的超分結(jié)果對比，進一步證明了 PocketSR 的強大實力。

作者還通過消融實驗證明了 Stable Diffusion 先驗知識對于提升模型性能的重要性。

總結(jié)

CV君認為，PocketSR 這項工作最大的意義在于，它展示了一條如何將龐大的生成模型“馴服”并部署到邊緣設備的清晰路徑。它沒有滿足于簡單的模型壓縮，而是深入到模型結(jié)構(gòu)和訓練策略的每一個細節(jié)，通過 LiteED 和在線退火剪枝等一系列創(chuàng)新，實現(xiàn)了性能和效率的極致平衡。

這不僅讓高質(zhì)量的圖像超分在手機上成為可能，也為其他大模型在端側(cè)的落地提供了借鑒。

大家對這個把大模型塞進手機里的思路怎么看？歡迎在評論區(qū)留下你的看法！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.