浙大校友將光引入AI模型，圖像合成無需消耗算力

2025-08-28 16:28:54　來源: DeepTech深科技

北京舉報

分享至

此前，他曾將光引入國產(chǎn)手機(jī)；而現(xiàn)在，他將光引入了 AIGC。當(dāng)陳世锜在浙江大學(xué)讀博時，曾和所在團(tuán)隊研發(fā)多個計算光學(xué)成果并被用于國產(chǎn)手機(jī)；如今，他在美國加州大學(xué)洛杉磯分校從事博士后研究。在美期間，他結(jié)合自己的光學(xué)積累，提出一種受擴(kuò)散模型啟發(fā)的光學(xué)生成模型，相關(guān)論文于當(dāng)?shù)貢r間 8 月 27 日發(fā)表于Nature，論文題目只有三個英文單詞——Optical generative models。

圖 | 陳世锜（來源：https://tangeego.github.io/）

這款光學(xué)生成模型的亮點(diǎn)在于，除了照明功率消耗以及通過淺層編碼器生成隨機(jī)種子的過程外，模型在圖像合成過程中不消耗計算資源。此外，無需改變架構(gòu)或物理硬件，只需將衍射解碼器重構(gòu)至新的優(yōu)化狀態(tài)，即可實(shí)現(xiàn)針對不同數(shù)據(jù)分布的光學(xué)生成。光學(xué)生成模型的這種多功能性，或能讓邊緣計算、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí)，以及各類娛樂應(yīng)用獲得收益。

該模型可通過光學(xué)方式合成符合目標(biāo)數(shù)據(jù)分布的單色或彩色圖像，即針對特定數(shù)據(jù)分布，以光學(xué)手段生成此前從未出現(xiàn)過的圖像。模型的設(shè)計靈感源自擴(kuò)散模型，其核心思路是利用淺層數(shù)字編碼器，將隨機(jī)的二維高斯噪聲圖案快速轉(zhuǎn)化為代表光學(xué)生成種子的二維相位結(jié)構(gòu)。

具體來說，在這款模型中，一個淺層快速數(shù)字編碼器首先將隨機(jī)噪聲映射為相位圖案，這些相位圖案可作為目標(biāo)數(shù)據(jù)分布的光學(xué)生成種子。隨后，一個經(jīng)過聯(lián)合訓(xùn)練的、基于自由空間的可重構(gòu)解碼器通過全光學(xué)方式處理這些生成種子，從而生成符合目標(biāo)數(shù)據(jù)分布的全新圖像。

通過此，陳世锜等人實(shí)現(xiàn)了多種內(nèi)容的光學(xué)生成：依據(jù) MNIST 數(shù)據(jù)集、Fashion-MNIST 數(shù)據(jù)、Butterflies-100 數(shù)據(jù)集、Celeb-A 數(shù)據(jù)集以及梵高畫作與素描的數(shù)據(jù)分布，他們分別生成了手寫數(shù)字、時尚產(chǎn)品、蝴蝶、人臉及藝術(shù)品的單色與彩色圖像，整體性能可與基于數(shù)字神經(jīng)網(wǎng)絡(luò)的生成模型相媲美。為了通過實(shí)驗驗證光學(xué)生成模型，他們利用可見光生成了手寫數(shù)字與時尚產(chǎn)品的圖像。此外，其還通過單色與多波長照明生成了梵高風(fēng)格的藝術(shù)品。

（來源：Nature）

據(jù)介紹，這款模型具有高度靈活性：針對不同數(shù)據(jù)分布的各類生成模型，可共享同一光學(xué)架構(gòu)，僅需為每項任務(wù)配備一個優(yōu)化后的固定衍射解碼器。通過對隨機(jī)噪聲進(jìn)行相位編碼得到光學(xué)生成種子，即可利用這些種子合成數(shù)量龐大的圖像。因此，若要將目標(biāo)數(shù)據(jù)分布從一項生成任務(wù)切換至另一項，只需更換光學(xué)生成種子及對應(yīng)的可重構(gòu)解碼器表面，無需對光學(xué)裝置本身進(jìn)行調(diào)整。

這讓本次光學(xué)生成模型有望為開展節(jié)能且可擴(kuò)展的推理任務(wù)奠定基礎(chǔ)，并能進(jìn)一步地挖掘光學(xué)與光子學(xué)在 AIGC 領(lǐng)域的應(yīng)用潛力。當(dāng)前，隨著生成式 AI 技術(shù)的應(yīng)用，模型對于算力和內(nèi)存的需求正在急劇增加，推理時間也隨之延長。與此同時，生成式 AI 模型的可擴(kuò)展性及碳足跡問題日益引發(fā)關(guān)注。盡管已有多種新興方法致力于減小模型規(guī)模、降低功耗并提升推理速度，但本次模型是一個兼具高能效與高可擴(kuò)展性的生成式 AI 模型，故能在一定程度上緩解這一問題。

圖 | 相關(guān)論文（來源：Nature）

光學(xué)生成模型與數(shù)字?jǐn)U散模型生成的圖像高度相似

為利用實(shí)驗來驗證本次光學(xué)生成模型，研究團(tuán)隊搭建了一套工作于可見光譜的自由空間硬件系統(tǒng)。實(shí)驗結(jié)果證實(shí)，經(jīng)過訓(xùn)練的光學(xué)生成模型能夠成功捕捉到每個目標(biāo)數(shù)據(jù)分布背后隱含的特征及關(guān)聯(lián)。

詳細(xì)來說，在初始實(shí)驗中，研究團(tuán)隊針對手寫數(shù)字和時尚產(chǎn)品圖像的生成分別訓(xùn)練了兩個不同模型，這兩個模型分別遵循 MNIST 數(shù)據(jù)集和 Fashion-MNIST 數(shù)據(jù)集的數(shù)據(jù)分布。下圖 c 展示了這兩個模型的實(shí)驗結(jié)果：在 MNIST 數(shù)據(jù)集上，模型取得的弗雷歇初始距離（FID，F(xiàn)réchet inception Distance）得分為 131.08；在 Fashion-MNIST 數(shù)據(jù)集上，模型取得的 FID 得分為 180.57。模型能夠成功生成符合這兩種目標(biāo)數(shù)據(jù)分布的圖像，這凸顯了所設(shè)計系統(tǒng)的多功能性，進(jìn)一步驗證了光學(xué)生成模型的可行性。需要說明的是，整體推理時間受到空間光調(diào)制器加載時間的限制，這時使用速度更快的相位光調(diào)制器或幀率超過 1 千赫茲（kHz）的空間光調(diào)制器，可以將這一加載時間降至最低。

圖 | 光學(xué)生成模型的示意圖（來源：Nature）

為了進(jìn)一步探究快照式光學(xué)生成模型的潛在空間，研究團(tuán)隊還開展了實(shí)驗，探究了隨機(jī)噪聲輸入與生成圖像之間的關(guān)系。

與此同時，他們還利用受限光學(xué)裝置，在有限相位編碼空間和有限解碼器位深條件下，對快照式光學(xué)圖像生成進(jìn)行了實(shí)驗評估。具體來說，其利用上圖所示的同一裝置，生成了更高分辨率的梵高風(fēng)格藝術(shù)品圖像。通過將數(shù)字編碼器與聯(lián)合訓(xùn)練的衍射解碼器配對，驗證了梵高風(fēng)格藝術(shù)品快照式單色圖像的生成。對比結(jié)果顯示，在采用相同數(shù)字編碼器架構(gòu)的情況下，衍射解碼器的性能優(yōu)于基于自由空間的圖像解碼。

值得注意的是，在某些情況下，基于自由空間的解碼會完全失效，其“對比語言-圖像預(yù)訓(xùn)練（CLIP，Contrastive Language–Image Pre-training Score）”得分低于 10–15；而衍射解碼器則能實(shí)現(xiàn)穩(wěn)定的圖像生成，且輸出圖像質(zhì)量顯著更優(yōu)。和預(yù)期一樣的是，當(dāng)研究團(tuán)隊增大空間光調(diào)制器到解碼器的距離以匹配實(shí)驗條件時，觀察到圖像分辨率因數(shù)值孔徑相關(guān)因素出現(xiàn)輕微下降。但是，與基于自由空間的解碼相比，基于衍射解碼器的方法仍能保持穩(wěn)定的圖像生成。而盡管采用相同的數(shù)字編碼器架構(gòu)，基于自由空間的解碼在多種情況下仍無法實(shí)現(xiàn)圖像生成。

通過進(jìn)一步增加數(shù)字編碼器的參數(shù)數(shù)量，研究團(tuán)隊提升了快照式生成的梵高風(fēng)格光學(xué)生成圖像的分辨率與質(zhì)量。下圖展示了研究團(tuán)隊使用含 5.8 億參數(shù)的數(shù)字編碼器生成更高分辨率單色及彩色圖像的實(shí)驗結(jié)果。

（來源：Nature）

據(jù)介紹，梵高風(fēng)格藝術(shù)品的單色圖像是在 520 納米波長光照下生成的，而彩色圖像則針對藍(lán)、綠、紅三個通道，分別采用了 450 納米、520 納米、638 納米的連續(xù)波長光照。在下圖中，左側(cè)三列結(jié)果顯示：光學(xué)生成模型單次生成的快照圖像，與數(shù)字?jǐn)U散模型（即含 10.7 億可訓(xùn)練參數(shù)、單幅圖像需 1000 步推理的教師模型）生成的圖像高度相似，這表明本次模型的圖像生成過程與教師擴(kuò)散模型具有一致性。相反的是，上圖橙色方框內(nèi)突出顯示的右側(cè)三列結(jié)果，則展現(xiàn)了光學(xué)模型生成多樣化圖像的能力，這些圖像與教師數(shù)字?jǐn)U散模型生成的圖像存在差異，體現(xiàn)了其輸出端的創(chuàng)造性多樣性。

在生成彩色梵高風(fēng)格藝術(shù)品時，研究人員先是生成各波長通道的相位編碼生成種子圖案，再將這些圖案依次加載到空間光調(diào)制器上。在對應(yīng)波長的光照下，多色圖像通過固定衍射解碼器生成，并以數(shù)字方式進(jìn)行融合。換言之，所有圖像生成過程中，所有照明波長共用同一解碼器狀態(tài)。下圖展示了彩色梵高風(fēng)格藝術(shù)品的生成結(jié)果，其中既包含與教師數(shù)字?jǐn)U散模型（含 10.7 億個可訓(xùn)練參數(shù)，生成單幅圖像需 1000 步推理）輸出匹配的藝術(shù)作品實(shí)例，也包含與之存在差異的實(shí)例。盡管觀察到輕微的色差，但生成的高分辨率彩色圖像仍保持了較高質(zhì)量。

（來源：Nature）

基于本次研究提出的方法，還可以設(shè)計空間和光譜多路復(fù)用光學(xué)生成模型，從而在不同空間與光譜通道中并行生成多幅獨(dú)立圖像。與此同時，基于光學(xué)生成模型在能效、可擴(kuò)展性及靈活性方面的優(yōu)勢，將能為各類 AI 相關(guān)應(yīng)用例如 AI 生成內(nèi)容、圖像與視頻處理及合成等提供極具潛力的解決方案。

光學(xué)和 AI 的奇妙結(jié)合

如前所述，陳世锜目前是美國加州大學(xué)洛杉磯分校的博士后研究員。2022 年，當(dāng)他還在浙江大學(xué)讀博時，其和當(dāng)時所在團(tuán)隊首次在大規(guī)模制造的系統(tǒng)中全部實(shí)現(xiàn)了接近衍射極限的像質(zhì)提升，成果在國內(nèi)頂級公司的旗艦產(chǎn)品中落地應(yīng)用，并在多款手機(jī)上得到廣泛應(yīng)用，相關(guān)論文發(fā)表于IEEE Transactions on Pattern Analysis and Machine Intelligence等期刊。

浙江大學(xué)官網(wǎng)顯示，陳世锜讀博時所在的馮華君教授、徐之海教授課題組自 2014 年起長期與國內(nèi)手機(jī)公司合作開展了多項智能手機(jī)圖像處理技術(shù)研究。如今，陳世锜在博士后期間又發(fā)表了這樣一篇應(yīng)用性極強(qiáng)的Nature論文。未來，他將選擇進(jìn)入學(xué)界還是業(yè)界，或許不久即將揭曉答案。

參考資料：

https://tangeego.github.io/

http://opt.zju.edu.cn/2022/0912/c72718a2735738/page.htm

Chen, S., Li, Y., Wang, Y. et al. Optical generative models.Nature644, 903–911 (2025). https://doi.org/10.1038/s41586-025-09446-5

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.