此前,他曾將光引入國產(chǎn)手機(jī);而現(xiàn)在,他將光引入了 AIGC。當(dāng)陳世锜在浙江大學(xué)讀博時,曾和所在團(tuán)隊研發(fā)多個計算光學(xué)成果并被用于國產(chǎn)手機(jī);如今,他在美國加州大學(xué)洛杉磯分校從事博士后研究。在美期間,他結(jié)合自己的光學(xué)積累,提出一種受擴(kuò)散模型啟發(fā)的光學(xué)生成模型,相關(guān)論文于當(dāng)?shù)貢r間 8 月 27 日發(fā)表于Nature,論文題目只有三個英文單詞——Optical generative models。
圖 | 陳世锜(來源:https://tangeego.github.io/)
這款光學(xué)生成模型的亮點(diǎn)在于,除了照明功率消耗以及通過淺層編碼器生成隨機(jī)種子的過程外,模型在圖像合成過程中不消耗計算資源。此外,無需改變架構(gòu)或物理硬件,只需將衍射解碼器重構(gòu)至新的優(yōu)化狀態(tài),即可實(shí)現(xiàn)針對不同數(shù)據(jù)分布的光學(xué)生成。光學(xué)生成模型的這種多功能性,或能讓邊緣計算、增強(qiáng)現(xiàn)實(shí)、虛擬現(xiàn)實(shí),以及各類娛樂應(yīng)用獲得收益。
該模型可通過光學(xué)方式合成符合目標(biāo)數(shù)據(jù)分布的單色或彩色圖像,即針對特定數(shù)據(jù)分布,以光學(xué)手段生成此前從未出現(xiàn)過的圖像。模型的設(shè)計靈感源自擴(kuò)散模型,其核心思路是利用淺層數(shù)字編碼器,將隨機(jī)的二維高斯噪聲圖案快速轉(zhuǎn)化為代表光學(xué)生成種子的二維相位結(jié)構(gòu)。
具體來說,在這款模型中,一個淺層快速數(shù)字編碼器首先將隨機(jī)噪聲映射為相位圖案,這些相位圖案可作為目標(biāo)數(shù)據(jù)分布的光學(xué)生成種子。隨后,一個經(jīng)過聯(lián)合訓(xùn)練的、基于自由空間的可重構(gòu)解碼器通過全光學(xué)方式處理這些生成種子,從而生成符合目標(biāo)數(shù)據(jù)分布的全新圖像。
通過此,陳世锜等人實(shí)現(xiàn)了多種內(nèi)容的光學(xué)生成:依據(jù) MNIST 數(shù)據(jù)集、Fashion-MNIST 數(shù)據(jù)、Butterflies-100 數(shù)據(jù)集、Celeb-A 數(shù)據(jù)集以及梵高畫作與素描的數(shù)據(jù)分布,他們分別生成了手寫數(shù)字、時尚產(chǎn)品、蝴蝶、人臉及藝術(shù)品的單色與彩色圖像,整體性能可與基于數(shù)字神經(jīng)網(wǎng)絡(luò)的生成模型相媲美。為了通過實(shí)驗驗證光學(xué)生成模型,他們利用可見光生成了手寫數(shù)字與時尚產(chǎn)品的圖像。此外,其還通過單色與多波長照明生成了梵高風(fēng)格的藝術(shù)品。
(來源:Nature)
據(jù)介紹,這款模型具有高度靈活性:針對不同數(shù)據(jù)分布的各類生成模型,可共享同一光學(xué)架構(gòu),僅需為每項任務(wù)配備一個優(yōu)化后的固定衍射解碼器。通過對隨機(jī)噪聲進(jìn)行相位編碼得到光學(xué)生成種子,即可利用這些種子合成數(shù)量龐大的圖像。因此,若要將目標(biāo)數(shù)據(jù)分布從一項生成任務(wù)切換至另一項,只需更換光學(xué)生成種子及對應(yīng)的可重構(gòu)解碼器表面,無需對光學(xué)裝置本身進(jìn)行調(diào)整。
這讓本次光學(xué)生成模型有望為開展節(jié)能且可擴(kuò)展的推理任務(wù)奠定基礎(chǔ),并能進(jìn)一步地挖掘光學(xué)與光子學(xué)在 AIGC 領(lǐng)域的應(yīng)用潛力。當(dāng)前,隨著生成式 AI 技術(shù)的應(yīng)用,模型對于算力和內(nèi)存的需求正在急劇增加,推理時間也隨之延長。與此同時,生成式 AI 模型的可擴(kuò)展性及碳足跡問題日益引發(fā)關(guān)注。盡管已有多種新興方法致力于減小模型規(guī)模、降低功耗并提升推理速度,但本次模型是一個兼具高能效與高可擴(kuò)展性的生成式 AI 模型,故能在一定程度上緩解這一問題。
圖 | 相關(guān)論文(來源:Nature)
光學(xué)生成模型與數(shù)字?jǐn)U散模型生成的圖像高度相似
為利用實(shí)驗來驗證本次光學(xué)生成模型,研究團(tuán)隊搭建了一套工作于可見光譜的自由空間硬件系統(tǒng)。實(shí)驗結(jié)果證實(shí),經(jīng)過訓(xùn)練的光學(xué)生成模型能夠成功捕捉到每個目標(biāo)數(shù)據(jù)分布背后隱含的特征及關(guān)聯(lián)。
詳細(xì)來說,在初始實(shí)驗中,研究團(tuán)隊針對手寫數(shù)字和時尚產(chǎn)品圖像的生成分別訓(xùn)練了兩個不同模型,這兩個模型分別遵循 MNIST 數(shù)據(jù)集和 Fashion-MNIST 數(shù)據(jù)集的數(shù)據(jù)分布。下圖 c 展示了這兩個模型的實(shí)驗結(jié)果:在 MNIST 數(shù)據(jù)集上,模型取得的弗雷歇初始距離(FID,F(xiàn)réchet inception Distance)得分為 131.08;在 Fashion-MNIST 數(shù)據(jù)集上,模型取得的 FID 得分為 180.57。模型能夠成功生成符合這兩種目標(biāo)數(shù)據(jù)分布的圖像,這凸顯了所設(shè)計系統(tǒng)的多功能性,進(jìn)一步驗證了光學(xué)生成模型的可行性。需要說明的是,整體推理時間受到空間光調(diào)制器加載時間的限制,這時使用速度更快的相位光調(diào)制器或幀率超過 1 千赫茲(kHz)的空間光調(diào)制器,可以將這一加載時間降至最低。
圖 | 光學(xué)生成模型的示意圖(來源:Nature)
為了進(jìn)一步探究快照式光學(xué)生成模型的潛在空間,研究團(tuán)隊還開展了實(shí)驗,探究了隨機(jī)噪聲輸入與生成圖像之間的關(guān)系。
與此同時,他們還利用受限光學(xué)裝置,在有限相位編碼空間和有限解碼器位深條件下,對快照式光學(xué)圖像生成進(jìn)行了實(shí)驗評估。具體來說,其利用上圖所示的同一裝置,生成了更高分辨率的梵高風(fēng)格藝術(shù)品圖像。通過將數(shù)字編碼器與聯(lián)合訓(xùn)練的衍射解碼器配對,驗證了梵高風(fēng)格藝術(shù)品快照式單色圖像的生成。對比結(jié)果顯示,在采用相同數(shù)字編碼器架構(gòu)的情況下,衍射解碼器的性能優(yōu)于基于自由空間的圖像解碼。
值得注意的是,在某些情況下,基于自由空間的解碼會完全失效,其“對比語言-圖像預(yù)訓(xùn)練(CLIP,Contrastive Language–Image Pre-training Score)”得分低于 10–15;而衍射解碼器則能實(shí)現(xiàn)穩(wěn)定的圖像生成,且輸出圖像質(zhì)量顯著更優(yōu)。和預(yù)期一樣的是,當(dāng)研究團(tuán)隊增大空間光調(diào)制器到解碼器的距離以匹配實(shí)驗條件時,觀察到圖像分辨率因數(shù)值孔徑相關(guān)因素出現(xiàn)輕微下降。但是,與基于自由空間的解碼相比,基于衍射解碼器的方法仍能保持穩(wěn)定的圖像生成。而盡管采用相同的數(shù)字編碼器架構(gòu),基于自由空間的解碼在多種情況下仍無法實(shí)現(xiàn)圖像生成。
通過進(jìn)一步增加數(shù)字編碼器的參數(shù)數(shù)量,研究團(tuán)隊提升了快照式生成的梵高風(fēng)格光學(xué)生成圖像的分辨率與質(zhì)量。下圖展示了研究團(tuán)隊使用含 5.8 億參數(shù)的數(shù)字編碼器生成更高分辨率單色及彩色圖像的實(shí)驗結(jié)果。
(來源:Nature)
據(jù)介紹,梵高風(fēng)格藝術(shù)品的單色圖像是在 520 納米波長光照下生成的,而彩色圖像則針對藍(lán)、綠、紅三個通道,分別采用了 450 納米、520 納米、638 納米的連續(xù)波長光照。在下圖中,左側(cè)三列結(jié)果顯示:光學(xué)生成模型單次生成的快照圖像,與數(shù)字?jǐn)U散模型(即含 10.7 億可訓(xùn)練參數(shù)、單幅圖像需 1000 步推理的教師模型)生成的圖像高度相似,這表明本次模型的圖像生成過程與教師擴(kuò)散模型具有一致性。相反的是,上圖橙色方框內(nèi)突出顯示的右側(cè)三列結(jié)果,則展現(xiàn)了光學(xué)模型生成多樣化圖像的能力,這些圖像與教師數(shù)字?jǐn)U散模型生成的圖像存在差異,體現(xiàn)了其輸出端的創(chuàng)造性多樣性。
在生成彩色梵高風(fēng)格藝術(shù)品時,研究人員先是生成各波長通道的相位編碼生成種子圖案,再將這些圖案依次加載到空間光調(diào)制器上。在對應(yīng)波長的光照下,多色圖像通過固定衍射解碼器生成,并以數(shù)字方式進(jìn)行融合。換言之,所有圖像生成過程中,所有照明波長共用同一解碼器狀態(tài)。下圖展示了彩色梵高風(fēng)格藝術(shù)品的生成結(jié)果,其中既包含與教師數(shù)字?jǐn)U散模型(含 10.7 億個可訓(xùn)練參數(shù),生成單幅圖像需 1000 步推理)輸出匹配的藝術(shù)作品實(shí)例,也包含與之存在差異的實(shí)例。盡管觀察到輕微的色差,但生成的高分辨率彩色圖像仍保持了較高質(zhì)量。
(來源:Nature)
基于本次研究提出的方法,還可以設(shè)計空間和光譜多路復(fù)用光學(xué)生成模型,從而在不同空間與光譜通道中并行生成多幅獨(dú)立圖像。與此同時,基于光學(xué)生成模型在能效、可擴(kuò)展性及靈活性方面的優(yōu)勢,將能為各類 AI 相關(guān)應(yīng)用例如 AI 生成內(nèi)容、圖像與視頻處理及合成等提供極具潛力的解決方案。
光學(xué)和 AI 的奇妙結(jié)合
如前所述,陳世锜目前是美國加州大學(xué)洛杉磯分校的博士后研究員。2022 年,當(dāng)他還在浙江大學(xué)讀博時,其和當(dāng)時所在團(tuán)隊首次在大規(guī)模制造的系統(tǒng)中全部實(shí)現(xiàn)了接近衍射極限的像質(zhì)提升,成果在國內(nèi)頂級公司的旗艦產(chǎn)品中落地應(yīng)用,并在多款手機(jī)上得到廣泛應(yīng)用,相關(guān)論文發(fā)表于IEEE Transactions on Pattern Analysis and Machine Intelligence等期刊。
浙江大學(xué)官網(wǎng)顯示,陳世锜讀博時所在的馮華君教授、徐之海教授課題組自 2014 年起長期與國內(nèi)手機(jī)公司合作開展了多項智能手機(jī)圖像處理技術(shù)研究。如今,陳世锜在博士后期間又發(fā)表了這樣一篇應(yīng)用性極強(qiáng)的Nature論文。未來,他將選擇進(jìn)入學(xué)界還是業(yè)界,或許不久即將揭曉答案。
參考資料:
https://tangeego.github.io/
http://opt.zju.edu.cn/2022/0912/c72718a2735738/page.htm
Chen, S., Li, Y., Wang, Y. et al. Optical generative models.Nature644, 903–911 (2025). https://doi.org/10.1038/s41586-025-09446-5
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.