最近,美國加州大學(xué)伯克利分校陳在俊助理教授團隊與合作者基于超多路復(fù)用集成光子學(xué),開發(fā)了一種光學(xué)張量處理器(HITOP,Hypermultiplexed Integrated Tensor Optical Processor),運算速度達每秒數(shù)萬億次,吞吐量達 0.98TOPS,可應(yīng)對多數(shù) AI 應(yīng)用需求。
這一架構(gòu)的核心創(chuàng)新在于其獨特的空間、時間和波長三維光學(xué)并行計算策略:通過在時間域和波長域同時復(fù)用計算任務(wù),HITOP 僅需 O(N)個片上電光調(diào)制器即可實現(xiàn) O(N2)級別的計算吞吐量,從而在硬件資源利用效率上實現(xiàn)了質(zhì)的飛躍。與傳統(tǒng)電子計算架構(gòu)相比,HITOP 展現(xiàn)出顯著的能效優(yōu)勢,其單位操作能耗可降低超過 100 倍。
值得注意的是,HITOP 通過引入時間積分器這一創(chuàng)新設(shè)計,巧妙地規(guī)避了傳統(tǒng)光學(xué)計算系統(tǒng)對高速高精度模數(shù)轉(zhuǎn)換器(ADC,analog-to-digital converters)的依賴。這一設(shè)計不僅大幅簡化了輸出電路結(jié)構(gòu),還顯著降低了系統(tǒng)整體能耗,解決了長期制約光學(xué)計算系統(tǒng)性能的關(guān)鍵瓶頸問題。
圖丨陳在俊團隊(來源:陳在俊)
從實現(xiàn)的性能方面來看,該系統(tǒng)在 10GS/s 的高數(shù)據(jù)速率下仍能保持 5-6 位的計算精度(計算誤差約 2.9%),可滿足圖像識別等多數(shù) AI 任務(wù)對大規(guī)模矩陣運算的需求。實測數(shù)據(jù)顯示,HITOP 在處理大規(guī)模矩陣運算時的單位操作能耗僅為 18 飛焦耳,這一數(shù)值比當(dāng)前先進的電子計算系統(tǒng)(如 NVIDIA H100 GPU)低一個數(shù)量級以上。
此外,HITOP 的芯片面積效率達到 17.5GOPS/mm2,意味著在相同芯片面積下可完成更多計算任務(wù),顯著提升了硬件資源利用率。這項研究不僅解決了光學(xué)計算系統(tǒng)的可擴展性問題,更為 AI 和高性能計算領(lǐng)域提供了一種極具潛力的全新硬件實現(xiàn)方案。
日前,相關(guān)論文以《基于光子學(xué)的超多路復(fù)用集成光學(xué)張量處理器》(Hypermultiplexed integrated photonics–based optical tensor processor)為題發(fā)表在Science Advances[1]。美國南加州大學(xué)碩士畢業(yè)生歐紹源、加州大學(xué)伯克利分校博士生薛凱文是主要作者,陳在俊擔(dān)任通訊作者。
圖丨相關(guān)論文(來源:Science Advances)
多維信號處理機制:將乘法運算從“矩陣與向量”升級為“矩陣與矩陣”
傳統(tǒng)電子計算硬件(如 GPU、TPU)在處理大規(guī)模 AI 模型時,正面臨能耗高、計算效率低的突出瓶頸。這一問題的根源在于電子架構(gòu)的物理限制:電信號在銅線中傳輸時會因電阻產(chǎn)生顯著損耗,同時電子器件的時鐘頻率提升空間有限,導(dǎo)致數(shù)據(jù)吞吐量受限。
若以交通系統(tǒng)作類比,傳統(tǒng)電子架構(gòu)就像平面交叉的單車道道路,數(shù)據(jù)信號如同密集的車流,極易因帶寬不足而引發(fā)“擁堵”。相比之下,光子計算則展現(xiàn)出顯著優(yōu)勢——其利用光波導(dǎo)傳輸信號,不僅避免了電阻損耗,還能通過多波長復(fù)用實現(xiàn)并行光路,如同立體交通樞紐中的多層立交橋,可同時容納更多“車輛”高速通行。
光學(xué)模擬計算的研究淵源可追溯至 20 世紀中葉,當(dāng)時已有科學(xué)家提出利用空間光路構(gòu)建傅里葉變換計算器的方案。然而,受限于早期光學(xué)器件的集成度與調(diào)控精度,該技術(shù)長期未能實現(xiàn)規(guī)模化應(yīng)用。直至近年,隨著集成光子學(xué)技術(shù)的突破性進展,與此同時,摩爾定律在電子器件領(lǐng)域逐漸逼近物理極限,光子計算才因其低能耗、高吞吐的特性重獲學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。
近年來,眾多高校和研究機構(gòu)陸續(xù)提出了多種光學(xué)計算架構(gòu),并在機器學(xué)習(xí)、圖形處理等領(lǐng)域展示了其大規(guī)模部署的可行性。然而,隨著系統(tǒng)中光學(xué)調(diào)制器數(shù)量的急劇增加,微納加工技術(shù)面臨巨大挑戰(zhàn),同時光學(xué)損耗也限制了波導(dǎo)路徑的可擴展性。
更深層次的矛盾存在于系統(tǒng)級優(yōu)化層面。雖然電光調(diào)制器已能實現(xiàn)皮秒級響應(yīng)速度,但后端 ADC 的性能卻成為整體算力的短板?,F(xiàn)有技術(shù)中,維持高采樣率與高量化精度的 ADC 往往需消耗數(shù)十皮焦每轉(zhuǎn)換步的能耗,這與光計算單元飛焦級每操作的能耗形成巨大落差,導(dǎo)致系統(tǒng)能效優(yōu)勢被部分抵消。
此外,當(dāng)前多數(shù)光計算架構(gòu)仍模仿電子計算的“存內(nèi)計算”范式,卻忽略了二者在物理尺度上的本質(zhì)差異:光學(xué)器件因受限于衍射極限,功能單元尺寸通常在百微米至毫米量級,而現(xiàn)代電子晶體管已縮至納米尺度。這種數(shù)量級的尺寸差異使得光學(xué)系統(tǒng)在集成密度上難以與電子芯片抗衡,也暴露出光子計算在有效縮放路線上的核心挑戰(zhàn)。
圖丨 HITOP 概念示意圖(來源:Science Advances)
針對上述瓶頸,研究團隊提出了全新的光計算芯片架構(gòu),其核心創(chuàng)新體現(xiàn)在系統(tǒng)架構(gòu)設(shè)計層面。他們提出了“時間維度承載計算”的新范式:首先將數(shù)據(jù)編碼在時間序列上,再以時間維度作為橋梁,與波長維度和空間維度實現(xiàn)協(xié)同計算。通過多維度協(xié)同計算策略,為光學(xué)模擬計算提供了一種新的解決思路。
其突破在于:傳統(tǒng)光學(xué)計算實現(xiàn) 1000×1000 矩陣運算需要 100 萬個調(diào)制器(O(N2)規(guī)模),而 HITOP 架構(gòu)僅需 1000-2000 個調(diào)制器(O(N)規(guī)模),這相當(dāng)于將硬件復(fù)雜度降低了三個數(shù)量級。
這種多維信號處理機制使得系統(tǒng)能夠直接完成矩陣與矩陣的乘法運算,而傳統(tǒng)電子芯片通常僅能實現(xiàn)矩陣與向量的乘法運算。陳在俊對 DeepTech 表示:“這種突破性的計算能力源于光信號在時間、波長和空間三個維度的并行處理特性,這是電子計算架構(gòu)難以實現(xiàn)的獨特優(yōu)勢?!?/p>
圖丨 HITOP 芯片架構(gòu)(來源:Science Advances)
在材料選擇方面,研究團隊與加州大學(xué)伯克利分校喻夢潔助理教授、香港城市大學(xué)王騁副教授實驗室合作,采用了具有優(yōu)異電光特性的薄膜鈮酸鋰(TFLN,Thin-Film Lithium Niobate)作為光學(xué)計算平臺。該材料具備優(yōu)異的電光特性,其較低的半波電壓(Vπ)顯著降低了電光轉(zhuǎn)換過程中的能耗,為實現(xiàn)高效、低功耗的光學(xué)計算系統(tǒng)提供了基礎(chǔ)。
應(yīng)用場景:從數(shù)據(jù)中心模型訓(xùn)練到終端設(shè)備模型部署
陳在俊在德國馬克斯普朗克量子光學(xué)研究所和德國慕尼黑大學(xué)獲得博士學(xué)位,導(dǎo)師為諾貝爾物理學(xué)獎獲得者特奧多爾·W·亨施(Theodor W. H?nsch),之后分別在馬克斯普朗克量子光學(xué)研究所和美國麻省理工學(xué)院迪爾克·英格倫(Dirk Englund)教授團隊從事博士后研究工作(DeepTech 此前報道:MIT團隊開發(fā)新型AI光子計算芯片,實現(xiàn)計算效率提高100倍)。
目前,陳在俊在加州大學(xué)伯克利分校成立了獨立實驗室,其研究方向主要聚焦于光計算技術(shù)及其應(yīng)用的創(chuàng)新,研究內(nèi)容涵蓋量子光學(xué)、壓縮態(tài)光子學(xué)和光學(xué)傳感技術(shù)等多個前沿領(lǐng)域。
近期,團隊正在開展存算一體化的新型光學(xué)傳感器方向研究,并探索量子增強傳感技術(shù)在自動駕駛等實際場景中的應(yīng)用。此外,團隊還致力于將人工智能與量子光學(xué)方法相結(jié)合,以實現(xiàn)分子和原子尺度的高精度測量。
該研究歷時兩年,始于陳在俊實驗室剛成立之際。研究的核心挑戰(zhàn)主要集中在如何確保長時間、高速光學(xué)計算過程中的測量精度與系統(tǒng)穩(wěn)定性。
在軟件架構(gòu)層面,研究團隊采用任意波形發(fā)生器對光學(xué)系統(tǒng)作為精確控制核心,通過高精度時序同步實現(xiàn)光學(xué)計算單元的數(shù)據(jù)采集與處理,并與計算機系統(tǒng)協(xié)同工作,成功實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)的運行。
在硬件測量方面,III/V 族半導(dǎo)體垂直腔面發(fā)射激光器(VCSEL,vertical-cavity surface-emitting laser)與薄膜鈮酸鋰集成芯片之間的時序校準問題尤為關(guān)鍵,對實現(xiàn)高速測量的計算精度提出了嚴峻挑戰(zhàn)。
從計算原理來看,矩陣乘法運算(N×N 矩陣乘以 N×N 矩陣)的本質(zhì)是,要求第一個矩陣中的所有行向量都必須與第二個矩陣中的所有列向量完成點積運算。
在這個過程中,光學(xué)計算的獨特優(yōu)勢得以充分展現(xiàn):系統(tǒng)可以在計算框架內(nèi)實現(xiàn)天然的并行運算,并通過波長復(fù)用技術(shù)將不同計算任務(wù)在光學(xué)域進行有效分離。例如,當(dāng)一個向量(維度為 1×N)乘以一個矩陣(維度為 N×N)時,傳統(tǒng)電子計算需要將該向量復(fù)制 N 次,然后分別與矩陣的每一列進行運算。
雖然從數(shù)學(xué)表達式看這個過程相對簡單,但在硬件實現(xiàn)層面卻異常復(fù)雜。研究團隊通過光學(xué)手段巧妙地解決了這一難題——利用光的波動特性自然地完成向量復(fù)制過程,這種基于波場的并行數(shù)據(jù)傳輸機制是電子計算難以達到的。
此外,他們所使用的計算元件都非常簡單。陳在俊解釋說道:“我們最終的目標是從簡單的計算單元開發(fā)出高算力、低能耗的光學(xué)計算系統(tǒng),解決光學(xué)可擴展性。”
因此,他們選擇從最基礎(chǔ)的光學(xué)組件著手來構(gòu)建系統(tǒng)。例如,僅需讓激光束依次通過兩個調(diào)制器就能實現(xiàn)乘法運算:第一個調(diào)制器完成 A 系數(shù)調(diào)制,第二個完成 B 系數(shù)調(diào)制,經(jīng)過兩次調(diào)制后的輸出光強即對應(yīng) A×B 的結(jié)果。通過這種簡潔而高效的乘法單元,研究團隊成功構(gòu)建起三維計算架構(gòu),并利用光學(xué)復(fù)制原理實現(xiàn)了前所未有的計算效率。
圖丨 HITOP 實驗裝置與器件平臺(來源:Science Advances)
在應(yīng)用前景方面,這項技術(shù)直指當(dāng)前 AI 算力發(fā)展的核心瓶頸,其應(yīng)用場景涵蓋從數(shù)據(jù)中心模型訓(xùn)練、邊緣實時決策、終端設(shè)備模型部署、氣候模擬等場景。以自動駕駛為例,現(xiàn)代智能汽車通常搭載多個計算芯片,其中 30-40% 的整車能耗都消耗在計算任務(wù)上。這種低能耗、高算力的光學(xué)計算技術(shù)有望顯著提升終端設(shè)備的能效比。
實際上,AI 的發(fā)展水平在很大程度上受限于芯片性能,而光學(xué)計算的突破可能徹底改變這一局面。當(dāng)算力得到質(zhì)的提升后,此前受限于能耗和芯片效率的諸多技術(shù)瓶頸有望迎刃而解,更大規(guī)模的模型訓(xùn)練將成為可能。
該研究中的實驗數(shù)據(jù)顯示,HITOP 系統(tǒng)在圖像分類任務(wù)中表現(xiàn)出色,而所需的模型參數(shù)量僅約 40 萬。其中,在單層網(wǎng)絡(luò)(28×28→10)架構(gòu)下,78.4ns 內(nèi)完成圖像處理,分類準確率達 97%;在更復(fù)雜的三層網(wǎng)絡(luò)(28×28→100→10)Fashion MNIST 分類中,準確率保持 91.8%。
這自然引出一個關(guān)鍵問題:該技術(shù)能否支撐 GPT 級別的超大規(guī)模模型訓(xùn)練?陳在俊指出,當(dāng)系統(tǒng)規(guī)模擴展到 300×300 通道時,單個光學(xué)芯片的計算能力將相當(dāng)于多個 GPU 的并行組合,屆時完全具備訓(xùn)練大模型的硬件條件。
盡管當(dāng)前的原型系統(tǒng)規(guī)模有限,但技術(shù)路線已經(jīng)展現(xiàn)出巨大的發(fā)展?jié)摿?。特別值得一提的是,在實時性要求極高的自動駕駛場景中,現(xiàn)有系統(tǒng)需要 1 毫秒的反應(yīng)時間,而 HITOP 已實現(xiàn) 100 納秒的極低延遲。可以預(yù)見,隨著系統(tǒng)規(guī)模的持續(xù)擴大,這項技術(shù)可能在自動駕駛等對實時性和能效要求嚴苛的領(lǐng)域發(fā)揮重要作用。
(來源:Science Advances)
現(xiàn)在,陳在俊正帶領(lǐng)團隊重點攻克光計算系統(tǒng)的相關(guān)技術(shù)難題并推進工程化。其首要目標是提升激光器的波長穩(wěn)定性,通過優(yōu)化系統(tǒng)架構(gòu)將計算規(guī)模擴展到 300×300,同時增加波長和通道數(shù)量。盡管現(xiàn)有的硅光技術(shù)理論上支持這一規(guī)模,但在實際實現(xiàn)過程中仍面臨諸多技術(shù)挑戰(zhàn)。
他表示:“實現(xiàn) 300×300 的系統(tǒng)規(guī)模后,計算能力預(yù)計將達到 4000TOPS(每秒 4000 萬億次運算),這一性能將顯著超越當(dāng)前主流的 NVIDIA GB200?!彪S著先進封裝工藝的持續(xù)發(fā)展和系統(tǒng)集成度的不斷提高,時序校準等關(guān)鍵技術(shù)難題將逐步得到解決,進而為光學(xué)計算系統(tǒng)的大規(guī)模商業(yè)化應(yīng)用奠定堅實基礎(chǔ)。
參考資料:
1.Ou,S. et al. Hypermultiplexed integrated photonics–based optical
tensor processor.Science Advances11, eadu0228(2025). https://www.science.org/doi/10.1126/sciadv.adu0228
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.