本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自spectrum.ieee
初創(chuàng)公司計(jì)劃通過將熱量轉(zhuǎn)化為光來冷卻數(shù)據(jù)中心。
現(xiàn)代高性能芯片絕對(duì)稱得上是工程界的奇跡,一塊小小的芯片里就包含了數(shù)百億個(gè)晶體管。可問題在于,你沒辦法把這些晶體管同時(shí)投入使用。要是強(qiáng)行同時(shí)啟用,芯片上就會(huì)出現(xiàn)“熱點(diǎn)”——也就是熱量集中在一小塊區(qū)域的情況,而且這些區(qū)域的功率密度能接近太陽表面的功率密度。
這一現(xiàn)象直接導(dǎo)致了一個(gè)讓人頭疼的“悖論”,計(jì)算機(jī)架構(gòu)師給它起了個(gè)名字叫“暗硅”。簡單來說,“暗硅” 就是芯片里那些為了防止芯片因過熱而損壞,必須一直處于斷電狀態(tài)的部分,并且隨著芯片技術(shù)的發(fā)展,這部分的占比還在不斷增加。現(xiàn)在的芯片,竟然有高達(dá)80% 的晶體管得隨時(shí)保持“休眠”狀態(tài),就怕芯片因?yàn)檫^熱而出現(xiàn)故障。咱們明明在一小塊硅片上造出了堪比超級(jí)計(jì)算機(jī)的設(shè)備,卻只能用到它一小部分的性能,這就好比蓋了一座摩天大樓,結(jié)果卻只能用最下面的10 層,實(shí)在是可惜。
這些年來,行業(yè)里一直在想辦法應(yīng)對(duì)芯片的熱極限問題,比如用更大的風(fēng)扇,或者研發(fā)更復(fù)雜的液體冷卻系統(tǒng)。但說實(shí)在的,這些辦法都只是“治標(biāo)不治本”的權(quán)宜之計(jì)。不管是靠空氣散熱,還是靠液體散熱,它們的核心思路都是把熱量從芯片表面導(dǎo)走。可問題是,熱量得先通過芯片的硅材料傳導(dǎo)到冷卻板上,這個(gè)過程中就形成了一個(gè)“熱瓶頸”。而且隨著未來芯片功率密度的不斷提升,這個(gè)熱瓶頸根本沒辦法突破?,F(xiàn)在芯片上的熱點(diǎn),每平方毫米就能產(chǎn)生幾十瓦的熱量,更麻煩的是,這些熱點(diǎn)還會(huì)在計(jì)算過程中,隨著時(shí)間的推移出現(xiàn)在芯片不同的位置。
不管是空氣冷卻還是液體冷卻,都很難精準(zhǔn)地針對(duì)這些隨時(shí)可能出現(xiàn)、位置還不固定的熱點(diǎn)進(jìn)行散熱,它們能做到的只是給整個(gè)芯片進(jìn)行整體降溫,效果自然大打折扣。
不過,現(xiàn)在有了新的解決方案。位于美國明尼蘇達(dá)州圣保羅市的初創(chuàng)公司Maxwell Labs,提出了一種全新的芯片冷卻思路:要是Maxwell Labs不只是簡單地轉(zhuǎn)移熱量,而是能讓熱量直接 “消失”,那會(huì)怎么樣呢?基于這個(gè)想法,Maxwell Labs研發(fā)出了“光子冷卻”技術(shù)。這項(xiàng)技術(shù)能直接把芯片產(chǎn)生的熱量轉(zhuǎn)化成光能,從芯片內(nèi)部到外部,全方位地給芯片降溫。更厲害的是,轉(zhuǎn)化出來的光能還能被回收利用,進(jìn)一步轉(zhuǎn)化成可用的電能,實(shí)現(xiàn)了能源的循環(huán)利用。
采用這種光子冷卻技術(shù),不用再費(fèi)力地給整個(gè)芯片進(jìn)行均勻降溫,而是能像用激光瞄準(zhǔn)目標(biāo)一樣,以極高的精度對(duì)準(zhǔn)那些剛形成的熱點(diǎn)進(jìn)行精準(zhǔn)散熱。從根本上來說,這項(xiàng)技術(shù)的散熱能力遠(yuǎn)超傳統(tǒng)方式,它能應(yīng)對(duì)每平方毫米產(chǎn)生數(shù)千瓦熱量的熱點(diǎn),相比現(xiàn)在主流的芯片冷卻方式,散熱效果一下子提升了好幾個(gè)數(shù)量級(jí),為未來高性能芯片的發(fā)展掃清了熱極限這一關(guān)鍵障礙。
光冷卻的物理學(xué)
激光通常被認(rèn)為是熱源,這并非毫無道理——它們最常用于切割材料或傳輸數(shù)據(jù)。但在適當(dāng)?shù)臈l件下,激光可以誘導(dǎo)冷卻。其秘密在于一種名為熒光的發(fā)光過程。
熒光是熒光筆、珊瑚礁和白色衣物在黑光照射下發(fā)出的常見光芒背后的現(xiàn)象。這些材料吸收高能光(通常是紫外線),然后重新發(fā)射能量較低的光(通常是可見光譜)。由于它們吸收的能量高于發(fā)射的能量,這種能量差異通常會(huì)導(dǎo)致材料升溫。然而,在某些非常特殊的條件下,可能會(huì)發(fā)生相反的情況:一種材料可以吸收低能光子,然后發(fā)射高能光,并在此過程中冷卻下來。
再發(fā)射的能量更高,因?yàn)樗鼘⑷肷涔庾拥哪芰颗c聲子(材料晶格中的振動(dòng))結(jié)合在一起。這種現(xiàn)象被稱為反斯托克斯冷卻,早在1995年,一組科學(xué)家就首次在固體中證明了這一現(xiàn)象,當(dāng)時(shí)他們用激光冷卻了一個(gè)摻鐿的氟化物玻璃樣品。
選擇鐿作為摻雜劑并非偶然:反斯托克斯冷卻只有在精心設(shè)計(jì)的條件下才能發(fā)揮作用。吸收材料的結(jié)構(gòu)必須能夠確保幾乎每個(gè)被吸收的光子都會(huì)發(fā)射出一個(gè)能量更高的光子。否則,其他機(jī)制就會(huì)發(fā)揮作用,加熱而不是冷卻樣品。鐿和其他鑭系元素的離子具有合適的電子軌道結(jié)構(gòu),可以促進(jìn)這一過程。當(dāng)照射在材料上的窄波長激光照射時(shí),離子可以有效吸收入射光,并利用聲子觸發(fā)發(fā)射出能量更高的光。這些重新發(fā)射的熱光需要足夠快地逸出材料,以免再次被吸收,否則會(huì)導(dǎo)致加熱。
迄今為止,實(shí)驗(yàn)室方法已在摻鐿石英玻璃中實(shí)現(xiàn)了高達(dá)90瓦的冷卻功率。盡管這令人印象深刻,但為了實(shí)現(xiàn)Maxwell Labs預(yù)期的對(duì)高性能芯片的變革性影響,Maxwell Labs需要將冷卻能力提高許多個(gè)數(shù)量級(jí)。要實(shí)現(xiàn)這一目標(biāo),需要將光子冷卻機(jī)制集成到薄膜芯片級(jí)光子冷板上。小型化不僅可以通過緊密聚焦的光束實(shí)現(xiàn)更精確的熱點(diǎn)空間定位,而且是推動(dòng)激光冷卻物理學(xué)向高功率和高效率方向發(fā)展的關(guān)鍵因素。更薄的層也使得光在離開薄膜之前被重新吸收的可能性更小,從而避免了加熱。并且,通過在光波長尺度上設(shè)計(jì)材料,可以增加對(duì)入射激光束的吸收。
光子冷板技術(shù)
在實(shí)驗(yàn)室中,Maxwell Labs正在開發(fā)一種利用光子冷卻技術(shù)來解決當(dāng)前和未來CPU和GPU產(chǎn)生的熱量問題的方法。Maxwell Labs的光子冷板旨在感知功率密度不斷增加的區(qū)域(新興熱點(diǎn)),然后將光高效地耦合到附近的區(qū)域,從而將熱點(diǎn)冷卻至目標(biāo)溫度。
光子冷板有幾個(gè)組件:首先是耦合器,它將入射的激光耦合到其他組件中;然后是微制冷區(qū)域,冷卻實(shí)際發(fā)生在這里;接下來是背反射器,它可以防止光直接照射到CPU 或 GPU 上;最后是傳感器,它可以檢測熱點(diǎn)的形成。
激光從上方通過耦合器照射到目標(biāo)區(qū)域:耦合器是一種透鏡,將入射激光聚焦到微制冷區(qū)域。耦合器同時(shí)將入射的載熱熒光引導(dǎo)出芯片。微制冷區(qū)域,Maxwell Labs稱之為提取器,是真正神奇之處發(fā)生的地方:特殊摻雜的薄膜發(fā)生反斯托克斯熒光。
為了防止入射的激光和熒光進(jìn)入實(shí)際芯片并加熱電子設(shè)備,光子冷板采用了背反射器。
至關(guān)重要的是,冷卻僅在激光照射到冷板時(shí)才會(huì)發(fā)生。通過選擇激光的照射位置,Maxwell Labs可以瞄準(zhǔn)芯片上出現(xiàn)的熱點(diǎn)。冷板包含一個(gè)熱傳感器,可以檢測熱點(diǎn),從而引導(dǎo)激光照射到熱點(diǎn)上。
設(shè)計(jì)整個(gè)堆棧是一個(gè)復(fù)雜且相互關(guān)聯(lián)的問題,涉及許多可調(diào)參數(shù),包括耦合器的精確形狀、提取區(qū)域的材料和摻雜水平,以及背反射器的厚度和層數(shù)。為了優(yōu)化冷板,Maxwell Labs部署了一個(gè)多物理場仿真模型,并結(jié)合逆向設(shè)計(jì)工具,以便Maxwell Labs搜索大量可能的參數(shù)。Maxwell Labs利用這些工具,希望將冷卻功率密度提高兩個(gè)數(shù)量級(jí),并且Maxwell Labs計(jì)劃進(jìn)行更大規(guī)模的仿真,以實(shí)現(xiàn)更大的改進(jìn)。
Maxwell Labs與新墨西哥大學(xué)、圣托馬斯大學(xué)以及桑迪亞國家實(shí)驗(yàn)室的合作伙伴攜手合作,在圣保羅的實(shí)驗(yàn)室中構(gòu)建一個(gè)光子冷卻的演示版本。Maxwell Labs正在組裝一系列小型光子冷板,每個(gè)冷板的尺寸為一平方毫米,平鋪在各種CPU上。為了演示,Maxwell Labs使用外部熱像儀來感應(yīng)來自芯片的熱點(diǎn)。當(dāng)熱點(diǎn)開始出現(xiàn)時(shí),Maxwell Labs會(huì)用激光照射到正上方的光子冷板上,提取其熱量。Maxwell Labs最初設(shè)計(jì)的冷板采用了鐿離子摻雜,但目前Maxwell Labs正在試驗(yàn)其他多種摻雜劑,Maxwell Labs相信這些摻雜劑將帶來更高的性能。
在即將推出的該演示的集成實(shí)現(xiàn)中,光子冷板將由更精細(xì)的“瓷磚”(tile)組成——尺寸約為 100 x 100 微米。與自由空間激光器不同,來自光纖的光將通過片上光子網(wǎng)絡(luò)路由到這些“瓷磚”。激光激活哪些“瓷磚”將取決于傳感器測量到的熱點(diǎn)形成位置和時(shí)間。
最終,Maxwell Labs希望與 CPU 和 GPU 制造商合作,將光子冷板與芯片本身集成在同一封裝內(nèi),從而使Maxwell Labs能夠?qū)㈥P(guān)鍵的提取層更靠近熱點(diǎn)并提高設(shè)備的冷卻能力。
激光冷卻芯片和數(shù)據(jù)中心
為了了解Maxwell Labs的光子冷卻技術(shù)對(duì)當(dāng)前和未來數(shù)據(jù)中心的影響,Maxwell Labs對(duì)激光冷卻的熱力學(xué)進(jìn)行了分析,并將其與空氣和液體冷卻方法進(jìn)行了比較。初步結(jié)果表明,即使是第一代激光冷卻裝置的功耗也是純空氣和液體冷卻系統(tǒng)的兩倍。冷卻能力的顯著提升將為未來的芯片和數(shù)據(jù)中心架構(gòu)帶來幾項(xiàng)關(guān)鍵變革。
首先,激光冷卻可以消除暗硅問題。通過在熱點(diǎn)形成過程中充分移除熱量,光子冷卻可以允許芯片上更多晶體管同時(shí)工作。這意味著芯片上的所有功能單元可以并行運(yùn)行,充分發(fā)揮現(xiàn)代晶體管密度的優(yōu)勢。
其次,激光冷卻技術(shù)可以實(shí)現(xiàn)比目前更高的時(shí)鐘頻率。由于這種冷卻技術(shù)瞄準(zhǔn)的是熱點(diǎn),因此可以將芯片各處的溫度保持在50°C以下。當(dāng)前一代芯片的熱點(diǎn)通常在90至120°C之間,而且預(yù)計(jì)情況只會(huì)越來越糟??朔@一瓶頸將允許在同一芯片上實(shí)現(xiàn)更高的時(shí)鐘頻率。這為在不直接增加晶體管密度的情況下提升芯片性能開辟了可能性,為摩爾定律的持續(xù)發(fā)展提供了亟需的空間。
麥克斯韋實(shí)驗(yàn)室的演示裝置展示了如何利用激光冷卻當(dāng)前的計(jì)算機(jī)芯片。芯片頂部放置了一塊光子冷板。熱像儀對(duì)來自芯片的熱點(diǎn)進(jìn)行成像,然后將激光照射到熱點(diǎn)正上方的光子冷板上。
第三,這項(xiàng)技術(shù)使3D集成的熱管理更加便捷。由于激光輔助冷卻能夠精確定位熱點(diǎn),因此它能夠更輕松地從3D堆疊中散熱,而這是當(dāng)今冷卻技術(shù)無法做到的。在3D集成堆疊的每一層上添加光子冷板,可以負(fù)責(zé)整個(gè)堆疊的冷卻,從而使3D芯片設(shè)計(jì)更加簡單。
第四,激光冷卻比空氣冷卻系統(tǒng)更高效。從熱點(diǎn)散熱帶來的更誘人的效果是,它能夠保持芯片溫度均勻,并大幅降低對(duì)流冷卻系統(tǒng)的總功耗。Maxwell Labs的計(jì)算表明,結(jié)合空氣冷卻,當(dāng)前一代芯片的總能耗可降低50% 以上,而未來芯片的節(jié)能效果將顯著提升。
此外,激光冷卻比空氣或液體冷卻能夠回收更高比例的廢能。在某些地區(qū)和氣候條件下,循環(huán)使用熱液體或熱空氣來加熱附近的房屋或其他設(shè)施是可行的,但這些方法的回收效率有限。而光子冷卻則可以將反斯托克斯熒光發(fā)出的光重新收集到光纖電纜中,然后通過熱光伏技術(shù)將其轉(zhuǎn)化為電能,從而實(shí)現(xiàn)高達(dá)60%的能量回收率。
憑借這種全新的冷卻方法,Maxwell Labs可以改寫芯片和數(shù)據(jù)中心的設(shè)計(jì)規(guī)則。Maxwell Labs相信,這或許能夠使摩爾定律得以延續(xù),并實(shí)現(xiàn)數(shù)據(jù)中心層面的節(jié)能,從而為Maxwell Labs今天即將見證的智能爆炸式增長開綠燈。
光子冷卻之路
盡管Maxwell Labs的研究成果前景光明,但在這項(xiàng)技術(shù)實(shí)現(xiàn)商業(yè)化之前,仍存在一些挑戰(zhàn)。Maxwell Labs目前用于光子冷板的材料已滿足基本要求,但持續(xù)開發(fā)更高效的激光冷卻材料將提升系統(tǒng)性能,并使其在經(jīng)濟(jì)上更具吸引力。迄今為止,只有少數(shù)材料經(jīng)過研究并達(dá)到足夠高的純度,可以實(shí)現(xiàn)激光冷卻。Maxwell Labs相信,在光學(xué)工程和薄膜材料加工技術(shù)的進(jìn)步的推動(dòng)下,光子冷板的小型化將對(duì)這項(xiàng)技術(shù)產(chǎn)生與晶體管、太陽能電池和激光器類似的變革性影響。
Maxwell Labs需要對(duì)處理器、封裝和冷卻系統(tǒng)進(jìn)行協(xié)同設(shè)計(jì),以實(shí)現(xiàn)效益最大化。這需要傳統(tǒng)上孤立的半導(dǎo)體生態(tài)系統(tǒng)之間的密切合作。Maxwell Labs正在與行業(yè)合作伙伴合作,努力促進(jìn)這一協(xié)同設(shè)計(jì)流程。
從實(shí)驗(yàn)室設(shè)備過渡到大規(guī)模商業(yè)化生產(chǎn),需要Maxwell Labs開發(fā)高效的工藝流程和專用設(shè)備。全行業(yè)采用該技術(shù)需要制定新的光學(xué)接口、安全協(xié)議和性能指標(biāo)標(biāo)準(zhǔn)。
盡管還有很多工作要做,但Maxwell Labs認(rèn)為光子冷卻技術(shù)的大規(guī)模應(yīng)用目前尚未遇到任何根本性障礙。根據(jù)Maxwell Labs目前的愿景,Maxwell Labs預(yù)計(jì)該技術(shù)將在2027年之前在高性能計(jì)算和人工智能訓(xùn)練集群中得到早期應(yīng)用,冷卻性能將實(shí)現(xiàn)數(shù)量級(jí)的提升。之后,在2028年至2030年之間,Maxwell Labs希望看到該技術(shù)在主流數(shù)據(jù)中心的部署,同時(shí)IT能耗降低40%,計(jì)算能力翻倍。最后,Maxwell Labs預(yù)計(jì)在2030年之后,從超大規(guī)模到邊緣的無處不在的部署將催生新的計(jì)算范式,這些范式將不再受熱性能的限制,而僅受算法效率的限制。
二十多年來,半導(dǎo)體行業(yè)一直在努力應(yīng)對(duì)“暗硅”的威脅。光子冷卻不僅提供了應(yīng)對(duì)這一挑戰(zhàn)的解決方案,還從根本上重塑了性能、計(jì)算和能量之間的關(guān)系。通過將廢熱直接轉(zhuǎn)化為有用的光子,并最終轉(zhuǎn)化為電能,這項(xiàng)技術(shù)將熱管理從“必要之惡”轉(zhuǎn)變?yōu)閷氋F的資源。
計(jì)算的未來是光子的、高效的、極其酷炫的。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個(gè)人觀點(diǎn),我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請(qǐng)聯(lián)系后臺(tái)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.