過去幾十年,計(jì)算性能和效率取得了難以想象的進(jìn)步,這得益于摩爾定律,并以橫向擴(kuò)展的通用硬件和松散耦合的軟件為基礎(chǔ)。這種架構(gòu)為全球數(shù)十億用戶提供了在線服務(wù),讓我們幾乎可以觸及人類所有的知識(shí)。
但下一次計(jì)算革命將需要更多。要實(shí)現(xiàn)AI的承諾,需要在能力上實(shí)現(xiàn)遠(yuǎn)超互聯(lián)網(wǎng)時(shí)代進(jìn)步的躍遷。為了實(shí)現(xiàn)這一目標(biāo),我們整個(gè)行業(yè)必須重新審視推動(dòng)前一次變革的一些基礎(chǔ),并集體創(chuàng)新,重新思考整個(gè)技術(shù)棧。讓我們探討推動(dòng)這一變革的力量,并闡述這種架構(gòu)應(yīng)該是什么樣子。
從通用硬件到專用計(jì)算
幾十年來,計(jì)算領(lǐng)域的主導(dǎo)趨勢(shì)是通過建立在幾乎相同的通用服務(wù)器上的橫向擴(kuò)展架構(gòu)來實(shí)現(xiàn)計(jì)算的民主化。這種統(tǒng)一性允許靈活的工作負(fù)載部署和高效的資源利用。生成式AI的需求嚴(yán)重依賴于對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行可預(yù)測(cè)的數(shù)學(xué)運(yùn)算,這正在逆轉(zhuǎn)這一趨勢(shì)。
我們現(xiàn)在正目睹向?qū)S糜布臎Q定性轉(zhuǎn)變——包括ASIC、GPU和張量處理單元(TPU)——與通用CPU相比,在每美元和每瓦特的性能上提供了數(shù)量級(jí)的改進(jìn)。這種針對(duì)特定領(lǐng)域的計(jì)算單元的激增,為更窄的任務(wù)進(jìn)行了優(yōu)化,對(duì)于推動(dòng)AI的持續(xù)快速進(jìn)步至關(guān)重要。
超越以太網(wǎng):專用互連的興起
這些專用系統(tǒng)通常需要"全對(duì)全"通信,具有接近本地內(nèi)存速度的每秒太比特帶寬和納秒級(jí)延遲。當(dāng)今的網(wǎng)絡(luò)主要基于通用以太網(wǎng)交換機(jī)和TCP/IP協(xié)議,無法處理這些極端需求。
因此,為了在大規(guī)模專用加速器集群中擴(kuò)展生成式AI工作負(fù)載,我們看到了專用互連的興起,例如用于TPU的ICI和用于GPU的NVLink。這些專門設(shè)計(jì)的網(wǎng)絡(luò)優(yōu)先考慮直接的內(nèi)存到內(nèi)存?zhèn)鬏?,并使用專用硬件來加速處理器之間的信息共享,有效繞過了傳統(tǒng)分層網(wǎng)絡(luò)棧的開銷。
這種向緊密集成、以計(jì)算為中心的網(wǎng)絡(luò)的轉(zhuǎn)變,對(duì)于克服通信瓶頸和高效擴(kuò)展下一代AI至關(guān)重要。
突破內(nèi)存墻
幾十年來,計(jì)算性能的增長(zhǎng)超過了內(nèi)存帶寬的增長(zhǎng)。雖然緩存和堆疊SRAM等技術(shù)部分緩解了這個(gè)問題,但AI的數(shù)據(jù)密集特性只會(huì)加劇這個(gè)問題。
為滿足日益強(qiáng)大的計(jì)算單元的無止境需求,出現(xiàn)了高帶寬內(nèi)存(HBM),它將DRAM直接堆疊在處理器封裝上,以提高帶寬并減少延遲。然而,即使是HBM也面臨根本限制:物理芯片周邊限制了總數(shù)據(jù)流,以太比特速度移動(dòng)大規(guī)模數(shù)據(jù)集會(huì)產(chǎn)生顯著的能耗約束。
這些限制突出了對(duì)更高帶寬連接的關(guān)鍵需求,并強(qiáng)調(diào)了在處理和內(nèi)存架構(gòu)方面取得突破的緊迫性。沒有這些創(chuàng)新,我們強(qiáng)大的計(jì)算資源將在等待數(shù)據(jù)時(shí)閑置,大大限制效率和規(guī)模。
從服務(wù)器農(nóng)場(chǎng)到高密度系統(tǒng)
當(dāng)今先進(jìn)的機(jī)器學(xué)習(xí)模型通常依賴于數(shù)萬到數(shù)十萬個(gè)相同計(jì)算元素之間精心編排的計(jì)算,消耗巨大的功率。這種在微秒級(jí)的緊密耦合和細(xì)粒度同步提出了新的需求。與擁抱異構(gòu)性的系統(tǒng)不同,機(jī)器學(xué)習(xí)計(jì)算需要同構(gòu)元素;混合世代會(huì)成為更快單元的瓶頸。通信路徑也必須預(yù)先規(guī)劃且高效,因?yàn)閱蝹€(gè)元素的延遲可能會(huì)停滯整個(gè)過程。
這些對(duì)協(xié)調(diào)和功率的極端需求推動(dòng)了對(duì)前所未有的計(jì)算密度的需求。最小化處理器之間的物理距離對(duì)于減少延遲和功耗變得至關(guān)重要,為新一類超密集AI系統(tǒng)鋪平了道路。
這種對(duì)極端密度和緊密協(xié)調(diào)計(jì)算的追求從根本上改變了基礎(chǔ)設(shè)施的最優(yōu)設(shè)計(jì),需要對(duì)物理布局和動(dòng)態(tài)功率管理進(jìn)行根本性重新思考,以防止性能瓶頸并最大化效率。
容錯(cuò)的新方法
傳統(tǒng)的容錯(cuò)依賴于松散連接系統(tǒng)之間的冗余來實(shí)現(xiàn)高可用性。機(jī)器學(xué)習(xí)計(jì)算需要不同的方法。
首先,計(jì)算的龐大規(guī)模使得過度配置過于昂貴。其次,模型訓(xùn)練是一個(gè)緊密同步的過程,單一故障可能會(huì)級(jí)聯(lián)到數(shù)千個(gè)處理器。最后,先進(jìn)的機(jī)器學(xué)習(xí)硬件經(jīng)常推向當(dāng)前技術(shù)的邊界,可能導(dǎo)致更高的故障率。
相反,新興策略涉及頻繁的檢查點(diǎn)——保存計(jì)算狀態(tài)——結(jié)合實(shí)時(shí)監(jiān)控、備用資源的快速分配和快速重啟。底層硬件和網(wǎng)絡(luò)設(shè)計(jì)必須能夠快速故障檢測(cè)和無縫組件替換以維持性能。
更可持續(xù)的功率方法
今天和未來,功率獲取是擴(kuò)展AI計(jì)算的關(guān)鍵瓶頸。雖然傳統(tǒng)系統(tǒng)設(shè)計(jì)專注于每芯片的最大性能,但我們必須轉(zhuǎn)向?qū)W⒂诿客咛亟桓兜拇笠?guī)模性能的端到端設(shè)計(jì)。這種方法至關(guān)重要,因?yàn)樗紤]了所有系統(tǒng)組件——計(jì)算、網(wǎng)絡(luò)、內(nèi)存、功率傳輸、冷卻和容錯(cuò)——無縫協(xié)作以維持性能。孤立優(yōu)化組件會(huì)嚴(yán)重限制整體系統(tǒng)效率。
隨著我們追求更高性能,單個(gè)芯片需要更多功率,經(jīng)常超過傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的冷卻能力。這需要轉(zhuǎn)向更耗能但最終更高效的液冷解決方案,以及數(shù)據(jù)中心冷卻基礎(chǔ)設(shè)施的根本性重新設(shè)計(jì)。
除了冷卻,傳統(tǒng)的冗余電源,如雙公用事業(yè)饋電和柴油發(fā)電機(jī),會(huì)產(chǎn)生大量財(cái)務(wù)成本并減慢容量交付。相反,我們必須結(jié)合多樣化的電源和多吉瓦級(jí)的存儲(chǔ),由實(shí)時(shí)微電網(wǎng)控制器管理。通過利用AI工作負(fù)載的靈活性和地理分布,我們可以在不需要每年僅使用幾小時(shí)的昂貴備份系統(tǒng)的情況下提供更多能力。
這種演進(jìn)的功率模型能夠?qū)崟r(shí)響應(yīng)功率可用性——從在短缺期間關(guān)閉計(jì)算到為可以容忍性能降低的工作負(fù)載進(jìn)行頻率縮放等高級(jí)技術(shù)。所有這些都需要目前不可用級(jí)別的實(shí)時(shí)遙測(cè)和執(zhí)行。
安全和隱私:內(nèi)置而非外加
互聯(lián)網(wǎng)時(shí)代的一個(gè)關(guān)鍵教訓(xùn)是,安全和隱私不能有效地外加到現(xiàn)有架構(gòu)上。來自惡意行為者的威脅只會(huì)變得更加復(fù)雜,需要將用戶數(shù)據(jù)和專有知識(shí)產(chǎn)權(quán)的保護(hù)構(gòu)建到機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的結(jié)構(gòu)中。一個(gè)重要觀察是,AI最終會(huì)增強(qiáng)攻擊者的能力。這反過來意味著我們必須確保AI同時(shí)為我們的防御提供超級(jí)動(dòng)力。
這包括端到端數(shù)據(jù)加密、具有可驗(yàn)證訪問日志的強(qiáng)大數(shù)據(jù)血統(tǒng)跟蹤、硬件強(qiáng)制的安全邊界以保護(hù)敏感計(jì)算,以及復(fù)雜的密鑰管理系統(tǒng)。從基礎(chǔ)集成這些保護(hù)措施對(duì)于保護(hù)用戶和維持他們的信任至關(guān)重要。對(duì)可能每秒PB級(jí)遙測(cè)和日志記錄的實(shí)時(shí)監(jiān)控將是識(shí)別和中和大海撈針式攻擊向量的關(guān)鍵,包括來自內(nèi)部威脅的攻擊。
速度作為戰(zhàn)略要?jiǎng)?wù)
硬件升級(jí)的節(jié)奏已經(jīng)發(fā)生了戲劇性變化。與傳統(tǒng)基礎(chǔ)設(shè)施的逐架增量演進(jìn)不同,部署機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī)需要根本不同的方法。這是因?yàn)闄C(jī)器學(xué)習(xí)計(jì)算不容易在異構(gòu)部署上運(yùn)行;計(jì)算代碼、算法和編譯器必須針對(duì)每個(gè)新硬件世代進(jìn)行專門調(diào)優(yōu),以充分利用其能力。創(chuàng)新的速度也是前所未有的,新硬件經(jīng)常每年提供兩倍或更多的性能提升。
因此,不是增量升級(jí),現(xiàn)在需要大規(guī)模同時(shí)推出同構(gòu)硬件,通??缭秸麄€(gè)數(shù)據(jù)中心。隨著年度硬件刷新提供整數(shù)倍的性能改進(jìn),快速建立這些龐大AI引擎的能力至關(guān)重要。
目標(biāo)必須是壓縮從設(shè)計(jì)到完全運(yùn)營(yíng)的10萬+芯片部署的時(shí)間線,實(shí)現(xiàn)效率改進(jìn)的同時(shí)支持算法突破。這需要每個(gè)階段的根本性加速和自動(dòng)化,要求這些基礎(chǔ)設(shè)施采用類似制造業(yè)的模型。從架構(gòu)到監(jiān)控和修復(fù),每個(gè)步驟都必須簡(jiǎn)化和自動(dòng)化,以前所未有的規(guī)模利用每個(gè)硬件世代。
迎接時(shí)刻:下一代AI基礎(chǔ)設(shè)施的集體努力
生成式AI的興起不僅標(biāo)志著進(jìn)化,更是一場(chǎng)需要對(duì)我們的計(jì)算基礎(chǔ)設(shè)施進(jìn)行根本性重新構(gòu)想的革命。前方的挑戰(zhàn)——在專用硬件、互連網(wǎng)絡(luò)和可持續(xù)運(yùn)營(yíng)方面——是重大的,但它將支持的AI的變革潛力同樣巨大。
很容易看出,我們由此產(chǎn)生的計(jì)算基礎(chǔ)設(shè)施在未來幾年內(nèi)將變得面目全非,這意味著我們不能簡(jiǎn)單地改進(jìn)已經(jīng)設(shè)計(jì)的藍(lán)圖。相反,我們必須從研究到產(chǎn)業(yè)集體努力,從第一原理重新審視AI計(jì)算的需求,為底層全球基礎(chǔ)設(shè)施構(gòu)建新的藍(lán)圖。這反過來將以前所未有的規(guī)模和效率產(chǎn)生根本性的新能力,從醫(yī)學(xué)到教育到商業(yè)。
Q&A
Q1:為什么生成式AI需要專用硬件而不是通用服務(wù)器?
A:生成式AI嚴(yán)重依賴于對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行可預(yù)測(cè)的數(shù)學(xué)運(yùn)算,需要專用硬件如ASIC、GPU和TPU,它們與通用CPU相比,在每美元和每瓦特的性能上提供了數(shù)量級(jí)的改進(jìn)。傳統(tǒng)的通用服務(wù)器無法滿足這種極端的計(jì)算需求。
Q2:傳統(tǒng)的以太網(wǎng)為什么無法滿足AI計(jì)算需求?
A:AI專用系統(tǒng)通常需要"全對(duì)全"通信,具有接近本地內(nèi)存速度的每秒太比特帶寬和納秒級(jí)延遲。當(dāng)今基于通用以太網(wǎng)交換機(jī)和TCP/IP協(xié)議的網(wǎng)絡(luò)無法處理這些極端需求,因此需要專用互連如ICI和NVLink。
Q3:AI基礎(chǔ)設(shè)施在功率管理方面有什么特殊要求?
A:AI計(jì)算需要從傳統(tǒng)的每芯片最大性能轉(zhuǎn)向每瓦特交付的大規(guī)模性能的端到端設(shè)計(jì)。由于個(gè)別芯片功率需求經(jīng)常超過傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的冷卻能力,需要轉(zhuǎn)向液冷解決方案,并結(jié)合多樣化電源和實(shí)時(shí)微電網(wǎng)控制器管理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.