網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI時(shí)代為何迫使整個(gè)計(jì)算基礎(chǔ)架構(gòu)重新設(shè)計(jì)

2025-08-04 21:41:12　來源: 至頂頭條

北京舉報(bào)

分享至

過去幾十年，計(jì)算性能和效率取得了難以想象的進(jìn)步，這得益于摩爾定律，并以橫向擴(kuò)展的通用硬件和松散耦合的軟件為基礎(chǔ)。這種架構(gòu)為全球數(shù)十億用戶提供了在線服務(wù)，讓我們幾乎可以觸及人類所有的知識(shí)。

但下一次計(jì)算革命將需要更多。要實(shí)現(xiàn)AI的承諾，需要在能力上實(shí)現(xiàn)遠(yuǎn)超互聯(lián)網(wǎng)時(shí)代進(jìn)步的躍遷。為了實(shí)現(xiàn)這一目標(biāo)，我們整個(gè)行業(yè)必須重新審視推動(dòng)前一次變革的一些基礎(chǔ)，并集體創(chuàng)新，重新思考整個(gè)技術(shù)棧。讓我們探討推動(dòng)這一變革的力量，并闡述這種架構(gòu)應(yīng)該是什么樣子。

從通用硬件到專用計(jì)算

幾十年來，計(jì)算領(lǐng)域的主導(dǎo)趨勢(shì)是通過建立在幾乎相同的通用服務(wù)器上的橫向擴(kuò)展架構(gòu)來實(shí)現(xiàn)計(jì)算的民主化。這種統(tǒng)一性允許靈活的工作負(fù)載部署和高效的資源利用。生成式AI的需求嚴(yán)重依賴于對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行可預(yù)測(cè)的數(shù)學(xué)運(yùn)算，這正在逆轉(zhuǎn)這一趨勢(shì)。

我們現(xiàn)在正目睹向?qū)Ｓ糜布臎Q定性轉(zhuǎn)變——包括ASIC、GPU和張量處理單元(TPU)——與通用CPU相比，在每美元和每瓦特的性能上提供了數(shù)量級(jí)的改進(jìn)。這種針對(duì)特定領(lǐng)域的計(jì)算單元的激增，為更窄的任務(wù)進(jìn)行了優(yōu)化，對(duì)于推動(dòng)AI的持續(xù)快速進(jìn)步至關(guān)重要。

超越以太網(wǎng)：專用互連的興起

這些專用系統(tǒng)通常需要"全對(duì)全"通信，具有接近本地內(nèi)存速度的每秒太比特帶寬和納秒級(jí)延遲。當(dāng)今的網(wǎng)絡(luò)主要基于通用以太網(wǎng)交換機(jī)和TCP/IP協(xié)議，無法處理這些極端需求。

因此，為了在大規(guī)模專用加速器集群中擴(kuò)展生成式AI工作負(fù)載，我們看到了專用互連的興起，例如用于TPU的ICI和用于GPU的NVLink。這些專門設(shè)計(jì)的網(wǎng)絡(luò)優(yōu)先考慮直接的內(nèi)存到內(nèi)存?zhèn)鬏?，并使用專用硬件來加速處理器之間的信息共享，有效繞過了傳統(tǒng)分層網(wǎng)絡(luò)棧的開銷。

這種向緊密集成、以計(jì)算為中心的網(wǎng)絡(luò)的轉(zhuǎn)變，對(duì)于克服通信瓶頸和高效擴(kuò)展下一代AI至關(guān)重要。

突破內(nèi)存墻

幾十年來，計(jì)算性能的增長(zhǎng)超過了內(nèi)存帶寬的增長(zhǎng)。雖然緩存和堆疊SRAM等技術(shù)部分緩解了這個(gè)問題，但AI的數(shù)據(jù)密集特性只會(huì)加劇這個(gè)問題。

為滿足日益強(qiáng)大的計(jì)算單元的無止境需求，出現(xiàn)了高帶寬內(nèi)存(HBM)，它將DRAM直接堆疊在處理器封裝上，以提高帶寬并減少延遲。然而，即使是HBM也面臨根本限制：物理芯片周邊限制了總數(shù)據(jù)流，以太比特速度移動(dòng)大規(guī)模數(shù)據(jù)集會(huì)產(chǎn)生顯著的能耗約束。

這些限制突出了對(duì)更高帶寬連接的關(guān)鍵需求，并強(qiáng)調(diào)了在處理和內(nèi)存架構(gòu)方面取得突破的緊迫性。沒有這些創(chuàng)新，我們強(qiáng)大的計(jì)算資源將在等待數(shù)據(jù)時(shí)閑置，大大限制效率和規(guī)模。

從服務(wù)器農(nóng)場(chǎng)到高密度系統(tǒng)

當(dāng)今先進(jìn)的機(jī)器學(xué)習(xí)模型通常依賴于數(shù)萬到數(shù)十萬個(gè)相同計(jì)算元素之間精心編排的計(jì)算，消耗巨大的功率。這種在微秒級(jí)的緊密耦合和細(xì)粒度同步提出了新的需求。與擁抱異構(gòu)性的系統(tǒng)不同，機(jī)器學(xué)習(xí)計(jì)算需要同構(gòu)元素；混合世代會(huì)成為更快單元的瓶頸。通信路徑也必須預(yù)先規(guī)劃且高效，因?yàn)閱蝹€(gè)元素的延遲可能會(huì)停滯整個(gè)過程。

這些對(duì)協(xié)調(diào)和功率的極端需求推動(dòng)了對(duì)前所未有的計(jì)算密度的需求。最小化處理器之間的物理距離對(duì)于減少延遲和功耗變得至關(guān)重要，為新一類超密集AI系統(tǒng)鋪平了道路。

這種對(duì)極端密度和緊密協(xié)調(diào)計(jì)算的追求從根本上改變了基礎(chǔ)設(shè)施的最優(yōu)設(shè)計(jì)，需要對(duì)物理布局和動(dòng)態(tài)功率管理進(jìn)行根本性重新思考，以防止性能瓶頸并最大化效率。

容錯(cuò)的新方法

傳統(tǒng)的容錯(cuò)依賴于松散連接系統(tǒng)之間的冗余來實(shí)現(xiàn)高可用性。機(jī)器學(xué)習(xí)計(jì)算需要不同的方法。

首先，計(jì)算的龐大規(guī)模使得過度配置過于昂貴。其次，模型訓(xùn)練是一個(gè)緊密同步的過程，單一故障可能會(huì)級(jí)聯(lián)到數(shù)千個(gè)處理器。最后，先進(jìn)的機(jī)器學(xué)習(xí)硬件經(jīng)常推向當(dāng)前技術(shù)的邊界，可能導(dǎo)致更高的故障率。

相反，新興策略涉及頻繁的檢查點(diǎn)——保存計(jì)算狀態(tài)——結(jié)合實(shí)時(shí)監(jiān)控、備用資源的快速分配和快速重啟。底層硬件和網(wǎng)絡(luò)設(shè)計(jì)必須能夠快速故障檢測(cè)和無縫組件替換以維持性能。

更可持續(xù)的功率方法

今天和未來，功率獲取是擴(kuò)展AI計(jì)算的關(guān)鍵瓶頸。雖然傳統(tǒng)系統(tǒng)設(shè)計(jì)專注于每芯片的最大性能，但我們必須轉(zhuǎn)向?qū)Ｗ⒂诿客咛亟桓兜拇笠?guī)模性能的端到端設(shè)計(jì)。這種方法至關(guān)重要，因?yàn)樗紤]了所有系統(tǒng)組件——計(jì)算、網(wǎng)絡(luò)、內(nèi)存、功率傳輸、冷卻和容錯(cuò)——無縫協(xié)作以維持性能。孤立優(yōu)化組件會(huì)嚴(yán)重限制整體系統(tǒng)效率。

隨著我們追求更高性能，單個(gè)芯片需要更多功率，經(jīng)常超過傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的冷卻能力。這需要轉(zhuǎn)向更耗能但最終更高效的液冷解決方案，以及數(shù)據(jù)中心冷卻基礎(chǔ)設(shè)施的根本性重新設(shè)計(jì)。

除了冷卻，傳統(tǒng)的冗余電源，如雙公用事業(yè)饋電和柴油發(fā)電機(jī)，會(huì)產(chǎn)生大量財(cái)務(wù)成本并減慢容量交付。相反，我們必須結(jié)合多樣化的電源和多吉瓦級(jí)的存儲(chǔ)，由實(shí)時(shí)微電網(wǎng)控制器管理。通過利用AI工作負(fù)載的靈活性和地理分布，我們可以在不需要每年僅使用幾小時(shí)的昂貴備份系統(tǒng)的情況下提供更多能力。

這種演進(jìn)的功率模型能夠?qū)崟r(shí)響應(yīng)功率可用性——從在短缺期間關(guān)閉計(jì)算到為可以容忍性能降低的工作負(fù)載進(jìn)行頻率縮放等高級(jí)技術(shù)。所有這些都需要目前不可用級(jí)別的實(shí)時(shí)遙測(cè)和執(zhí)行。

安全和隱私：內(nèi)置而非外加

互聯(lián)網(wǎng)時(shí)代的一個(gè)關(guān)鍵教訓(xùn)是，安全和隱私不能有效地外加到現(xiàn)有架構(gòu)上。來自惡意行為者的威脅只會(huì)變得更加復(fù)雜，需要將用戶數(shù)據(jù)和專有知識(shí)產(chǎn)權(quán)的保護(hù)構(gòu)建到機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的結(jié)構(gòu)中。一個(gè)重要觀察是，AI最終會(huì)增強(qiáng)攻擊者的能力。這反過來意味著我們必須確保AI同時(shí)為我們的防御提供超級(jí)動(dòng)力。

這包括端到端數(shù)據(jù)加密、具有可驗(yàn)證訪問日志的強(qiáng)大數(shù)據(jù)血統(tǒng)跟蹤、硬件強(qiáng)制的安全邊界以保護(hù)敏感計(jì)算，以及復(fù)雜的密鑰管理系統(tǒng)。從基礎(chǔ)集成這些保護(hù)措施對(duì)于保護(hù)用戶和維持他們的信任至關(guān)重要。對(duì)可能每秒PB級(jí)遙測(cè)和日志記錄的實(shí)時(shí)監(jiān)控將是識(shí)別和中和大海撈針式攻擊向量的關(guān)鍵，包括來自內(nèi)部威脅的攻擊。

速度作為戰(zhàn)略要?jiǎng)?wù)

硬件升級(jí)的節(jié)奏已經(jīng)發(fā)生了戲劇性變化。與傳統(tǒng)基礎(chǔ)設(shè)施的逐架增量演進(jìn)不同，部署機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī)需要根本不同的方法。這是因?yàn)闄C(jī)器學(xué)習(xí)計(jì)算不容易在異構(gòu)部署上運(yùn)行；計(jì)算代碼、算法和編譯器必須針對(duì)每個(gè)新硬件世代進(jìn)行專門調(diào)優(yōu)，以充分利用其能力。創(chuàng)新的速度也是前所未有的，新硬件經(jīng)常每年提供兩倍或更多的性能提升。

因此，不是增量升級(jí)，現(xiàn)在需要大規(guī)模同時(shí)推出同構(gòu)硬件，通?？缭秸麄€(gè)數(shù)據(jù)中心。隨著年度硬件刷新提供整數(shù)倍的性能改進(jìn)，快速建立這些龐大AI引擎的能力至關(guān)重要。

目標(biāo)必須是壓縮從設(shè)計(jì)到完全運(yùn)營(yíng)的10萬+芯片部署的時(shí)間線，實(shí)現(xiàn)效率改進(jìn)的同時(shí)支持算法突破。這需要每個(gè)階段的根本性加速和自動(dòng)化，要求這些基礎(chǔ)設(shè)施采用類似制造業(yè)的模型。從架構(gòu)到監(jiān)控和修復(fù)，每個(gè)步驟都必須簡(jiǎn)化和自動(dòng)化，以前所未有的規(guī)模利用每個(gè)硬件世代。

迎接時(shí)刻：下一代AI基礎(chǔ)設(shè)施的集體努力

生成式AI的興起不僅標(biāo)志著進(jìn)化，更是一場(chǎng)需要對(duì)我們的計(jì)算基礎(chǔ)設(shè)施進(jìn)行根本性重新構(gòu)想的革命。前方的挑戰(zhàn)——在專用硬件、互連網(wǎng)絡(luò)和可持續(xù)運(yùn)營(yíng)方面——是重大的，但它將支持的AI的變革潛力同樣巨大。

很容易看出，我們由此產(chǎn)生的計(jì)算基礎(chǔ)設(shè)施在未來幾年內(nèi)將變得面目全非，這意味著我們不能簡(jiǎn)單地改進(jìn)已經(jīng)設(shè)計(jì)的藍(lán)圖。相反，我們必須從研究到產(chǎn)業(yè)集體努力，從第一原理重新審視AI計(jì)算的需求，為底層全球基礎(chǔ)設(shè)施構(gòu)建新的藍(lán)圖。這反過來將以前所未有的規(guī)模和效率產(chǎn)生根本性的新能力，從醫(yī)學(xué)到教育到商業(yè)。

Q&A

Q1：為什么生成式AI需要專用硬件而不是通用服務(wù)器？

A：生成式AI嚴(yán)重依賴于對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行可預(yù)測(cè)的數(shù)學(xué)運(yùn)算，需要專用硬件如ASIC、GPU和TPU，它們與通用CPU相比，在每美元和每瓦特的性能上提供了數(shù)量級(jí)的改進(jìn)。傳統(tǒng)的通用服務(wù)器無法滿足這種極端的計(jì)算需求。

Q2：傳統(tǒng)的以太網(wǎng)為什么無法滿足AI計(jì)算需求？

A：AI專用系統(tǒng)通常需要"全對(duì)全"通信，具有接近本地內(nèi)存速度的每秒太比特帶寬和納秒級(jí)延遲。當(dāng)今基于通用以太網(wǎng)交換機(jī)和TCP/IP協(xié)議的網(wǎng)絡(luò)無法處理這些極端需求，因此需要專用互連如ICI和NVLink。

Q3：AI基礎(chǔ)設(shè)施在功率管理方面有什么特殊要求？

A：AI計(jì)算需要從傳統(tǒng)的每芯片最大性能轉(zhuǎn)向每瓦特交付的大規(guī)模性能的端到端設(shè)計(jì)。由于個(gè)別芯片功率需求經(jīng)常超過傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的冷卻能力，需要轉(zhuǎn)向液冷解決方案，并結(jié)合多樣化電源和實(shí)時(shí)微電網(wǎng)控制器管理。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.