公眾號記得加星標??,第一時間看推送不會錯過。
過去二十年,數(shù)據(jù)中心的性能進步主要依賴于計算芯片——CPU、GPU、FPGA 不斷演進,但進入生成式 AI 時代后,整個算力體系開始被網(wǎng)絡(luò)重新定義。在大模型訓練中,GPU 間的通信延遲與帶寬瓶頸,已經(jīng)成為訓練效率的關(guān)鍵約束。尤其當模型參數(shù)突破萬億級,單個GPU已難以承擔任務(wù),必須通過數(shù)千、數(shù)萬張 GPU 的并行協(xié)同來完成訓練。
在這一過程中,網(wǎng)絡(luò)的重要性愈發(fā)凸顯,近日,行業(yè)內(nèi)的一則大消息是:Meta/Oracle兩大科技巨頭選擇了NVIDIA Spectrum-X以太網(wǎng)交換機與相關(guān)技術(shù)。此舉被業(yè)界視為以太網(wǎng)向AI專用互連邁出的重要一步。
同時也反映出英偉達正在加速向開放以太網(wǎng)生態(tài)滲透,綁定云巨頭與企業(yè)客戶。英偉達已經(jīng)憑借 InfiniBand控制了封閉的高端網(wǎng)絡(luò),如今又正在“開放”的以太網(wǎng)生態(tài)中設(shè)下第二道圍墻。
Spectrum-X,以太網(wǎng)AI化
過去幾十年,以太網(wǎng)是數(shù)據(jù)中心采用最為廣泛的網(wǎng)絡(luò)。但在AI為核心的時代,AI 的核心挑戰(zhàn)不在單個節(jié)點的算力,而在分布式架構(gòu)下的協(xié)同效率。訓練一個基礎(chǔ)模型(如 GPT、BERT、DALL-E),需要跨節(jié)點同步海量梯度參數(shù)。整個訓練過程的速度,取決于最慢的那一個節(jié)點——這正是 “尾延遲(Tail Latency)” 問題的根源。
因此,AI 網(wǎng)絡(luò)的設(shè)計目標不是“平均性能”,而是要確保極端情況下也不拖后腿。這對網(wǎng)絡(luò)延遲、丟包率、流量調(diào)度、擁塞控制乃至緩存架構(gòu),都提出了遠超傳統(tǒng)以太網(wǎng)的要求。為此,英偉達推出了Spectrum-X,首個專為AI優(yōu)化的以太網(wǎng)解決方案。
那么,Spectrum-X具體做了哪些改進呢?在NVIDIA最新白皮書《Networking for the Era of AI: The Network Defines the Data Center》中,英偉達對此有著詳細的介紹。
第一、打造無損以太網(wǎng)。在傳統(tǒng)以太網(wǎng)中,丟包與重傳被視為“可接受成本”。但在AI訓練中,任何丟包都可能導(dǎo)致 GPU空閑、同步失敗或能耗激增。
Spectrum-X 通過:RoCE(RDMA over Converged Ethernet)技術(shù)實現(xiàn)CPU旁路通信;PFC(Priority Flow Control) + DDP(Direct Data Placement) 確保端到端無損傳輸;再與Spectrum-X SuperNIC聯(lián)動,實現(xiàn)硬件級擁塞檢測與動態(tài)流量調(diào)度。
GPU-to-GPU通信的RDMA實現(xiàn)圖(來源:英偉達)
這使得以太網(wǎng)第一次具備了接近 InfiniBand的傳輸確定性。
第二、自適應(yīng)路由與分包調(diào)度。AI 工作負載與傳統(tǒng)云計算最大的不同在于,它產(chǎn)生的是少量但極龐大的“象流(Elephant Flows)”。這些流量極易在網(wǎng)絡(luò)中形成熱點,造成嚴重擁塞。
Spectrum-X采用包級自適應(yīng)路由(Packet-level Adaptive Routing)與分包噴射(Packet Spraying)技術(shù),通過實時監(jiān)測鏈路負載,動態(tài)選擇最優(yōu)路徑,并在 SuperNIC 層完成亂序重排。這種機制打破了以太網(wǎng)靜態(tài)哈希路由(ECMP)的局限,使 AI 集群在流量不均時仍能保持線性擴展能力。
VIDIA Spectrum-X 以太網(wǎng)自適應(yīng)路由實現(xiàn)圖示(來源:英偉達)
第三、解決擁塞控制問題。傳統(tǒng)ECN擁塞控制的最大問題是響應(yīng)延遲太高。當交換機檢測到擁塞并發(fā)出 ECN 標記時,緩沖區(qū)往往已被填滿,GPU已出現(xiàn)空轉(zhuǎn)。
Spectrum-X通過硬件級 In-band Telemetry(帶內(nèi)遙測) 實時上報網(wǎng)絡(luò)狀態(tài),SuperNIC 據(jù)此立即執(zhí)行 Flow Metering(流量節(jié)流),實現(xiàn)亞微秒級反饋閉環(huán)。英偉達聲稱,其技術(shù)已展現(xiàn)出創(chuàng)紀錄的效率,其擁塞控制技術(shù)實現(xiàn)了 95% 的數(shù)據(jù)吞吐量,而現(xiàn)成的大規(guī)模以太網(wǎng)吞吐量約為 60%。
第四、性能隔離與安全。AI云往往需要在同一基礎(chǔ)設(shè)施上運行來自不同用戶或部門的訓練任務(wù)。Spectrum-X通過共享緩存架構(gòu)(Universal Shared Buffer) 確保不同端口公平訪問緩存,防止“吵鬧鄰居”任務(wù)影響他人。同時配合 BlueField-3 DPU,在網(wǎng)絡(luò)與存儲層提供:MACsec/IPsec 加密(數(shù)據(jù)在途安全);AES-XTS 256/512 加密(數(shù)據(jù)靜態(tài)安全);Root-of-Trust 與 Secure Boot(硬件安全啟動)。這使得AI云具備了類似私有集群的安全隔離能力。
可以說,Spectrum-X讓以太網(wǎng)有了“AI 基因”。因此,這也贏得了Meta和Oracle的青睞,不過兩家在采用 Spectrum-X上選擇了不同的落地策略,各自圍繞自身業(yè)務(wù)訴求做出優(yōu)化。
Meta的路線更側(cè)重“開放可編排的網(wǎng)絡(luò)平臺”——將 Spectrum 系列與 FBOSS 結(jié)合、并在 Minipack3N 這類開源交換機設(shè)計上實現(xiàn)落地,體現(xiàn)了Meta在軟硬分離、可編程控制面方面的持續(xù)投入。對 Meta而言,目標是以開放規(guī)范支持其面向數(shù)十億用戶的生成式 AI 服務(wù),既要高效也要可控。
Oracle則將 Vera Rubin 作為加速器架構(gòu)、以 Spectrum-X 做為互聯(lián)骨干,目標是把分散的數(shù)據(jù)中心、成千上萬的節(jié)點聚合為統(tǒng)一的可編排超算平臺,從而為企業(yè)級客戶提供端到端的訓練與推理服務(wù)。Oracle 管理層將此類部署稱為“Giga-Scale AI 工廠”,并將其作為云競爭中的差異化基石。
無論路線如何不同,二者的共同點十分明顯:當算力持續(xù)呈指數(shù)級增長時,網(wǎng)絡(luò)層決定了這些“理論上的算力”能否轉(zhuǎn)化為“實際可用的吞吐與業(yè)務(wù)價值”。
Spectrum-X的殺傷力幾何?
從產(chǎn)業(yè)鏈競爭格局的角度來分析,NVIDIA Spectrum-X 的推出,確實是一場對以太網(wǎng)網(wǎng)絡(luò)行業(yè)結(jié)構(gòu)的“降維打擊”。
首先要理解,Spectrum-X 不是一款單獨的交換機產(chǎn)品,而是一種系統(tǒng)戰(zhàn)略。它將以下三個組件綁定為一個“軟硬一體”生態(tài):
Spectrum-X 交換機 ASIC(實現(xiàn)無損以太網(wǎng)與自適應(yīng)路由);
Spectrum-X SuperNIC(負責包級重排、擁塞控制與遙測反饋);
BlueField-3 DPU(提供安全隔離與 RoCE 優(yōu)化)。
也就是說,NVIDIA 把原本屬于獨立廠商的三層網(wǎng)絡(luò)生態(tài)(交換機、網(wǎng)卡、加速器)一口吞下,讓“網(wǎng)絡(luò)成為 GPU 的延伸模塊”,實現(xiàn)了 Compute–Network–Storage 的垂直閉環(huán)。因此,這一戰(zhàn)略幾乎撼動了整個以太網(wǎng)生態(tài)。
這意味著過去依靠以太網(wǎng)標準生存的網(wǎng)絡(luò)公司——無論是賣芯片的、賣交換機的、賣優(yōu)化軟件的——都被迫進入一場新的博弈:要么融入NVIDIA的AI網(wǎng)絡(luò)體系,要么被邊緣化。
直接被波及的企業(yè)當中,首當其沖的是數(shù)據(jù)中心以太網(wǎng)芯片廠商,例如Broadcom(Trident/Tomahawk 系列)、Marvell(Teralynx、Prestera)。Spectrum-X 的 RDMA over Ethernet 能力本質(zhì)上在挑戰(zhàn)所有高端以太網(wǎng)芯片的價值。這些廠商長期壟斷“交換芯片+NIC”雙生態(tài),以往他們的賣點是“開放 + 性價比”。但當 NVIDIA 把 AI 優(yōu)化特性(如 DDP、Telemetry、Lossless Routing)內(nèi)嵌到 GPU/DPU 協(xié)同體系中后,這意味著 Spectrum-X 實際上撕開了以太網(wǎng)的“算力黑箱”,勢必會一定程度上波及到這些廠商。
再一個可能受到影響是傳統(tǒng)網(wǎng)絡(luò)設(shè)備供應(yīng)商,例如Cisco(思科)、Arista Networks(艾睿思塔)、Juniper Networks(瞻博),這些公司在超大規(guī)模云數(shù)據(jù)中心中一直是“以太網(wǎng)標準派”的代表。他們的高端產(chǎn)品主要賣點是:支持 400/800 GbE;提供豐富的可編程特性;軟件定義網(wǎng)絡(luò)(SDN)管理能力。
但在 Spectrum-X 架構(gòu)下,英偉達通過“GPU + SuperNIC + Switch + DPU”形成封閉但極致的性能鏈條,客戶無需再依賴 Cisco/Arista 的傳統(tǒng)優(yōu)化方案,尤其在 AI 工廠這種“單租戶+極端性能”的環(huán)境中,英偉達可以逐漸取代他們的角色。Arista的市值已經(jīng)有一半來自 AI 網(wǎng)絡(luò)預(yù)期,但 Spectrum-X 若被 Meta、Oracle、AWS 等大客戶全面采用,Arista 的增長模型可能會被削弱。
第三個群體是,專注互連的初創(chuàng)芯片企業(yè)。如Astera Labs、Cornelis Networks、Liqid、和 Rockport Networks、Lightmatter、Celestial AI等——正在開發(fā)具備低延遲、高拓撲可擴展性的定制互連方案。
首先讓我們簡單分析下這些廠商存在的意義,在英偉達的世界里,互連是垂直整合的:GPU → NVLink → Spectrum-X/InfiniBand → BlueField。但對于其他廠商(AMD、Intel、Google TPU),他們沒有控制整個堆棧的能力,因此急需這些 “中立型互連供應(yīng)商” 提供可替代方案。例如:Astera Labs 的 Leo/Cosmos系列控制器,已經(jīng)被用在AMD MI300與Intel Gaudi 平臺上,用來管理GPU與內(nèi)存池的互連。Cornelis Networks 則與歐洲超算中心合作,推出 Omni-Path 200G 網(wǎng)絡(luò),用以替代 InfiniBand;Liqid 的 Composable Fabric 方案被戴爾和 HPE 集成,用于“AI 基礎(chǔ)設(shè)施即服務(wù)(AI IaaS)”。Lightmatter 與 Celestial AI 則瞄準更遠的未來——當光互連取代電互連時,整個 AI 計算集群的架構(gòu)都將被重寫。
一旦大型云廠選擇 Spectrum-X 架構(gòu),就意味著其整個集群在驅(qū)動、遙測、QoS 控制層面都依賴 NVIDIA。初創(chuàng)廠商的開放 Fabric 難以兼容。在短期內(nèi),Spectrum-X 的整合速度與客戶綁定深度,確實讓這些獨立創(chuàng)新者的市場空間被明顯壓縮。
InfiniBand穩(wěn)坐高性能計算的王座
如果說Spectrum-X是以太網(wǎng)的AI化,那么英偉達Quantum InfiniBand則是AI原生的超級網(wǎng)絡(luò)。
從一開始,以太網(wǎng)追求的是開放性與普適性——它容忍一定丟包與延遲,以換取成本與兼容性。而InfiniBand的設(shè)計哲學恰恰相反:它追求極致的確定性與零損傳輸(Lossless Determinism)。早在 1999 年,它便作為 HPC(高性能計算)領(lǐng)域的數(shù)據(jù)互連標準登場,如今已成為全球超級計算中心的事實標準。
憑借三大特性,InfiniBand在過去二十余年間始終穩(wěn)居性能巔峰:
無損傳輸(Lossless Networking):確保訓練過程中無一字節(jié)數(shù)據(jù)丟失;
超低延遲(Ultra-Low Latency):通信時延以微秒計,遠低于傳統(tǒng)以太網(wǎng);
原生 RDMA 與網(wǎng)絡(luò)內(nèi)計算(In-Network Computing):在網(wǎng)絡(luò)層執(zhí)行計算聚合,釋放主機負載。
這些能力讓 InfiniBand 成為 AI 訓練時代的“通信主干”,尤其是在大模型動輒上萬 GPU 節(jié)點的架構(gòu)下,它依然能維持線性擴展與穩(wěn)定的同步性能。
英偉達在2019年以近70億美元收購Mellanox后,掌握了InfiniBand的全棧生態(tài)。最新的Quantum-2是英偉達InfiniBand架構(gòu)的第七代產(chǎn)品,被業(yè)界視為當前最具代表性的高性能網(wǎng)絡(luò)平臺。它為每個端口提供高達 400 Gb/s 的帶寬,是前代產(chǎn)品的兩倍;其交換芯片的端口密度更是提升了 三倍,可在三跳 Dragonfly+ 拓撲 內(nèi)連接超過 一百萬個節(jié)點。
更重要的是,Quantum-2 引入了第三代 NVIDIA SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 技術(shù)——這是一種將計算能力“嵌入網(wǎng)絡(luò)”的聚合機制,使網(wǎng)絡(luò)本身成為“協(xié)處理器”。在這一架構(gòu)下,AI 模型訓練的加速能力較上一代提升 32 倍,并支持多個租戶與并行應(yīng)用共享同一基礎(chǔ)設(shè)施而不犧牲性能,真正實現(xiàn)了“網(wǎng)絡(luò)級虛擬化”的算力資源池化。
然而,InfiniBand的輝煌背后,也潛藏著結(jié)構(gòu)性的挑戰(zhàn)。一方面,它由 NVIDIA 主導(dǎo)并保持著較強的生態(tài)封閉性——這種“垂直一體化”的架構(gòu)雖然帶來性能優(yōu)勢,但也引發(fā)了云服務(wù)商與 OEM 廠商的擔憂:成本高、生態(tài)受限、兼容性有限、議價空間有限。
正因如此,以太網(wǎng)陣營正在加速反擊。包括 Meta、Oracle、Broadcom、AMD 在內(nèi)的多家企業(yè),正通過 Ultra Ethernet Consortium(超以太網(wǎng)聯(lián)盟) 推動新一代開放標準,希望在開放以太網(wǎng)架構(gòu)下重建 InfiniBand 級的確定性與性能。這也是為何英偉達為何選擇推出Spectrum-X的一個原因,主動把自家優(yōu)勢算法、遙測和擁塞控制機制“嫁接”到以太網(wǎng)標準體系中,以便在以太網(wǎng)生態(tài)中保持網(wǎng)絡(luò)層的話語權(quán)。
超以太網(wǎng)聯(lián)盟的指導(dǎo)成員
結(jié)語
從 InfiniBand 到 Spectrum-X,英偉達正在完成一場看似開放、實則更深層次的“壟斷重構(gòu)”。它在封閉與開放之間搭建雙軌系統(tǒng)——一條面向 HPC 與超算(InfiniBand),一條面向云與企業(yè) AI(Spectrum-X)。最后,就用英偉達白皮書中的一句話結(jié)束吧:“The network defines the data center.”——AI時代的算力,不再在芯片之間,而在連接之中。
*免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4199期內(nèi)容,歡迎關(guān)注。
加星標??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.