英偉達的又一場“陽謀”

2025-10-19 10:29:24　來源: 半導(dǎo)體行業(yè)觀察

上海舉報

分享至

公眾號記得加星標??，第一時間看推送不會錯過。

過去二十年，數(shù)據(jù)中心的性能進步主要依賴于計算芯片——CPU、GPU、FPGA 不斷演進，但進入生成式 AI 時代后，整個算力體系開始被網(wǎng)絡(luò)重新定義。在大模型訓練中，GPU 間的通信延遲與帶寬瓶頸，已經(jīng)成為訓練效率的關(guān)鍵約束。尤其當模型參數(shù)突破萬億級，單個GPU已難以承擔任務(wù)，必須通過數(shù)千、數(shù)萬張 GPU 的并行協(xié)同來完成訓練。

在這一過程中，網(wǎng)絡(luò)的重要性愈發(fā)凸顯，近日，行業(yè)內(nèi)的一則大消息是：Meta/Oracle兩大科技巨頭選擇了NVIDIA Spectrum-X以太網(wǎng)交換機與相關(guān)技術(shù)。此舉被業(yè)界視為以太網(wǎng)向AI專用互連邁出的重要一步。

同時也反映出英偉達正在加速向開放以太網(wǎng)生態(tài)滲透，綁定云巨頭與企業(yè)客戶。英偉達已經(jīng)憑借 InfiniBand控制了封閉的高端網(wǎng)絡(luò)，如今又正在“開放”的以太網(wǎng)生態(tài)中設(shè)下第二道圍墻。

Spectrum-X，以太網(wǎng)AI化

過去幾十年，以太網(wǎng)是數(shù)據(jù)中心采用最為廣泛的網(wǎng)絡(luò)。但在AI為核心的時代，AI 的核心挑戰(zhàn)不在單個節(jié)點的算力，而在分布式架構(gòu)下的協(xié)同效率。訓練一個基礎(chǔ)模型（如 GPT、BERT、DALL-E），需要跨節(jié)點同步海量梯度參數(shù)。整個訓練過程的速度，取決于最慢的那一個節(jié)點——這正是 “尾延遲（Tail Latency）” 問題的根源。

因此，AI 網(wǎng)絡(luò)的設(shè)計目標不是“平均性能”，而是要確保極端情況下也不拖后腿。這對網(wǎng)絡(luò)延遲、丟包率、流量調(diào)度、擁塞控制乃至緩存架構(gòu)，都提出了遠超傳統(tǒng)以太網(wǎng)的要求。為此，英偉達推出了Spectrum-X，首個專為AI優(yōu)化的以太網(wǎng)解決方案。

那么，Spectrum-X具體做了哪些改進呢？在NVIDIA最新白皮書《Networking for the Era of AI: The Network Defines the Data Center》中，英偉達對此有著詳細的介紹。

第一、打造無損以太網(wǎng)。在傳統(tǒng)以太網(wǎng)中，丟包與重傳被視為“可接受成本”。但在AI訓練中，任何丟包都可能導(dǎo)致 GPU空閑、同步失敗或能耗激增。

Spectrum-X 通過：RoCE（RDMA over Converged Ethernet）技術(shù)實現(xiàn)CPU旁路通信；PFC（Priority Flow Control） + DDP（Direct Data Placement）確保端到端無損傳輸；再與Spectrum-X SuperNIC聯(lián)動，實現(xiàn)硬件級擁塞檢測與動態(tài)流量調(diào)度。

GPU-to-GPU通信的RDMA實現(xiàn)圖（來源：英偉達）

這使得以太網(wǎng)第一次具備了接近 InfiniBand的傳輸確定性。

第二、自適應(yīng)路由與分包調(diào)度。AI 工作負載與傳統(tǒng)云計算最大的不同在于，它產(chǎn)生的是少量但極龐大的“象流（Elephant Flows）”。這些流量極易在網(wǎng)絡(luò)中形成熱點，造成嚴重擁塞。

Spectrum-X采用包級自適應(yīng)路由（Packet-level Adaptive Routing）與分包噴射（Packet Spraying）技術(shù)，通過實時監(jiān)測鏈路負載，動態(tài)選擇最優(yōu)路徑，并在 SuperNIC 層完成亂序重排。這種機制打破了以太網(wǎng)靜態(tài)哈希路由（ECMP）的局限，使 AI 集群在流量不均時仍能保持線性擴展能力。

VIDIA Spectrum-X 以太網(wǎng)自適應(yīng)路由實現(xiàn)圖示（來源：英偉達）

第三、解決擁塞控制問題。傳統(tǒng)ECN擁塞控制的最大問題是響應(yīng)延遲太高。當交換機檢測到擁塞并發(fā)出 ECN 標記時，緩沖區(qū)往往已被填滿，GPU已出現(xiàn)空轉(zhuǎn)。

Spectrum-X通過硬件級 In-band Telemetry（帶內(nèi)遙測）實時上報網(wǎng)絡(luò)狀態(tài)，SuperNIC 據(jù)此立即執(zhí)行 Flow Metering（流量節(jié)流），實現(xiàn)亞微秒級反饋閉環(huán)。英偉達聲稱，其技術(shù)已展現(xiàn)出創(chuàng)紀錄的效率，其擁塞控制技術(shù)實現(xiàn)了 95% 的數(shù)據(jù)吞吐量，而現(xiàn)成的大規(guī)模以太網(wǎng)吞吐量約為 60%。

第四、性能隔離與安全。AI云往往需要在同一基礎(chǔ)設(shè)施上運行來自不同用戶或部門的訓練任務(wù)。Spectrum-X通過共享緩存架構(gòu)（Universal Shared Buffer）確保不同端口公平訪問緩存，防止“吵鬧鄰居”任務(wù)影響他人。同時配合 BlueField-3 DPU，在網(wǎng)絡(luò)與存儲層提供：MACsec/IPsec 加密（數(shù)據(jù)在途安全）；AES-XTS 256/512 加密（數(shù)據(jù)靜態(tài)安全）；Root-of-Trust 與 Secure Boot（硬件安全啟動）。這使得AI云具備了類似私有集群的安全隔離能力。

可以說，Spectrum-X讓以太網(wǎng)有了“AI 基因”。因此，這也贏得了Meta和Oracle的青睞，不過兩家在采用 Spectrum-X上選擇了不同的落地策略，各自圍繞自身業(yè)務(wù)訴求做出優(yōu)化。

Meta的路線更側(cè)重“開放可編排的網(wǎng)絡(luò)平臺”——將 Spectrum 系列與 FBOSS 結(jié)合、并在 Minipack3N 這類開源交換機設(shè)計上實現(xiàn)落地，體現(xiàn)了Meta在軟硬分離、可編程控制面方面的持續(xù)投入。對 Meta而言，目標是以開放規(guī)范支持其面向數(shù)十億用戶的生成式 AI 服務(wù)，既要高效也要可控。

Oracle則將 Vera Rubin 作為加速器架構(gòu)、以 Spectrum-X 做為互聯(lián)骨干，目標是把分散的數(shù)據(jù)中心、成千上萬的節(jié)點聚合為統(tǒng)一的可編排超算平臺，從而為企業(yè)級客戶提供端到端的訓練與推理服務(wù)。Oracle 管理層將此類部署稱為“Giga-Scale AI 工廠”，并將其作為云競爭中的差異化基石。

無論路線如何不同，二者的共同點十分明顯：當算力持續(xù)呈指數(shù)級增長時，網(wǎng)絡(luò)層決定了這些“理論上的算力”能否轉(zhuǎn)化為“實際可用的吞吐與業(yè)務(wù)價值”。

Spectrum-X的殺傷力幾何？

從產(chǎn)業(yè)鏈競爭格局的角度來分析，NVIDIA Spectrum-X 的推出，確實是一場對以太網(wǎng)網(wǎng)絡(luò)行業(yè)結(jié)構(gòu)的“降維打擊”。

首先要理解，Spectrum-X 不是一款單獨的交換機產(chǎn)品，而是一種系統(tǒng)戰(zhàn)略。它將以下三個組件綁定為一個“軟硬一體”生態(tài)：

Spectrum-X 交換機 ASIC（實現(xiàn)無損以太網(wǎng)與自適應(yīng)路由）；

Spectrum-X SuperNIC（負責包級重排、擁塞控制與遙測反饋）；

BlueField-3 DPU（提供安全隔離與 RoCE 優(yōu)化）。

也就是說，NVIDIA 把原本屬于獨立廠商的三層網(wǎng)絡(luò)生態(tài)（交換機、網(wǎng)卡、加速器）一口吞下，讓“網(wǎng)絡(luò)成為 GPU 的延伸模塊”，實現(xiàn)了 Compute–Network–Storage 的垂直閉環(huán)。因此，這一戰(zhàn)略幾乎撼動了整個以太網(wǎng)生態(tài)。

這意味著過去依靠以太網(wǎng)標準生存的網(wǎng)絡(luò)公司——無論是賣芯片的、賣交換機的、賣優(yōu)化軟件的——都被迫進入一場新的博弈：要么融入NVIDIA的AI網(wǎng)絡(luò)體系，要么被邊緣化。

直接被波及的企業(yè)當中，首當其沖的是數(shù)據(jù)中心以太網(wǎng)芯片廠商，例如Broadcom（Trident/Tomahawk 系列）、Marvell（Teralynx、Prestera）。Spectrum-X 的 RDMA over Ethernet 能力本質(zhì)上在挑戰(zhàn)所有高端以太網(wǎng)芯片的價值。這些廠商長期壟斷“交換芯片+NIC”雙生態(tài)，以往他們的賣點是“開放 + 性價比”。但當 NVIDIA 把 AI 優(yōu)化特性（如 DDP、Telemetry、Lossless Routing）內(nèi)嵌到 GPU/DPU 協(xié)同體系中后，這意味著 Spectrum-X 實際上撕開了以太網(wǎng)的“算力黑箱”，勢必會一定程度上波及到這些廠商。

再一個可能受到影響是傳統(tǒng)網(wǎng)絡(luò)設(shè)備供應(yīng)商，例如Cisco（思科）、Arista Networks（艾睿思塔）、Juniper Networks（瞻博），這些公司在超大規(guī)模云數(shù)據(jù)中心中一直是“以太網(wǎng)標準派”的代表。他們的高端產(chǎn)品主要賣點是：支持 400/800 GbE；提供豐富的可編程特性；軟件定義網(wǎng)絡(luò)（SDN）管理能力。

但在 Spectrum-X 架構(gòu)下，英偉達通過“GPU + SuperNIC + Switch + DPU”形成封閉但極致的性能鏈條，客戶無需再依賴 Cisco/Arista 的傳統(tǒng)優(yōu)化方案，尤其在 AI 工廠這種“單租戶+極端性能”的環(huán)境中，英偉達可以逐漸取代他們的角色。Arista的市值已經(jīng)有一半來自 AI 網(wǎng)絡(luò)預(yù)期，但 Spectrum-X 若被 Meta、Oracle、AWS 等大客戶全面采用，Arista 的增長模型可能會被削弱。

第三個群體是，專注互連的初創(chuàng)芯片企業(yè)。如Astera Labs、Cornelis Networks、Liqid、和 Rockport Networks、Lightmatter、Celestial AI等——正在開發(fā)具備低延遲、高拓撲可擴展性的定制互連方案。

首先讓我們簡單分析下這些廠商存在的意義，在英偉達的世界里，互連是垂直整合的：GPU → NVLink → Spectrum-X/InfiniBand → BlueField。但對于其他廠商（AMD、Intel、Google TPU），他們沒有控制整個堆棧的能力，因此急需這些 “中立型互連供應(yīng)商” 提供可替代方案。例如：Astera Labs 的 Leo/Cosmos系列控制器，已經(jīng)被用在AMD MI300與Intel Gaudi 平臺上，用來管理GPU與內(nèi)存池的互連。Cornelis Networks 則與歐洲超算中心合作，推出 Omni-Path 200G 網(wǎng)絡(luò)，用以替代 InfiniBand；Liqid 的 Composable Fabric 方案被戴爾和 HPE 集成，用于“AI 基礎(chǔ)設(shè)施即服務(wù)（AI IaaS）”。Lightmatter 與 Celestial AI 則瞄準更遠的未來——當光互連取代電互連時，整個 AI 計算集群的架構(gòu)都將被重寫。

一旦大型云廠選擇 Spectrum-X 架構(gòu)，就意味著其整個集群在驅(qū)動、遙測、QoS 控制層面都依賴 NVIDIA。初創(chuàng)廠商的開放 Fabric 難以兼容。在短期內(nèi)，Spectrum-X 的整合速度與客戶綁定深度，確實讓這些獨立創(chuàng)新者的市場空間被明顯壓縮。

InfiniBand穩(wěn)坐高性能計算的王座

如果說Spectrum-X是以太網(wǎng)的AI化，那么英偉達Quantum InfiniBand則是AI原生的超級網(wǎng)絡(luò)。

從一開始，以太網(wǎng)追求的是開放性與普適性——它容忍一定丟包與延遲，以換取成本與兼容性。而InfiniBand的設(shè)計哲學恰恰相反：它追求極致的確定性與零損傳輸（Lossless Determinism）。早在 1999 年，它便作為 HPC（高性能計算）領(lǐng)域的數(shù)據(jù)互連標準登場，如今已成為全球超級計算中心的事實標準。

憑借三大特性，InfiniBand在過去二十余年間始終穩(wěn)居性能巔峰：

無損傳輸（Lossless Networking）：確保訓練過程中無一字節(jié)數(shù)據(jù)丟失；

超低延遲（Ultra-Low Latency）：通信時延以微秒計，遠低于傳統(tǒng)以太網(wǎng)；

原生 RDMA 與網(wǎng)絡(luò)內(nèi)計算（In-Network Computing）：在網(wǎng)絡(luò)層執(zhí)行計算聚合，釋放主機負載。

這些能力讓 InfiniBand 成為 AI 訓練時代的“通信主干”，尤其是在大模型動輒上萬 GPU 節(jié)點的架構(gòu)下，它依然能維持線性擴展與穩(wěn)定的同步性能。

英偉達在2019年以近70億美元收購Mellanox后，掌握了InfiniBand的全棧生態(tài)。最新的Quantum-2是英偉達InfiniBand架構(gòu)的第七代產(chǎn)品，被業(yè)界視為當前最具代表性的高性能網(wǎng)絡(luò)平臺。它為每個端口提供高達 400 Gb/s 的帶寬，是前代產(chǎn)品的兩倍；其交換芯片的端口密度更是提升了三倍，可在三跳 Dragonfly+ 拓撲內(nèi)連接超過一百萬個節(jié)點。

更重要的是，Quantum-2 引入了第三代 NVIDIA SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）技術(shù)——這是一種將計算能力“嵌入網(wǎng)絡(luò)”的聚合機制，使網(wǎng)絡(luò)本身成為“協(xié)處理器”。在這一架構(gòu)下，AI 模型訓練的加速能力較上一代提升 32 倍，并支持多個租戶與并行應(yīng)用共享同一基礎(chǔ)設(shè)施而不犧牲性能，真正實現(xiàn)了“網(wǎng)絡(luò)級虛擬化”的算力資源池化。

然而，InfiniBand的輝煌背后，也潛藏著結(jié)構(gòu)性的挑戰(zhàn)。一方面，它由 NVIDIA 主導(dǎo)并保持著較強的生態(tài)封閉性——這種“垂直一體化”的架構(gòu)雖然帶來性能優(yōu)勢，但也引發(fā)了云服務(wù)商與 OEM 廠商的擔憂：成本高、生態(tài)受限、兼容性有限、議價空間有限。

正因如此，以太網(wǎng)陣營正在加速反擊。包括 Meta、Oracle、Broadcom、AMD 在內(nèi)的多家企業(yè)，正通過 Ultra Ethernet Consortium（超以太網(wǎng)聯(lián)盟）推動新一代開放標準，希望在開放以太網(wǎng)架構(gòu)下重建 InfiniBand 級的確定性與性能。這也是為何英偉達為何選擇推出Spectrum-X的一個原因，主動把自家優(yōu)勢算法、遙測和擁塞控制機制“嫁接”到以太網(wǎng)標準體系中，以便在以太網(wǎng)生態(tài)中保持網(wǎng)絡(luò)層的話語權(quán)。

超以太網(wǎng)聯(lián)盟的指導(dǎo)成員

結(jié)語

從 InfiniBand 到 Spectrum-X，英偉達正在完成一場看似開放、實則更深層次的“壟斷重構(gòu)”。它在封閉與開放之間搭建雙軌系統(tǒng)——一條面向 HPC 與超算（InfiniBand），一條面向云與企業(yè) AI（Spectrum-X）。最后，就用英偉達白皮書中的一句話結(jié)束吧：“The network defines the data center.”——AI時代的算力，不再在芯片之間，而在連接之中。

*免責聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點，不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4199期內(nèi)容，歡迎關(guān)注。

加星標??第一時間看推送，小號防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.