巨頭雙雙下場：Meta與Oracle依托英偉達Spectrum以太網(wǎng)構(gòu)筑AI超算

2025-10-15 15:05:13　來源: DeepTech深科技

山東舉報

分享至

當前，大參數(shù)的AI模型仍然呈現(xiàn)出增長趨勢，超大規(guī)模AI工廠的網(wǎng)絡架構(gòu)十分有必要從“連接管線”升級為決定整體效率的“中樞神經(jīng)系統(tǒng)”。這一必要性的背后原因在于：首先，當數(shù)萬乃至數(shù)百萬GPU協(xié)同工作時，傳統(tǒng)網(wǎng)絡仿佛擁堵的普通公路，無法承受AI訓練特有的“洪水般”的同步數(shù)據(jù)流，從而導致昂貴的算力被大量閑置。其次，對于AI任務來說它要求網(wǎng)絡必須十分可靠，任何微小的延遲或擁塞都會拖慢訓練過程，因此必須通過智能調(diào)度實現(xiàn)確定性的高速傳輸。再次，企業(yè)也需要基于以太網(wǎng)等開放標準來打破技術(shù)捆綁，只有這樣才能靈活整合資源、實現(xiàn)自主優(yōu)化以及實現(xiàn)跨數(shù)據(jù)中心的算力池化。在這種情況之下，只有實現(xiàn)網(wǎng)絡升級才能釋放萬億參數(shù)模型的潛力，從而將全球GPU資源轉(zhuǎn)化為一臺高效的“超級計算機”。

在大參數(shù)模型重構(gòu)算力格局的背景之下，AI網(wǎng)絡架構(gòu)迎來新升級。近日，NVIDIA Spectrum-X以太網(wǎng)被升級為下一代AI數(shù)據(jù)中心神經(jīng)網(wǎng)絡進行使用，這意味著加速計算與開放網(wǎng)絡的融合進入了新階段，也意味NVIDIA正在通過較高的網(wǎng)絡效率將全球算力資源編制成為一臺前所未有的“超級計算機”。

Meta和Oracle在行動：將Spectrum-X以太網(wǎng)交換機標準化為開放型加速網(wǎng)絡架構(gòu)

據(jù)了解，Meta和Oracle正將Spectrum-X以太網(wǎng)交換機標準化為一種開放的加速網(wǎng)絡架構(gòu)。

Meta的Facebook開放交換系統(tǒng)（FBOSS，F(xiàn)acebook Open Switching System）是一款專為管理和控制大規(guī)模網(wǎng)絡交換機而開發(fā)的軟件平臺，Meta將Spectrum以太網(wǎng)交換機集成到FBOSS這一網(wǎng)絡基礎設施中，二者的集成將提升訓練更大規(guī)模的模型的效率和可預測性，為數(shù)十億用戶提供生成式AI服務。

Oracle則將構(gòu)建一個十億瓦級（Giga-Scale）的AI工廠，該工廠由NVIDIA Vera Rubin架構(gòu)提供加速，并通過Spectrum-X以太網(wǎng)進行互連。通過采用Spectrum-X以太網(wǎng)網(wǎng)絡，Oracle能以較高的效率實現(xiàn)數(shù)百萬個GPU的互連，幫助客戶更快速地訓練和部署AI模型。

（來源：資料圖）

NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡平臺：首個專為AI打造的以太網(wǎng)網(wǎng)絡平臺

據(jù)介紹，NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡平臺專為萬億參數(shù)模型打造，它是由Spectrum-X以太網(wǎng)交換機和Spectrum-X以太網(wǎng)SuperNIC組成的業(yè)界首個專為AI打造的以太網(wǎng)網(wǎng)絡平臺，能夠幫助企業(yè)以高效率和大規(guī)模實現(xiàn)數(shù)百萬個GPU的互連。

當前，萬億參數(shù)模型和生成式AI正在重新定義數(shù)據(jù)中心的規(guī)模。Spectrum-X以太網(wǎng)網(wǎng)絡持續(xù)拓展AI部署規(guī)模，保障了一些企業(yè)構(gòu)建全球先進型AI基礎設施所需的性能與可擴展性。

NVIDIA表示，Spectrum-X以太網(wǎng)網(wǎng)絡展現(xiàn)出較高的效率，以優(yōu)良的擁塞控制技術(shù)，助力全球最大的AI超級計算機實現(xiàn)了95%的數(shù)據(jù)吞吐量。相比之下，通用以太網(wǎng)在同樣的規(guī)模部署中，則會發(fā)生大量流量沖突，導致吞吐量大幅降低。因此，這一躍升標志著面向AI的大規(guī)模網(wǎng)絡在經(jīng)濟效益和性能方面實現(xiàn)了較大進展。

NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)則是Spectrum-X以太網(wǎng)網(wǎng)絡平臺的一部分，可以實現(xiàn)跨區(qū)域擴展，能夠?qū)⒖绯鞘?、跨國家乃至跨大陸的?shù)據(jù)中心連接成超大規(guī)模的十億瓦級（Giga-Scale）AI超級工廠。

Spectrum-X則為專門NVIDIA的全棧平臺（包括 GPU、CPU、NVIDIA NVLink及軟件）而構(gòu)建，可以提供從計算到網(wǎng)絡的無縫性能銜接。其先進的擁塞控制、動態(tài)路由以及AI驅(qū)動的遙測功能，可以確保大規(guī)模AI訓練和推理集群的效率和可預測性。

NVIDIA創(chuàng)始人兼CEO黃仁勛表示：“萬億參數(shù)模型正在將數(shù)據(jù)中心轉(zhuǎn)變?yōu)槭畠|瓦級（Giga-Scale）AI 工廠，Meta和Oracle等行業(yè)領導者正在將Spectrum-X以太網(wǎng)定義為推動這場產(chǎn)業(yè)變革的標準。Spectrum-X不僅是更快的以太網(wǎng)，更是AI工廠的神經(jīng)系統(tǒng)，幫助超大規(guī)模企業(yè)將數(shù)百萬個GPU連接到一起構(gòu)建成一臺巨型計算機，從而訓練有史以來規(guī)模最大的模型?！?/p>

筆者認為，黃仁勛的論斷勾勒出了當前AI算力發(fā)展的圖景。他將數(shù)據(jù)中心稱之為“十億瓦級AI工廠”，展示了數(shù)據(jù)中心角色的根本性改變，即它不再只是存儲信息和分發(fā)信息，而是能夠像工業(yè)時代的發(fā)電廠一樣，進行集中式的AI智力生產(chǎn)。同時，他指出Meta和Oracle正在將Spectrum-X以太網(wǎng)定義為推動這場產(chǎn)業(yè)變革的標準，這說明在超大規(guī)模AI集群的構(gòu)建上，行業(yè)領導者們正在從各自為戰(zhàn)的封閉方案，轉(zhuǎn)向一個基于以太網(wǎng)的開放型網(wǎng)絡架構(gòu)。這種共識的逐漸形成，是產(chǎn)業(yè)走向更成熟和更大規(guī)模的關(guān)鍵一步，能夠助力打破以往的極致性能往往依賴于封閉技術(shù)棧的瓶頸。而黃仁勛關(guān)于“Spectrum-X不僅是更快的以太網(wǎng)，更是AI工廠的神經(jīng)系統(tǒng)”的闡述，則點明了此次升級的核心。假如僅僅提供高帶寬就好比只是修了一條更寬的道路，但是無法解決AI訓練中萬億參數(shù)同步所產(chǎn)生的全局性擁堵。所謂神經(jīng)系統(tǒng)就意味著它必須具備智能能力，比如能夠感知流量擁塞，再比如能夠確保信號無損且準時達到，從而將數(shù)百萬GPU的協(xié)同計算變得“紀律嚴明”。而這一切的最終目標便是黃仁勛所說的構(gòu)建一臺巨型計算機。如能建成，一個數(shù)據(jù)中心內(nèi)的所有計算單元將能融為一體，從而能從根本上降低構(gòu)建超大模型和使用超導模型的復雜度和成本，為解鎖更具突破性的AI應用奠定算力基礎。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.