當前,大參數(shù)的AI模型仍然呈現(xiàn)出增長趨勢,超大規(guī)模AI工廠的網(wǎng)絡架構(gòu)十分有必要從“連接管線”升級為決定整體效率的“中樞神經(jīng)系統(tǒng)”。這一必要性的背后原因在于:首先,當數(shù)萬乃至數(shù)百萬GPU協(xié)同工作時,傳統(tǒng)網(wǎng)絡仿佛擁堵的普通公路,無法承受AI訓練特有的“洪水般”的同步數(shù)據(jù)流,從而導致昂貴的算力被大量閑置。其次,對于AI任務來說它要求網(wǎng)絡必須十分可靠,任何微小的延遲或擁塞都會拖慢訓練過程,因此必須通過智能調(diào)度實現(xiàn)確定性的高速傳輸。再次,企業(yè)也需要基于以太網(wǎng)等開放標準來打破技術(shù)捆綁,只有這樣才能靈活整合資源、實現(xiàn)自主優(yōu)化以及實現(xiàn)跨數(shù)據(jù)中心的算力池化。在這種情況之下,只有實現(xiàn)網(wǎng)絡升級才能釋放萬億參數(shù)模型的潛力,從而將全球GPU資源轉(zhuǎn)化為一臺高效的“超級計算機”。
在大參數(shù)模型重構(gòu)算力格局的背景之下,AI網(wǎng)絡架構(gòu)迎來新升級。近日,NVIDIA Spectrum-X以太網(wǎng)被升級為下一代AI數(shù)據(jù)中心神經(jīng)網(wǎng)絡進行使用,這意味著加速計算與開放網(wǎng)絡的融合進入了新階段,也意味NVIDIA正在通過較高的網(wǎng)絡效率將全球算力資源編制成為一臺前所未有的“超級計算機”。
Meta和Oracle在行動:將Spectrum-X以太網(wǎng)交換機標準化為開放型加速網(wǎng)絡架構(gòu)
據(jù)了解,Meta和Oracle正將Spectrum-X以太網(wǎng)交換機標準化為一種開放的加速網(wǎng)絡架構(gòu)。
Meta的Facebook開放交換系統(tǒng)(FBOSS,F(xiàn)acebook Open Switching System)是一款專為管理和控制大規(guī)模網(wǎng)絡交換機而開發(fā)的軟件平臺,Meta將Spectrum以太網(wǎng)交換機集成到FBOSS這一網(wǎng)絡基礎設施中,二者的集成將提升訓練更大規(guī)模的模型的效率和可預測性,為數(shù)十億用戶提供生成式AI服務。
Oracle則將構(gòu)建一個十億瓦級(Giga-Scale)的AI工廠,該工廠由NVIDIA Vera Rubin架構(gòu)提供加速,并通過Spectrum-X以太網(wǎng)進行互連。通過采用Spectrum-X以太網(wǎng)網(wǎng)絡,Oracle能以較高的效率實現(xiàn)數(shù)百萬個GPU的互連,幫助客戶更快速地訓練和部署AI模型。
(來源:資料圖)
NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡平臺:首個專為AI打造的以太網(wǎng)網(wǎng)絡平臺
據(jù)介紹,NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡平臺專為萬億參數(shù)模型打造,它是由Spectrum-X以太網(wǎng)交換機和Spectrum-X以太網(wǎng)SuperNIC組成的業(yè)界首個專為AI打造的以太網(wǎng)網(wǎng)絡平臺,能夠幫助企業(yè)以高效率和大規(guī)模實現(xiàn)數(shù)百萬個GPU的互連。
當前,萬億參數(shù)模型和生成式AI正在重新定義數(shù)據(jù)中心的規(guī)模。Spectrum-X以太網(wǎng)網(wǎng)絡持續(xù)拓展AI部署規(guī)模,保障了一些企業(yè)構(gòu)建全球先進型AI基礎設施所需的性能與可擴展性。
NVIDIA表示,Spectrum-X以太網(wǎng)網(wǎng)絡展現(xiàn)出較高的效率,以優(yōu)良的擁塞控制技術(shù),助力全球最大的AI超級計算機實現(xiàn)了95%的數(shù)據(jù)吞吐量。相比之下,通用以太網(wǎng)在同樣的規(guī)模部署中,則會發(fā)生大量流量沖突,導致吞吐量大幅降低。因此,這一躍升標志著面向AI的大規(guī)模網(wǎng)絡在經(jīng)濟效益和性能方面實現(xiàn)了較大進展。
NVIDIA Spectrum-XGS以太網(wǎng)技術(shù)則是Spectrum-X以太網(wǎng)網(wǎng)絡平臺的一部分,可以實現(xiàn)跨區(qū)域擴展,能夠?qū)⒖绯鞘?、跨國家乃至跨大陸的?shù)據(jù)中心連接成超大規(guī)模的十億瓦級(Giga-Scale)AI超級工廠。
Spectrum-X則為專門NVIDIA的全棧平臺(包括 GPU、CPU、NVIDIA NVLink及軟件)而構(gòu)建,可以提供從計算到網(wǎng)絡的無縫性能銜接。其先進的擁塞控制、動態(tài)路由以及AI驅(qū)動的遙測功能,可以確保大規(guī)模AI訓練和推理集群的效率和可預測性。
NVIDIA創(chuàng)始人兼CEO黃仁勛表示:“萬億參數(shù)模型正在將數(shù)據(jù)中心轉(zhuǎn)變?yōu)槭畠|瓦級(Giga-Scale)AI 工廠,Meta和Oracle等行業(yè)領導者正在將Spectrum-X以太網(wǎng)定義為推動這場產(chǎn)業(yè)變革的標準。Spectrum-X不僅是更快的以太網(wǎng),更是AI工廠的神經(jīng)系統(tǒng),幫助超大規(guī)模企業(yè)將數(shù)百萬個GPU連接到一起構(gòu)建成一臺巨型計算機,從而訓練有史以來規(guī)模最大的模型?!?/p>
筆者認為,黃仁勛的論斷勾勒出了當前AI算力發(fā)展的圖景。他將數(shù)據(jù)中心稱之為“十億瓦級AI工廠”,展示了數(shù)據(jù)中心角色的根本性改變,即它不再只是存儲信息和分發(fā)信息,而是能夠像工業(yè)時代的發(fā)電廠一樣,進行集中式的AI智力生產(chǎn)。同時,他指出Meta和Oracle正在將Spectrum-X以太網(wǎng)定義為推動這場產(chǎn)業(yè)變革的標準,這說明在超大規(guī)模AI集群的構(gòu)建上,行業(yè)領導者們正在從各自為戰(zhàn)的封閉方案,轉(zhuǎn)向一個基于以太網(wǎng)的開放型網(wǎng)絡架構(gòu)。這種共識的逐漸形成,是產(chǎn)業(yè)走向更成熟和更大規(guī)模的關(guān)鍵一步,能夠助力打破以往的極致性能往往依賴于封閉技術(shù)棧的瓶頸。而黃仁勛關(guān)于“Spectrum-X不僅是更快的以太網(wǎng),更是AI工廠的神經(jīng)系統(tǒng)”的闡述,則點明了此次升級的核心。假如僅僅提供高帶寬就好比只是修了一條更寬的道路,但是無法解決AI訓練中萬億參數(shù)同步所產(chǎn)生的全局性擁堵。所謂神經(jīng)系統(tǒng)就意味著它必須具備智能能力,比如能夠感知流量擁塞,再比如能夠確保信號無損且準時達到,從而將數(shù)百萬GPU的協(xié)同計算變得“紀律嚴明”。而這一切的最終目標便是黃仁勛所說的構(gòu)建一臺巨型計算機。如能建成,一個數(shù)據(jù)中心內(nèi)的所有計算單元將能融為一體,從而能從根本上降低構(gòu)建超大模型和使用超導模型的復雜度和成本,為解鎖更具突破性的AI應用奠定算力基礎。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.