7月26日,上海World AI Conference(WAIC)上,華為首次將昇騰384超節(jié)點(diǎn)系統(tǒng)對(duì)外展示。16個(gè)標(biāo)準(zhǔn)機(jī)柜構(gòu)成的龐大集群,內(nèi)含384顆昇騰910C NPU與192顆鯤鵬920 CPU,理論峰值算力達(dá)到300 PFLOPS(BF16精度),數(shù)據(jù)傳輸延遲控制在200納秒以?xún)?nèi)。硬件細(xì)節(jié)與性能參數(shù)披露瞬間引爆行業(yè)關(guān)注,這場(chǎng)較量背后,究竟隱藏著怎樣的技術(shù)博弈?能否撼動(dòng)NVIDIA的霸主地位?
這個(gè)系統(tǒng)由12個(gè)計(jì)算機(jī)柜和4個(gè)高速互聯(lián)柜組成,架構(gòu)采用華為自研全光超節(jié)點(diǎn)互聯(lián)方案,帶寬達(dá)到傳統(tǒng)技術(shù)數(shù)倍。16機(jī)柜總功耗達(dá)到559千瓦,其中單柜功耗約18千瓦,配備閉環(huán)雙回路液冷系統(tǒng)保證高密度運(yùn)行穩(wěn)定。液冷系統(tǒng)有效回收60%的熱能,設(shè)備運(yùn)行溫度控制在65攝氏度以下。這種冷卻設(shè)計(jì)使得算力密度與能效表現(xiàn)均優(yōu)于行業(yè)多數(shù)同類(lèi)產(chǎn)品
昇騰910C芯片采用7納米工藝,內(nèi)置136個(gè)張量處理單元(TPU),單芯片算力最高可達(dá)256 TFLOPS(BF16)。鯤鵬920 CPU主頻2.6 GHz,支持多線程計(jì)算和分布式訓(xùn)練。系統(tǒng)集群級(jí)別設(shè)計(jì)充分發(fā)揮芯片互聯(lián)優(yōu)勢(shì),支持自動(dòng)調(diào)度與容錯(cuò)。相較于NVIDIA GB200 NVL72平臺(tái),華為集群在千億參數(shù)大模型訓(xùn)練中性能提升約2.5倍,MoE推理性能達(dá)到3倍,Decode吞吐率1920 Tokens/s,延遲15毫秒。雖然單芯片性能不及H100,但系統(tǒng)級(jí)協(xié)同提升整體表現(xiàn)顯著
軟件生態(tài)方面,華為提供了開(kāi)源深度學(xué)習(xí)框架MindSpore,兼容多種AI模型。CloudMatrix 384支持萬(wàn)卡級(jí)擴(kuò)展,滿足未來(lái)海量算力需求。至少已有十套系統(tǒng)部署于國(guó)內(nèi)各大數(shù)據(jù)中心,單套價(jià)格約820萬(wàn)美元,算力容量是NVIDIA同類(lèi)產(chǎn)品的1.67倍,內(nèi)存容量3.6倍,帶寬2.1倍,功耗雖高,但性能與規(guī)模優(yōu)勢(shì)明顯。這些數(shù)據(jù)體現(xiàn)出國(guó)產(chǎn)AI算力平臺(tái)整體競(jìng)爭(zhēng)力不斷增強(qiáng)
在美國(guó)出口限制下,CloudMatrix 384的推出代表了國(guó)產(chǎn)AI算力基礎(chǔ)設(shè)施的重大突破。全球芯片緊缺背景下,華為通過(guò)自主設(shè)計(jì)和制造打破技術(shù)封鎖,推動(dòng)產(chǎn)業(yè)鏈國(guó)產(chǎn)化。SemiAnalysis機(jī)構(gòu)指出,該平臺(tái)具備取代進(jìn)口大型AI系統(tǒng)的潛力,減少對(duì)外依賴(lài)。NVIDIA CEO黃仁勛在公開(kāi)采訪中表示,華為的進(jìn)展速度令人關(guān)注,CloudMatrix是國(guó)產(chǎn)算力生態(tài)的典范之一。
**從硬件架構(gòu)、冷卻系統(tǒng)到軟件生態(tài)的多層面打造,CloudMatrix 384表現(xiàn)出高度成熟的設(shè)計(jì)理念。16機(jī)柜集群不僅規(guī)模宏大,且具有高效能耗比和強(qiáng)大算力擴(kuò)展能力。**如果后續(xù)大規(guī)模應(yīng)用,將對(duì)國(guó)內(nèi)智能服務(wù)和科研項(xiàng)目形成重要支撐。
技術(shù)細(xì)節(jié)顯示,昇騰910C芯片采用136個(gè)TPU核心,具備256 TFLOPS算力,鯤鵬920 CPU具備8核心設(shè)計(jì),主頻2.6 GHz。全光超節(jié)點(diǎn)互聯(lián)實(shí)現(xiàn)低于200納秒延遲,帶寬遠(yuǎn)超PCIe標(biāo)準(zhǔn),解決傳統(tǒng)數(shù)據(jù)瓶頸。液冷技術(shù)以閉環(huán)雙回路為主,功率18千瓦每柜,散熱效率達(dá)到60%,保證長(zhǎng)時(shí)間穩(wěn)定運(yùn)行。
結(jié)合已知性能指標(biāo),CloudMatrix 384在千億參數(shù)模型訓(xùn)練中,通過(guò)軟硬件協(xié)同,提升算力約2.5倍,推理任務(wù)則提升3倍,實(shí)測(cè)解碼速度達(dá)到1920 Tokens/s,延遲縮短至15毫秒。相較同級(jí)產(chǎn)品,華為系統(tǒng)在內(nèi)存容量(3.6倍)和帶寬(2.1倍)方面具有明顯優(yōu)勢(shì)。
這套系統(tǒng)定價(jià)約820萬(wàn)美元,折合人民幣約6000萬(wàn)元。雖然功耗較高,但算力提升和帶寬擴(kuò)展帶來(lái)更高的使用效率。大量商業(yè)部署意味著國(guó)產(chǎn)算力已實(shí)現(xiàn)商業(yè)化落地。在國(guó)際技術(shù)封鎖與市場(chǎng)緊縮背景下,國(guó)產(chǎn)AI集群實(shí)現(xiàn)自主可控路徑,具備戰(zhàn)略意義
硬件發(fā)展趨勢(shì)顯示,未來(lái)國(guó)產(chǎn)AI系統(tǒng)將持續(xù)提升芯片集成度和互聯(lián)技術(shù),液冷技術(shù)也將成為高密度集群的標(biāo)準(zhǔn)配置。國(guó)產(chǎn)深度學(xué)習(xí)框架MindSpore的生態(tài)成長(zhǎng),將促使更多科研和企業(yè)應(yīng)用從國(guó)外技術(shù)轉(zhuǎn)向國(guó)產(chǎn)平臺(tái),降低依賴(lài)風(fēng)險(xiǎn)。
同時(shí),這種算力平臺(tái)的出現(xiàn)對(duì)國(guó)內(nèi)智能化產(chǎn)業(yè)鏈提供重要支持。云端訓(xùn)練加速、高效推理和擴(kuò)展能力強(qiáng),將帶來(lái)AI應(yīng)用場(chǎng)景的多樣化。尤其在自動(dòng)駕駛、語(yǔ)音識(shí)別、智能制造等領(lǐng)域,算力保障是技術(shù)突破的關(guān)鍵。
華為CloudMatrix 384的發(fā)布,凸顯了中國(guó)在高性能計(jì)算與AI基礎(chǔ)設(shè)施領(lǐng)域的快速進(jìn)步。16機(jī)柜規(guī)模、300 PFLOPS峰值算力以及先進(jìn)的液冷和通信技術(shù),組成國(guó)產(chǎn)算力的堅(jiān)實(shí)底座。國(guó)產(chǎn)算力生態(tài)逐步完善,未來(lái)將有更多創(chuàng)新在此基礎(chǔ)上誕生。
真正的競(jìng)爭(zhēng)不是單顆芯片的較量,而是整個(gè)系統(tǒng)能否提供持續(xù)、穩(wěn)定和高效的算力支持。
#華為算力 #CloudMatrix384 #國(guó)產(chǎn)AI #昇騰910C #液冷技術(shù)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.