大家看,這是什么?——
沒錯(cuò)!這就是大名鼎鼎的華為昇騰384超節(jié)點(diǎn)!
在剛剛召開的WAIC 2025上,華為現(xiàn)場展示了一套昇騰384完整真機(jī),成為全場的關(guān)注焦點(diǎn),吸引了大量觀眾圍觀拍照。
█昇騰384:補(bǔ)齊AI算力短板,重塑全球競爭格局
昇騰384是華為今年重點(diǎn)打造的AI算力神器。它集成了384顆昇騰910C NPU和192顆鯤鵬CPU,單超節(jié)點(diǎn)算力高達(dá)300 Pflops,是英偉達(dá)NVL72系統(tǒng)的1.7倍。
AI的全領(lǐng)域競爭要素,是算力、模型和應(yīng)用。
模型方面,今年年初DeepSeek橫空出世,憑借其卓越的性能和創(chuàng)新的算法設(shè)計(jì),證明國產(chǎn)大模型可以和國外先進(jìn)模型平起平坐。
應(yīng)用方面,是我們的強(qiáng)項(xiàng),國內(nèi)各個(gè)垂直行業(yè)的AI應(yīng)用已經(jīng)呈現(xiàn)出百花齊放的局面。
這些年來,我們發(fā)展AI最主要的短板,其實(shí)是算力。
華為昇騰384超節(jié)點(diǎn)的推出,補(bǔ)齊了單芯片算力不足的短板。打破了國際巨頭在AI算力領(lǐng)域的壟斷,實(shí)現(xiàn)了對國外領(lǐng)先競品的性能超越,重塑全球AI算力基礎(chǔ)設(shè)施競爭格局。
█昇騰384,為什么要用光互聯(lián)?
“華為昇騰384超節(jié)點(diǎn)一共有384顆NPU芯片,而英偉達(dá)NVL72有72顆GPU芯片。昇騰384的系統(tǒng)性能比NVL72更強(qiáng),是不是有點(diǎn)“以多欺少”的嫌疑?”
華為昇騰384超節(jié)點(diǎn)的最大特點(diǎn),是依靠華為強(qiáng)大的光互聯(lián)能力,在單芯片能力不足的情況下,通過系統(tǒng)能力打敗了NVL72。
NVL72采用的是銅連接,GPU之間采用高速差分信號(hào)線進(jìn)行通信,傳輸?shù)氖请娦盘?hào)。
英偉達(dá)為什么要反其道而行之,走回了銅連接的老路?
并不是英偉達(dá)不想用光連接,而是他們未能很好地解決光互聯(lián)在超節(jié)點(diǎn)內(nèi)部落地所遇到的問題,包括光模塊可靠性問題、功耗問題等。
銅連接的信號(hào)衰減很大,對于單機(jī)架內(nèi)部的短距離連接需求,勉強(qiáng)可以應(yīng)對。對于跨機(jī)架的長距離連接需求,就無法滿足了。
同樣的問題,對于通信設(shè)備商出身的華為來說,就不是問題了。
華為從上世紀(jì)90年代就開始搞光通信,如今已經(jīng)是世界領(lǐng)先的光通信解決方案提供商,擁有豐富的從技術(shù)到工程的實(shí)踐經(jīng)驗(yàn)。
正因?yàn)槿A為在光互聯(lián)技術(shù)上有足夠的實(shí)力和自信,在昇騰384上果斷采用了光互聯(lián)技術(shù),通過新型高速總線構(gòu)建全互連拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)了從芯片到節(jié)點(diǎn)的全棧硬件協(xié)同。
在光互聯(lián)的加持下,昇騰384的卡間通信不存在任何瓶頸。384顆芯片直接納入同一邏輯計(jì)算單元,形成了矩陣級的算力供給模式。
█星云光模塊,昇騰384光互聯(lián)能力的后盾
昇騰384的光互聯(lián),采用的是華為海思專門面向智算中心光互聯(lián)場景打造的星云光模塊。
星云光模塊
相比傳統(tǒng)光模塊,星云光模塊在性能、可靠性和可用性方面,都進(jìn)行了全面加強(qiáng)。
●高性能:
華為發(fā)揮自身在芯片領(lǐng)域的技術(shù)積累,采用創(chuàng)新性的外延設(shè)計(jì),實(shí)現(xiàn)了更小的RMS譜寬,能夠?qū)崿F(xiàn)更遠(yuǎn)的傳輸距離和更高的傳輸速率。
●高可靠性:
光模塊的可靠性,對超節(jié)點(diǎn)和AI算力集群的工作效率有很大影響。失效率高會(huì)導(dǎo)致訓(xùn)練和推理任務(wù)的頻繁中斷,增加訓(xùn)推周期和成本。
為了降低光模塊的失效率,華為在光芯片制造環(huán)節(jié)進(jìn)行了優(yōu)化,引入AI對工藝缺陷進(jìn)行監(jiān)控和攔截。
華為星云光模塊通過系統(tǒng)協(xié)同設(shè)計(jì),簡化了光模塊的架構(gòu),同時(shí)也降低了光模塊的功耗。
光模塊的工作溫度也是影響可靠性的一個(gè)關(guān)鍵要素。
星云光模塊的“冰鑒”散熱架構(gòu),將光模塊殼體的接觸熱阻降低50%。大幅降低光模塊的失效率,提升了系統(tǒng)可靠性。
●高可用性:
智算網(wǎng)絡(luò)中存在海量的光鏈路。傳統(tǒng)的光鏈路,無法進(jìn)行可視化運(yùn)維。
光鏈路在施工時(shí),可能存在端口臟污、鏈路虛接等問題,會(huì)影響訓(xùn)練穩(wěn)定性,降低訓(xùn)練效率。并且排查這些問題,往往需要數(shù)天的時(shí)間。
針對這個(gè)痛點(diǎn),華為推出了星云智檢(StarSensor),可以實(shí)現(xiàn)對光模塊端口、光鏈路健康狀態(tài)的可視化診斷,對端口臟污、鏈路虛接進(jìn)行快速檢測定位、快速排障,處理時(shí)間從天級縮短到分鐘級。
█最后的話
古語有云:“以己之長,攻彼之短。以己之短,消彼之長?!?/p>
華為利用自己在光互聯(lián)技術(shù)上的優(yōu)勢,大膽進(jìn)行創(chuàng)新,率先通過光互聯(lián)實(shí)現(xiàn)了超大規(guī)模超節(jié)點(diǎn)算力的超越。
這給全球算力產(chǎn)業(yè)的未來發(fā)展提供了新的思路。摩爾定律逐漸放緩,通過先進(jìn)光互聯(lián)技術(shù)打造更大規(guī)模算力集群,進(jìn)一步提升算力利用率,是大勢所趨。
值得一提的是,英偉達(dá)一直在通過投資并購彌補(bǔ)自己在光互聯(lián)上的短板。相信隨著時(shí)間的推移,他們最終也會(huì)走回到光互聯(lián)這條路上。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.