5月14日,美國商務(wù)部工業(yè)與安全局(BIS)發(fā)布一系列細(xì)則,其中警告使用中國先進(jìn)計算芯片的企業(yè),可能違反美國出口管制規(guī)定,并有可能受到美國商務(wù)部的處罰。而按照美國BIS的出口管制分類編號(ECCN)3A090的條件要求,昇騰系列芯片均位列其中。
一直以來,美國都將科技領(lǐng)先作為全球領(lǐng)導(dǎo)地位的核心支撐,但中國科技領(lǐng)域的崛起明顯讓美國感受到了重大威脅。
因為在一個月前,華為剛剛宣布推出CloudMatrix 384,這是一個由384張卡組成的超節(jié)點,可提供高達(dá)300 PFLOPs的密集BF16算力,接近達(dá)到英偉達(dá)GB200 NVL72系統(tǒng)的兩倍。
如果說單卡的升級是在AI算力上單點創(chuàng)新,那么華為則通過系統(tǒng)工程能力的創(chuàng)新,形成了系統(tǒng)化的突破。這意味著華為有能力通過垂直整合,大幅降低成本提高效率。
01
從單點突破,邁向系統(tǒng)級創(chuàng)新
《系統(tǒng)論》表明,計算機生態(tài)是一個完整的系統(tǒng),它的每一個組成部分都應(yīng)該協(xié)同發(fā)展,單獨某一項技術(shù)的飛躍,并不能帶來整個計算機系統(tǒng)的提升。
單點創(chuàng)新解決關(guān)鍵部件“頭疼醫(yī)頭,腳疼醫(yī)腳”的問題,但并沒有解決整個技術(shù)體系自主創(chuàng)新的系統(tǒng)性問題。
昇騰在單點創(chuàng)新上已經(jīng)非常出色,但單點芯片性能再強,若缺乏高效的互聯(lián)架構(gòu)、散熱設(shè)計、軟件優(yōu)化和生態(tài)支持,也無法充分發(fā)揮算力的最高價值。
而在網(wǎng)絡(luò)層面,超節(jié)點的MatrixLink服務(wù),可以將單層網(wǎng)絡(luò)升級為兩層高速網(wǎng)絡(luò),其中一層是超節(jié)點內(nèi)部的ScaleUp總線網(wǎng)絡(luò),確保超節(jié)點內(nèi)384卡全對等高速無阻塞互聯(lián),卡間超大帶寬2.8T,納秒級時延。
另一層,則是跨超節(jié)點間的ScaleOut網(wǎng)絡(luò),可支持微秒級時延,資源彈性擴(kuò)展,最大支持128k組網(wǎng)規(guī)模。同時,基于全局拓?fù)涓兄闹悄苷{(diào)度算法,對于流量沖突,可規(guī)劃最佳流量路徑,確保無阻塞交換。并以此實現(xiàn)了“以網(wǎng)強算”。
另外,傳統(tǒng)方案中的GPU卡顯存和算力綁定,要獲取更多的內(nèi)存,就必須購買NPU,造成算力浪費。對此,華為云推出了業(yè)界首創(chuàng)的EMS彈性內(nèi)存存儲, 以EMS替代NPU中的顯存,使得首Token時延大幅降低,同時將原來在NPU中進(jìn)行的KV計算卸載到CPU和EMS中,使得系統(tǒng)吞吐量提升100%以上。做到了“以存強算”。
不難發(fā)現(xiàn), CloudMatrix 384的誕生,在算力層面絕不是硬件上的簡單堆疊,而是通過“以網(wǎng)強算”和“以存強算”這樣的核心技術(shù)突破,讓每一分算力都更具價值。
這也正是美國所擔(dān)憂的,系統(tǒng)級能力能繞過單點技術(shù)封鎖,形成自主創(chuàng)新的強大算力。而在AI推理盛行的當(dāng)下,CloudMatrix 384的價值還遠(yuǎn)不止于此。
02
系統(tǒng)級創(chuàng)新
做數(shù)字中國的算力底座
我們知道,MoE(混合專家)大模型,通過將任務(wù)分配給多個專家子模型顯著提升推理效率,降低了計算成本,同時保持了模型性能。
DeepSeek又通過優(yōu)化MoE架構(gòu)的專家路由機制,提升模型推理效率,同時降低計算成本,使MoE更適合大規(guī)模部署。也讓MoE在大模型時代更具競爭力,成為高效AI推理的重要解決方案。
可以說,更高的MoE“親和力”代表了在AI推理的市場中具備領(lǐng)先的優(yōu)勢。而這恰是 “超節(jié)點”的重要設(shè)計細(xì)節(jié)之一。
傳統(tǒng)模式采用是“單卡多專家”的小作坊模式,且MoE通信基于傳統(tǒng)通信協(xié)議,整體性能低,計算時間漫長。而昇騰云的超節(jié)點模式則實現(xiàn)“一卡一專家”,基于專家并行處理,通過內(nèi)部高速總線通信,匯聚請求到指定專家處理,同時還有多余的卡可以用來做熱備,可以復(fù)制做負(fù)載均衡。這就像是大工廠模式,單卡的計算和通信效率都得到大幅提升。
當(dāng)然,強化推理端的能力,并不意味著在訓(xùn)練端不強。
反而“超節(jié)點”支持“朝推夜訓(xùn)”,通過訓(xùn)推共池和靈活調(diào)度實現(xiàn)朝推夜訓(xùn),白天進(jìn)行模型推理,晚上閑時進(jìn)行模型訓(xùn)練,提升超節(jié)點算力資源利用率,幫助企業(yè)避免算力閑置。
基于“朝推夜訓(xùn)”的特性,昇騰云也會推出訓(xùn)推共池方案,訓(xùn)練推理作業(yè)共用一個專屬資源池,支撐提前劃分訓(xùn)練、推理邏輯子池,通過邏輯子池動態(tài)配合調(diào)整,實現(xiàn)訓(xùn)推資源時分復(fù)用,助企業(yè)提升算力資源利用率。
“超節(jié)點”晝夜不休的“上強度”,很多人也有這樣的疑問:大集群意味著運營運維復(fù)雜,難度高,那么穩(wěn)定性是不是足夠可靠?實際上,“長穩(wěn)可靠”也恰是昇騰云的核心優(yōu)勢之一。
目前,昇騰云腦已實現(xiàn)了全棧故障感知、診斷與快速自動恢復(fù)。比如在故障感知方面,通過靜默故障感知技術(shù)和算法,主動探測硬件進(jìn)行功能或性能測試,根據(jù)測試結(jié)果及時發(fā)現(xiàn)并隔離性能衰減的“慢節(jié)點”,基于變化趨勢,預(yù)測硬件的潛在故障風(fēng)險,提前進(jìn)行隔離或更換。硬件故障感知率從40%提升至90%;而在診斷與自動恢復(fù)方面,昇騰云腦全棧故障知識庫,覆蓋95%常見場景,一鍵故障診斷準(zhǔn)確率可達(dá)到80%,大大縮短網(wǎng)絡(luò)故障診斷時效。配合 “三層快恢技術(shù)” ,實現(xiàn)萬卡集群故障10分鐘恢復(fù)的效果。
客觀地說,CloudMatrix 384這樣的系統(tǒng)化創(chuàng)新,其本質(zhì)并不是單純?yōu)榱苏旧霞夹g(shù)的“巔峰”,而是要在企業(yè)實際的應(yīng)用場景中發(fā)揮算力的價值,這才讓“超節(jié)點”令人肅然起敬。這也代表著CloudMatrix 384所有展現(xiàn)出來的技術(shù)細(xì)節(jié),都是在客戶真實的業(yè)務(wù)場景中體現(xiàn)出來,而非實驗室的數(shù)據(jù)。
這份實打?qū)嵉南到y(tǒng)化創(chuàng)新,才稱得上是能扛起數(shù)字中國建設(shè)的算力底座。
03
超節(jié)點的啟示:“陪跑”到“領(lǐng)跑”
CloudMatrix 384超節(jié)點的突破,標(biāo)志著中國已從“單點突圍”邁向“系統(tǒng)創(chuàng)新”的新階段。更深層意義在于:系統(tǒng)級創(chuàng)新并不是簡單技術(shù)整合,在其背后是核心技術(shù)、工程化能力、場景化能力的集大成,它是對自主技術(shù)體系的全新定義,更具普惠價值和戰(zhàn)略韌性。
在性能領(lǐng)先方面,基于CloudMatrix的超節(jié)點集群通過系統(tǒng)性的架構(gòu)創(chuàng)新,在算力、互聯(lián)帶寬,內(nèi)存帶寬等方面全面領(lǐng)先。同時,通過新型高速互聯(lián)總線,打造成一個超級云服務(wù)器,CloudMatrix384超節(jié)點可提供高達(dá)300 Pflops的算力規(guī)模,比業(yè)界同類產(chǎn)品領(lǐng)先67%。甚至有有企業(yè)測試后表示,兩個超節(jié)點可媲美現(xiàn)有的數(shù)千張GPU卡。
而在AI普惠方面,超節(jié)點更具備“即可即用”的特征。通過昇騰云服務(wù),資源按需獲取、按使用計費,隨時享受最新的算力和技術(shù),實現(xiàn)即開即用,讓更多的企業(yè)和開發(fā)者能夠享受到超節(jié)點帶來的高穩(wěn)定性和高可靠性。
據(jù)悉,目前CloudMatrix已經(jīng)在華為云CloudOcean的3大節(jié)點:烏蘭察布、貴安和蕪湖上線。三大數(shù)據(jù)中心之間,華為云的光纖骨干網(wǎng)支持百TB級的帶寬互聯(lián)。同時,10毫秒時延圈覆蓋了全國19個城市群,全國主要流量高地城市都能在10毫秒之內(nèi)訪問超節(jié)點資源。
當(dāng)技術(shù)封鎖遭遇系統(tǒng)級創(chuàng)新,規(guī)則的枷鎖正在被逐漸打破。CloudMatrix 384超節(jié)點的意義并不止于一場算力競賽,它標(biāo)志著中國的自主創(chuàng)新,不僅能夠“陪跑”,也能走向“領(lǐng)跑”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.