明敏 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
華為云算力再迎重大突破!
剛剛落幕的華為全聯(lián)接大會2025,一系列新進(jìn)展發(fā)布——
- AI算力云服務(wù)升級,基于華為云剛剛發(fā)布的最新AI服務(wù)器規(guī)劃,CloudMatrix的云上超節(jié)點規(guī)格將從384卡升級到未來的8192卡。依托MatrixLink高速對等互聯(lián)網(wǎng)絡(luò)結(jié)合多網(wǎng)合一技術(shù),實現(xiàn)百萬卡的超大集群,為智能時代提供更澎湃的AI算力。
- 首創(chuàng)EMS彈性內(nèi)存存儲服務(wù),大幅降低多輪對話時延
- 華為云Tokens服務(wù)正式接入CloudMatrix384超節(jié)點,打造極致性能的Tokens服務(wù)體驗。
這距離CloudMatrix384超節(jié)點2025年4月正式發(fā)布僅半年,期間其能力持續(xù)進(jìn)化
- 2025年4月,CloudMatrix384超節(jié)點發(fā)布并商用,在蕪湖數(shù)據(jù)中心規(guī)模化上線;
- 2025年6月,基于CloudMatrix384超節(jié)點的新一代昇騰AI云服務(wù)全面上線;
- 2025年9月,Tokens服務(wù)全面接入CloudMatrix384超節(jié)點,有效屏蔽復(fù)雜的底層技術(shù)實現(xiàn),直接為用戶提供最終的AI計算結(jié)果。
現(xiàn)階段,AI行業(yè)內(nèi)依舊被算力焦慮籠罩。硅谷大廠近期在算力、芯片領(lǐng)域動作頻頻:
OpenAI一邊和博通自研AI芯片,一邊向甲骨文拋出3000億美元買算力;馬斯克百天建成萬卡超算集群,還計劃向百萬卡規(guī)模沖擊,同時悄悄布局芯片;Meta、AWS等企業(yè)也在積極獲取更多算力資源……但算力的發(fā)展并非一蹴而就,它需要在單點技術(shù)上極致突破,還涉及芯片、硬件、架構(gòu)、軟件、網(wǎng)絡(luò)、能源乃至整個產(chǎn)業(yè)生態(tài)的協(xié)同演進(jìn)。
放眼全球,能夠輸出澎湃算力的供應(yīng)商,都離不開十?dāng)?shù)年、數(shù)十年的沉淀積累。
華為云作為其中一員,探索路徑因所處產(chǎn)業(yè)階段而顯得尤為深刻:不僅需要在技術(shù)“無人區(qū)”重新定義算力運行規(guī)則;還需把握AI發(fā)展時機(jī),通過快速迭代響應(yīng)產(chǎn)業(yè)海量需求。一步步成長為今天的“算力黑土地”。
黑土地是極其適合農(nóng)業(yè)的土質(zhì),天然含有大量腐植質(zhì),在此耕種的莊稼產(chǎn)量高,能夠茁壯成長。
華為云“算力黑土地”理念核心是,華為云向行業(yè)提供一塊肥沃且精心開墾的“土壤”,企業(yè)、開發(fā)者可根據(jù)自身需求,在這片“土壤”上開展AI創(chuàng)新實踐。同時,華為云通過框架創(chuàng)新、軟硬協(xié)同等一系列能力積累作為養(yǎng)料,讓這片黑土地越來越肥沃。
正因如此,在大模型浪潮爆發(fā)的當(dāng)下,華為云才能持續(xù)向產(chǎn)業(yè)輸送澎湃算力,做最堅實的底座。其背后的研發(fā)、行動、理念與認(rèn)知,也成為中國算力產(chǎn)業(yè)發(fā)展的重要參考。
智算+通算,覆蓋全產(chǎn)業(yè)算力需求
想要快速前進(jìn),綱領(lǐng)是第一要務(wù)。
華為云的策略是智算(智能計算)+通算(通用計算)協(xié)同推進(jìn):
- 智算:聚焦AI前沿,提供極致性能與彈性服務(wù),助力AI更快更好落地千行百業(yè)。
- 通算:依托鯤鵬云服務(wù),從核心到邊緣全場景賦能,提供安全可信的云上通用算力。
智算部分的核心服務(wù)模式是Tokens服務(wù),同時也可以提供HCS混合云、華為云液冷云數(shù)據(jù)中心以及昇騰專屬云服務(wù)。開頭提到的CloudMatrix384超節(jié)點能力升級和首創(chuàng)EMS彈性內(nèi)存存儲服務(wù),就屬于智算領(lǐng)域成果。
△圖片為AI生成
通算部分主要是鯤鵬云業(yè)務(wù),基于華為云自研的鯤鵬處理器(ARM架構(gòu)),提供一系列面向通用計算場景的云服務(wù)產(chǎn)品,推動產(chǎn)業(yè)智能創(chuàng)新。
鯤鵬云實現(xiàn)了軟硬協(xié)同的全面創(chuàng)新,從多核高并發(fā)的芯片設(shè)計、軟硬一體的“擎天”架構(gòu),到華為云智能調(diào)度平臺與操作系統(tǒng)的深度優(yōu)化,鯤鵬云服務(wù)釋放出“開箱即用”的強(qiáng)勁算力。目前云上鯤鵬核數(shù)從900多萬核增長到1500萬核,增幅達(dá)到67%。同時全面兼容主流應(yīng)用軟件,已適配超過25000個應(yīng)用,為ARM生態(tài)繁榮提供堅實支撐。
以上就是華為云“算力黑土地”的大致架構(gòu)。在這一體系下,大模型時代中的華為云能夠更清晰、更針對性根據(jù)AI落地需求進(jìn)行升級,為產(chǎn)業(yè)提供更高效、易用、可靠的算力。
AI時代,用Tokens定義計算
針對AI時代需求,華為云今年正式推出基于CloudMatrix384超節(jié)點的Tokens服務(wù)。這是一種面向AI大模型推理場景、按實際Token消耗量計費的云服務(wù)模式,與傳統(tǒng)云計算計費方式不同,可顯著降低AI推理成本。
這種模式調(diào)整背后,是對大模型落地的細(xì)致洞察。Token是將文本分割轉(zhuǎn)換成數(shù)字向量,大模型吞吐內(nèi)容的規(guī)模以Tokens計算,它是大模型時代天然的計量單位。隨著AI落地進(jìn)程推進(jìn),Tokens消耗量呈爆發(fā)式增長。
數(shù)據(jù)顯示,2024年初中國日均Token消耗量為1000億,截至今年6月底,日均Token消耗量已突破30萬億,一年半的時間增長300多倍。顯然,Token不再只是技術(shù)領(lǐng)域的計算單位,更是大模型消耗的實際體現(xiàn),是衡量大模型落地情況的關(guān)鍵參考,也能直接反映背后GPU算力、內(nèi)存、計算時間的使用量。
用Tokens作為計費單位逐漸成為行業(yè)共識:一方面,能更精準(zhǔn)計算企業(yè)使用的資源,讓用戶僅為實際消耗付費,同時通過實際消耗了解費用構(gòu)成,進(jìn)一步優(yōu)化成本;另一方面,可解決不同場景Tokens消耗量差距大導(dǎo)致的收費不公問題,為云廠商動態(tài)調(diào)節(jié)計算資源提供參考。
比如我們常遇到的在線、近線、離線等場景:長文本生成任務(wù)適用于日常辦公等場景,白天調(diào)用量大、夜間幾乎靜默,按量計費比按時/按卡計費更合理;智能客服、AI助手等場景中,不同細(xì)分情況的會話輪次和深度不確定,Tokens服務(wù)模式可以更精準(zhǔn)計算每次交互成本。
另一方面,Token服務(wù)可以有效屏蔽復(fù)雜的底層技術(shù)實現(xiàn),用戶不必關(guān)心芯片的工藝、服務(wù)器的代次等復(fù)雜的硬件技術(shù)棧,也不必關(guān)心推理框架、模型部署等復(fù)雜的軟件技術(shù)棧,可以高效地直接獲得“AI的最終結(jié)果”。
在本次HC2025上,華為云宣布CloudMatrix384 AI Token推理服務(wù)全面上線。這意味著AI算力進(jìn)入以“極致性能、極致效率”為特征的新階段,性能超越英偉達(dá)H20 3-4倍。其底層技術(shù)主要依托CloudMatrix384超節(jié)點及xDeepServe分布式推理框架等。
第一,CloudMatrix384超節(jié)點使用全對等互聯(lián)架構(gòu)與高速通信技術(shù),在計算通信等方面優(yōu)勢顯著,能釋放更極致算力
CloudMatrix384超節(jié)點通過華為云自研的MatrixLink高速對等互聯(lián)網(wǎng)絡(luò),將384顆昇騰NPU和192顆鯤鵬CPU緊密耦合,形成邏輯統(tǒng)一的超級“AI服務(wù)器”。通過Scale Out方式,還可以組成一個超16萬卡的AI集群,同時支持1300個千億參數(shù)大模型訓(xùn)練或者上萬個模型的推理。
未來,基于華為剛剛發(fā)布的最新AI服務(wù)器規(guī)劃,CloudMatrix超節(jié)點的規(guī)格將進(jìn)一步升級到8192顆,組成百萬卡的AI集群。
第二,基于“一切可池化”理念,華為云通過首創(chuàng)的EMS彈性內(nèi)存存儲服務(wù)將NPU顯存、CPU內(nèi)存和存儲資源解耦,形成統(tǒng)一資源池。NPU可直接遠(yuǎn)程訪問池化內(nèi)存,實現(xiàn)顯存獨立擴(kuò)容,多輪對話Token時延大幅降低。同時,計算、存儲和網(wǎng)絡(luò)資源可根據(jù)負(fù)載需求動態(tài)組合,提升資源利用率。
這一技術(shù)對多輪次問答場景提升顯著。大模型進(jìn)行多輪問答時,通常響應(yīng)會隨輪次增加而變慢,原因是大模型需“記住”之前每一輪產(chǎn)生的數(shù)據(jù)以保證回答連貫性,當(dāng)問答輪次增加,計算量成倍增長,導(dǎo)致響應(yīng)延遲。而EMS服務(wù)能有效解決這一問題。
第三,PDC分離及動態(tài)PD:PDC( Prefill-Decode-Caching)分離是將Prefill、Decode固化在各自集群、同時利用MatrixLink高速對等互聯(lián)網(wǎng)絡(luò)可以全局尋址的特點而另設(shè)立獨立的KV緩存集群,這樣不論是Prefill集群還是Decode集群的NPU都能夠直接訪問獨立KV緩存集群的共享內(nèi)存緩存,突破數(shù)據(jù)的物理位置限制,顯著提高負(fù)載均衡、NPU利用率以及內(nèi)存利用率,同時提供更大的彈性。同時,系統(tǒng)能夠準(zhǔn)確實時地分析或預(yù)測推理業(yè)務(wù)負(fù)載。
第四,CloudMatrix384超節(jié)點專為主流MoE架構(gòu)設(shè)計,支持“一卡一專家”的分布式推理模式,將MoE模型的專家模塊分布到不同NPU卡上并行處理,如256個專家對應(yīng)256張卡,減少通信延遲導(dǎo)致的算力浪費,減少每張卡權(quán)重加載的時延,同時減少權(quán)重的顯存占用,顯著提升單卡并行的路數(shù)。
當(dāng)Tokens服務(wù)全面接入CloudMatrix384超節(jié)點后,企業(yè)用戶能以優(yōu)的性能、好的服務(wù)、高的質(zhì)量,獲得各行各業(yè)所需的“最終AI計算結(jié)果”,更專注于應(yīng)用和業(yè)務(wù)創(chuàng)新。
千行百業(yè)AI底座:支撐互聯(lián)網(wǎng)應(yīng)用、高精尖科研任務(wù)
360推出的納米AI是全球唯一已經(jīng)進(jìn)化到L4級別的多智能體蜂群平臺。
納米AI的單任務(wù)執(zhí)行步驟可達(dá)1000步,消耗500萬至3000萬Tokens,其多個專家智能體可以靈活拉群、多層嵌套、組隊協(xié)作完成復(fù)雜任務(wù),還能異步并行運行,大幅縮短超級任務(wù)執(zhí)行時長。在無限上下文長度方面,有用戶實測可以連續(xù)工作兩小時,消耗Token 2000萬,超過1000步的復(fù)雜任務(wù)不中斷、不卡殼,能順滑完成。
這對底層AI算力的實時推理性能和并發(fā)吞吐能力提出極高要求,且業(yè)務(wù)場景復(fù)雜,涉及多輪對話、文檔分析等,要求算力平臺具備高靈活性和適應(yīng)性,同時隨著用戶規(guī)模增長,Tokens消耗量成倍增加,進(jìn)一步加大了算力需求。
華為云將納米AI中調(diào)用量最大的模型部署在CloudMatrix384昇騰AI云服務(wù)上,進(jìn)行全面調(diào)優(yōu),并提供Tokens服務(wù)?;贑loudMatrix384超節(jié)點全新高速網(wǎng)絡(luò)對等互聯(lián),384顆昇騰NPU、192顆鯤鵬CPU組成一臺超級“AI服務(wù)器”,算力和資源互聯(lián)帶寬提升數(shù)十倍以上;同時依托xDeepServe分布式推理框架打造Tokens“超高速流水線”,結(jié)合EMS彈性內(nèi)存存儲打破AI內(nèi)存墻,實現(xiàn)“以存強(qiáng)算”,最終幫助企業(yè)客戶更靈活、低成本地調(diào)用優(yōu)質(zhì)算力,高效發(fā)展AI Agent應(yīng)用。
另一邊,華為云也能滿足國家級科研機(jī)構(gòu)對高精度、高專業(yè)性和安全可信的算力需求。
今年,中國科學(xué)院自動化研究所牽頭打造并發(fā)布“磐石·科學(xué)基礎(chǔ)大模型”,旨在為科學(xué)研究提供智能底座,推動生物、化學(xué)等領(lǐng)域?qū)I(yè)大模型開發(fā)。
作為國家級科研機(jī)構(gòu),中國科學(xué)院多個研究所都對算力有國產(chǎn)化、自主可控的要求,且科學(xué)模型需要高精度、高專業(yè)性,比如航天航空、醫(yī)療、氣象預(yù)測等領(lǐng)域,低精度訓(xùn)練可能影響實驗結(jié)果。同時中國科學(xué)院涉及的科研場景多樣,上百個研究所都將基于科學(xué)基礎(chǔ)大模型開展研究工作,需要算力平臺既能匹配高效算力,又能滿足長期演進(jìn)及專業(yè)化服務(wù)需求。
華為云為磐石提供基于國產(chǎn)化昇騰芯片的昇騰AI云服務(wù),實現(xiàn)軟硬件、計算框架、開發(fā)平臺全鏈路自主可控?;贑loudMatrix384超節(jié)點高速互聯(lián)框架優(yōu)化融合算子,性能可對標(biāo)甚至超越英偉達(dá)。
以高能物理應(yīng)用為例,北京正負(fù)電子對撞機(jī)基于磐石實現(xiàn)粒子軌跡重建等任務(wù)的自動化。借助華為云CloudMatrix384昇騰AI云服務(wù),基于磐石發(fā)展粒子物理領(lǐng)域大模型,模擬速度提升1個量級,物理分析周期縮短1個量級,進(jìn)一步助力加速新物理現(xiàn)象發(fā)現(xiàn)。
除此之外,科大訊飛星火大模型推理、面壁小鋼炮MiniCPM端側(cè)模型訓(xùn)練、美的“雙活”資源底座構(gòu)建、高教社智能內(nèi)容服務(wù)平臺等,均以華為云CloudMatrix384昇騰AI云服務(wù)為底座,實現(xiàn)效率提升與創(chuàng)新加速。
十年積累孕育黑土地
以上,是對華為云“算力黑土地”的剖析。
過去十年,華為云在軟硬協(xié)同、數(shù)據(jù)中心、算法框架、模型服務(wù)、生態(tài)建設(shè)方面的積累與付出,組成了如今肥沃“算力黑土地”中的養(yǎng)料,成為其能夠持續(xù)輸出澎湃算力的關(guān)鍵。
華為云的全棧研發(fā)體系與長期高額研發(fā)投入,如同“地核”一樣,為一切提供持續(xù)熱量和磁場保護(hù),確?!吧钡靡源嬖?、成長。如今,大模型爆發(fā)如同寒武紀(jì)生命大爆發(fā)般,推動AI應(yīng)用快速普及,華為云打造的“算力黑土地”,也迎來了播種與收獲的時刻。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.