網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

浪潮信息發(fā)布新一代AI超節(jié)點(diǎn)，支持四大國(guó)產(chǎn)開(kāi)源模型同時(shí)運(yùn)行

2025-08-11 15:08:21　來(lái)源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

從DeepSeek R1到Kimi K2，從Qwen到GLM，國(guó)產(chǎn)開(kāi)源模型不僅在Hugging Face熱度榜等榜單上頻頻霸榜，更在推理能力、長(zhǎng)文本處理、多模態(tài)理解等關(guān)鍵指標(biāo)上持續(xù)刷新紀(jì)錄。

性能飛躍的背后是參數(shù)規(guī)模的急劇膨脹，當(dāng)前主流開(kāi)源模型的參數(shù)量已經(jīng)突破萬(wàn)億大關(guān)，DeepSeek-R1、Kimi-K2等模型動(dòng)輒需要數(shù)TB的顯存空間。

更重要的是，隨著Agentic AI（代理式人工智能）成為新范式，多模型協(xié)同和復(fù)雜推理鏈帶來(lái)計(jì)算與通信需求的爆炸式增長(zhǎng)。

面對(duì)這一挑戰(zhàn)，浪潮信息發(fā)布了面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”。

它可以在單機(jī)內(nèi)同時(shí)運(yùn)行DeepSeek R1、Kimi K2等四大國(guó)產(chǎn)開(kāi)源模型，支持超萬(wàn)億參數(shù)大模型推理以及多智能體實(shí)時(shí)協(xié)作。

并且在實(shí)際測(cè)試中，其64卡整機(jī)推理性能實(shí)現(xiàn)了超線性擴(kuò)展，是真正意義上的算力聚合突破。

64張卡，1個(gè)超節(jié)點(diǎn)

元腦SD200將64張卡融合成一個(gè)統(tǒng)一內(nèi)存、統(tǒng)一編址的超節(jié)點(diǎn)，把“整機(jī)域”的邊界重新劃定在了多主機(jī)之上。

它以3D Mesh開(kāi)放架構(gòu)為骨架，底層由自研的Open Fabric Switch貫通，將分散在多臺(tái)主機(jī)里的本土GPU拉進(jìn)同一個(gè)高速互連域。

在這個(gè)統(tǒng)一域里，通過(guò)遠(yuǎn)端GPU虛擬映射技術(shù)，實(shí)現(xiàn)對(duì)64卡的統(tǒng)一編址，一次性把地址空間擴(kuò)增到原來(lái)的8倍，整機(jī)實(shí)現(xiàn)4TB顯存與64TB內(nèi)存的超大資源池，為長(zhǎng)上下文與海量KV Cache提供了充足的空間。

并且元腦SD200中的計(jì)算與數(shù)據(jù)在原生內(nèi)存語(yǔ)義下對(duì)齊，實(shí)現(xiàn)了百納秒量級(jí)的低延遲通信，在小數(shù)據(jù)包通信這一推理常態(tài)場(chǎng)景里，端到端時(shí)延優(yōu)于業(yè)界主流方案。

這直接支撐起了元腦SD200單機(jī)承載超大模型的能力——在同一臺(tái)“超節(jié)點(diǎn)”里，SD200可運(yùn)行超萬(wàn)億參數(shù)規(guī)模的大模型。

除了硬件架構(gòu)設(shè)計(jì)，元腦SD200也實(shí)現(xiàn)了系統(tǒng)與框架的協(xié)同優(yōu)化，其中內(nèi)置的Smart Fabric Manager會(huì)根據(jù)負(fù)載特征自動(dòng)構(gòu)建全局最優(yōu)路由，把拓?fù)溥x擇、擁塞規(guī)避與算子模式的策略聯(lián)動(dòng)起來(lái)，盡量把通信成本鎖在“局部最短路徑”上。

此外，元腦SD200支持開(kāi)放的PD分離框架，可以把大模型推理的Prefill與Decode解耦并行，能夠?qū)崿F(xiàn)更高效的推理效率，使計(jì)算系統(tǒng)的算力性能得到充分發(fā)揮。

軟件生態(tài)層面，它兼容PyTorch、vllm、SGLang等主流計(jì)算框架，可以快速遷移既有模型與智能體工作流，無(wú)需從頭改寫(xiě)代碼。

得益于軟硬協(xié)同優(yōu)化，當(dāng)64卡一同上陣進(jìn)行全參推理時(shí)，元腦SD200對(duì)DeepSeek R1的推理性能實(shí)現(xiàn)了約3.7倍的超線性擴(kuò)展，滿機(jī)運(yùn)行Kimi K2全參模型推理性能超線性提升比為1.7倍。

總之，元腦SD200容量夠大、延遲夠低、棧足夠開(kāi)放，既能頂住萬(wàn)億級(jí)模型的密集推理，也能支撐多智能體的高并發(fā)交互。

Agentic AI時(shí)代，Infra面臨新需求

除了規(guī)模越來(lái)越大，推理能力越來(lái)越強(qiáng)，大模型也正在經(jīng)歷從單純的文本生成到多模態(tài)、智能體的范式轉(zhuǎn)變。

并且智能體AI不再是單一模型的獨(dú)立運(yùn)行，而是需要通過(guò)多模型協(xié)同和復(fù)雜推理鏈來(lái)完成任務(wù)。

一個(gè)典型的智能體任務(wù)可能需要調(diào)用代碼生成模型、邏輯推理模型、知識(shí)檢索模型等多個(gè)專業(yè)模型，它們之間需要實(shí)時(shí)交互、相互驗(yàn)證、協(xié)同決策。

這種新范式下，推理過(guò)程需要生成比傳統(tǒng)模型多近百倍的token，計(jì)算量和通信量都呈現(xiàn)爆炸式增長(zhǎng)，給整個(gè)系統(tǒng)架構(gòu)帶來(lái)根本性困境。

當(dāng)參數(shù)規(guī)模快速突破萬(wàn)億級(jí)別，模型必須拆分到幾十甚至上百?gòu)埧ㄉ蠒r(shí)，原本在單機(jī)內(nèi)部的高速通信變成了跨機(jī)的網(wǎng)絡(luò)傳輸，通信就成為了更嚴(yán)峻的挑戰(zhàn)。

傳統(tǒng)的InfiniBand網(wǎng)絡(luò)雖然帶寬可觀，但在處理推理過(guò)程中大量的小數(shù)據(jù)包時(shí)，延遲問(wèn)題變得極為突出。每一次跨機(jī)通信都可能帶來(lái)額外延遲，而在需要頻繁同步的推理過(guò)程中，這些延遲會(huì)累積成嚴(yán)重的性能瓶頸。

智能體的多模型實(shí)時(shí)交互需求更是雪上加霜——當(dāng)多個(gè)萬(wàn)億級(jí)模型需要實(shí)時(shí)協(xié)作時(shí)，傳統(tǒng)架構(gòu)已經(jīng)完全無(wú)法應(yīng)對(duì)。

元腦SD200超節(jié)點(diǎn)的3D Mesh架構(gòu)正是在這種背景下應(yīng)運(yùn)而生。它通過(guò)將多個(gè)主機(jī)的GPU資源整合成一個(gè)統(tǒng)一的計(jì)算域，從根本上解決了顯存容量和通信延遲的雙重困境。

遠(yuǎn)端GPU虛擬映射技術(shù)，讓分布在不同主機(jī)上的GPU能夠像在同一主機(jī)內(nèi)一樣高效協(xié)作，8倍的地址空間擴(kuò)增確保了即使是數(shù)萬(wàn)億參數(shù)的模型也能完整加載和高效運(yùn)行。

隨著摩爾定律的放緩，硅基芯片面臨物理極限，繼續(xù)追求單芯片性能的大幅提升，將變得越來(lái)越困難和昂貴。

Scale Out雖然在擴(kuò)展性上看似無(wú)限，但其固有的高延遲問(wèn)題在面對(duì)萬(wàn)億模型的高頻通信需求時(shí)顯得力不從心。

因此，Scale Up成為了必然的選擇，元腦SD200也正是選擇Scale Up路徑，通過(guò)原生內(nèi)存語(yǔ)義實(shí)現(xiàn)百納秒級(jí)低延遲。

浪潮信息副總經(jīng)理趙帥指出，“超節(jié)點(diǎn)本質(zhì)上是系統(tǒng)化思維的產(chǎn)物，它不是某一個(gè)點(diǎn)的突破，而是在現(xiàn)有技術(shù)、生態(tài)和成本約束下，從系統(tǒng)層面去最大化用戶價(jià)值”，即在當(dāng)前高速信號(hào)傳輸?shù)奈锢硐拗葡?，需要在有限的物理空間內(nèi)聚集盡可能多的計(jì)算資源。

元腦SD200通過(guò)創(chuàng)新的系統(tǒng)化設(shè)計(jì)，在單機(jī)內(nèi)實(shí)現(xiàn)了64路GPU的高速互聯(lián)，實(shí)現(xiàn)了超低延遲通信，這是對(duì)物理定律和工程實(shí)踐的有效平衡。

推動(dòng)“開(kāi)源開(kāi)放”生態(tài)鏈條

除了優(yōu)異的性能表現(xiàn)，元腦SD200從設(shè)計(jì)之初就全面采用了開(kāi)放架構(gòu)。整個(gè)系統(tǒng)基于OCM（開(kāi)放算力模組）與OAM（開(kāi)放加速模塊）兩大架構(gòu)打造。

OCM標(biāo)準(zhǔn)由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院發(fā)起，浪潮信息、百度等18家算力產(chǎn)業(yè)上下游企業(yè)共同參與編制。

該架構(gòu)圍繞支持“一機(jī)多芯”設(shè)計(jì)，可快速適配Intel、AMD、ARM等多種計(jì)算平臺(tái)。

OAM則由開(kāi)放計(jì)算項(xiàng)目（OCP）社區(qū)推動(dòng)，是專為高性能計(jì)算與AI加速場(chǎng)景設(shè)計(jì)的開(kāi)放模塊標(biāo)準(zhǔn)。

該架構(gòu)統(tǒng)一了加速卡的尺寸、電氣接口和散熱設(shè)計(jì)，使來(lái)自不同廠商的GPU、NPU等AI加速器可在同一系統(tǒng)中協(xié)同運(yùn)行。

通過(guò)高速互聯(lián)技術(shù)，來(lái)自不同廠商的加速卡不僅能夠兼容運(yùn)行，更能實(shí)現(xiàn)低延遲直連，有效滿足大模型訓(xùn)練與推理對(duì)帶寬的極致要求。

浪潮信息將OCM與OAM架構(gòu)有機(jī)融合，為業(yè)界提供了一種開(kāi)放的超節(jié)點(diǎn)技術(shù)架構(gòu)，使得上游算力廠商都有機(jī)會(huì)參與超節(jié)點(diǎn)共建，下游用戶也擁有更多的算力選擇。

浪潮信息選擇開(kāi)放架構(gòu)不僅是技術(shù)選擇，更是產(chǎn)業(yè)戰(zhàn)略。

這種開(kāi)放性為用戶提供了多元化的選擇自由——通過(guò)提供多種算力方案，從應(yīng)用角度給客戶更多選擇。

另一個(gè)價(jià)值是低遷移成本，元腦SD200提供了算子級(jí)別的全面支持，基于PyTorch等主流框架開(kāi)發(fā)的模型可以直接在其上運(yùn)行，無(wú)需重新開(kāi)發(fā)或大規(guī)模改造。

元腦SD200的目標(biāo)，是讓更多企業(yè)能夠用得起、用得好超節(jié)點(diǎn)系統(tǒng)，真正實(shí)現(xiàn)智能平權(quán)。

元腦SD200通過(guò)開(kāi)放架構(gòu)與開(kāi)源模型的深度結(jié)合，不僅為萬(wàn)億參數(shù)大模型提供了可靠的基礎(chǔ)設(shè)施支撐，更推動(dòng)了“智能平權(quán)”的加速落地。

通過(guò)開(kāi)放促進(jìn)創(chuàng)新，通過(guò)創(chuàng)新推動(dòng)系統(tǒng)性能提升，通過(guò)規(guī)?；档统杀?，浪潮信息正在讓更多企業(yè)和開(kāi)發(fā)者能夠便捷利用頂尖AI技術(shù)，共享智能時(shí)代的發(fā)展紅利。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.