- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
從DeepSeek R1到Kimi K2,從Qwen到GLM,國(guó)產(chǎn)開(kāi)源模型不僅在Hugging Face熱度榜等榜單上頻頻霸榜,更在推理能力、長(zhǎng)文本處理、多模態(tài)理解等關(guān)鍵指標(biāo)上持續(xù)刷新紀(jì)錄。
性能飛躍的背后是參數(shù)規(guī)模的急劇膨脹,當(dāng)前主流開(kāi)源模型的參數(shù)量已經(jīng)突破萬(wàn)億大關(guān),DeepSeek-R1、Kimi-K2等模型動(dòng)輒需要數(shù)TB的顯存空間。
更重要的是,隨著Agentic AI(代理式人工智能)成為新范式,多模型協(xié)同和復(fù)雜推理鏈帶來(lái)計(jì)算與通信需求的爆炸式增長(zhǎng)。
面對(duì)這一挑戰(zhàn),浪潮信息發(fā)布了面向萬(wàn)億參數(shù)大模型的超節(jié)點(diǎn)AI服務(wù)器“元腦SD200”。
它可以在單機(jī)內(nèi)同時(shí)運(yùn)行DeepSeek R1、Kimi K2等四大國(guó)產(chǎn)開(kāi)源模型,支持超萬(wàn)億參數(shù)大模型推理以及多智能體實(shí)時(shí)協(xié)作。
并且在實(shí)際測(cè)試中,其64卡整機(jī)推理性能實(shí)現(xiàn)了超線性擴(kuò)展,是真正意義上的算力聚合突破。
64張卡,1個(gè)超節(jié)點(diǎn)
元腦SD200將64張卡融合成一個(gè)統(tǒng)一內(nèi)存、統(tǒng)一編址的超節(jié)點(diǎn),把“整機(jī)域”的邊界重新劃定在了多主機(jī)之上。
它以3D Mesh開(kāi)放架構(gòu)為骨架,底層由自研的Open Fabric Switch貫通,將分散在多臺(tái)主機(jī)里的本土GPU拉進(jìn)同一個(gè)高速互連域。
在這個(gè)統(tǒng)一域里,通過(guò)遠(yuǎn)端GPU虛擬映射技術(shù),實(shí)現(xiàn)對(duì)64卡的統(tǒng)一編址,一次性把地址空間擴(kuò)增到原來(lái)的8倍,整機(jī)實(shí)現(xiàn)4TB顯存與64TB內(nèi)存的超大資源池,為長(zhǎng)上下文與海量KV Cache提供了充足的空間。
并且元腦SD200中的計(jì)算與數(shù)據(jù)在原生內(nèi)存語(yǔ)義下對(duì)齊,實(shí)現(xiàn)了百納秒量級(jí)的低延遲通信,在小數(shù)據(jù)包通信這一推理常態(tài)場(chǎng)景里,端到端時(shí)延優(yōu)于業(yè)界主流方案。
這直接支撐起了元腦SD200單機(jī)承載超大模型的能力——在同一臺(tái)“超節(jié)點(diǎn)”里,SD200可運(yùn)行超萬(wàn)億參數(shù)規(guī)模的大模型。
除了硬件架構(gòu)設(shè)計(jì),元腦SD200也實(shí)現(xiàn)了系統(tǒng)與框架的協(xié)同優(yōu)化,其中內(nèi)置的Smart Fabric Manager會(huì)根據(jù)負(fù)載特征自動(dòng)構(gòu)建全局最優(yōu)路由,把拓?fù)溥x擇、擁塞規(guī)避與算子模式的策略聯(lián)動(dòng)起來(lái),盡量把通信成本鎖在“局部最短路徑”上。
此外,元腦SD200支持開(kāi)放的PD分離框架,可以把大模型推理的Prefill與Decode解耦并行,能夠?qū)崿F(xiàn)更高效的推理效率,使計(jì)算系統(tǒng)的算力性能得到充分發(fā)揮。
軟件生態(tài)層面,它兼容PyTorch、vllm、SGLang等主流計(jì)算框架,可以快速遷移既有模型與智能體工作流,無(wú)需從頭改寫(xiě)代碼。
得益于軟硬協(xié)同優(yōu)化,當(dāng)64卡一同上陣進(jìn)行全參推理時(shí),元腦SD200對(duì)DeepSeek R1的推理性能實(shí)現(xiàn)了約3.7倍的超線性擴(kuò)展,滿機(jī)運(yùn)行Kimi K2全參模型推理性能超線性提升比為1.7倍。
總之,元腦SD200容量夠大、延遲夠低、棧足夠開(kāi)放,既能頂住萬(wàn)億級(jí)模型的密集推理,也能支撐多智能體的高并發(fā)交互。
Agentic AI時(shí)代,Infra面臨新需求
除了規(guī)模越來(lái)越大,推理能力越來(lái)越強(qiáng),大模型也正在經(jīng)歷從單純的文本生成到多模態(tài)、智能體的范式轉(zhuǎn)變。
并且智能體AI不再是單一模型的獨(dú)立運(yùn)行,而是需要通過(guò)多模型協(xié)同和復(fù)雜推理鏈來(lái)完成任務(wù)。
一個(gè)典型的智能體任務(wù)可能需要調(diào)用代碼生成模型、邏輯推理模型、知識(shí)檢索模型等多個(gè)專業(yè)模型,它們之間需要實(shí)時(shí)交互、相互驗(yàn)證、協(xié)同決策。
這種新范式下,推理過(guò)程需要生成比傳統(tǒng)模型多近百倍的token,計(jì)算量和通信量都呈現(xiàn)爆炸式增長(zhǎng),給整個(gè)系統(tǒng)架構(gòu)帶來(lái)根本性困境。
當(dāng)參數(shù)規(guī)模快速突破萬(wàn)億級(jí)別,模型必須拆分到幾十甚至上百?gòu)埧ㄉ蠒r(shí),原本在單機(jī)內(nèi)部的高速通信變成了跨機(jī)的網(wǎng)絡(luò)傳輸,通信就成為了更嚴(yán)峻的挑戰(zhàn)。
傳統(tǒng)的InfiniBand網(wǎng)絡(luò)雖然帶寬可觀,但在處理推理過(guò)程中大量的小數(shù)據(jù)包時(shí),延遲問(wèn)題變得極為突出。每一次跨機(jī)通信都可能帶來(lái)額外延遲,而在需要頻繁同步的推理過(guò)程中,這些延遲會(huì)累積成嚴(yán)重的性能瓶頸。
智能體的多模型實(shí)時(shí)交互需求更是雪上加霜——當(dāng)多個(gè)萬(wàn)億級(jí)模型需要實(shí)時(shí)協(xié)作時(shí),傳統(tǒng)架構(gòu)已經(jīng)完全無(wú)法應(yīng)對(duì)。
元腦SD200超節(jié)點(diǎn)的3D Mesh架構(gòu)正是在這種背景下應(yīng)運(yùn)而生。它通過(guò)將多個(gè)主機(jī)的GPU資源整合成一個(gè)統(tǒng)一的計(jì)算域,從根本上解決了顯存容量和通信延遲的雙重困境。
遠(yuǎn)端GPU虛擬映射技術(shù),讓分布在不同主機(jī)上的GPU能夠像在同一主機(jī)內(nèi)一樣高效協(xié)作,8倍的地址空間擴(kuò)增確保了即使是數(shù)萬(wàn)億參數(shù)的模型也能完整加載和高效運(yùn)行。
隨著摩爾定律的放緩,硅基芯片面臨物理極限,繼續(xù)追求單芯片性能的大幅提升,將變得越來(lái)越困難和昂貴。
Scale Out雖然在擴(kuò)展性上看似無(wú)限,但其固有的高延遲問(wèn)題在面對(duì)萬(wàn)億模型的高頻通信需求時(shí)顯得力不從心。
因此,Scale Up成為了必然的選擇,元腦SD200也正是選擇Scale Up路徑,通過(guò)原生內(nèi)存語(yǔ)義實(shí)現(xiàn)百納秒級(jí)低延遲。
浪潮信息副總經(jīng)理趙帥指出,“超節(jié)點(diǎn)本質(zhì)上是系統(tǒng)化思維的產(chǎn)物,它不是某一個(gè)點(diǎn)的突破,而是在現(xiàn)有技術(shù)、生態(tài)和成本約束下,從系統(tǒng)層面去最大化用戶價(jià)值”,即在當(dāng)前高速信號(hào)傳輸?shù)奈锢硐拗葡?,需要在有限的物理空間內(nèi)聚集盡可能多的計(jì)算資源。
元腦SD200通過(guò)創(chuàng)新的系統(tǒng)化設(shè)計(jì),在單機(jī)內(nèi)實(shí)現(xiàn)了64路GPU的高速互聯(lián),實(shí)現(xiàn)了超低延遲通信,這是對(duì)物理定律和工程實(shí)踐的有效平衡。
推動(dòng)“開(kāi)源開(kāi)放”生態(tài)鏈條
除了優(yōu)異的性能表現(xiàn),元腦SD200從設(shè)計(jì)之初就全面采用了開(kāi)放架構(gòu)。整個(gè)系統(tǒng)基于OCM(開(kāi)放算力模組)與OAM(開(kāi)放加速模塊)兩大架構(gòu)打造。
OCM標(biāo)準(zhǔn)由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院發(fā)起,浪潮信息、百度等18家算力產(chǎn)業(yè)上下游企業(yè)共同參與編制。
該架構(gòu)圍繞支持“一機(jī)多芯”設(shè)計(jì),可快速適配Intel、AMD、ARM等多種計(jì)算平臺(tái)。
OAM則由開(kāi)放計(jì)算項(xiàng)目(OCP)社區(qū)推動(dòng),是專為高性能計(jì)算與AI加速場(chǎng)景設(shè)計(jì)的開(kāi)放模塊標(biāo)準(zhǔn)。
該架構(gòu)統(tǒng)一了加速卡的尺寸、電氣接口和散熱設(shè)計(jì),使來(lái)自不同廠商的GPU、NPU等AI加速器可在同一系統(tǒng)中協(xié)同運(yùn)行。
通過(guò)高速互聯(lián)技術(shù),來(lái)自不同廠商的加速卡不僅能夠兼容運(yùn)行,更能實(shí)現(xiàn)低延遲直連,有效滿足大模型訓(xùn)練與推理對(duì)帶寬的極致要求。
浪潮信息將OCM與OAM架構(gòu)有機(jī)融合,為業(yè)界提供了一種開(kāi)放的超節(jié)點(diǎn)技術(shù)架構(gòu),使得上游算力廠商都有機(jī)會(huì)參與超節(jié)點(diǎn)共建,下游用戶也擁有更多的算力選擇。
浪潮信息選擇開(kāi)放架構(gòu)不僅是技術(shù)選擇,更是產(chǎn)業(yè)戰(zhàn)略。
這種開(kāi)放性為用戶提供了多元化的選擇自由——通過(guò)提供多種算力方案,從應(yīng)用角度給客戶更多選擇。
另一個(gè)價(jià)值是低遷移成本,元腦SD200提供了算子級(jí)別的全面支持,基于PyTorch等主流框架開(kāi)發(fā)的模型可以直接在其上運(yùn)行,無(wú)需重新開(kāi)發(fā)或大規(guī)模改造。
元腦SD200的目標(biāo),是讓更多企業(yè)能夠用得起、用得好超節(jié)點(diǎn)系統(tǒng),真正實(shí)現(xiàn)智能平權(quán)。
元腦SD200通過(guò)開(kāi)放架構(gòu)與開(kāi)源模型的深度結(jié)合,不僅為萬(wàn)億參數(shù)大模型提供了可靠的基礎(chǔ)設(shè)施支撐,更推動(dòng)了“智能平權(quán)”的加速落地。
通過(guò)開(kāi)放促進(jìn)創(chuàng)新,通過(guò)創(chuàng)新推動(dòng)系統(tǒng)性能提升,通過(guò)規(guī)?;档统杀?,浪潮信息正在讓更多企業(yè)和開(kāi)發(fā)者能夠便捷利用頂尖AI技術(shù),共享智能時(shí)代的發(fā)展紅利。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.