新智元報道
編輯:編輯部
【新智元導讀】單機駕馭4萬億參數(shù),國產開源AI四大天王推理快到炸裂!這背后不是算力堆疊的肌肉秀,而是「元腦SD200」超節(jié)點AI終極殺器。超大顯存、超高速互聯(lián)域、超強算力,還支持64路本土GPU,全面可商用。
國產「四大開源天王」,同時在單機上跑起來了!
DeepSeek+Qwen+Kimi+GLM,超萬億參數(shù)的模型,竟毫無一絲壓力地神速輸出。
你可能會問:一次性運行如此巨量的參數(shù)模型,靠的是什么?
答案并不是簡單地堆砌多個集群,而是算力AI系統(tǒng)不斷Scale Up的終極成果,簡而言之就是「超節(jié)點」(SuperPod)。
這個最初由英偉達提出的概念,如今在國內外火的一塌糊涂。
2025開放計算技術大會上,浪潮信息帶著超節(jié)點AI服務器「元腦SD200」來了,單機即可跑萬億參數(shù)模型。
它具備了更大顯存空間、更大Scale Up高速互聯(lián)域,以及更大算力超節(jié)點系統(tǒng)。
關鍵是,全面可商用。
元腦SD200
面向萬億大模型的開放超節(jié)點
元腦SD200,是一個可支持萬億參數(shù)大模型運行的超節(jié)點AI服務器。
浪潮信息基于創(chuàng)新研發(fā)的多主機低延遲內存語義通信架構,以開放系統(tǒng)設計了這個服務器,可以聚合64路本土GPU芯片。
這背后,就是浪潮信息在計算領域Scale Up十幾年的技術積累,和前沿大模型開發(fā)的一手經驗。
而結果也是十分驚人,實測顯示,SD200直接突破了系統(tǒng)的性能邊界,在大模型的多個應用場景上,都實現(xiàn)了極佳的算力曲線!
比如在DeepSeek R1的全參PD分離推理測試中,推理框架可以實現(xiàn)64卡性能370%的擴展效率。
架構創(chuàng)新
在應用架構層面,浪潮信息基于Open Fabric Switch,構建了3D Mesh系統(tǒng)架構,實現(xiàn)了單機64路本土GPU芯片的高速互連。
同時,他們通過遠端的GPU虛擬映射技術,突破了多Host交換域的統(tǒng)一編址難題,讓顯存的統(tǒng)一地址空間直接擴增了8倍。
由此,單機可以提供最大4TB的統(tǒng)一顯存,和64GB的統(tǒng)一內存。這就為萬億超長序列模型提供了充足的KV Cache空間。
因此,SD200的客戶就有充分的空間,可以去探索各類前沿大模型的創(chuàng)新應用場景!
比如開頭提到的場景——單機部署DeepSeek、Qwen、Kimi、GLM四大開源模型,發(fā)揮各個模型的能力專長,讓Agent按需調用。
同時,基于百納秒級的超低延遲物理鏈路,它可以實現(xiàn)64卡大高速互連域的原生內存語義通信,還能支持Load-store、Atomic這種原子操作,在推理常用的小數(shù)據(jù)包場景上,能力提升非常明顯。
系統(tǒng)創(chuàng)新
并且,作為一款復雜的異構計算系統(tǒng),不僅需要卓越的硬件架構設計,還需要有一套與之相匹配的軟件系統(tǒng)。
因此,根據(jù)萬億參數(shù)大模型計算通信需求的特征,浪潮信息團隊研發(fā)了Smart Fabric Manager系統(tǒng),實現(xiàn)了超節(jié)點64卡全局最優(yōu)路由。
它能支持多卡多用、不同拓撲結構的切分和切換,也就可以實現(xiàn)按需分配。
針對All Reduce、All Gather這種典型的通信算子,團隊開展了不同層級的通信策略,實現(xiàn)了通信延遲的進一步降低。
同時,團隊還開發(fā)了一套開放的PD分離推理框架。
它可以支持異步高效的KV Cache傳輸,能滿足多種不同場景的需求。PD差異化的并行策略,大幅提升了業(yè)務場景的SLO,還能兼容多元的AI芯片。
萬億參數(shù)模型Scaling
超節(jié)點火了
超節(jié)點,為何成為了AI算力的「新寵」?
在AI浪潮的洶涌推動下,LLM的迅猛發(fā)展對算力提出了近乎苛刻的要求。
與此同時,AI已經成為全行業(yè)戰(zhàn)略性的業(yè)務選擇,隨之帶動了巨大的算力消耗。
因此,我們順勢見證了全球AI數(shù)據(jù)中心的加速擴張。
麥肯錫曾給出這樣的預測數(shù)據(jù):在未來五年,全球AI數(shù)據(jù)中心的總投資將達到5.2萬億美元。
而隨之新增加的電力容量增量,將達到125GW。這個數(shù)字,相當于整個2024年中國總用電量的20%,或者十個三峽電站的發(fā)電量。
而到2030年,AI數(shù)據(jù)中心的算力容量將達到2025年容量的3.5倍。
從千億到萬億參數(shù)規(guī)模的飛躍,MoE架構繼續(xù)推動大模型不斷Scaling,由此算力集群也加速邁向了「萬卡協(xié)同」時代。
這幾天,全球開源模型輪番轟炸,比如OpenAI剛剛開源gpt-oss 20B和120B推理模型。
再加上前段時間,Qwen、Kimi、GLM等多款模型相繼開源,成功躋身全球頂尖開源大模型陣營。
隨著LLM繼續(xù)向萬億、甚至十萬億參數(shù)規(guī)模和更長上下文演進,其推理和訓練過程算力需求呈指數(shù)級增長。
不論是GPT-5、Grok 4、Gemini 2.5 Pro等閉源模型,還是gpt-oss、Kimi K2等開源模型,參數(shù)量自增導致KV緩存劇增,遠超傳統(tǒng)AI服務器顯存能力極限。
與此同時,Agentic AI的興起,進一步加劇了算力挑戰(zhàn)。
它們具備了自主決策、連續(xù)任務執(zhí)行、多模態(tài)交互等能力,其推理過程要比傳統(tǒng)模型多100倍toekn。
OpenAI智能體Operator自主訂餐
而且,其輸出結果往往會作為下一步輸入,推理速度往往在50-100 token/s。
顯然,這對顯存容量和帶寬提出了極高的要求,形成了「顯存墻」和「帶寬墻」的雙重瓶頸。
傳統(tǒng)單點算力、小規(guī)模集群已難以應對上述一些挑戰(zhàn)。
另一方面,摩爾定律逐漸放緩,芯片制程提升成本和難度不斷加大,業(yè)界亟需新的算力增長路徑。
此時,超節(jié)點通過整合GPU資源,構建高性能算力實體,成為必然路徑。
無論是模型參數(shù)量的增加、大模型推理的需求,還是Agentic AI的多模協(xié)作范式,都需要更大顯存空間、更大高速互聯(lián)域、更高算力的超節(jié)點系統(tǒng)支撐
要知道,在大模型訓推中,芯片互聯(lián)拓撲的高效性至關重要。
為了滿足模型并行計算所需的海量數(shù)據(jù)交換,超節(jié)點必須具備高帶寬和低時延的通信能力。
Scale Up通過在單一節(jié)點內,整合更多GPU資源,構建出低延遲、高帶寬的統(tǒng)一的算力實體。
它不僅有效支撐并行計算任務,還能加入GPU之間參數(shù)交換和數(shù)據(jù)同步。
相較于傳統(tǒng)的Scale Out方案,Scale Up具備了顯著優(yōu)勢。
會上,浪潮信息副總經理趙帥表示,「推理對延遲敏感,Scale Up通過短鏈路實現(xiàn)更高效的芯片間通信,特別是在推理過程常見的小數(shù)據(jù)包通信場景下性能提升顯著」。
而且多芯片封裝在同一IO帶上,可以構建高帶寬、低延遲的統(tǒng)一計算域。
以英偉達GB200 NVL72為例,整合72個GPU和36個CPU,吞吐量比傳統(tǒng)8卡服務器互聯(lián)方案高出3倍。
GB200 NVL72
未來3-5年,Scale Up和Scale Out將并行發(fā)展,前者將域持續(xù)擴大支持更大模型,后者規(guī)模也將增長以應對多模型協(xié)同需求。
如今,在國內,超節(jié)點成為了AI算力領域的「風向標」。
燧原科技、沐曦等國產AI芯片廠商,以及浪潮信息等AI服務器廠商正加速布局,嘗試在該賽道上占據(jù)一席之地。
與別家不同的是,浪潮信息以「開源開放」為核心戰(zhàn)略,正加速萬億參數(shù)大模型的商業(yè)化落地。
開放超節(jié)點架構
打破算力邊界
當前,業(yè)界在AI計算系統(tǒng)架構創(chuàng)新上,存在多種技術路徑,如異構計算、存算一體、協(xié)同創(chuàng)新等。
在浪潮信息看來,每種路徑都有價值,需根據(jù)應用需求具體選擇。
異構計算強調芯片多樣性;存算一體注重存儲與計算融合;協(xié)同創(chuàng)新則打通了芯片、系統(tǒng)和軟件層面。
從元腦SD200產品中不難看出,浪潮信息聚焦的是Scale Up的路徑,優(yōu)先去解決大模型推理的低延遲需求,同時通過軟硬協(xié)同去挖掘算力的潛力。
趙帥總表示,「開放架構」是核心策略,通過提供多種算力方案,從應用角度給客戶更多選擇。
它通過貼近客戶需求,快速適配應用場景,加速萬億參數(shù)模型在AI4 Science、工業(yè)等領域的落地。
最關鍵的是,這種開放架構還收獲了產業(yè)化的效益。
諸如OCP、OAM開放標準推動了規(guī)模效應,進而降低電路板、線纜等硬件成本,讓超節(jié)點從巨頭走向普惠。
在這過程中,浪潮信息通過整合國內供應鏈,如高速連接器、線纜、電源等,進而提升生態(tài)競爭力。
元腦SD200另一大優(yōu)勢,便是擴大兼容的軟件生態(tài)。
一些基于傳統(tǒng)大模型做定制的客戶,如生物醫(yī)藥、氣象等領域的模型,可以實現(xiàn)快速遷移、滿血運行。
采訪中,趙帥總表示,元腦SD200超節(jié)點的技術,脫胎于其「融合架構」的長期積累。
自2010年起,團隊便開始探索融合架構,從最初的供電、散熱等非IT資源的整合,到存儲、網絡等資源池化,再到最新融合架構3.0系統(tǒng)實現(xiàn)了計算、存儲、內存、異構加速等核心IT資源徹底解耦和池化。
由此沉淀下來的芯片共享內存數(shù)據(jù)、統(tǒng)一編址技術、池化、資源動態(tài)調度等技術,為超節(jié)點的研發(fā)積累了深厚的技術基礎。
正如上文所提,內存語義通信技術的應用,使得元腦SD200能夠快速適配萬億參數(shù)模型的場景需求。
同樣至關重要的是,浪潮信息在軟硬協(xié)同系統(tǒng)優(yōu)化上的持續(xù)投入。
2021年,浪潮信息曾發(fā)布中文巨量模型「源1.0」,其參數(shù)規(guī)模為2457億,積累了深厚的模型訓練和推理優(yōu)化經驗。
這種軟硬協(xié)同的創(chuàng)新,同樣體現(xiàn)在元腦SD200的PD分離框架,未來可進一步挖掘算力芯片潛力,提高利用率。
正如趙帥所強調的,開放生態(tài)是打破性能瓶頸,推動產業(yè)發(fā)展的關鍵。
通過開放超節(jié)點架構,浪潮信息不僅提升了自身產品的競爭力,還拉動了整個產業(yè)鏈的協(xié)同創(chuàng)新。
元腦SD200的開放設計,讓更多硬件廠商、軟件開發(fā)者參與其中,共同優(yōu)化算力與模型的適配效率。
浪潮信息的開放戰(zhàn)略,以應用為導向,以系統(tǒng)為核心,聚焦在當前技術、生態(tài)、成本約束下,為用戶側創(chuàng)造最大的價值。
這種系統(tǒng)化思維貫穿于超節(jié)點技術的研發(fā)與應用中。這也是浪潮信息做開放計算,開放生態(tài)的一個核心。
在超節(jié)點架構和開源生態(tài)的雙輪驅動下,浪潮信息正引領AI算力基礎設施向開放化、標準化、協(xié)同化邁進。
元腦SD200的成功發(fā)布,以開源為基石,將為千行百業(yè)智能化轉型注入不竭的動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.