訓(xùn)練大模型,有點(diǎn)像煉丹。而算力,就是煉丹爐里的柴。只有爐火純青,才能真正煉出好丹。
過(guò)去這幾年,AI浪潮蓬勃發(fā)展,大模型的參數(shù)規(guī)模越來(lái)越大。煉丹難度不斷增加,往里面投的柴(算力),也越來(lái)越多。
如今,AI的發(fā)展已經(jīng)進(jìn)入了新的階段。大模型參數(shù)規(guī)模從千億走向萬(wàn)億,對(duì)算力的需求,也達(dá)到空前的規(guī)模。AI的應(yīng)用也在加速。Agentic AI的爆發(fā),也對(duì)算力提出了更高的要求。
面對(duì)這些新的挑戰(zhàn),業(yè)界逐漸意識(shí)到,當(dāng)煉丹難度(參數(shù)規(guī)模)達(dá)到一定程度,僅僅靠“堆料(算力)”,已經(jīng)無(wú)法進(jìn)行有效的應(yīng)對(duì)。
那么,到底該怎么做,才能真正滿足AI下一步發(fā)展的需求呢?算力的供給模式,是否需要進(jìn)行徹底的變革?又該如何進(jìn)行變革?
前不久,在WAIC 2025期間,我聆聽(tīng)了摩爾線程創(chuàng)始人兼CEO張建中的一場(chǎng)演講。在演講中,他對(duì)上面提到的問(wèn)題進(jìn)行了全面且系統(tǒng)的解答。
張建中提出了一個(gè)創(chuàng)新的概念——AI工廠(AI Foundry)。
他認(rèn)為,算力的供給模式正在發(fā)生巨變。構(gòu)建萬(wàn)卡集群,并非一萬(wàn)張GPU卡的簡(jiǎn)單堆疊,而是一項(xiàng)高度復(fù)雜的超級(jí)系統(tǒng)工程。它涉及到超大規(guī)模的組網(wǎng)互聯(lián)、高效率的集群計(jì)算、長(zhǎng)期穩(wěn)定性和高可用性等諸多技術(shù)難題。想要真正實(shí)現(xiàn)有效的算力供給,就必須通過(guò)構(gòu)建新一代AI訓(xùn)練基礎(chǔ)設(shè)施,即AI工廠(AI Foundry)。
這場(chǎng)演講的信息量很大,給我?guī)?lái)了很大的啟發(fā)。張建中真正從宏觀到微觀,講明白了該如何應(yīng)對(duì)AI所帶來(lái)的算力需求爆炸式增長(zhǎng),打造真正好用的算力基礎(chǔ)設(shè)施。
接下來(lái),我就基于演講的內(nèi)容,結(jié)合個(gè)人的理解,給大家做一個(gè)深入解讀。
█ AI Foundry:生產(chǎn)先進(jìn)模型的超級(jí)工廠
Foundry這個(gè)概念源自芯片半導(dǎo)體產(chǎn)業(yè),指的是芯片代工廠,專門(mén)生產(chǎn)芯片的地方。
摩爾線程提出的AI Foundry,則是專門(mén)生產(chǎn)“智能”的地方。
之所以提出AI工廠,本質(zhì)在于AI算力的供給模式正在發(fā)生變化。傳統(tǒng)的供給模式是前面說(shuō)的“堆卡”——生產(chǎn)算力更強(qiáng)、數(shù)量更多的算卡,然后進(jìn)行數(shù)量堆疊,以此滿足用戶需求。
如今,大模型參數(shù)規(guī)模不斷增長(zhǎng),更新迭代的速度不斷加快,對(duì)算力的要求也越來(lái)越高。大模型本身也在從大語(yǔ)言模型向多模態(tài)和世界模型轉(zhuǎn)變,這就使得整個(gè)AI計(jì)算基礎(chǔ)設(shè)施都必須進(jìn)行自我變革,以運(yùn)行和支持一切模型。
換言之,AI算力供給,需要從粗放的“作坊式”向精細(xì)的“工廠式”進(jìn)行轉(zhuǎn)變。
芯片工廠,為了造出更強(qiáng)大的芯片,需要不斷研發(fā)和嘗試更先進(jìn)的工藝制程,需要在軟件、硬件、流程、管理等各個(gè)維度進(jìn)行提升,以此來(lái)不斷突破物理極限,提升生產(chǎn)力。
而AI工廠,為了提供更強(qiáng)大的算力,需要高效率、高能量、高產(chǎn)出的一套方式方法,在單卡算力的基礎(chǔ)上,綜合考慮網(wǎng)絡(luò)拓?fù)?、片間互聯(lián)、卡間互聯(lián)、節(jié)點(diǎn)間互聯(lián)、集群管理、效率、算法、工具、算子庫(kù)、框架等一系列因素。這些,也就是AI工廠的能力。
當(dāng)千卡集群向萬(wàn)卡集群演進(jìn),AI工廠的必要性就愈加凸顯。在算力供給側(cè),需要重新搭建物理拓?fù)浣Y(jié)構(gòu),重新設(shè)計(jì)管理方式,重新優(yōu)化集群系統(tǒng)上的任務(wù)調(diào)度,重新開(kāi)發(fā)和提升及各種不同的算子和效率。
摩爾線程將所有的要素進(jìn)行了完整梳理,提出了五大核心要素,也就是:加速計(jì)算通用性、單芯片有效算力、單節(jié)點(diǎn)效率、集群效率、集群穩(wěn)定性。
把每個(gè)核心要素都做到極致,打造端到端的能力,才是真正優(yōu)秀的AI工廠,才有核心競(jìng)爭(zhēng)力,才能獲得最后的成功。
█ 五大核心要素,構(gòu)筑AI 工廠性能底座
接下來(lái),我們就分別解讀一下這五大核心要素。
●加速計(jì)算通用性
回望GPU的發(fā)展史,其核心角色始終是加速計(jì)算。摩爾線程進(jìn)一步指出,全功能GPU是加速計(jì)算的核心驅(qū)動(dòng)力。也就是說(shuō),全功能GPU不能只用于單個(gè)功能,而應(yīng)該實(shí)現(xiàn)多場(chǎng)景的覆蓋,其核心體現(xiàn)為四大引擎的協(xié)同:AI計(jì)算加速、圖形渲染、物理仿真和科學(xué)計(jì)算、超高清視頻編解碼。這構(gòu)成了摩爾線程全功能GPU的核心能力譜系。
支持AI全場(chǎng)景加速,就需要全功能GPU,它是一個(gè)功能完備的通用底座,也可以理解為是一個(gè)可以通吃所有領(lǐng)域行業(yè)的通用加速平臺(tái)。
除了功能完備之外,全功能GPU還要實(shí)現(xiàn)“精度完整”。這里,就要提到FP64、FP32、FP16、FP8、FP4和INT8等概念。
這些是IEEE定義的各種不同數(shù)據(jù)類型。詳細(xì)解釋這些概念稍微有點(diǎn)復(fù)雜。大家可以簡(jiǎn)單理解——早期的時(shí)候,業(yè)界都是用FP32進(jìn)行訓(xùn)練,后來(lái)用FP16,并以此作為標(biāo)配。如今,用FP8做大模型訓(xùn)練,也被證明是一個(gè)不錯(cuò)的選擇。
摩爾線程支持從FP64至INT8的完整精度譜系,能針對(duì)多種精度進(jìn)行混合訓(xùn)練。
●單芯片有效算力
芯片是算力的核心單元。提升單芯片的有效算力,是驅(qū)動(dòng)AI工廠高效運(yùn)轉(zhuǎn)的關(guān)鍵。
需要注意的是,芯片的有效算力并不僅僅是指芯片的理論峰值算力,更重要的是在實(shí)際應(yīng)用場(chǎng)景中能夠穩(wěn)定、高效地發(fā)揮出來(lái)的算力。
摩爾線程在芯片設(shè)計(jì)上下了很大的功夫,通過(guò)優(yōu)化芯片架構(gòu)、提升計(jì)算性能、優(yōu)化內(nèi)存和通信效率等多種手段,來(lái)確保單GPU的有效算力能夠進(jìn)一步突破極限。
先看看架構(gòu)。
摩爾線程采用了自研的MUSA架構(gòu)(Meta-computing Unified System Architecture,元計(jì)算統(tǒng)一架構(gòu))。這個(gè)Meta-computing(元計(jì)算)的命名,體現(xiàn)出這個(gè)架構(gòu)支持所有的計(jì)算場(chǎng)景。不僅滿足當(dāng)前的計(jì)算需求,也要應(yīng)對(duì)未來(lái)的計(jì)算需求。
統(tǒng)一架構(gòu),完整來(lái)說(shuō),是多引擎可配置統(tǒng)一系統(tǒng)架構(gòu)。這意味著,架構(gòu)從頂層角度考慮到了計(jì)算、通信、存儲(chǔ)、指令集之間的相互交接、相互協(xié)調(diào)、相互調(diào)度的功能。同樣也是“一個(gè)架構(gòu)服務(wù)多個(gè)領(lǐng)域”。
MUSA架構(gòu)的核心能力,是可以利用統(tǒng)一的編程指令集,驅(qū)動(dòng)架構(gòu)下的所有引擎,包括圖形處理引擎、通用計(jì)算引擎、多媒體引擎、通信引擎等。計(jì)算、通信、存儲(chǔ)、調(diào)度、加速等工作任務(wù)的協(xié)同融合,都被整合在統(tǒng)一的底層引擎之下,便于用戶和開(kāi)發(fā)者去調(diào)用。
MUSA還有一個(gè)特點(diǎn),是資源池化。
它通過(guò)硬件資源池化及動(dòng)態(tài)資源調(diào)度技術(shù),構(gòu)建了全局共享的計(jì)算、內(nèi)存與通信資源池。這一設(shè)計(jì)不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時(shí)顯著提升了資源利用率。
MUSA架構(gòu)的引擎中,有兩個(gè)專門(mén)用于AI計(jì)算加速系統(tǒng)的引擎,分別是張量計(jì)算引擎(TCE)和張量訪存引擎(TME)。
前者主要負(fù)責(zé)執(zhí)行AI計(jì)算任務(wù)中的核心運(yùn)算,如矩陣乘法等,是算力輸出的“主力軍”。而后者則專注于優(yōu)化數(shù)據(jù)訪問(wèn)模式,減少內(nèi)存延遲,提高數(shù)據(jù)吞吐量,確保計(jì)算引擎能夠高效、穩(wěn)定地獲取所需數(shù)據(jù)。
在池化的基礎(chǔ)上,通過(guò)引擎異步流水(ATB)技術(shù),把底層各種不同的硬件加速流水線(例如圖形計(jì)算、超級(jí)計(jì)算、Tensor計(jì)算、編解碼等)變成了一根根管道,融合在一起隨意調(diào)度。
基于一個(gè)資源池,所有的結(jié)果都共享一個(gè)內(nèi)存,所有的引擎在上面工作,所有的數(shù)據(jù)、存在一個(gè)地方。這就是最典型的數(shù)據(jù)驅(qū)動(dòng)、引擎支持和引擎集散的統(tǒng)一系統(tǒng)架構(gòu),可以讓實(shí)現(xiàn)最高的工作效率。
在計(jì)算層面,前面我們已經(jīng)提到,摩爾線程的GPU全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。
作為國(guó)內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商,摩爾線程的FP8技術(shù)通過(guò)快速格式轉(zhuǎn)換、動(dòng)態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時(shí),將Transformer計(jì)算性能提升約30%。
在內(nèi)存系統(tǒng)方面,通過(guò)多精度近存規(guī)約引擎、低延遲Scale-Up、通算并行資源隔離等技術(shù),實(shí)現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。
在通信和互聯(lián)方面,基于獨(dú)創(chuàng)的ACE異步通信引擎,減少了15%的計(jì)算資源損耗。
MTLink2.0互聯(lián)技術(shù),提供了高出國(guó)內(nèi)行業(yè)平均水平60%的帶寬,為大規(guī)模集群部署奠定了堅(jiān)實(shí)基礎(chǔ)。
●單節(jié)點(diǎn)效率
剛才說(shuō)的是單芯片,現(xiàn)在,我們?cè)偻弦患?jí),看看單節(jié)點(diǎn)。一個(gè)節(jié)點(diǎn)包括了多個(gè)芯片,涉及到了芯片之間的互聯(lián)協(xié)同。
在這個(gè)環(huán)節(jié),摩爾線程的核心創(chuàng)新包括:任務(wù)調(diào)度優(yōu)化、極致性能算子庫(kù)、通信效能躍升、低精度計(jì)算效率革新、開(kāi)發(fā)生態(tài)完善。
任務(wù)調(diào)度優(yōu)化,是指GPU驅(qū)動(dòng)任務(wù)調(diào)度優(yōu)化。體現(xiàn)在兩個(gè)方面:首先,核函數(shù)(計(jì)算任務(wù)從CPU主機(jī)傳輸?shù)紾PU設(shè)備并執(zhí)行的過(guò)程)啟動(dòng)時(shí)間相比業(yè)界平均時(shí)間縮短了50%。其次,支持千次計(jì)算指令單次并行下發(fā)。摩爾線程的任務(wù)之間延遲遠(yuǎn)遠(yuǎn)小于國(guó)際主流芯片公司,實(shí)現(xiàn)了:"個(gè)子比別人小、但跳得比別人高"。
在算子庫(kù)方面,摩爾線程的muDDN算子進(jìn)行了極致性能優(yōu)化,相比cuDDN有10-20%的領(lǐng)先。而且,摩爾線程的GEMM算子算力利用率達(dá)98%,F(xiàn)lash Attention算子算力利用率突破95%。這也是非常出色的成績(jī)。
在通信方面,摩爾線程在兼顧傳輸速率的基礎(chǔ)上,重點(diǎn)優(yōu)化了穩(wěn)定性、可靠性和帶寬利用率。
他們的MCCL通信庫(kù),可以實(shí)現(xiàn)97%的RDMA網(wǎng)絡(luò)帶寬利用率?;诋惒酵ㄐ乓鎯?yōu)化計(jì)算通信并行,大模型訓(xùn)練集群整體性能可以提升10%。
在低精度計(jì)算效率方面,除了對(duì)FP8 Transformer的支持,摩爾線程還有一個(gè)行業(yè)首創(chuàng)的技術(shù)創(chuàng)新——細(xì)粒度重計(jì)算(Recompute),計(jì)算開(kāi)銷可以減少4倍。
最后是開(kāi)發(fā)生態(tài)方面。
摩爾線程推出了Triton-MUSA編譯器 + MUSA Graph,可以實(shí)現(xiàn)DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。
為了幫助開(kāi)發(fā)者降低開(kāi)發(fā)門(mén)檻,提升效率,摩爾線程還打造了完整的軟件開(kāi)發(fā)套件。
●集群效率
節(jié)點(diǎn)再往上,就是集群。我們可以看看在集群效率提升上,摩爾線程做了些什么。
摩爾線程將自家研發(fā)的集群系統(tǒng)方案命名為KUAE(夸娥)。
這個(gè)集群通過(guò)5D大規(guī)模分布式并行計(jì)算技術(shù),可以實(shí)現(xiàn)上千節(jié)點(diǎn)的高效協(xié)作,推動(dòng)AI基礎(chǔ)設(shè)施從單點(diǎn)優(yōu)化邁向系統(tǒng)工程級(jí)突破。
所謂的“5D”,是指DP數(shù)據(jù)并行、TP張量并行、SP序列并行、EP專家并行、PP流水線并行的5大類型任務(wù)可以大規(guī)模、分布式的并行訓(xùn)練。
KUAE能夠做到端到端的模型訓(xùn)練支持,包括數(shù)據(jù)處理、預(yù)訓(xùn)練、后訓(xùn)練等。而且,KUAE還可以支持所有的模型種類,包括LLM/VLM、混合專家模型、世界模型、具身智能模型等。
為了提升集群的訓(xùn)練效率,實(shí)現(xiàn)訓(xùn)練性能的最優(yōu)化,KUAE提供了一套性能仿真工具——SIMUMAX。
它可以自動(dòng)找出一個(gè)最佳的并行策略,滿足用戶的模型訓(xùn)練需求,協(xié)助進(jìn)行性能優(yōu)化。SIMUMAX還可以精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。
●集群穩(wěn)定性
集群訓(xùn)練,穩(wěn)定性是一個(gè)大問(wèn)題。對(duì)于訓(xùn)練過(guò)程中可能發(fā)生的中斷,業(yè)界普遍采用CheckPoint進(jìn)行應(yīng)對(duì)。也就是定期進(jìn)行備份,中斷后再進(jìn)行恢復(fù)。
在此基礎(chǔ)上,摩爾線程創(chuàng)新提出了CheckPoint加速方案,利用RDMA技術(shù),將百GB級(jí)備份恢復(fù)時(shí)間從數(shù)分鐘壓縮至1秒,大幅縮短了中斷時(shí)間,提升了訓(xùn)練效率。
摩爾線程還專門(mén)發(fā)明了一個(gè)創(chuàng)新的集群穩(wěn)定性管理方案——零中斷容錯(cuò)技術(shù)。
傳統(tǒng)模式下,如果發(fā)生硬件故障導(dǎo)致訓(xùn)練中斷,需要先替換硬件,然后寫(xiě)讀Checkpoint,耽誤大量時(shí)間,增加了訓(xùn)練成本。
采用摩爾線程的零中斷容錯(cuò)技術(shù),故障發(fā)生時(shí),僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無(wú)縫接入,全程無(wú)中斷。這一方案使KUAE集群的有效訓(xùn)練時(shí)間占比超過(guò)99%,大幅降低中斷恢復(fù)開(kāi)銷。
摩爾線程還獨(dú)創(chuàng)了多維度訓(xùn)練洞察體系,實(shí)現(xiàn)對(duì)訓(xùn)練過(guò)程的動(dòng)態(tài)監(jiān)測(cè)與智能診斷。如果發(fā)現(xiàn)滿節(jié)點(diǎn),就可以及時(shí)進(jìn)行處理維護(hù)。這使得集群的異常處理效率提升了50%。結(jié)合集群巡檢與起飛檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定保障。
█ 最后的話
前面介紹了摩爾線程AI工廠的很多技術(shù)細(xì)節(jié)。我們可以看出,他們對(duì)算力的理解是相當(dāng)全面而且深刻的。作為一家半導(dǎo)體創(chuàng)新創(chuàng)業(yè)的公司,能擁有這么深厚的技術(shù)積累,確實(shí)非常不容易。
AI工廠作為一個(gè)支撐全場(chǎng)景算力需求的超級(jí)工廠,其背后的技術(shù)挑戰(zhàn)超乎想象。從底層硬件設(shè)計(jì)到上層軟件生態(tài),摩爾線程都要進(jìn)行深入的創(chuàng)新和優(yōu)化,以確保AI工廠的高效運(yùn)轉(zhuǎn)。他們的努力不僅體現(xiàn)在單個(gè)組件的性能提升上,更在于整個(gè)系統(tǒng)的協(xié)同優(yōu)化,實(shí)現(xiàn)了從單點(diǎn)創(chuàng)新到系統(tǒng)級(jí)效能的飛躍。
總而言之,摩爾線程的AI工廠不僅是其算力戰(zhàn)略的體現(xiàn),或許也將為整個(gè)行業(yè)帶來(lái)新的范式。
以摩爾線程為代表的國(guó)產(chǎn)算力企業(yè)正在加速崛起,他們的每一步都走得非常扎實(shí)。我們有理由相信,在這些企業(yè)的共同努力下,我們國(guó)家的算力產(chǎn)業(yè)一定會(huì)加速縮小和國(guó)際巨頭的差距,并最終實(shí)現(xiàn)超越。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.