夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

摩爾線程五大硬核實力打造“AI工廠”,為大模型訓(xùn)練提速

0
分享至



世界人工智能大會(WAIC 2025)前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術(shù)分享會,創(chuàng)新性提出“AI工廠”理念,旨在破局生成式AI爆發(fā)的大模型生產(chǎn)效率。

這意味著作為國內(nèi)領(lǐng)先的GPU廠商,摩爾線程從底層芯片架構(gòu)創(chuàng)新的單點性技術(shù)創(chuàng)新,向集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級,也是應(yīng)對AI時代發(fā)展,模型參數(shù),算力需求進一步挑戰(zhàn)的主動布局。這種全方位的基礎(chǔ)設(shè)施變革,將推動AI訓(xùn)練從千卡級向萬卡級乃至十萬卡級規(guī)模演進,以系統(tǒng)級工程實現(xiàn)生產(chǎn)力和創(chuàng)新效率的飛躍。



會上,摩爾線程CEO張建中圍繞“AI工廠”理念,以及摩爾線程在打造AI工廠方面的五大核心能力做了詳細介紹。

整體而言,在摩爾線程定義的以智能作為“產(chǎn)能”的“AI工廠”中,生產(chǎn)效率由五大核心要素決定成功與否:AI工廠生產(chǎn)效率=加速計算通用性*單芯片有效算力*單節(jié)點效率*集群效率*集群穩(wěn)定性,每一個環(huán)節(jié)都要求做到極致。



核心技術(shù)一:全功能全精度,實現(xiàn)加速計算通用性



加速計算芯片本身的強大通用性,是打造“AI工廠”的核心基石。



這要求單芯片能夠覆蓋多場景,才能支持多樣化的模型訓(xùn)練。而這也是摩爾線程從成立之初以來的產(chǎn)品定位“全功能GPU”,在創(chuàng)新MUSA架構(gòu)的支持下,摩爾線程單GPU芯片可以同時支持AI計算加速、圖形渲染、是物理仿真和科學(xué)計算、超高清視頻編解碼的技術(shù)能力。

此外,精度完整性也是衡量全功能GPU通用計算能力的核心指標(biāo)。在計算精度方面,其支持從FP64至INT8的完整精度譜系,是國內(nèi)極少數(shù)具備FP8大模型訓(xùn)練平臺的廠商,通過FP8混合精度技術(shù),有效提升訓(xùn)推一體能力,在主流前沿大模型訓(xùn)練中實現(xiàn)20%~30%的性能躍升。

核心技術(shù)二:自研MUSA架構(gòu),提升芯片有效算力

強大的芯片有效算力是作為“AI工廠”的核心競爭力。而作為GPU的 “靈魂”,創(chuàng)新的架構(gòu)設(shè)計往往決定了GPU的計算能力、能效比、適用場景乃至技術(shù)上限。

摩爾線程自研的MUSA架構(gòu),從設(shè)計之初,便完整考慮到面向未來多樣計算場景的需求,通過多引擎可配置統(tǒng)一系統(tǒng)架構(gòu),實現(xiàn)一個架構(gòu)在不同領(lǐng)域的應(yīng)用,統(tǒng)一編程接口,并著力在計算、內(nèi)存、通信三個層面實現(xiàn)突破,顯著提升單GPU運算效率。

計算、通信、存儲、指令集之間的相互交接、相互協(xié)調(diào)、相互調(diào)度的一系列功能需求,要在頂層設(shè)計當(dāng)中完整地考慮進去。



摩爾線程采用創(chuàng)新的多引擎、可伸縮GPU架構(gòu),通過硬件資源池化及動態(tài)資源調(diào)度技術(shù),構(gòu)建了全局共享的計算、內(nèi)存與通信資源池。這一設(shè)計不僅突破了傳統(tǒng)GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。其參數(shù)化配置可伸縮架構(gòu)允許面向目標(biāo)市場快速裁剪出優(yōu)化的芯片配置,大幅降低了新品芯片的開發(fā)成本。

這樣的架構(gòu)能便于開發(fā)者和用戶在底層直接調(diào)用相關(guān)引擎,將各種不同的硬件減速流水線pipeline起來,而所有結(jié)果共享一個內(nèi)存和資源池,這是最典型的數(shù)據(jù)驅(qū)動、引擎支持和引擎計算的統(tǒng)一系統(tǒng)架構(gòu),可以讓工作效率更高。



在性能方面,AI加速系統(tǒng)如何讓性能發(fā)揮得更好,需要有功能定制的核心計算引擎。摩爾線程通過兩套自研的AI計算加速系統(tǒng):張量計算引擎(TCE)、張量訪存引擎(TME),實現(xiàn)對算、存環(huán)節(jié)的針對性管理和調(diào)度,更好地發(fā)揮效率。此外,為了使眾多工作、步驟、引擎保持同步不亂、有條不紊,摩爾線程自主設(shè)計了引擎異步流水(ATB)??梢园焉鲜龉ぷ鲀?nèi)容Pipeline起來,且不需要等待。

在計算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。作為國內(nèi)首批實現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計,在保證計算精度的同時,將Transformer計算性能提升約30%。



摩爾線程透露,設(shè)計FP8的時候,摩爾線程研發(fā)團隊特別設(shè)計了一個FP8的Transformer引擎,專門用于FP8的加速計算。Transformer引擎是摩爾線程平湖架構(gòu)(第四代GPU架構(gòu))中一個核心科技,從而帶來計算性能的顯著提升。



在通信能力方面,摩爾線程獨創(chuàng)ACE(異步通信引擎),減少了15%的計算資源損耗,MTLink2.0互聯(lián)技術(shù)提供了高出國內(nèi)行業(yè)平均水平60%的帶寬。在不同數(shù)據(jù)包的傳送上,Scale-Up效率可以最高提升30%,平均在15%以上。這些功能可以讓GPU之間不同的復(fù)雜拓撲結(jié)構(gòu)不受計算環(huán)境的影響,可以實現(xiàn)卡間高效互聯(lián)通信。



在存儲方面,MUSA存儲子系統(tǒng)實現(xiàn)了多維度的升級,通過多精度近存規(guī)約引擎、低延遲Scale-Up內(nèi)存順序模型、通算并行資源隔離等技術(shù),實現(xiàn)了50%的帶寬節(jié)省和60%的延遲降低。

核心技術(shù)三:MUSA全棧系統(tǒng)軟件,提升單節(jié)點計算效率

對GPU而言,單節(jié)點計算效率不僅依賴硬件算力,更取決于軟件能否讓硬件 “跑滿”—— 避免算力閑置、數(shù)據(jù)傳輸阻塞、算子低效等問題。而MUSA全棧系統(tǒng)軟件的價值,正是通過全鏈路優(yōu)化,通過消除各環(huán)節(jié)的性能損耗、最大化硬件潛力,最終實現(xiàn)單節(jié)點效率的躍升。

主要包括幾點核心要素。



一是GPU驅(qū)動任務(wù)調(diào)度優(yōu)化。Kernel Launch(核函數(shù)啟動)是GPU/加速器計算中的核心調(diào)度機制,是指將計算任務(wù)從CPU主機傳輸?shù)紾PU設(shè)備并執(zhí)行的過程,本質(zhì)是鏈接軟件指令與硬件算力的橋梁。傳統(tǒng)Kernel Lauch延遲較高,導(dǎo)致GPU在任務(wù)空間頻繁空閑,形成計算空洞。而GPU空閑時,算力資源浪費,硬件利用率不足。

而摩爾線程的GPU驅(qū)動任務(wù)調(diào)度優(yōu)化能夠使得Kernel Launch時間縮短50%。支持千次計算指令單次并行下發(fā)以及55%的延遲減少。



二是打造極致性能算子庫。GEMM算子算力利用率達98%,F(xiàn)lash Attention 算子算力利用率突破95%。



三是通信效能躍升。通過MCCL通信庫實現(xiàn)RDMA網(wǎng)絡(luò)97%帶寬利用率;基于異步通信引擎優(yōu)化計算通信并行,大模型訓(xùn)練集群整體性能提升10%。



四是低精度計算效率革新。實現(xiàn)對于FP8的計算性能優(yōu)化,大幅提升訓(xùn)練效能。FP8 GEMM利用率處于行業(yè)領(lǐng)先水平。此外,行業(yè)首創(chuàng)細粒度重計算,采用創(chuàng)新的Recompute高效算法,計算開銷減少4倍,可以使得訓(xùn)練精度能保持得更高,累計誤差更小。



五是開發(fā)生態(tài)完善。Triton-MUSA編譯器對于vLLM、SGLang等,已實現(xiàn)開源Triton算子100%覆蓋。FlagGems算子庫支持160+熱點算子,支持率超過90%。MCC自研編譯器支持torch compile,計算圖優(yōu)化加速比達1.5倍。MUTLASS高性能線性代數(shù)模板庫兼容支持CUTLASS/CuTe3.6.0。多精度支持TF32、FP16、BF16、INT8等主流AI計算?;贛UTLASS的GEMM性能可達muDNN手寫匯編性。

此外,為了服務(wù)廣大開發(fā)者,摩爾線程還打造了完整的軟件開發(fā)套件,對應(yīng)Torch Profiler,監(jiān)控、管理,performance tuning等一系列工具。同時,摩爾線程也計劃開放很多套件給所有開發(fā)者,同時也愿意傾聽開發(fā)者的意見。值得一提的是,今年10月,摩爾線程將舉辦首屆MUSA開發(fā)者大會。

核心技術(shù)四:自研KUAE大規(guī)模集群,優(yōu)化集群效率

當(dāng)單節(jié)點效率達到新高度,如何實現(xiàn)大規(guī)模集群的高效協(xié)作成為新的挑戰(zhàn)??涠穑↘UAE)是摩爾線程自研的計算集群,其中包括一系列的計算集群、軟件平臺、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護和服務(wù)等流程。



在提升單節(jié)點計算效率的基礎(chǔ)上,摩爾線程自研KUAE計算集群通過5D大規(guī)模分布式并行計算技術(shù),實現(xiàn)上千節(jié)點的高效協(xié)作。



在性能仿真與優(yōu)化方面,自主研發(fā)的Simumax工具面向超大規(guī)模集群自動搜索最優(yōu)并行策略,可以實現(xiàn)集群訓(xùn)練性能的最優(yōu)化。通過精準(zhǔn)模擬FP8混合精度訓(xùn)練與算子融合,為DeepSeek等模型縮短訓(xùn)練周期提供科學(xué)依據(jù)。



針對大模型穩(wěn)定性難題,摩爾線程通過創(chuàng)新CheckPoint加速方案利用RDMA技術(shù),將百GB級備份恢復(fù)時間從數(shù)分鐘壓縮至1秒,提升GPU有效算力利用率。



摩爾線程表示,夸娥(KUAE)的設(shè)計理念,首先要滿足應(yīng)用中的多方面要求,比如做并行處理,不光是做一個DP(數(shù)據(jù)并行)、PP(流水線并行)、EP(專家并行),幾乎所有不同的并行策略和方法都要支持,而且效率要做到最高。第二,秉持端到端的模型訓(xùn)練理念。模型訓(xùn)練之前數(shù)據(jù)要處理、預(yù)訓(xùn)練、后訓(xùn)練、模型評估等等,提供從數(shù)據(jù)處理到模型部署的一站式服務(wù)。

基于平湖架構(gòu)KUAE2智算集群,無論千卡或更大規(guī)模,摩爾線程正在提升其性能,并且MFU已達到行業(yè)領(lǐng)先水平。

核心技術(shù)五:零中斷容錯技術(shù),提升集群的穩(wěn)定性和可靠性



摩爾線程提出的AI工廠方案:從單芯片算力、效率,再到單節(jié)點和集群效率,彼此之間是相乘的關(guān)系,只有每一個環(huán)節(jié)都做到極致,才能最大限度地發(fā)揮能力,而穩(wěn)定性和可靠性是決定集群最后成敗的關(guān)鍵。特別在萬卡級AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會嚴重浪費算力。

而在提升集群穩(wěn)定性方面,摩爾線程創(chuàng)新推出零中斷容錯技術(shù),故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓(xùn)練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時間占比超99%,大幅降低恢復(fù)開銷。



在可靠性方面,摩爾線程通過多維度訓(xùn)練洞察方案,實現(xiàn)動態(tài)監(jiān)測與智能診斷,解決訓(xùn)練中的慢節(jié)點致命短板,可以“看得見”每一片GPU從而實施精確管理,該方案使得慢節(jié)點、Hang等異常處理效率提升50%。

同時,為保證集群在訓(xùn)練起步階段的成功率,摩爾線程的可靠性方案還結(jié)合了集群巡檢與起飛檢查,包含一系列自動化工具使其自動調(diào)度,優(yōu)化管理效率,使得訓(xùn)練成功率以及速度提高10%。

從訓(xùn)練到驗證:構(gòu)建完整閉環(huán)

完善的“AI工廠”不僅需要高效訓(xùn)練大模型,還需具備推理驗證能力,從而構(gòu)建起完整閉環(huán)。

在推理驗證方面,摩爾線程開發(fā)了相應(yīng)工具方案,覆蓋LLM、視覺、生成類模型等全流程推理解決方案。

一是MT Transformer自研推理引擎,面向LLM實現(xiàn)極致優(yōu)化。二是TensorX自研推理引擎,面向生成類和視覺類。三是vLLM-MUSA,在NTT和DirectX不支持的情況下,用戶可以使用vLLM,vLLM-MUSA能夠達到推理引擎的最高性能的80%,可以讓很多用戶更快速地實現(xiàn)適配。

經(jīng)過測試,摩爾線程最新AI旗艦產(chǎn)品MTT S5000針對DeepSeek R1滿血版大語言模型的推理速度,達到100tokens/s,在同國際主流GPU和其他國產(chǎn)GPU的比較中,推理處于行業(yè)領(lǐng)先。



結(jié)語



此次摩爾線程技術(shù)分享會上呈現(xiàn)的,是以 AI 工廠為核心載體,成功搭建起貫穿 “訓(xùn)練 - 推理 - 部署” 全流程的高效體系,這不僅是其自身技術(shù)實力的體現(xiàn),更標(biāo)志著國產(chǎn)計算基礎(chǔ)設(shè)施在支撐 AGI 時代規(guī)模化、高效率、高可靠模型生產(chǎn)方面,邁出了關(guān)鍵且堅實的一步。



從圖形渲染,到AI 算力引擎,摩爾線程的全功能 GPU 始終走在加速計算革新的前沿。以 “KUAE+MUSA” 構(gòu)建的智算業(yè)務(wù)核心為驅(qū)動力,摩爾線程正不斷拓展其影響力,加速為千行百業(yè)注入 AI 動能。未來,在物理仿真、AIGC、科學(xué)計算、具身智能、智能體、醫(yī)療影像分析、工業(yè)大模型等關(guān)鍵領(lǐng)域,由全功能 GPU 驅(qū)動的 AI 技術(shù)有望將在摩爾線程的推動下,實現(xiàn)更廣泛的應(yīng)用與深度部署,為國產(chǎn)計算力量的崛起和 AI 產(chǎn)業(yè)的蓬勃發(fā)展書寫新的篇章。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
震驚!網(wǎng)傳成都某三甲醫(yī)院一醫(yī)生哭訴,5月績效1800多元,8月發(fā)放

震驚!網(wǎng)傳成都某三甲醫(yī)院一醫(yī)生哭訴,5月績效1800多元,8月發(fā)放

火山詩話
2025-08-02 15:10:01
銷量暴跌40%!李想遭雙重打擊,理想好日子到頭了?

銷量暴跌40%!李想遭雙重打擊,理想好日子到頭了?

象視汽車
2025-08-05 07:00:08
一女子曝釋永信過往,姐妹住少林寺3天2夜,搶著往釋永信房間跑

一女子曝釋永信過往,姐妹住少林寺3天2夜,搶著往釋永信房間跑

阿綏談史
2025-07-30 17:03:05
65歲的我,已經(jīng)決定了,如果晚年只剩一個人時,我會這樣度過余生

65歲的我,已經(jīng)決定了,如果晚年只剩一個人時,我會這樣度過余生

老張說你聽
2023-08-20 13:36:07
焦晃近況讓人擔(dān)憂!穿紙尿褲,眼神無光又忘事,90歲的心愿好催淚

焦晃近況讓人擔(dān)憂!穿紙尿褲,眼神無光又忘事,90歲的心愿好催淚

置身事內(nèi)
2025-08-05 07:55:02
悲??!遼籃舊將打野球遭遇重傷 跟腱斷裂或告別籃球場

悲劇!遼籃舊將打野球遭遇重傷 跟腱斷裂或告別籃球場

胖子噴球
2025-08-05 09:11:06
“人到七十,三地不去,三親不走”,老祖宗的古訓(xùn),暗藏著智慧

“人到七十,三地不去,三親不走”,老祖宗的古訓(xùn),暗藏著智慧

上進Fo子
2025-08-05 08:00:09
“菲律賓華人鋼鐵大王”被綁架撕票案26歲女主謀,至少涉15起綁架案

“菲律賓華人鋼鐵大王”被綁架撕票案26歲女主謀,至少涉15起綁架案

紅星新聞
2025-08-04 18:10:23
服役不到10天,俄軍最新型戰(zhàn)略核潛艇大泄密!俄航飛機成合法目標(biāo)

服役不到10天,俄軍最新型戰(zhàn)略核潛艇大泄密!俄航飛機成合法目標(biāo)

鷹眼Defence
2025-08-04 18:03:10
安踏回應(yīng)收購銳步

安踏回應(yīng)收購銳步

界面新聞
2025-08-04 15:09:21
外媒:特朗普與瑞士聯(lián)邦主席的通話是“災(zāi)難性的”

外媒:特朗普與瑞士聯(lián)邦主席的通話是“災(zāi)難性的”

參考消息
2025-08-04 19:46:11
全線爆發(fā)!美聯(lián)儲,降息大消息!

全線爆發(fā)!美聯(lián)儲,降息大消息!

證券時報
2025-08-05 08:13:02
如何助他們從學(xué)渣一躍成學(xué)霸?網(wǎng)友:送你一套“邪修學(xué)習(xí)法”!

如何助他們從學(xué)渣一躍成學(xué)霸?網(wǎng)友:送你一套“邪修學(xué)習(xí)法”!

特約前排觀眾
2025-07-23 00:10:03
兩岸代表團爆發(fā)沖突,大陸人員受傷,國民黨大難臨頭卻附和民進黨

兩岸代表團爆發(fā)沖突,大陸人員受傷,國民黨大難臨頭卻附和民進黨

軍行美
2025-08-04 00:00:03
解脫了!越南“蝴蝶寶寶”去世,20多根繩子綁床上,受罪掛了55年

解脫了!越南“蝴蝶寶寶”去世,20多根繩子綁床上,受罪掛了55年

不寫散文詩
2025-08-04 12:43:10
被收39%高關(guān)稅,瑞士對美國近400億美元貿(mào)易順差有三分之二來自出口的金條

被收39%高關(guān)稅,瑞士對美國近400億美元貿(mào)易順差有三分之二來自出口的金條

紅星新聞
2025-08-04 20:16:33
男子景區(qū)墜崖身亡后續(xù)!系本地人,攀爬最險山峰,墜落原因惹爭議

男子景區(qū)墜崖身亡后續(xù)!系本地人,攀爬最險山峰,墜落原因惹爭議

娛樂看阿敞
2025-08-04 17:20:49
張雨劍吳倩一起帶女兒逛超市,倆人身體貼一起,親密得像沒離婚

張雨劍吳倩一起帶女兒逛超市,倆人身體貼一起,親密得像沒離婚

鄭丁嘉話
2025-08-05 09:21:57
湖南一男子背40公斤蜜雪冰城上武功山售賣,當(dāng)事人:收入不多純體驗,當(dāng)負重訓(xùn)練

湖南一男子背40公斤蜜雪冰城上武功山售賣,當(dāng)事人:收入不多純體驗,當(dāng)負重訓(xùn)練

瀟湘晨報
2025-08-05 07:35:05
與釋永信有不正當(dāng)男女關(guān)系的女子關(guān)琪,是何許人也?

與釋永信有不正當(dāng)男女關(guān)系的女子關(guān)琪,是何許人也?

娛樂看阿敞
2025-08-04 13:13:56
2025-08-05 11:07:00
愛集微 incentive-icons
愛集微
集微網(wǎng)官方賬號
107837文章數(shù) 98307關(guān)注度
往期回顧 全部

科技要聞

集體捅刀!友商銷售圍剿小米YU7"絕密話術(shù)"

頭條要聞

專家:特朗普在臺灣問題上出奇沉默 這份沉默震耳欲聾

頭條要聞

專家:特朗普在臺灣問題上出奇沉默 這份沉默震耳欲聾

體育要聞

25歲去沙特,一代金童的迷之隕落

娛樂要聞

魚死網(wǎng)破!趙露思直播“解約”

財經(jīng)要聞

李稻葵呼吁改變理念多發(fā)國債

汽車要聞

蔚來十年投入600億 在樂道L90上花了多少?

態(tài)度原創(chuàng)

游戲
手機
本地
時尚
公開課

寂靜嶺f制作團隊回應(yīng)戰(zhàn)斗設(shè)計:想多吸引些新人

手機要聞

蘋果“史上最薄”iPhone 17 Air 電池實物曝光:厚 2.49 毫米

本地新聞

換個城市過夏天|躲進雅安過幾天大熊貓式慢生活

經(jīng)常在拼多多買東西的女生,這樣買立省一半!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 精品少妇一区二AV| 在线观看免费a∨网站| 美女18禁久久久国产18禁网站| 国产成本人片免费a∨短片| 精品国产福利片在线观看| 波多野结衣50连登视频| 午夜久久久久久禁播电影| 日产精品卡一卡二卡三的概述| 熟女人妻在线视频| 欧美综合网15| 乱人伦人妻中文字幕| 人人做天天爱夜夜爽| 久久精品无码一区二区国产区| 国产av天堂无码一区二区三区| 精品精品国产理论在线观看 | 中国老太婆xxxhd| 无码精品人妻一区二区三区久久| 免费AV资源网| 精品高潮久久久久| 亚洲中文字幕av在天堂| 一卡二卡3卡四卡精品| 国产精品传媒AV在线| 免费萌白酱国产一区二区三区 | 秋霞鲁丝无码一区二区三区| 欧美黄色videos| 亚欧av无码乱码在线观看性色| 国产四虎日逼视频免费看| 伊人久久大香线蕉综合网蜜芽| 国语精品一区二区三区| 国产爆乳无码一区二区果冻| 成年人视频在线观看一区| 丰满女同老熟女| 日本不卡就qq| 第一精品福利导福航| 亚洲电影成人无码| 亚洲高清揄拍自拍| 天天综合亚洲色在线精品| 久久久久久久97| 国产v综合v亚洲欧美大天堂| 精品无码久久久| 双飞蜜桃在线观看|