作者|棱鏡
人工智能之父約翰·麥卡錫曾說:“有一天,計(jì)算可能會(huì)被組織成一個(gè)公共事業(yè),就像電話系統(tǒng)是一個(gè)公共事業(yè)一樣?!比缃?,他的這一預(yù)判已經(jīng)成為現(xiàn)實(shí),而在計(jì)算背后,不可或缺的算力也正在成為各大科技廠商競(jìng)相爭(zhēng)奪的戰(zhàn)略要地。
對(duì)于華為來說,AI 的快速發(fā)展也帶來了巨大沖擊。今年年初,華為云為了接住 DeepSeek 快速增長(zhǎng)的用戶和流量,組織多團(tuán)隊(duì)協(xié)同攻堅(jiān),終于在 4 月 30 號(hào)將 Ascend 910B/910C 的推理能力提升至滿足客戶基本需求的水平。
如何進(jìn)一步滿足全球產(chǎn)業(yè)用戶的算力需求?華為副董事長(zhǎng)、輪值董事長(zhǎng)徐直軍在 2025 華為全聯(lián)接大會(huì)上給出了答案:“開創(chuàng)計(jì)算架構(gòu),打造‘超節(jié)點(diǎn) + 集群’算力解決方案持續(xù)滿足算力需求”。這一解答在回答去年遺留問題的同時(shí),繼續(xù)續(xù)寫華為的技術(shù)和產(chǎn)業(yè)生態(tài)。
昇騰計(jì)算業(yè)務(wù)總裁張迪煊則就構(gòu)建“以開發(fā)者為中心”的開源開放昇騰生態(tài)發(fā)表了主題演講。同時(shí),他宣布成立 CANN 技術(shù)指導(dǎo)委員會(huì),這說明華為將對(duì) CANN 技術(shù)的推進(jìn)與落地建立更系統(tǒng)的指導(dǎo)機(jī)制。
常務(wù)董事汪濤就生態(tài)建設(shè)和產(chǎn)業(yè)布局向業(yè)界傳遞了華為的“四個(gè)堅(jiān)定”:堅(jiān)定開源開放、堅(jiān)定發(fā)展人才、堅(jiān)定全球合作、堅(jiān)定戰(zhàn)略投入。
1 算力——過去、現(xiàn)在、未來,都將是 AI 的關(guān)鍵
今年年初,DeepSeek 的橫空出世展示了一條不同于 ChatGPT 比拼模型參數(shù)的差異化路徑,由于高效的注意力機(jī)制降低了計(jì)算復(fù)雜度,從而不再過度注重?cái)?shù)據(jù)數(shù)量,減小了模型參數(shù)規(guī)模。不得不說,這一開創(chuàng)性模式有效縮減了算力需求。
然而,DeepSeek 所代表的技術(shù)優(yōu)勢(shì)主要集中于自然語言處理(NLP)領(lǐng)域。在物理層,比如涉及到識(shí)別、交互和空間操作上,能否在短時(shí)間找到全局最優(yōu)解仍然還是未知數(shù)。對(duì)此,徐直軍的看法是:“要走向 AGI、要走向物理 AI,我們認(rèn)為,算力,過去是,未來也將繼續(xù)是人工智能的關(guān)鍵,更是中國(guó)人工智能的關(guān)鍵?!?/p>
算力是人工智能的關(guān)鍵,而算力自身的關(guān)鍵則在于芯片。從通用的 CPU,到擅長(zhǎng)并行計(jì)算的 GPU,再到專為 AI 算法設(shè)計(jì)的 TPU、NPU,以及更為靈活的 FPGA,每種架構(gòu)都在試圖解決 AI 計(jì)算中的高性能、低功耗和低成本之間的平衡問題。而這些底層硬件的設(shè)計(jì)創(chuàng)新,最終也指向一個(gè)核心,那就是通過架構(gòu)創(chuàng)新來突破馮·諾依曼結(jié)構(gòu)瓶頸對(duì)算力提升的限制。
本次大會(huì)上,華為帶來的 Ascend(昇騰)和 Kunpeng(鯤鵬)系列產(chǎn)品,分別采用了 NPU 和 ARM 的處理器架構(gòu),搭配上自創(chuàng)的“超節(jié)點(diǎn) + 集群”算力解決方案,這一次,華為的技術(shù)杠桿又能撬動(dòng)哪些產(chǎn)業(yè)變革?
2 算力芯片 + 超節(jié)點(diǎn)集群,構(gòu)建全場(chǎng)景算力底座
布局 AI 算力,華為至今已經(jīng)走過了七年。從 2018 年發(fā)布首款 Ascend 310,標(biāo)志其自研 AI 芯片起步,到次年進(jìn)一步發(fā)布 Ascend 910,算力達(dá)到 256 TFLOPS(FP16),成為當(dāng)時(shí)全球算力最強(qiáng)的 AI 訓(xùn)練芯片之一,同時(shí)也填補(bǔ)了中國(guó)高端 AI 訓(xùn)練芯片的空白。
2021 年,昇騰 AI 芯片產(chǎn)品線持續(xù)擴(kuò)展,同時(shí)啟動(dòng)了 CANN 芯片使能平臺(tái)的開源計(jì)劃。隨著大模型技術(shù)爆發(fā),昇騰 910B 等型號(hào)也在陸續(xù)推出,算力與能效比不斷提升。
目前,昇騰團(tuán)隊(duì)正持續(xù)推進(jìn) Ascend 950 系列的研發(fā),該系列作為 Ascend 910 的升級(jí)版本,包括 950PR 與 950DT 兩種型號(hào)。從目前已發(fā)布信息來看,950 系列的性能提升主要體現(xiàn)在以下幾個(gè)方面:新增對(duì) FP8、MXFP8、MXFP4 等低精度數(shù)據(jù)格式的行業(yè)標(biāo)準(zhǔn)支持;顯著增強(qiáng)向量計(jì)算能力;互聯(lián)帶寬比例大幅優(yōu)化;以及通過自研的兩種 HBM 合封方式,強(qiáng)化場(chǎng)景化芯片的定制能力。
據(jù)徐直軍介紹,到 2028 年,華為還將推出 Ascend 960、Ascend 970 系列。960 系列在算力、內(nèi)存訪問帶寬、內(nèi)存容量、互聯(lián)端口數(shù)等各種規(guī)格上相比 Ascend 950 預(yù)計(jì)翻倍,大幅度提升訓(xùn)練、推理等場(chǎng)景的性能。而 970 的芯片規(guī)格目前還在討論中。
而在底層硬件基礎(chǔ)上,想要進(jìn)一步為各行各業(yè)的算力需求提供解決方案,還需要 AI 算力基礎(chǔ)設(shè)施的加持。為此,華為打造了“超節(jié)點(diǎn) + 集群”的解決路徑。實(shí)際上,早在發(fā)布 Ascend 910 的同年,華為便推出了 Atlas 人工智能計(jì)算平臺(tái),從而實(shí)現(xiàn)了從芯片到模塊,再到整機(jī),最終提供解決方案的全產(chǎn)業(yè)鏈布局。
大會(huì)上,徐直軍對(duì) Atlas 的關(guān)鍵架構(gòu)“超節(jié)點(diǎn)”給出了物理層和邏輯層的詮釋:“超節(jié)點(diǎn)事實(shí)上就是一臺(tái)能學(xué)習(xí)、思考、推理的計(jì)算機(jī),物理上由多臺(tái)機(jī)器組成,但邏輯上以一臺(tái)機(jī)器學(xué)習(xí)、思考、推理。隨著算力需求的持續(xù)增長(zhǎng),超節(jié)點(diǎn)的規(guī)模也在持續(xù)、快速增大。”
在發(fā)布環(huán)節(jié),基于 Ascend 950DT 的 Atlas 950 超節(jié)點(diǎn)率先亮相。根據(jù)公布的技術(shù)規(guī)格,該超節(jié)點(diǎn)可支持 8192 張搭載 Ascend 950DT 芯片的昇騰計(jì)算卡(每張卡對(duì)應(yīng) 1 顆 Ascend 950DT 芯片)。在滿配條件下,其總互聯(lián)帶寬預(yù)計(jì)將超過當(dāng)前全球互聯(lián)網(wǎng)峰值帶寬的 10 倍以上。隨后發(fā)布的第二款 Atlas 960 超節(jié)點(diǎn),基于下一代 Ascend 960 芯片構(gòu)建,最大支持規(guī)模進(jìn)一步提升至 15488 卡。
搭配 Atlas 950 和 Atlas 960,徐直軍還帶來了兩款集群產(chǎn)品:Atlas 950 SuperCluster 50 萬卡集群,以及 Atlas 960 SuperCluster。相比目前世界最大集群 xAI Colossus,Atlas 950 SuperCluster 規(guī)模是其 2.5 倍,算力達(dá)到 1.3 倍。
在 Ascend 和 Atlas 技術(shù)參數(shù)的背后,反映了華為意圖突破人工智能芯片在功耗、運(yùn)算性能和能效方面的約束,極大提升能效比。從業(yè)界的實(shí)際應(yīng)用情況來看,也確實(shí)有不少正向反饋:比如,搭載了數(shù)千顆昇騰 910 AI 處理器的“鵬城云腦 II”,曾在 AI Perf 500 算力榜單中連續(xù)位列榜首;上海超算中心構(gòu)建的基于昇騰 Atlas900 Pod 算力集群人工智能公共算力服務(wù)平臺(tái),峰值速度可達(dá) 100PFLOPS(FP16),復(fù)雜任務(wù)得以在短時(shí)間內(nèi)快速完成。
除了 AI 領(lǐng)域之外,通用計(jì)算領(lǐng)域同樣需要超節(jié)點(diǎn)和集群。為此,華為在此次大會(huì)上推出了 Kunpeng 950 處理器,包括 96 核 /192 線程和 192 核 /384 線程兩個(gè)版本,預(yù)計(jì)將于 2026 年第一季度推出。而基于 Kunpeng 950 的 TaiShan 950 成為全球首個(gè)通用計(jì)算超節(jié)點(diǎn),最大支持 16 節(jié)點(diǎn),32 個(gè)處理器,最大內(nèi)存 48TB,同時(shí)支持內(nèi)存、SSD、DPU 池化。
當(dāng)下,互聯(lián)網(wǎng)產(chǎn)業(yè)的推薦系統(tǒng)正在從傳統(tǒng)的推薦算法向生成式推薦系統(tǒng)演進(jìn),華為也正在將 TaiShan 950 和 Atlas 950 打造成混合超節(jié)點(diǎn),為下一代生成式推薦系統(tǒng)打開全新架構(gòu)方向。
3 全面開源開放:硬件 + 軟件,通用 +AI,開發(fā)者 + 應(yīng)用端
“只要有足夠的眼球,所有的 Bug 都是膚淺的”——林納斯定律說明了開源開放在推動(dòng)技術(shù)的共建和進(jìn)步上有多么重要。而在解決技術(shù)問題之上,開源還是后熊彼特創(chuàng)新范式的體現(xiàn),成為推動(dòng)科技創(chuàng)新的源動(dòng)力。
汪濤曾在《開源心法》一書中強(qiáng)調(diào):“華為一直積極擁抱開源,既是開源的使用者,也是開源的貢獻(xiàn)者和發(fā)起者?!痹诒敬未髸?huì)上,他再次全面概括了華為開源開放的最新進(jìn)展和未來計(jì)劃:
“在通用計(jì)算領(lǐng)域,華為相繼開源了鯤鵬全系列軟件,包括 openEuler 操作系統(tǒng)、openGauss 數(shù)據(jù)庫、openUBMC 固件管理、openFuyao 算力集群軟件、BoostKit 鯤鵬應(yīng)用使能套件。未來,華為將圍繞通智融合向 openEuler 貢獻(xiàn)更多的組件和能力。在 AI 領(lǐng)域,昇騰基礎(chǔ)軟件全面開源開放,今年新增開源 CANN、Mind 系列應(yīng)用使能套件、openPangu 等,支持用戶深度挖掘昇騰潛力,加快自主創(chuàng)新。同時(shí),昇騰優(yōu)先支持業(yè)界主流的開源社區(qū)和開源項(xiàng)目,昇騰新特性、組件和開發(fā)計(jì)劃等都將在 PyTorch、vLLM、VeRL、SGLang、Triton 等開源社區(qū)上首發(fā),讓開發(fā)者第一時(shí)間獲取到最新技術(shù)。”
張迪煊則就昇騰開源開放的軟硬件生態(tài)進(jìn)行了解讀:
“首先,堅(jiān)持硬件開放,不僅開放昇騰模組和標(biāo)卡,也開放了靈衢互聯(lián)能力,并提供詳細(xì)設(shè)計(jì)文檔,支持有能力的伙伴打造更具競(jìng)爭(zhēng)力的超節(jié)點(diǎn)產(chǎn)品。
其次,堅(jiān)持基礎(chǔ)軟件開源開放,把開發(fā)環(huán)境從公司內(nèi)部搬到開源社區(qū),與業(yè)界共創(chuàng)。從 CANN 到昇思 AI 框架再到 Mind 系列應(yīng)用使能套件,提供全流程開發(fā)的參考實(shí)踐。我們只有一個(gè)目的,就是讓開發(fā)者用好昇騰,加速創(chuàng)新。”
具體來看,在硬件層面,昇騰通過開放模組和標(biāo)卡的硬件組合,支持生態(tài)伙伴開發(fā)了 200 多款硬件產(chǎn)品,滿足了各場(chǎng)景的差異化需求。張迪煊表示:“這個(gè)月已經(jīng)推出了大模型推理設(shè)計(jì)的標(biāo)卡,助力伙伴打造場(chǎng)景化的大模型應(yīng)用一體機(jī)。明年,昇騰將新上市 Atlas 350 標(biāo)卡、Atlas 550 模組和刀片等新產(chǎn)品,使能伙伴基于昇騰打造更具競(jìng)爭(zhēng)力的服務(wù)器及超節(jié)點(diǎn),共同構(gòu)筑堅(jiān)實(shí)的算力底座?!?/p>
在軟件架構(gòu)層面,昇騰通過分層解耦的設(shè)計(jì),使開發(fā)者能夠從模型、算子、內(nèi)核,直到底層資源進(jìn)行靈活按需地調(diào)用。其開源的底層 Runtime 能力進(jìn)一步支持對(duì)硬件資源的細(xì)粒度調(diào)用,幫助開發(fā)者充分挖掘硬件性能,滿足高性能場(chǎng)景的極致需求。據(jù)了解,下一代昇騰產(chǎn)品還將同時(shí)支持 SIMD+SIMT 的編程方式,滿足不同場(chǎng)景的開發(fā)需求。
對(duì)于加速庫的建設(shè),開源了昇騰親和加速庫,支撐開發(fā)者即取即用。9 月底,昇騰將開源共享內(nèi)存能力 Share Memory,在超節(jié)點(diǎn)范圍內(nèi)的所有片上內(nèi)存都可實(shí)現(xiàn)資源池化共享,相較于傳統(tǒng)以太網(wǎng)方案,通信時(shí)延有望實(shí)現(xiàn)大幅降低。
針對(duì)當(dāng)前產(chǎn)學(xué)研界對(duì)低精度計(jì)算的積極探索,昇騰推出了 HiF8 的數(shù)據(jù)格式,并將其捐獻(xiàn)給了全球計(jì)算聯(lián)盟(GCC),從而推動(dòng)相關(guān)標(biāo)準(zhǔn)的建立。
對(duì)于開發(fā)者而言,Profiling 和 Debug 是開發(fā)者自行探索和閉環(huán)問題的必備工具,過去,開發(fā)者反饋昇騰 Profiling 工具過于依賴個(gè)人經(jīng)驗(yàn)。為此,華為提供了自動(dòng)調(diào)優(yōu)工具 msProfiler,并已開源。
值得關(guān)注的是,本次大會(huì)上正式成立了 CANN 技術(shù)指導(dǎo)委員會(huì)。實(shí)際上,華為早在 8 月 5 日的昇騰計(jì)算產(chǎn)業(yè)發(fā)展峰會(huì)上就已宣布,將全面開源開放其硬件使能層——CANN,同時(shí)開源的還包括 Mind 系列應(yīng)用使能套件及相關(guān)工具鏈。此舉旨在為開發(fā)者提供更底層的自主調(diào)度能力,支持深度挖潛和定制化開發(fā),從而加速創(chuàng)業(yè)迭代。業(yè)界認(rèn)為,通過“CANN+MindSpore”的組合,華為逐步形成了與“PyTorch+CUDA”對(duì)標(biāo)的技術(shù)體系。
本月底,昇騰開發(fā)者生態(tài)進(jìn)程即將迎來關(guān)鍵節(jié)點(diǎn):CANN 全量算子將正式開源到 GitCode 社區(qū)。進(jìn)入 12 月后,領(lǐng)域加速庫、圖計(jì)算、Ascend C、MindIE 等軟件代碼也會(huì)陸續(xù)上倉。此外,昇騰還將每年投入 1500P 算力和 3 萬開發(fā)板,通過資源開放與全球開發(fā)者深度協(xié)作,這一系列動(dòng)作標(biāo)志著昇騰軟件體系實(shí)現(xiàn)全量開源。
在應(yīng)用落地上,昇騰正通過多維合作構(gòu)建場(chǎng)景生態(tài),推動(dòng) AI 技術(shù)向行業(yè)滲透:一方面聯(lián)合軟件伙伴打造適配具體需求的場(chǎng)景化方案,并提供高性能算力平臺(tái)作為支撐;另一方面,則聯(lián)動(dòng)大模型伙伴與開源社區(qū),推出昇騰親和的開源模型和工具,降低行業(yè)應(yīng)用開發(fā)門檻。
面向垂直行業(yè),昇騰采用“聯(lián)合定義、共同開發(fā)、協(xié)同上市、共同拓展”的模式,目前已與超 20 多家 ISV(獨(dú)立軟件開發(fā)商)展開合作,覆蓋金融、能源、制造、教育及醫(yī)療等行業(yè),落地應(yīng)用包括:信貸報(bào)告生成、電子病例分析、智能電力調(diào)度、網(wǎng)絡(luò)安全防護(hù)、教學(xué)助手等典型場(chǎng)景。
4 算力生態(tài)的持續(xù)動(dòng)力:開放技術(shù)規(guī)范 + 人才建設(shè) + 長(zhǎng)期投入
除了超節(jié)點(diǎn)和算力芯片的發(fā)布,以及開源產(chǎn)業(yè)生態(tài)的構(gòu)建外,本次大會(huì)上還有一個(gè)比較值得關(guān)注的點(diǎn)——靈衢 2.0 技術(shù)規(guī)范的正式開放。
據(jù)徐直軍介紹,基于靈衢 1.0 的 Atlas 900 超節(jié)點(diǎn)自 2025 年 3 月開始交付以來,已在全球范圍內(nèi)實(shí)現(xiàn) 300 多套的商用部署,這標(biāo)志著該技術(shù)通過了大規(guī)模實(shí)踐的充分驗(yàn)證。在靈衢 1.0 的基礎(chǔ)上,華為通過增加功能、優(yōu)化性能、提升規(guī)模等方面進(jìn)一步完善了協(xié)議,從 1.0 升級(jí)到 2.0。除了自家部署(Atlas 950 超節(jié)點(diǎn)就是基于靈衢 2.0),也呼吁產(chǎn)業(yè)界伙伴基于該協(xié)議研發(fā)兼容的硬件產(chǎn)品與核心部件,共同推動(dòng)靈衢開放生態(tài)的建設(shè)與完善。
此外,華為仍將堅(jiān)定人才發(fā)展戰(zhàn)略,尤其體現(xiàn)在與全球高校持續(xù)合作上。目前已構(gòu)建了覆蓋課程、師資、競(jìng)賽、認(rèn)證與科研的人才發(fā)展機(jī)制,共同開發(fā) 3000 多門課程,合作設(shè)立了 3000 多所 ICT 學(xué)院,培養(yǎng)超過 170 萬名人才。大會(huì)當(dāng)天,華為正式啟動(dòng)“基礎(chǔ)軟件千校行動(dòng)”,覆蓋全球 20 多個(gè)國(guó)家、2000 多所高校,計(jì)劃培養(yǎng) 1 萬名教師和 100 萬新型軟件人才。
而要說什么是“The last but not least”,那一定是長(zhǎng)期主義。未來五年,華為計(jì)劃每年投入 150 億人民幣生態(tài)發(fā)展費(fèi)用和 1500P 開源社區(qū)算力,以及 15000 人進(jìn)行生態(tài)平臺(tái)開發(fā)與支持。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.