2005年,時任英特爾CEO的保羅·歐德寧提出了名為“Tick-Tock”的戰(zhàn)略計劃。這一計劃以兩年為周期,快速升級半導(dǎo)體制程工藝與微架構(gòu),最大化激活摩爾定律。后來,這項被人稱作“鐘擺革命”的戰(zhàn)略行動成了計算產(chǎn)業(yè)的創(chuàng)新標(biāo)桿,一舉奠定了英特爾在PC與服務(wù)器市場的長期主導(dǎo)地位。
可能很多人都不記得,中國科技的發(fā)展軌跡中也有過這樣一個雄心勃勃的計劃。2018年,華為公布了全棧全場景AI戰(zhàn)略;作為戰(zhàn)略的關(guān)鍵載體,華為隨后在2019年發(fā)布了昇騰910芯片。我清晰記得,當(dāng)時華為宣布昇騰將持續(xù)高速演進。面對AI算力的海量需求與巨大缺口,構(gòu)筑新時代算力底座的機會史無前例地擺在了一家中國企業(yè)的面前。
但幾乎就在同一時間,科技鐵幕轟然落下。2019年,美國將華為列入實體清單,隨后在2020年全面制裁華為海思。華為的芯片能力被封禁,芯片供應(yīng)鏈被切斷。中國科技在AI算力領(lǐng)域發(fā)動的鐘擺革命,在一場噩夢中戛然而止。
那么,一切就此畫上句號了嗎?AI算力會變成中國智能化頭上的緊箍咒嗎?
時隔多年,我們等來了答案。9月18日,在華為全聯(lián)接大會2025的第一天,華為副董事長、輪值董事長徐直軍發(fā)表了“以開創(chuàng)的超節(jié)點互聯(lián)技術(shù),引領(lǐng)AI基礎(chǔ)設(shè)施新范式”的主題演講,期間正式公布了昇騰演進路標(biāo),發(fā)布全球最強的算力超節(jié)點與算力集群。在眾人的一片驚呼當(dāng)中,我們發(fā)現(xiàn)那個暌違了六年的計劃,居然回來了。
徐直軍指出,“算力過去是,未來也將繼續(xù)是人工智能的關(guān)鍵,更是中國人工智能的關(guān)鍵”,并再次強調(diào):“基于中國可獲得的芯片制造工藝,華為努力打造‘超節(jié)點+集群’算力解決方案,來滿足持續(xù)增長的算力需求?!?/strong>
這背后到底發(fā)生了什么?困擾中國AI那形如無解的算力難題,究竟是如何解開的?
或許有必要重讀一遍華為走過的路??纯此侨绾斡谩啊?jié)點+集群’”將算力變成一局圍棋;又如何將它迎風(fēng)展開,變成中國科技的一面旌旗。
那看似走不通的地方,把墻撞破,路就有了。
這是一條撞出來的算力之路。
把時間倒回2019年。或許很多人已經(jīng)不記得,當(dāng)時發(fā)布的昇騰910在多種規(guī)格與能力上都已處在全球領(lǐng)先水平,絲毫不遜色于英偉達的同期產(chǎn)品。但隨后突降的制裁,讓昇騰在諸多方面都受到了打擊與限制。從某種意義上來說,剛剛興起的“昇騰速度”突然消失了。沒有挑戰(zhàn)者的英偉達,在這段時間高歌猛進,從2018年發(fā)布的Turing架構(gòu)一直升級到了2025年的Blackwell Ultra及Rubin架構(gòu),牢牢把控住了全球AI算力的統(tǒng)治地位。
而同樣在這段日子里,AI大模型經(jīng)歷了井噴式發(fā)展。2018年谷歌推出的BERT-large約為3.4億參數(shù)。而到2025年OpenAI的GPT-5參數(shù)規(guī)模已經(jīng)高達1.8萬億,相差了數(shù)千倍之多。這意味著全球AI算力的使用需求經(jīng)歷了指數(shù)級的膨脹。昇騰可以說是被迫放棄了絕佳的發(fā)展契機,在地緣壓力下為美國企業(yè)讓路。
與此同時,現(xiàn)實也證明了制裁華為僅僅是科技鐵幕政策的開端。由于英偉達成了全球AI算力近乎唯一的供應(yīng)源,過去幾年間美國持續(xù)升級面向中國大陸的AI算力封鎖。這迫使英偉達不斷推出性能縮水、價格更高,同時被曝出諸多問題的“中國特供版”GPU。而這種政策的本質(zhì),就是要用AI算力的供應(yīng)限制,鎖死中國AI的發(fā)展上限。
從AI技術(shù)的發(fā)展路徑中可以看出,智能化的可持續(xù)發(fā)展,來源于算力的可持續(xù)獲取。每一輪AI模型的發(fā)展,都必然以AI算力的充裕供給作為創(chuàng)新前提。雖然幾年間昇騰為代表的中國AI算力依舊持續(xù)成長,但半導(dǎo)體工藝的長期落后,決定了中國AI算力在單卡性能與供貨量上勢必處在長期落后的局面。嚴重的算力困境,客觀上導(dǎo)致中國AI本身長期扮演學(xué)習(xí)者,而非引領(lǐng)者的角色。
在外部供應(yīng)受限,內(nèi)部成長不足的情況下,中國AI產(chǎn)業(yè)只能通過囤積算力、優(yōu)化模型等方式緩解算力焦慮。但這些方案都是暫時的,長期來看算力困局依舊無解。
今天我們囤了卡,優(yōu)化了模型,但如果AI模型進一步膨脹了呢?如果虛擬現(xiàn)實、機器人、自動駕駛汽車等硬件爆發(fā),帶來了巨大的算力需求提升呢?如果最終我們期待的AGI有可能加速到來呢?
中國AI算力的發(fā)展,需要的不是暫時緩解局面,而是能夠支持中國AI的指數(shù)級成長,甚至是實現(xiàn)“無盡算力”。
有沒有能從根源上徹底解決AI算力困厄的機會?
消失的六年中,華為在沉默中埋頭狂奔,就是希望找到這個巨型問題的解法。
在戰(zhàn)略層面,中國向來講求眾志成城,以多勝少。既然單顆芯片必將長期落后,那么能不能依靠多芯片的組合來彌補單點劣勢?幸運的是,以機器學(xué)習(xí)為基礎(chǔ)原理的AI任務(wù),本身就有著高并發(fā)的計算機制。在原理上看這個假設(shè)是可行的。
但如果這件事這么簡單,半導(dǎo)體封鎖就不會屢次在全球科技博弈中變成殺手锏。想要在AI算力上實現(xiàn)“集群化作戰(zhàn)”,需要解決數(shù)量龐大的具體問題。有些必須沖上高地,破解人有我無的困境;有些則需要竭盡所能發(fā)揮優(yōu)勢,實現(xiàn)人無我有的利好??偠灾?,那條看似最簡單直接的路,其實必須撞破無數(shù)面的墻。
在這次全聯(lián)接大會上,華為發(fā)布了諸多AI算力方面的新技術(shù)。我們可以選擇其中一些,來看看這條多芯片疊加的路是怎么被撞出來的。
HBM(High Bandwidth Memory),即高帶寬內(nèi)存。它通過堆疊多個DRAM實現(xiàn)更高的內(nèi)存帶寬和更低的計算功耗,是高性能計算與圖形處理等計算任務(wù)的必備技術(shù)。但要實現(xiàn)高水平的HBM,除了需要先進的封裝技術(shù)、復(fù)雜的系統(tǒng)級設(shè)計能力外,還要涉及材料學(xué)、熱管理等問題,是計算產(chǎn)業(yè)公認的頂級技術(shù)。為了解開昇騰的枷鎖,華為自研了HiBL 1.0和HiZQ 2.0兩種HBM,前者相比高性能、高價格的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業(yè)務(wù)的投資,后者則可以充分滿足推理Decode階段和訓(xùn)練對互聯(lián)帶寬和訪存帶寬的高要求。無數(shù)個類似的關(guān)鍵技術(shù)自研突圍,讓“人有我無”的劣勢逐漸消失,AI算力的限制逐步瓦解。
再比如,大規(guī)模AI算力集群化難以實現(xiàn),很大程度在于算力節(jié)點之間的聯(lián)接能力不足,會導(dǎo)致嚴重的算力損耗與過強的聯(lián)接時延。這也是為什么英偉達迄今為止也只能推出NVL72機架系統(tǒng)。而網(wǎng)絡(luò)聯(lián)接恰好就是華為的看家本領(lǐng)。基于聯(lián)接領(lǐng)域超過三十年的技術(shù)積累,華為通過系統(tǒng)級創(chuàng)新,突破了大規(guī)模算力集群互聯(lián)技術(shù)的巨大挑戰(zhàn)。通過多端口聚合與高密封裝技術(shù),以及平等架構(gòu)和統(tǒng)一協(xié)議,華為實現(xiàn)了TB級的超大帶寬以及2.1微秒的超低時延。這就是華為面向超節(jié)點的互聯(lián)協(xié)議靈衢(UnifiedBus)。在全聯(lián)接大會2025期間,華為宣布將開放靈衢2.0技術(shù)規(guī)范,與產(chǎn)業(yè)伙伴共建靈衢開放生態(tài)。靈衢代表的這條路,是華為通過自身技術(shù)積累,撞出了一條“人無我有”的未來之路。
別人有的要自研,別人沒有的要開創(chuàng)。就這樣,華為最終把AI算力從單顆芯片拱卒過河的象棋游戲,變成了集群化算力縱橫捭闔的圍棋棋局。
規(guī)則變了,一切就都變了。
回到2025年,這時華為正不斷破解著算力集群化的挑戰(zhàn)。與此同時,外部環(huán)境也出現(xiàn)了巨大的變化。如前文所述,現(xiàn)階段AI大模型的參數(shù)規(guī)模已經(jīng)發(fā)展到了難以置信的地步。這種情況下,大規(guī)模集群化的AI算力底座已經(jīng)成為必然需求。曾經(jīng)我們認為萬卡集群已經(jīng)非常驚人,但現(xiàn)在十萬卡的訓(xùn)練集群成了主流。這意味著集群化AI算力的比拼將站在舞臺中央。與之相對,單芯片能力強弱的價值在不斷弱化。在宏觀產(chǎn)業(yè)趨勢的驅(qū)動下,華為看到了徹底解決AI算力困境的契機。
其實早在全聯(lián)接大會2024期間,華為就已經(jīng)提到了“打造‘超節(jié)點+集群’算力解決方案,持續(xù)滿足算力需求”的設(shè)想。在一年之后,華為給這個設(shè)想寫出了答卷?!俺?jié)點+集群”戰(zhàn)略的核心邏輯,就是要把算力競賽變成圍棋。在圍棋規(guī)則中,每一枚棋子能夠發(fā)揮的作用很小,但它們聯(lián)接在一起的價值卻是巨大的。圍棋中有所謂以“勢”壓“地”的說法?!暗亍笔蔷植浚菃吸c;而“勢”則是全局,是整體,是聯(lián)接。意思是棋手哪怕局部單點失利,也能靠整體局勢戰(zhàn)勝對方,所謂“先謀全局再謀一域”。
華為要的“勢”,就是“超節(jié)點+集群”。
超節(jié)點,是將物理意義上的多個機柜、多個計算單元聯(lián)接成一個超級計算單元,讓它們像一臺計算機一樣運行。集群則是將多個超節(jié)點以網(wǎng)絡(luò)聯(lián)接在一起,讓他們像云服務(wù)一樣以軟件進行調(diào)用。
在全球AI產(chǎn)業(yè)的趨勢中看,超節(jié)點已經(jīng)成為滿足AI算力需求的主導(dǎo)性產(chǎn)品形態(tài),甚至是AI基礎(chǔ)設(shè)施建設(shè)的新常態(tài)。而華為能以昇騰為基礎(chǔ)打造的“超節(jié)點+集群”,恰好可以在滿足主流AI需求的同時,規(guī)避單芯片所受到的限制。這樣就在順應(yīng)AI大勢的最大化昇騰價值,規(guī)避掉昇騰短板。
今年3月,華為正式推出了Atlas 900超節(jié)點,其采用384顆昇騰計算單元聯(lián)接成統(tǒng)一的計算節(jié)點,最大算力可達300 PFLOPS。到目前為止,這依然是全球算力規(guī)模最大的超節(jié)點。由此開始,華為正式踏入了AI超節(jié)點的征程。
但就像我們說的,華為要的不是“目前最大”、“暫時領(lǐng)先”,他要的是徹底解決AI算力困境,一舉打破所有禁錮。于是在全聯(lián)接大會2025期間,華為發(fā)布了最新超節(jié)點產(chǎn)品 Atlas 950 SuperPoD和Atlas 960 SuperPoD超節(jié)點,它們分別支持8192及15488個昇騰計算單元的聯(lián)接。在計算單元規(guī)模、總算力、內(nèi)存容量、互聯(lián)帶寬等關(guān)鍵指標(biāo)上實現(xiàn)全面領(lǐng)先,并且必將在漫長的未來中始終保持全球最強算力。
基于超節(jié)點,華為發(fā)布了全球最強的超節(jié)點集群Atlas 950 SuperCluster和 Atlas 960 SuperCluster,算力規(guī)模分別超過五十萬卡和達到百萬卡,這也是當(dāng)之無愧的全世界最強算力集群。
如此規(guī)模的“超節(jié)點+集群”,已經(jīng)必然能夠覆蓋住所有單芯片劣勢。因為相比英偉達將在明年下半年上市的NVL144,Atlas 950超節(jié)點算卡規(guī)模是其56.8倍,總算力為其6.7倍,內(nèi)存容量是其15倍,互聯(lián)帶寬是其62倍。即使與英偉達計劃2027年上市的 NVL576相比,Atlas 950超節(jié)點在各方面依然領(lǐng)先。這意味著,無論AI大模型如何發(fā)展,實現(xiàn)怎樣的跨越式創(chuàng)新,華為都可以為其提供絕對充裕的算力,在長時間中實現(xiàn)AI算力供給恒定大于模型創(chuàng)新的算力需求。AI算力這局圍棋中的“勢”,就是“超節(jié)點+集群”構(gòu)成的基礎(chǔ)設(shè)施海納之勢。
與此同時,華為還率先將超節(jié)點技術(shù)引入通用計算領(lǐng)域,發(fā)布了全球首個通用計算超節(jié)點TaiShan 950 SuperPoD,其結(jié)合GaussDB分布式數(shù)據(jù)庫,能夠徹底取代各種應(yīng)用場景的大型機、小型機以及Exadata數(shù)據(jù)庫一體機。通算+智算的混合超節(jié)點,可以為一代生成式推薦系統(tǒng)打開全新架構(gòu)方向。
“超節(jié)點+集群”的產(chǎn)業(yè)邏輯,在于從根本上改變AI算力的游戲規(guī)則。AI算力并不等同于單顆芯片性能。原本AI算力體系暴露了華為芯片工藝受限的劣勢,經(jīng)此一役,卻可以將AI算力變成華為獨有的戰(zhàn)略優(yōu)勢,甚至實現(xiàn)對英偉達的領(lǐng)先。
“原本大家共同遵守著一個游戲規(guī)則,但一方突然宣布游戲禁止參與。那不如就不玩你的國際象棋,直接把規(guī)則變成我的圍棋”——只有改變底層規(guī)則,華為才有機會,中國的AI算力困境才有根本解法。
“有時候,創(chuàng)新是被逼出來的”。
這幾年我們愈發(fā)清晰認識到這句話的意義與分量。一旦科技鐵幕落下,原本依靠的創(chuàng)新根基、全球化基礎(chǔ)設(shè)施都可能蕩然無存。這時候別無他法。只能在絕境里創(chuàng)新,在無路可走時撞出路來。撞開一個角,闖出一個縫,我們也就有了自己的路。向后推演,當(dāng)中國AI產(chǎn)業(yè)開始習(xí)慣在“超節(jié)點+集群”的算力包裹下完成創(chuàng)新,當(dāng)整個產(chǎn)業(yè)鏈形成了正向聯(lián)動。這條路就越走越寬廣,最終或許會成為四海同來的陽關(guān)大道。
算力是中國AI發(fā)展的基座。華為所打造的“超節(jié)點+集群”,一個核心意義在于它可以完全在中國大陸制造,并能滿足未來很長時間內(nèi)中國AI的任意算力需求。國家再不需要擔(dān)心算力,產(chǎn)業(yè)各界再不需要為算力焦慮。這條路上不需再看任何人的臉色行事,它的根基與安全屬于我們,它的未來與無盡可能性也屬于我們。
“超節(jié)點+集群”的算力獲取方式,有沒有問題?其實是有的。問題無非兩點,一是算力集群化可能帶來軟件管理等層面問題,但華為已經(jīng)有了充沛的解決方案。另一個算力集群化會帶來更大的功耗。但得益于中國完善的基礎(chǔ)設(shè)施建設(shè)與新能源發(fā)展,電力價格恰好就是我們的優(yōu)勢。這種“恰好”,或許就是中國的棋局,就是中國給科技鐵幕的回應(yīng)。
向未來看,“超節(jié)點+集群”對于中國AI,乃至中國科技整體的意義在于,它將可能提供永遠供大于求的算力資源。它實現(xiàn)的不是對某個模型的滿足,對某個階段的緩解,而是從戰(zhàn)略本質(zhì)上破解中國的算力困局,甚至滿足未來中國通往AGI路上無盡的算力需求。
“確保中國AI要多少算力,就能提供多少算力”,這是華為給出的承諾。
在經(jīng)歷了漫長的制裁與封鎖,討論了不知道多少次“卡脖子”之后,東方算力巨獸發(fā)出咆哮。這次我們不是應(yīng)對眼前的問題,而是要徹底解決這個問題。
向未來看,向四野看,中國AI,旌旗蔽日。
2019年開始,雖然芯片供應(yīng)問題阻礙了昇騰生態(tài)的發(fā)展,但昇騰依舊在幾年間支撐了中國AI的長足發(fā)展。我采訪過許多遷移到昇騰生態(tài)的企業(yè),他們有的是出于成本考慮,有的是希望與華為合作獲得更多機會,也有人告訴我“就是相信昇騰能行,沒考慮過原因”。在智能化的引力與逆全球化的催逼下,大家心向一處,力出一孔,昇騰在它的幽暗歲月里依舊茁壯生長。
而在今天,華為原本設(shè)計好的那條昇騰之路正式回歸。放眼望去,全球AI算力需求依舊在極速增長,甚至較此前更甚。各行業(yè)的智能化渴望轉(zhuǎn)化為算力饑渴,新形態(tài)的軟硬件體系爆發(fā)必須以算力為前提。
在這個節(jié)點,AI算力領(lǐng)域?qū)σ粓鲧姅[革命的期待較六年前更甚。但此時英偉達面臨創(chuàng)新疲軟與產(chǎn)業(yè)瓶頸的挑戰(zhàn),英特爾與AMD的AI算力布局方興未艾。此時,華為卻積累了各方能力,最有機會開啟一場新的鐘擺革命。在最新公布的昇騰路標(biāo)中,華為宣布接下來將以幾乎一年一代算力翻倍的效率對昇騰進行升級。六年前戛然而止的雄心,在“超節(jié)點+集群”的機會下將一切重新點燃。
一切仿佛都回來了,一切仿佛又都變得不同。所有因緣際會下,我們看到此刻的華為抖落灰燼,浴火而歸。
“一顆芯片不行,就十顆一起上”,這就是華為的答案。這個答案的弦外之音是,千難萬阻,我們總有辦法。
“超節(jié)點+集群”, 會形成一個意味深長的象征。它提醒這個世界,用任何方式來圍困中國科技的發(fā)展權(quán)利,都只有一個結(jié)果:此路不通。所有手段和算計,都擋不住算力的聯(lián)接,產(chǎn)業(yè)生態(tài)的凝結(jié),中國人的團結(jié)。
用AI牽引第四次工業(yè)革命,這是屬于中國的機會。誰也拿不去,誰都搶不走。
這條通往智能世界的算力之路,終是被我們撞出來了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.