(圖片來源:SCMP)
AI芯片已經(jīng)成為中美科技競爭中的重要“王牌”。
過去半個多月,高達4.5萬億美元市值的英偉達宣布,未來十年將向OpenAI投資至多1000億美元,后者將購買和部署400萬-500萬塊英偉達GPU芯片;同時,10月7日,AMD宣布與OpenAI達成了一項為期四年、價值數(shù)百億美元的算力芯片供應(yīng)協(xié)議,OpenAI將認購AMD最高10%的股份;甲骨文也和OpenAI達成萬億美元的合作協(xié)議。
AMD和OpenAI雙方合作公布后,AMD股價一度暴漲,創(chuàng)下近十年來的最大漲幅,也讓這家數(shù)據(jù)中心AI芯片市場的“千年老二”,首次與英偉達展開正面對戰(zhàn),并且讓OpenAI形成了一場萬億“循環(huán)交易”。
國內(nèi)方面,10月初,DeepSeek發(fā)布DeepSeek-V3.2-Exp模型,隨后寒武紀、華為昇騰等國產(chǎn)芯片紛紛宣布適配,甚至華為還公布昇騰910系列芯片量產(chǎn)計劃,2026年第一季度將推出昇騰950PR,采用華為自研HBM,到2028年第四季度推出將昇騰970。
另外,寒武紀股價不斷升高,7-9月之間股價漲幅高達124%,最新市值達5210億元,一度超過日本最大的芯片制造設(shè)備廠商東京電子,也成為國內(nèi)A股市值最高的半導體設(shè)計公司之一。
英偉達CEO黃仁勛最新表示,中國在芯片領(lǐng)域僅落后美國“幾納秒”,芯片研發(fā)和制造方面具有極強的潛力。他呼吁美國政府允許美國科技企業(yè)在中國等市場競爭,以“提高美國的影響力”。
很顯然,雖然美國不斷加大對華AI芯片出口管制,卻反而加速了國產(chǎn)AI芯片的迭代,也導致H20芯片在華遇冷。如今,盡管2024年英偉達產(chǎn)品占中國AI芯片銷量三分之一以上,但黃仁勛團隊仍陷入中美AI芯片競爭當中。
一方面,美國持續(xù)擴大對華 AI 芯片出口管制,例如最新的《GAIN AI》法案要求,英偉達 AI 芯片必須優(yōu)先供應(yīng)美國企業(yè),之后才能向中國出口先進 AI 芯片,這可能導致英偉達錯失價值 500 億美元的中國 AI 算力市場 “大蛋糕”。
另一方面,市場競爭也在加劇:AMD、谷歌、微軟、博通等國外企業(yè),以及華為、寒武紀、摩爾線程等國內(nèi)企業(yè),紛紛研發(fā)出性價比更高的 AI 算力芯片產(chǎn)品,且國產(chǎn)AI算力芯片已逐步獲得部署訂單。此外,阿里、騰訊、百度、字節(jié)跳動等互聯(lián)網(wǎng)大廠,也在加大芯片研發(fā)與設(shè)計投入,力求在供應(yīng)鏈中掌握更強大的自主可控能力。
Epoch Al數(shù)據(jù)顯示,過去一年,OpenAI在算力上斥資70億美元,AI大模型訓練占50億美元。
摩根士丹利預(yù)測,未來三年,全球AI基礎(chǔ)設(shè)施建設(shè)總成本可能高達3萬億美元(約合21萬億元人民幣)。另據(jù)德勤報告,隨著AI、5G等新技術(shù)蓬勃發(fā)展,2025年全球半導體產(chǎn)業(yè)銷售收入將達到創(chuàng)紀錄的6970億美元,預(yù)計2030年銷售規(guī)模將超過1萬億美元。
晨星公司分析師布萊恩·科萊洛 (Brian Colello) 表示,“如果一年后我們經(jīng)歷了AI泡沫并最終破裂,(英偉達投資OpenAI)這筆交易或許會成為早期線索之一?!?/p>
英偉達發(fā)言人在回應(yīng)有關(guān)中國芯片公司近期進展的詢問時表示,競爭無疑已經(jīng)到來。
清華系A(chǔ)I芯片公司清微智能CEO王博對筆者表示,可重構(gòu)等新架構(gòu)AI芯片可以讓國產(chǎn)AI算力擁有非英偉達GPU的發(fā)展之路。國內(nèi)AI芯片市場需要在產(chǎn)品上具備比競品5倍的性價比優(yōu)勢,才能分得更多的蛋糕。“行業(yè)現(xiàn)在有一個絕對占據(jù)市場份額的競品,比如英偉達或英特爾,你是絕對不能按照它的路徑走的,那會被碾壓得渣都不剩?!?/p>
DeepSeek熱潮帶來國產(chǎn)AI芯片“超車”
自2022年10月以來,美國針對中國半導體行業(yè)發(fā)起多輪出口管制,企圖讓中國無法制造先進AI芯片,也無法使用美國芯片訓練先進模型。
2024年12月,美國拜登政府任內(nèi)最后一次擴大對華出口限制,包括限制對華出口先進AI芯片所需的HBM(高帶寬存儲),以及降低算力密度的紅線,劍指限制中國AI大模型的發(fā)展能力。因此,此前還對英偉達芯片有較大依賴的中國互聯(lián)網(wǎng)云公司,也都開始考慮部署國產(chǎn)AI芯片。
而與此同時,2025年的DeepSeek熱潮,也加速了國內(nèi)AI芯片和應(yīng)用的落地。
今年8月,DeepSeek推出V3.1版本之時,官方寫的一段話引起市場關(guān)注——“UE8M0 FP8是針對即將發(fā)布的下一代國產(chǎn)芯片設(shè)計”,使得市場不斷關(guān)注國產(chǎn)AI芯片最新進展,同時也讓英偉達股價應(yīng)聲下跌。
當前,DeepSeek訓練成本遠低于美國領(lǐng)先的AI模型。9月18日梁文鋒擔任通訊作者的權(quán)威期刊《自然》(Nature)封面論文顯示,DeepSeek-R1模型訓練成本僅為29.4萬美元,即便加上約600萬美元的基礎(chǔ)模型成本,也遠低于OpenAI、谷歌訓練AI的成本。
黃仁勛今年7月對筆者表示,DeepSeek-R1既是一種革命性的模型,也是第一個開源的推理模型,而且非常創(chuàng)新。對于應(yīng)用場景而言,中國AI模型非常高效且開放,可以根據(jù)任何應(yīng)用場景來調(diào)整,甚至可以在這些開放模型基礎(chǔ)上創(chuàng)建一家公司、一款產(chǎn)品或一項業(yè)務(wù)。
“四年前,英偉達在中國的市場份額高達95%,如今只有50%。如果我們不在中國競爭,而是讓中國開發(fā)出新的平臺,建立一個豐富的生態(tài)系統(tǒng),并且它們不是美國的,在世界推廣AI技術(shù)的時候,他們的技術(shù)和領(lǐng)導力將會傳播到世界各地。”黃仁勛表示。
英偉達CEO黃仁勛
截至2024年底,英偉達占全球所有AI加速芯片銷售規(guī)模的90%以上。據(jù)2025年8月最新季度財報顯示,英偉達數(shù)據(jù)中心營收411億美元,同比增長56%,成為英偉達營收占比最高的業(yè)務(wù)。
黃仁勛今年8月表示,英偉達Blackwell Ultra架構(gòu)芯片的生產(chǎn)正在全速推進,需求很旺盛,恰逢推理型AI模型推動模型性能迅速增長。AI競賽已經(jīng)拉開帷幕,Blackwell是這場競賽的核心。
他認為,每年與數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)相關(guān)的6000億美元資本開支,只計入了投入最大的四個廠商,此外還有大量公司會對AI進行相應(yīng)投資,接下來5年,英偉達將通過Blackwell、Rubin等架構(gòu)的芯片,抓住價值3萬億到4萬億美元的AI基礎(chǔ)設(shè)施建設(shè)機會。隨著時間推移,AI將會加速GDP增長。
然而,DeepSeek并非唯一一家不依賴美國技術(shù)的中國AI公司。隨著美國對華限制不斷加劇,阿里、騰訊、字節(jié)火山引擎等國內(nèi)云廠商開始一邊囤貨英偉達GPU,一邊嘗試國產(chǎn)替代。
財報顯示,由于美國限制對華銷售H20,英偉達2026財年第一財季產(chǎn)生的H20庫存支出高達45億美元,第二財季銷售額更是減少了40億美元。
但同時,國產(chǎn)AI芯片市場卻處于供不應(yīng)求的狀態(tài)。據(jù)悉,阿里、寒武紀、清微智能、摩爾線程、壁仞科技等多家國產(chǎn)AI芯片的目標是挑戰(zhàn)英偉達,成為中國核心的AI算力芯片廠商之一。
近期,央視報道“中國聯(lián)通三江源綠電智算中心項目建設(shè)成效”,其中就披露阿里旗下平頭哥最新研發(fā)面向AI數(shù)據(jù)中心的PPU芯片,其各項主要參數(shù)指標均超過英偉達A800,與H20相當,同時消耗更少的能源。
據(jù)筆者了解,寒武紀目前最大的互聯(lián)網(wǎng)客戶為字節(jié)跳動,芯片預(yù)購訂單超20萬片;阿里和百度自研芯片已經(jīng)量產(chǎn);騰訊目前正在逐步上架此前囤積的芯片,同時還購買燧原產(chǎn)品。
今年9月,華為推出有史以來最強大的AI芯片。華為表示,2026年第一季度推出昇騰950PR,該芯片采用華為自研HBM;2026年第四季度推出昇騰950DT;2027年第四季度推出昇騰960芯片;2028年第四季度推出昇騰970,挑戰(zhàn)英偉達在AI市場主導地位。
據(jù)財新,有半導體行業(yè)人士估算,2024年,華為昇騰AI芯片出貨量約為30萬-40萬顆,寒武紀超1萬顆;2025年,華為昇騰出貨量或略低于100萬顆,而寒武紀出貨量將增至8萬顆左右,預(yù)計2026年寒武紀出貨量還能翻倍。
然而,華為副董事長、輪值董事長徐直軍表示,由于受美國的制裁,華為不能到臺積電去投片,單顆芯片的算力相比英偉達存在差距,但華為在超節(jié)點互聯(lián)技術(shù)上強力投資、實現(xiàn)突破,能夠做到萬卡級的超節(jié)點,從而做到世界上算力最強。
華為公司創(chuàng)始人任正非今年6月表示,盡管華為昇騰芯片比美國同類產(chǎn)品“落后一代”,但它可以通過堆疊和集群等技術(shù)達到最先進的性能。
無論面臨何種挑戰(zhàn),我們顯然不能低估中國 AI 芯片的追趕能力。
摩爾線程創(chuàng)始人兼CEO張建中近期表示,當前GPU芯片的制造端困境主要有三方面——國際高端芯片禁運、高端HBM存儲限售、先進工藝制程限制。今天市場大概有超過700萬張GPU計算卡的需求,來支撐生成式AI和AI智能體技術(shù)能力。而未來5年,AI算力需求仍將保持100倍增長,以每一片晶圓大概產(chǎn)出20-30片有效算力來計算,中國還有300萬張GPU卡的產(chǎn)能缺口,從中短期看,國內(nèi)算力市場面臨智能算力短缺,產(chǎn)能不太可能滿足需求。
今年9月26日,摩爾線程提交招股書僅88天,就順利過會,成為科創(chuàng)板最快審核的AI芯片公司,有望成為“國產(chǎn)GPU第一股”。此次IPO,摩爾線程計劃募資80億元人民幣,是年內(nèi)A股過會項目中募資規(guī)模最大的項目,同時也是年內(nèi)半導體設(shè)計領(lǐng)域最大規(guī)模的IPO。公司表示,募集資金將主要投向新一代AI訓練與推理芯片、圖形芯片及AI SoC芯片的研發(fā),以鞏固其在高性能計算領(lǐng)域的領(lǐng)先地位。
財報顯示,摩爾線程2025年上半年營業(yè)收入達7.02億元,已超過前三年營收總和,近三年復合增長率超208%。公司毛利率從2022年的-70.08%大幅提升至2024年的70.71%。截至2025年6月30日,公司正在洽談的客戶預(yù)計訂單合計將超過20億元。公司管理層預(yù)計最早于2027年實現(xiàn)合并報表盈利。
當前,主流Al智能體一次簡單任務(wù)調(diào)用大約消耗10萬tokens,復雜任務(wù)調(diào)用可達100萬tokens以上。截至2025年6月底,國內(nèi)日均tokens消耗量已經(jīng)突破30萬億,一年半時間增長300倍。
張建中強調(diào),AI正邁入智能體時代,算力需求將迎來爆發(fā)式增長。
黃仁勛曾表示,AI是一個充滿活力的創(chuàng)業(yè)、高科技、現(xiàn)代化產(chǎn)業(yè)。美國企業(yè)應(yīng)該與中國自由貿(mào)易,否則就有可能在AI競賽中將優(yōu)勢拱手讓給中國。
研究機構(gòu)IDC最新數(shù)據(jù)顯示,2025上半年,中國AI加速服務(wù)器市場規(guī)模達到160億美元,同比2024上半年增長超一倍;中國加速芯片已擁有超過190萬張。預(yù)計到2029年,中國加速服務(wù)器市場規(guī)模將超過1400億美元。
IDC認為,從加速技術(shù)角度來看,2025年上半年,NPU、CPU等非GPU卡的需求持續(xù)增長,增長速度遠超GPU,占據(jù)30%的市場份額;而從品牌角度來看,國產(chǎn)AI芯片已進一步得到普及,約占整個市場份額的35%。
計算瓶頸已來,服務(wù)器芯片急需新架構(gòu)新存儲新通信
對于一臺放置數(shù)據(jù)中心的服務(wù)器來說,計算(芯片算力)、通訊(超節(jié)點、NVLink)、存儲(HBM、DDR等)是三個最核心的要素。
隨著行業(yè)進入后摩爾時代,如果你想迭代一款A(yù)I芯片,就需要提升PPA——提升性能、降低功耗、縮小面積。
本質(zhì)上,PPA的提升需要從架構(gòu)設(shè)計、工藝選型、軟件優(yōu)化等多維度協(xié)同發(fā)力,核心思路是通過硬件創(chuàng)新與軟硬協(xié)同,加快AI任務(wù)(如矩陣運算、特征提?。┑奶幚硭俣取?yōu)化計算效率與數(shù)據(jù)流轉(zhuǎn)效率,并且在滿足 AI 計算需求的同時,實現(xiàn)PPA三者的平衡與突破。
然而當前,從制程上看,“摩爾定律”已處于放緩階段。從成熟制程(如14nm)升級至先進制程(如7nm、4nm、3nm),AI算力性能提升幅度不及預(yù)期,而且芯片成本也陡然上升。
國際商業(yè)戰(zhàn)略公司 (IBS) 首席執(zhí)行官Handel Jones曾表示,設(shè)計28nm芯片的平均成本為4000萬美元;而7nm芯片的成本高達2.17億美元,5nm為4.16億美元,3nm更是將耗資高達5.9億美元。另據(jù)多個公開數(shù)據(jù)顯示,預(yù)計3nm芯片整體設(shè)計和開發(fā)費用可能接近10億美元(約合人民幣72億元),高價格背后主要體現(xiàn)在晶圓代工成本、研發(fā)投入、設(shè)備采購(尤其是EUV光刻機)和良率等多個方面。
同時,高通最新發(fā)布基于4nm制程的第四代驍龍8s,相比之前高通驍龍產(chǎn)品,通用計算(CPU)性能僅提升31%;最新制程和Chiplet技術(shù)的英特爾酷睿Ultra7 165H,相比前代10nm制程的酷睿i7-1370P,每瓦性能僅增長8%左右;而臺積電最新N2制程的性能相比前代僅提升10%-15%。
顯然,未來先進制程的發(fā)展并不會給AI芯片性能和性價比層面帶來更大提升。今年GTC大會上,黃仁勛開始宣傳大模型Token需求的激增來體現(xiàn)B200對于AI芯片市場重要性,而非芯片性能。
一位半導體行業(yè)人士在私下和筆者交流時也提到,國內(nèi)不做先進制程是明智的,本身到12nm之后,制程對于性能提升沒有那么明顯了。因此,國內(nèi)制造工藝可能在相當長的時間內(nèi)仍會嚴重受限,如何解決在工藝受限情況下,持續(xù)發(fā)展芯片算力,是當前一個非常關(guān)鍵的課題。
所以,計算的瓶頸已來,服務(wù)器AI芯片急需新的架構(gòu)、新的存儲方案、新的通信網(wǎng)絡(luò)手段,從而讓AI芯片能力更強。
清華大學教授、中國半導體行業(yè)協(xié)會集成電路設(shè)計分會理事長魏少軍曾直言,伴隨外部禁止中國進行先進制程芯片研發(fā),中國所能使用的制造技術(shù)不再像之前那樣豐富。如今,中國芯片產(chǎn)業(yè)需要在技術(shù)創(chuàng)新上更為關(guān)注不依賴先進工藝的設(shè)計技術(shù),包括架構(gòu)的創(chuàng)新、微系統(tǒng)集成等。芯片企業(yè)需摒棄“路徑依賴”,打造中國自己的產(chǎn)品技術(shù)體系,否則將永遠無法擺脫跟在別人后面亦步亦趨的被動局面。
“如果只是沿用現(xiàn)有的芯片架構(gòu),大概率只能跟在別人后面,難以實現(xiàn)超越。”魏少軍認為,包括中國在內(nèi)的亞洲國家應(yīng)放棄將英偉達GPU架構(gòu)用于AI芯片開發(fā),以減少對英偉達的技術(shù)依賴。他認為,亞洲國家在開發(fā)算法和大模型方面,仍在效仿美國,但這種模式限制了自主性,或?qū)韺γ绹夹g(shù)產(chǎn)生依賴的風險,亞洲的戰(zhàn)略必須與美國模式有所區(qū)別,尤其是在算法設(shè)計和計算基礎(chǔ)設(shè)施等基礎(chǔ)領(lǐng)域。
清華大學集成電路學院院長尹首一在AICC2025人工智能計算大會上表示,每一個晶體管能提供多少算力,本質(zhì)上是計算架構(gòu)的問題。采用新的計算架構(gòu),有機會去提高每個晶體管的利用率、解決制約國產(chǎn)芯片性能的存儲墻,以及降低芯片功耗,帶給芯片更多新的可能性,計算架構(gòu)的破局有助于AI芯片算力提升。同時,用可重構(gòu)計算架構(gòu)去做AI計算,用軟硬件編程方式,動態(tài)構(gòu)造一個最適配的計算架構(gòu),有機會通過硬件自動化編程去逼近專用集成電路的性能。
“創(chuàng)新架構(gòu)能夠突破傳統(tǒng)的設(shè)計思維,能夠解決我們基礎(chǔ)算力問題,但我們還需要有效的生態(tài)支撐。智源研究院的FlagOS是國產(chǎn)架構(gòu)創(chuàng)新的生態(tài)后盾,我們的軟硬協(xié)同共同努力兩方面互補,從而能夠突破中國算力‘卡脖子’挑戰(zhàn)。”尹首一表示。
除了新架構(gòu),存儲和通信的提升也至關(guān)重要。
其中,存儲方面,HBM、DDR等AI存儲芯片需求規(guī)模正呈現(xiàn)指數(shù)級擴張,一個GPU節(jié)點就可能消耗數(shù)百甚至數(shù)TB存儲。據(jù)美光數(shù)據(jù)顯示,AI服務(wù)器的DRAM容量需求是普通服務(wù)器的8倍,NAND閃存容量需求則達到3倍,單臺AI服務(wù)器存儲需求更是高達2TB,遠超傳統(tǒng)服務(wù)器的配置標準。
因此,需求激增直接推高存儲芯片在AI基建中的成本占比。近期,OpenAI的“星際之門”(Stargate)項目與三星、SK海力士達成合作,每月需采購90萬片DRAM晶圓,這一數(shù)字相當于全球DRAM總產(chǎn)量的近40%。
目前,HBM單顆價格超過5000美元,是傳統(tǒng)DDR5內(nèi)存的20倍,而毛利率卻高達50%-60%,遠超傳統(tǒng)DRAM 30%左右的水平。
閃存市場總經(jīng)理邰煒今年3月表示,AI浪潮下,計算平臺正從CPU轉(zhuǎn)移到以GPU/NPU為中心,存儲芯片需求也將增長,因此HBM高帶寬存儲在AI時代中得到廣泛應(yīng)用,目前HBM在DRAM存儲行業(yè)占比已接近30%,2026年HBM4將會推動行業(yè)更多定制化需求。
通信網(wǎng)絡(luò)方面,英偉達的網(wǎng)絡(luò)布局涵蓋了三種主要技術(shù)NVLink、InfiniBand 和Ethernet,其中,NVLink是將GPU彼此連接在一臺服務(wù)器內(nèi),或者在機柜狀的服務(wù)器機架中連接多臺服務(wù)器;而華為提出昇騰CLoudMatrix 384超節(jié)點,在高速互聯(lián)總線聯(lián)接下,共由12個計算柜和4個總線柜構(gòu)成,算力總規(guī)模達300Pflops,是英偉達NVL72的1.7倍,網(wǎng)絡(luò)互聯(lián)總帶寬達269TB/s,比英偉達NVL72提升107%,內(nèi)存總帶寬達1229TB/s,比英偉達NVL72提升113%,未來將進一步擴展為包含數(shù)萬卡的Atlas 900 SuperCluster超節(jié)點集群,未來可以支撐更大規(guī)模的模型演進。
此外,很多AI芯片公司也在探索共封裝光學(CPO)、Chiplet、光通訊網(wǎng)絡(luò)、DPU等新的通信網(wǎng)絡(luò)技術(shù),通過互相通信更快提升整個AI算力性能。
北京智源人工智能研究院副院長兼總工程師林詠華表示,未來,我們需要推動更好的性價比、更低能耗、新的計算架構(gòu),持續(xù)性投入創(chuàng)新,讓更多創(chuàng)新硬件有機會大范圍使用,實現(xiàn)更大的商業(yè)價值。據(jù)悉,智源研究院近期聯(lián)合全球生態(tài)伙伴推出“眾智FlagOS v1.5”系統(tǒng),清微智能與寒武紀、摩爾線程、昆侖芯、華為昇騰、中科海光共同成為國內(nèi)唯六的“FlagOS卓越適配單位”。
然而當前,國產(chǎn)AI芯片生態(tài)尚不完善,產(chǎn)能嚴重不足,而且中國仍在囤積大量海外芯片。根據(jù)海關(guān)總署今年1月發(fā)布的數(shù)據(jù),2024年中國集成電路進口總量將達到5492億塊,同比增長14.6%;全年集成電路(即芯片)進口總額為3850億美元,同比增長10.4%,這一數(shù)字占全球芯片總產(chǎn)量的62%。相比之下,2024年中國原油進口額為3250億美元。
IDC中國AI基礎(chǔ)架構(gòu)分析師杜昀龍認為,中國AI加速服務(wù)器市場正在經(jīng)歷規(guī)模擴張和本土替代的階段。在高端算力效能與生態(tài)成熟度上仍需突破。未來競爭焦點將從單芯片性能轉(zhuǎn)向系統(tǒng)能效比、開放生態(tài)協(xié)同和綠色算力成本控制。行業(yè)需避免低水平重復建設(shè),通過技術(shù)協(xié)同與標準優(yōu)化提升國際競爭力。(文|AI科技平凡者2025,作者|林志佳,編輯|蓋虹達)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.