智通財經APP獲悉,中信建投證券發(fā)布研究報告稱,8月22日,上證指數漲1.45%站上3800點,算力、芯片股集體爆發(fā)。近期國產算力板塊迎來密集催化,8月13日,騰訊業(yè)績會表示公司推理芯片供應渠道側具備多種選擇;8月21日,DeepSeek更新模型版本至DeepSeek-V3.1,預計將支持FP8精度以及國產芯片;近期,基于華為昇騰芯片的服務器產品陸續(xù)在政府、金融、運營商等行業(yè)落地大單。國產算力芯片迎來國產替代窗口期??紤]到英偉達新品迎來大幅性能升級,并面向中國市場禁售,國產算力芯片發(fā)展刻不容緩。當前已經涌現出一大批國產算力芯片廠商,昇騰、寒武紀相繼推出自研AI芯片,海光信息的DCU也逐漸打出知名度,其他配套環(huán)節(jié)的國產化進程也正在加速推進。
國產人工智能芯片發(fā)展趨勢及展望
海外龍頭占據壟斷地位,AI加速芯片市場呈現“一超多強”態(tài)勢。
數據中心CPU市場上,英特爾份額有所下降但仍保持較大領先優(yōu)勢,AMD持續(xù)搶占份額勢頭正盛。AI加速計算芯片市場上,英偉達憑借硬件優(yōu)勢和軟件生態(tài)一家獨大,在訓練、推理端均占據領先地位。根據IDC數據,2024年國內AI加速計算芯片市場中,英偉達出貨份額達70%,華為昇騰出貨份額23%,其余廠商合計占比7%。
國內廠商起步較晚,正逐步發(fā)力,部分加速芯片領域已經涌現出一批破局企業(yè),雖然在高端AI加速計算芯片領域與海外廠商存在較大差距,但在國內市場上已經開始取得部分份額,根據IDC數據,2024年國內AI芯片市場中,華為昇騰出貨64萬片,寒武紀出貨2.6萬片,燧原出貨1.3萬片。未來,隨著美國持續(xù)加大對中國高端芯片的出口限制,AI芯片國產化進程有望繼續(xù)加快。
GPU市場方面,海外龍頭占據壟斷地位,國產廠商加速追趕。
當前英偉達、AMD、英特爾三巨頭占據全球GPU芯片市場的主導地位。集成GPU芯片一般在臺式機和筆記本電腦中使用,性能和功耗較低,主要廠商包括英特爾和AMD。獨立顯卡常用于服務器中,性能更高、功耗更大,主要廠商包括英偉達和AMD。分應用場景來看,應用在人工智能、科學計算、視頻編解碼等場景的服務器GPU市場中,英偉達和AMD占據主要份額。根據JPR預測,2025年Q1英偉達的獨立顯卡(包括AIB 合作伙伴顯卡)的市場份額達92%, AMD和英特爾則分別占比8%、0%。
圖形渲染GPU:英偉達引領行業(yè)數十年,持續(xù)技術迭代和生態(tài)構建實現長期領先。
2006年起,英偉達GPU架構保持約每兩年更新一次的節(jié)奏,各代際產品性能提升顯著,生態(tài)構建完整,GeForce系列產品市占率長期保持市場首位,最新代際GeForce RTX 40系列代表了目前顯卡的性能巔峰,采用全新的Ada Lovelace架構,臺積電5nm級別工藝,擁有760億晶體管和18000個CUDA核心,與Ampere相比架構核心數量增加約70%,能耗比提升近兩倍,可驅動DLSS 3.0技術。性能遠超上代產品。AMD獨立GPU在RDNA架構迭代路徑清晰,RDNA 3架構采用5nm工藝和Chiplet設計,比RDNA 2架構有54%每瓦性能提升。
目前國內廠商在圖形渲染GPU方面與國外龍頭廠商差距不斷縮小。芯動科技的“風華2號”GPU像素填充率48GPixel/s,FP32單精度浮點性能1.5TFLOPS,AI運算(INT8)性能12.5TOPS,實測功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,實現國產圖形渲染GPU突破。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于英偉達同代產品,但差距正逐漸縮小。2023年順利發(fā)布JM9系列圖形處理芯片,支持OpenGL 4.0、HDMI 2.0等接口,以及H.265/4K 60-fps視頻解碼,核心頻率至少為1.5GHz,配備8GB顯存,浮點性能約1.5TFlops,與英偉達GeForce GTX1050性能相近,有望對標GeForce GTX1080。
GPGPU:英偉達和AMD是目前全球GPGPU的領軍企業(yè)。
英偉達的通用計算芯片具備優(yōu)秀的硬件設計,通過CUDA架構等全棧式軟件布局,實現了GPU并行計算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應用領域中,均推出了高性能的軟硬件組合,逐步成為全球AI芯片領域的主導者。AMD于2018年發(fā)布用于數據中心的Radeon Instinct GPU加速芯片,Instinct系列基于CDNA架構,如MI250X采用CDNA2架構,在通用計算領域實現計算能力和互聯能力的顯著提升,此外還推出了對標英偉達CUDA生態(tài)的AMD ROCm開源軟件開發(fā)平臺。
國內GPGPU廠商正逐步縮小與英偉達、AMD的差距。英偉達憑借其硬件產品性能的先進性和生態(tài)構建的完善性處于市場領導地位,國內廠商雖然在硬件產品性能和產業(yè)鏈生態(tài)架構方面與前者有所差距,但正在逐步完善產品布局和生態(tài)構建,不斷縮小與行業(yè)龍頭廠商的差距。
ASIC市場方面,由于其一定的定制化屬性,市場格局較為分散。
在人工智能領域,ASIC也占據一席之地。其中谷歌處于相對前沿的技術地位,自2016年以來,就推出了專為機器學習定制的ASIC,即張量處理器(Tensor Processing Unit,TPU)。2025年谷歌推出了第七代張量處理單元(TPU)Ironwood,可擴展至9216個液冷芯片,并通過突破性的芯片間互聯,功率接近10兆瓦。據nextplatform介紹,TPU v7p芯片是谷歌首款在其張量核心和矩陣數學單元中支持FP8計算的TPU。之前的TPU支持INT8格式和推理處理,以及BF16格式和訓練處理。Ironwood芯片還配備了第三代SparseCore加速器,該加速器首次亮相于TPU v5p,并在去年的Trillium芯片中得到了增強。
國產廠商快速發(fā)展,寒武紀等異軍突起。通過產品對比發(fā)現,目前寒武紀、海思昇騰、遂原科技等國產廠商正通過技術創(chuàng)新和設計優(yōu)化,持續(xù)提升產品的性能、能效和易用性,推動產品競爭力不斷提升,未來國產廠商有望在ASIC領域持續(xù)發(fā)力,突破國外廠商在AI芯片的壟斷格局。
生態(tài)體系決定用戶體驗,是算力芯片廠商最深的護城河。
雖然英偉達GPU本身硬件平臺的算力卓越,但其強大的CUDA軟件生態(tài)才是推升其GPU計算生態(tài)普及的關鍵力量。從技術角度來講,GPU硬件的性能門檻并不高,通過產品迭代可以接近龍頭領先水平,但下游客戶更在意能不能用、好不好用的生態(tài)問題。CUDA推出之前GPU編程需要用機器碼深入到顯卡內核才能完成任務,而推出之后相當于把復雜的顯卡編程包裝成為一個簡單的接口,造福開發(fā)人員,迄今為止已成為最發(fā)達、最廣泛的生態(tài)系統(tǒng),是目前最適合深度學習、AI訓練的GPU架構。
英偉達在2007年推出后不斷改善更新,衍生出各種工具包、軟件環(huán)境,構筑了完整的生態(tài),并與眾多客戶合作構建細分領域加速庫與AI訓練模型,已經積累300個加速庫和400個AI模型。尤其在深度學習成為主流之后,英偉達通過有針對性地優(yōu)化來實現最佳的效率提升性能,例如支持混合精度訓練和推理,在GPU中加入Tensor Core來提升卷積計算能力,以及最新的在H100 GPU中加入Transformer Engine來提升相關模型的性能。這些投入包括了軟件和芯片架構上的協同設計,使得英偉達能使用最小的代價來保持性能的領先。
而即便是英偉達最大的競爭對手AMD的ROCm平臺在用戶生態(tài)和性能優(yōu)化上還存在差距。CUDA作為完整的GPU解決方案,提供了硬件的直接訪問接口,開發(fā)門檻大幅降低,而這套易用且能充分調動芯片架構潛力的軟件生態(tài)讓英偉達在大模型社區(qū)擁有巨大的影響力。正因CUDA擁有成熟且性能良好的底層軟件架構,幾乎所有的深度學習訓練和推理框架都把對于英偉達GPU的支持和優(yōu)化作為必備的目標,幫助英偉達持續(xù)處于領先地位。
美國對華供應AI芯片管制強度持續(xù)升級,H20被納入管制范圍。
2022年,美國BIS實施出口管制,英偉達和AMD的高端GPU產品出口受到限制。為滿足合規(guī)要求,英偉達隨后推出了面向中國市場的H800與A800,互聯帶寬被下調。2023年,BIS公布的先進計算芯片出口管制新規(guī)進一步擴大限制范圍,以“性能密度”與“總處理性能(TPP)”成為新的標準,使得A100、A800、H100、H800、L40、L40S等多款產品遭到限制。雖然英偉達又推出了性能大幅下調,符合新規(guī)的H20,但H20也在今年4月被美國納入出口管制。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.