作者|Hayward
原創(chuàng)首發(fā)|藍字計劃
回來了,那個穿著皮衣的男人帶著他的 H20 回來了。
15 日上午,黃仁勛在接受央視新聞采訪的時候大爆料,說美方已經(jīng)批準了他們的出口許可,終于可以繼續(xù)在中國市場賣 H20 了。
這個消息的震撼程度相信不用我多說,鋪天蓋地的新聞推送、各大媒體的頭條版面全都占滿。反應最快的要數(shù)股市,AI 板塊出現(xiàn)明顯上漲,整得跟過年一樣。
英偉達 H20 在中國市場“限時返場”,毫無疑問能大大緩解中國 AI 企業(yè)的算力缺口。在一眾歡天喜地的企業(yè)中,大家都非常熟悉的 DeepSeek 毫無疑問是最值得開心的一位。
英偉達 H20,和 DeepSeek ,乃至中國 AI 產(chǎn)業(yè)鏈緊緊相連。
天亮了?
和今年上半年的綻放光彩相比,進入下半年 DeepSeek 顯得過于沉寂了。網(wǎng)上盛傳的 DeepSeek R2 要在5 月發(fā)布,然后一直跳票到 7 月都沒有蹤影。
與其說 DeepSeek 是在積蓄力量,更有可能的是“巧婦難為無米之炊”,H20 芯片在中國市場供應的短缺,成了 DeepSeek R2“難產(chǎn)”的主要原因。
根據(jù)The Information上個月末的報道,R2推遲正是因為H20芯片供應短缺。在報道中還提到了一個關(guān)鍵點,DeepSeek在 R1 的訓練中極其依賴英偉達的芯片,為了“生出” R1,DeepSeek用了3萬塊H20、1萬塊H800和1萬塊H100。
而現(xiàn)在為了迭代出 R2,之前給 R1 準備的訓練算力規(guī)模應該是不夠用了。SemiAnalysi 報道稱,梁文鋒團隊對 R2 的性能表現(xiàn)有著極高的要求,期望能在多個關(guān)鍵指標上實現(xiàn)關(guān)鍵突破。
而目前因為算力不足,每一次訓練的市場都可能從幾小時延長到幾天,大大拖慢了 R2 的訓練進度。
這時大家就會說了:英偉達 H20 的封禁期長達三個月,這期間難道就沒有什么國產(chǎn)卡可以替代嗎?
實際上在今年年初,就已經(jīng)有媒體報道DeepSeek 和華為昇騰達成了多層次、全棧式合作,合作范圍覆蓋硬件、云、軟件、生態(tài)乃至教育行業(yè),甚至成為了「全棧技術(shù)深度適配」昇騰的大模型團隊。
不過從更現(xiàn)實的角度考慮,相比華為的 910B、910C 芯片,還是DeepSeek 需要 H20的可能性更大。
這背后,正是英偉達「CUDA 帝國」的恐怖之處。
英偉達的 CUDA(Compute Unified Device Architecture) 是一種并行計算平臺和編程模型,用通俗的話來說,就是一套“翻譯工具 + 任務分發(fā)系統(tǒng)”,專門用來指揮顯卡幫 CPU 干重活,尤其是那些能拆成很多小任務一起干的活,比如訓練 AI、渲染電影特效、預測天氣等。
所有英偉達自主設(shè)計的 GPU 架構(gòu)(如 Hopper)都能與 CUDA 協(xié)同優(yōu)化,形成“芯片-工具鏈-應用”垂直整合?,F(xiàn)在 CUDA已超越單一技術(shù),形成覆蓋開發(fā)、部署、優(yōu)化的全棧生態(tài)系統(tǒng)。
90% 全球 AI 開發(fā)者都依賴 CUDA 生態(tài) ,DeepSeek 原有工具鏈、并行框架均基于英偉達的「CUDA帝國」構(gòu)建。
不說 CUDA 生態(tài)擁有極致的易用性,是國產(chǎn)方案目前遠遠比不上的,從 R1 到 R2 的訓練還有一定的生態(tài)慣性,轉(zhuǎn)向昇騰需重建硬件設(shè)施、數(shù)據(jù)管道和運維體系,就 R2 預計發(fā)布的時間節(jié)點來看,肯定來不及。
還有人力原因。那些工程師、程序員,學了一輩子 CUDA,轉(zhuǎn)向昇騰、學習新的編程模型也要大幾個月的時間,所以過去都是華為直接派大量的工程師駐場進行調(diào)試,比如訊飛的“星火一體機”,就需要華為派出幾百名工程師親自調(diào)校參數(shù)。
所以,H20 的重新開售肯定會掀起一波搶購高潮,需要它的企業(yè)還是多數(shù)。加上一旦后面再次禁售,H20 可能會成為市場上的“硬通貨”,無論是留著訓練 AI 還是賣給別人,都是穩(wěn)賺不賠的買賣。
你看,哪怕H20 是基于 H100 閹割而來的產(chǎn)物,相比同是 Hopper 架構(gòu)的 H100 核心數(shù)量減少約 41%、性能降低 28%,148 TFLOPS 的FP16 算力和296 TFLOP 的 FP8 算力都大約只有 H100 的 15%,但已經(jīng)是在本土市場中適配 CUDA 生態(tài)最強的合法 AI 芯片,選擇 H20更多是一種無奈之舉。
更殘酷的現(xiàn)實是,這樣一款“特供卡”,整體性能依然比目前主流的國產(chǎn)芯片,比如 910B 要強上那么一點點。
特別是大規(guī)模訓練集群中,H20 擁有96GB HBM3 的顯存容量和900GB/s互聯(lián)帶寬,相比 910B 的64 GB HBM2e 顯存容量、400 GB/s 的互聯(lián)帶寬,H20更適合千億級參數(shù)模型的并行訓練。
考慮到R2 需處理更長上下文(支持 128K Token)、更強推理能力,行業(yè)普遍預計它的顯存占用會增加約 40%,H20 的 96GB 顯存和 NVLink 互聯(lián)效率仍是當前最優(yōu)解。
因此,在 DeepSeek R2 遲遲沒有面世的緊要關(guān)頭,H20 的“限時返場”簡直是英偉達送給 DeepSeek 的一份“大禮”,解決了 R2 訓練的燃眉之急。
只不過,一比較悲哀的是,中國半導體產(chǎn)業(yè)大部分企業(yè)在渴求的只是一個被閹割的“中國特供”產(chǎn)品,還有強得多的 H100、H200 和 B200 等芯片被擋在大門之外,AI 行業(yè)最核心的需求「算力」仍然處處被掣肘。
對 DeepSeek 等 AI 大模型廠商來說,H20 重新開售的“開心”是暫時的。美方在政策方面的朝令夕改,如果一直依賴進口 H20 芯片來維持 AI 訓練的運轉(zhuǎn),始終沒有踏實的安全感,必須考慮選擇多元化的方式,比如國產(chǎn)方案來應對風險。
但因禁售而活躍的國產(chǎn)芯片制造商,也會因 H20 的重新開售受到?jīng)_擊。
“一石三鳥”的算盤
英偉達在中國市場的客戶面非常廣,我們總結(jié)了一下現(xiàn)有數(shù)據(jù),字節(jié)跳動、阿里巴巴、騰訊、百度等一線大廠,DeepSeek、智譜、月之暗面、MiniMax 等 AI 大模型廠商,甚至國家超算中心、地方政府智算中心等都是英偉達的客戶。
而且上面這些企業(yè)、機構(gòu)手中持有的英偉達 AI 計算卡一點都不少,一些金融(券商、銀行)、醫(yī)療、教育、法律行業(yè)的企業(yè),都持有成百上千張英偉達 AI 計算卡。
英偉達最鼎盛的時候,市場占有率一度超過 95%;然后自 2022 年 8 月美帝陸續(xù)頒布相關(guān)法規(guī)實質(zhì)性地禁售英偉達 AI 芯片開始,到今年 5 月 23日,黃仁勛接受媒體采訪的時候承認英偉達在華 AI 芯片業(yè)務的市場份額已經(jīng)下降到 50%。
這點就讓英偉達非常難受了。三天兩頭被禁售,而中國市場又不是真的“沒了自己就玩不轉(zhuǎn)”,市場份額都給中國本土的 AI 芯片搶走了。
英偉達陸續(xù)被禁售這段時間里,中國本土的 AI 芯片制造商蓬勃發(fā)展、快速填補了市場的空缺。根據(jù)第三方調(diào)研機構(gòu)IDC的統(tǒng)計, 2023至2024年,中國數(shù)據(jù)中心加速卡市場中,國產(chǎn)算力占比從14%暴增到34.6%。
在一眾落地的產(chǎn)品中,除了上文提到的華為昇騰 910B 之外,下一代旗艦 AI 芯片昇騰 910C,可謂是幾乎在所有“硬指標”上都碾壓 H20。比如FP16 峰值算力上達到了約800 TFLOPS ,是 H20 的 5.4 倍;96 GB HBM3 顯存容量也追平了 H20,310W 的單卡功耗比 H20 的 400W 要低。
如果按照之前的劇本, H20繼續(xù)禁售、新的進口 AI芯片再也沒機會進入中國市場,對企業(yè)來說哪怕轉(zhuǎn)向昇騰的成本很高,也不得不選。
但現(xiàn)在 H20 回來了,黃仁勛還承諾會有全新基于Blackwell架構(gòu)的“中國特供版”芯片進入中國市場。只要英偉達放出“絕對不會輕易放棄中國市場”的信號,未來還會持續(xù)供應計算芯片甚至是“全新的閹割版”到中國,相信更多廠商還是會出于成本的考慮,繼續(xù)堅持 CUDA 生態(tài),選擇用英偉達的計算芯片。
買方減少了,對國產(chǎn) AI芯片廠商來說肯定是一個打擊。
所以,這次英偉達 H20 的“限時返場”,既順利幫英偉達清了 50 億美元的“庫存”,又能在搶救一波市場份額,還間接沖擊了中國的 AI 芯片產(chǎn)業(yè)——堪稱“一石三鳥”。
這樣將中國 AI 產(chǎn)業(yè)整個鏈條的喜怒哀樂全系于英偉達,禁售令牽一發(fā)而動全身的局面,肯定不是官方想看到的。
在這兩年里比以往都更加強調(diào)“自主可控”,發(fā)改委也建議新建數(shù)據(jù)中心優(yōu)先采用更高能效的國產(chǎn) AI 芯片。
另外,字節(jié)、阿里、百度等已啟動 “國產(chǎn)替代” 方案,騰訊、阿里開始批量采購昇騰 910C,也是一種大廠的帶頭示范作用。
只不過,對大部分中小企業(yè)來說,從英偉達切換到昇騰的成本還是太高,發(fā)改委的“建議”也存在一定的柔性過渡階段。
歸根究底采買 AI芯片、計算卡是一個商業(yè)行為,當市場上存在一個性價比更高的選擇時,即便是出于“自主可控”的需求,也沒法讓企業(yè)多花錢去做成本更高的選擇。
要真正實現(xiàn)“國產(chǎn)替代”,還需要一點時間。
緊隨英偉達的腳步,7 月 16 日 AMD 也宣布計劃重新向中國出口MI308芯片,這玩意和 H20 一樣是針對中國市場的“特供版”,說到底還是舍不得中國市場這一塊“肥豬肉”。
不過相關(guān)政策的反復多變已經(jīng)讓部分大企業(yè)開始警惕,字節(jié)跳動就發(fā)布聲明說不會采購這批敞開賣的 H20。為了保證供應鏈的安全、做到進退自如,也會有更多的企業(yè)堅持多元化選擇。
這次可能是黃仁勛順利“清庫存”的最后機會了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.