英偉達(dá)這幾年很火。因?yàn)锳I的帶動(dòng),它幾乎成為全球最受關(guān)注的公司。
我們總是會(huì)在網(wǎng)上看到和英偉達(dá)有關(guān)的一些名詞,例如:
A100、B100、H100、GH200、 GB200、NVLINK、NVSwitch、DGX、HGX、 Quantum、 Spectrum、BlueField、CUDA等等。
這些名詞看多了,就有點(diǎn)暈。搞不懂到底是什么,有什么關(guān)系。
今天這篇文章,小棗君就給大家詳細(xì)梳理一下這些名詞概念,順便普及一下相關(guān)的知識(shí)。
█算力芯片——V100/A100/H100/B200等
這些名詞,應(yīng)該是大家最常見的。
沒錯(cuò),這些都是AI算力卡,也就是GPU卡的型號(hào)。
GPU卡(6塊)
英偉達(dá)的GPU,每隔幾年就會(huì)出一個(gè)新的架構(gòu)。每個(gè)架構(gòu),都會(huì)以一個(gè)著名科學(xué)家的名字命名,如下所示:
所以,基于某個(gè)架構(gòu)的卡,一般就會(huì)以這個(gè)架構(gòu)名稱的首字母開頭(游戲顯卡除外)。
例如,基于 Volta(伏特)架構(gòu)的V100,基于 Ampere(安培)架構(gòu)的A100,基于 Hopper(赫伯)架構(gòu)的H100、H200,基于 Blackwell(布萊克威爾)架構(gòu)的B100、B200等。
某200一般是某100的升級(jí)版。例如H200,就是H100的升級(jí)版( 采用了HBM3e內(nèi)存等升級(jí))。
L40和L40s名字稍微有點(diǎn)特別,兩者基于Ada Lovelace(世界上第一個(gè)女程序員的名字)架構(gòu),后者是前者的升級(jí)版。兩個(gè)卡都是針對(duì)數(shù)據(jù)中心市場(chǎng)推出的,主打低成本和性價(jià)比。
還有1個(gè)型號(hào)大家應(yīng)該比較熟悉——H20。
這是英偉達(dá)因?yàn)槊绹?guó)出口限制而推出的閹割版(特供版)。據(jù)說B200也會(huì)有對(duì)應(yīng)的閹割版B20。
英偉達(dá)的下一代AI平臺(tái)是Rubin(羅賓),計(jì)劃于2026年推出。大家一開始以為下一代GPU就是R100、R200。但英偉達(dá)給出的路線圖,又說是X100。所以,還有待觀望。
2028年,英偉達(dá)會(huì)推出下下一代平臺(tái)——Feynman(費(fèi)曼)。
█超級(jí)芯片——GH200、GB200等
GPU是英偉達(dá)的算力核心硬件單元。但他們并不是只有GPU。圍繞GPU,他們還有很多的產(chǎn)品和解決方案。
英偉達(dá)早期的時(shí)候是和IBM POWER CPU合作,后來,可能是感覺IBM不給力,于是自己開始研發(fā)CPU。 例如,基于ARM架構(gòu)研發(fā)的 Grace CPU(Vera CPU在路上)。
英偉達(dá)采用NVLink技術(shù),將GPU和CPU進(jìn)行配對(duì),就變成了所謂的超級(jí)芯片平臺(tái)( Superchip)。
例如GH200、GB200,以及不久前新發(fā)布的GB300( Blackwell Ultra)。
由 一個(gè)Grace CPU和 兩個(gè)Blackwell B200 GPU組成的平臺(tái),就是GB200(取Grace和Blackwell的首字母),據(jù)說性能是H100的7倍。
GB200
類似的,GH200,就是 Grace CPU和 Hopper GPU的組合搭配。
█超級(jí)計(jì)算機(jī)平臺(tái)——DGX/EGX/IGX等
再往上一個(gè)層級(jí),就是計(jì)算機(jī)了。其實(shí)剛才GB200,已經(jīng)是個(gè)計(jì)算機(jī)了。
基于剛才的各種芯片平臺(tái),英偉達(dá)構(gòu)建了對(duì)應(yīng)的計(jì)算機(jī)平臺(tái),或者說,叫做超級(jí)計(jì)算機(jī)平臺(tái),包括DGX、EGX、IGX、HGX、MGX等。
具體的區(qū)別如下,我就不多解釋了,看下表:
DGX還是見得比較多。當(dāng)年黃仁勛送給OpenAI的,就是第一代的DGX-1。
現(xiàn)在的DGX,基本上都是土豪金配色,價(jià)格也很昂貴。
面向桌面市場(chǎng),英偉達(dá)還推出了DGX Spark和DGX Station,相當(dāng)于工作站。
DGX Spark和DGX Station
█節(jié)點(diǎn)內(nèi)部連接:Scale Up(超節(jié)點(diǎn))——DGX GB200 NVL72等
接下來,要涉及到通信方面的技術(shù)了。
之前小棗君給大家介紹超節(jié)點(diǎn)的時(shí)候(),提到過NVLINK。
NVLINK是英偉達(dá)推出的GPU卡間互連技術(shù),主要是取代PCIe。剛才也提到,CPU和GPU之間,也是NVLINK技術(shù)。
NVLINK多節(jié)點(diǎn),就不好直連了,要引入交換芯片。于是,就有了NVLink Switch,也叫NVSwitch。后來,芯片又變成了設(shè)備。
NVLINK可以把很多的GPU連起來,組成看似很多計(jì)算機(jī),但實(shí)際上屬于一個(gè)邏輯節(jié)點(diǎn)(超節(jié)點(diǎn))的平臺(tái)。
近年來,我們經(jīng)常聽說DGX GB200 NVL72。
DGX GB200 NVL72,采用了NVLINK5,包含了18個(gè)GB200 Compute Tray(計(jì)算托架),以及9個(gè)NVLink-network Switch Tray(網(wǎng)絡(luò)交換托架)。如下圖所示:
NVL72機(jī)柜
每個(gè)Compute Tray包括2顆GB200超級(jí)芯片。所以,就是36個(gè)Grace CPU(18×2),72個(gè)B200 GPU(18×2×2)。
8個(gè)DGX GB200 NVL72,又可以組成一個(gè)576個(gè)GPU的SuperPod超節(jié)點(diǎn)。
█節(jié)點(diǎn)外部互連:Scale Out(IB和以太網(wǎng))
單節(jié)點(diǎn)內(nèi),不斷加GPU,是Scale Up(縱向擴(kuò)展)。單節(jié)點(diǎn)到了一定規(guī)模,就不好再增加了。就要增加節(jié)點(diǎn)數(shù)量,搞節(jié)點(diǎn)與節(jié)點(diǎn)之間的互連,那就是Scale Out(橫向擴(kuò)展)。
Scale Out,英偉達(dá)也有解決方案,那就是InfiniBand(IB)技術(shù)。
InfiniBand以前是 Mellanox公司的。英偉達(dá)布局深遠(yuǎn),2019年把 Mellanox收購了,InfiniBand就成了英偉達(dá)的私有技術(shù)。
InfiniBand是技術(shù)名詞,不是產(chǎn)品名詞。英偉達(dá)基于 InfiniBand推出的產(chǎn)品平臺(tái)是 NVIDIA Quantum(“量子”的意思)。
例如,2024年3月, 英偉達(dá)發(fā)布的 Quantum-X800網(wǎng)絡(luò)交換機(jī)平臺(tái),端到端吞吐量能夠達(dá)到800Gbps。平臺(tái)包括了含Quantum Q3400交換機(jī)、ConnectX-8 SuperNIC網(wǎng)卡等硬件。
這些硬件,也都是有系列的。 Quantum-X800的上一代,是 Quantum-2。 ConnectX-8的前代,有 ConnectX-6、 ConnectX-7等。
ConnectX高速網(wǎng)卡也是來自 Mellanox。
Scale Out的兩大解決方案,除了 InfiniBand,還有以太網(wǎng)。英偉達(dá)以太網(wǎng)這邊也沒放過,也有產(chǎn)品,就是 Spectrum-X800。(Spectrum是“光譜”的意思。)
Spectrum-X800包括了Spectrum SN5600交換機(jī)、BlueField-3 SuperNIC網(wǎng)卡等硬件產(chǎn)品,吞吐量同樣高達(dá)800Gbps。
BlueField是這些年很火的DPU。英偉達(dá)將Mellanox的ConnectX網(wǎng)卡技術(shù)與自己的已有技術(shù)相結(jié)合,于2020年正式推出了BlueField-2 DPU和BlueField-2X DPU?,F(xiàn)在演進(jìn)到了BlueField-3。
對(duì)了,前段時(shí)間,英偉達(dá)還發(fā)布了CPO光電一體化封裝網(wǎng)絡(luò)交換機(jī)Spectrum-X Photonics和Quantum-X Photonics。
英偉達(dá)還有一些其它的網(wǎng)卡、連接器、線纜等配件,就不逐個(gè)介紹了。
黃教主前段時(shí)間透露,新一代的Rubin平臺(tái)發(fā)布時(shí),據(jù)說會(huì)帶來 NVLink 6、ConnectX-9 SuperNIC和Quantum(Spectrum)-X1600??梢云诖幌?。
█開發(fā)框架——CUDA
剛才介紹的,是英偉達(dá)的算力硬件平臺(tái)家族,以及通信網(wǎng)絡(luò)家族。
再看一個(gè)軟件方面的名詞——大名鼎鼎的CUDA。
英偉達(dá)的硬件和網(wǎng)絡(luò)做得很牛,但實(shí)際上,最被視為核心競(jìng)爭(zhēng)壁壘的,反而是這個(gè)CUDA。
CUDA(Compute Unified Device Architecture,計(jì)算統(tǒng)一設(shè)備架構(gòu)),是英偉達(dá)在2006年推出的并行計(jì)算平臺(tái)和編程模型。它讓開發(fā)者能夠直接在GPU上編寫代碼,從而大幅提升計(jì)算速度。
如今,CUDA就像是智算開發(fā)的操作系統(tǒng),集編程模型、編譯器、API、庫和工具于一體,有利于用戶更好地發(fā)揮英偉達(dá)硬件的能力。
CUDA不僅是個(gè)工具,更形成了強(qiáng)大的AI開發(fā)生態(tài)。 它是英偉達(dá)整個(gè)業(yè)務(wù)體系的神經(jīng)中樞。
現(xiàn)在很多AI開發(fā)都依賴于英偉達(dá)的硬件和CUDA,換硬件其實(shí)也不是很難,但是,生態(tài)遷移更加痛苦。
好啦,關(guān)于英偉達(dá)的主要產(chǎn)品體系和命名規(guī)則,就介紹到這里。
在不同的領(lǐng)域,英偉達(dá)會(huì)基于這些核心產(chǎn)品,構(gòu)建不同的解決方案。有的時(shí)候,也會(huì)衍生出一些升級(jí)版或閹割版,大家注意一下就行。
這個(gè)公司在AI領(lǐng)域牢牢占據(jù)核心地位,希望能有更多的企業(yè),站出來向它發(fā)出挑戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.