今天這篇文章,我們來(lái)聊一個(gè)最近幾年很火的概念——存算一體。
█ 為什么會(huì)提出“存算一體”?
存算一體,英文叫Compute In Memory,簡(jiǎn)稱CIM。顧名思義,就是將存儲(chǔ)和計(jì)算放在一起。
大家都知道,存儲(chǔ)和計(jì)算,是我們處理數(shù)據(jù)的兩種基本方式。自從計(jì)算機(jī)誕生以來(lái),我們采用的主流計(jì)算架構(gòu),是著名的馮·諾伊曼架構(gòu)。在這個(gè)架構(gòu)中,存儲(chǔ)和計(jì)算是兩個(gè)相對(duì)獨(dú)立的模塊。存儲(chǔ)負(fù)責(zé)數(shù)據(jù)的存取,而計(jì)算則負(fù)責(zé)運(yùn)算。
馮·諾依曼架構(gòu)
我們可以把存儲(chǔ)理解為配菜,計(jì)算理解為炒菜。兩者配合到位,才能完成菜品的制作(完成計(jì)算任務(wù))。
理論上來(lái)說(shuō),想要出菜的速度更快,一方面,要加快炒菜的速度(通過(guò)提升芯片的算力,例如采用更先進(jìn)的工藝制程),另一方面,也要加快配菜的速度。
這個(gè)速度,簡(jiǎn)單來(lái)說(shuō),就是存儲(chǔ)設(shè)備與計(jì)算芯片(CPU、GPU等)之間的數(shù)據(jù)傳輸能力。如果配菜太慢,炒菜師傅就要等待,從而影響整體效率。
以前小棗君給大家介紹存儲(chǔ)的時(shí)候曾經(jīng)說(shuō)過(guò),計(jì)算機(jī)的存儲(chǔ),是典型的分級(jí)策略——越靠近處理器(計(jì)算單元)的存儲(chǔ)設(shè)備,速度越快,容量越小。有緩存(1級(jí)/2級(jí)/3級(jí))、內(nèi)存、磁盤(固態(tài)/機(jī)械)、外部存儲(chǔ)器(本地磁陣、云存儲(chǔ))這樣的不同類型存儲(chǔ)設(shè)備(單元)。
這是由存儲(chǔ)設(shè)備的成本決定的。速度越快的存儲(chǔ)設(shè)備,成本越高。全部都用最快的存儲(chǔ),是不現(xiàn)實(shí)的,價(jià)格太高昂,所以才有了逐級(jí)存儲(chǔ)機(jī)制。
馮·諾依曼架構(gòu),我們用了幾十年,因?yàn)閿?shù)據(jù)存儲(chǔ)和計(jì)算是明顯分開的,所以也叫做存算分離。
進(jìn)入互聯(lián)網(wǎng)時(shí)代后,由于數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),對(duì)數(shù)據(jù)計(jì)算效率的要求越來(lái)越高。這種傳統(tǒng)的架構(gòu)開始暴露出能力上的缺陷。
尤其是最近這些年,AI的崛起,讓數(shù)據(jù)計(jì)算強(qiáng)度又躍升了好幾個(gè)層級(jí)。計(jì)算芯片在瘋狂提速,而存儲(chǔ)傳輸速率的提升跟不上,由此產(chǎn)生了著名的兩堵墻——“存儲(chǔ)墻”和“功耗墻”。
所謂“存儲(chǔ)墻”,是指存儲(chǔ)設(shè)備和處理器之間的數(shù)據(jù)傳輸速度,遠(yuǎn)遠(yuǎn)跟不上處理器的計(jì)算速度。就像炒菜師傅手藝再好,配菜師傅跟不上節(jié)奏,也只能干著急。
業(yè)內(nèi)曾提出,AI運(yùn)算需要的存算通道速率是1PB/s。SRAM的10-100TB/s、DRAM的40GB-1TB/s,都遠(yuǎn)達(dá)不到要求。
而“功耗墻”則是指,在數(shù)據(jù)傳輸過(guò)程中,能耗巨大,導(dǎo)致整體系統(tǒng)的能效比不理想。這就像是為了快速配菜,不得不請(qǐng)很多幫手,結(jié)果人工成本大大增加。
例如,在7nm工藝下,數(shù)據(jù)搬運(yùn)的功耗占比甚至達(dá)到了驚人的63.7%,遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)計(jì)算的功耗。
大家應(yīng)該都聽說(shuō)過(guò)HBM技術(shù)。
HBM(High Bandwidth Memory,高帶寬內(nèi)存),就是一種嘗試解決“存儲(chǔ)墻”和“功耗墻”問(wèn)題的新型存儲(chǔ)技術(shù)。像英偉達(dá)這樣的芯片廠商,采用3D封裝等先進(jìn)工藝,將存儲(chǔ)單元和計(jì)算單元封裝在一起,通過(guò)縮短兩者之間的距離,提高數(shù)據(jù)傳輸速度,同時(shí)降低能耗。
HBM在一定程度上緩解了問(wèn)題,但并沒(méi)有從根本上改變存算分離的現(xiàn)狀。于是,業(yè)界提出了一個(gè)新的解決思路,那就是——存算一體。
既然存儲(chǔ)和計(jì)算分離會(huì)導(dǎo)致帶寬瓶頸,那么,把存儲(chǔ)和計(jì)算直接結(jié)合在一起,讓數(shù)據(jù)在存儲(chǔ)的過(guò)程中就能進(jìn)行計(jì)算,或者在計(jì)算的過(guò)程中就能直接訪問(wèn)存儲(chǔ),從而減少數(shù)據(jù)的搬運(yùn)次數(shù),不就行了嗎?
這樣一來(lái),既可以提高整體計(jì)算效率,也可以降低功耗,徹底解決“兩堵墻”的問(wèn)題。
實(shí)際上,我們的大腦,就是典型的存算一體結(jié)構(gòu)。神經(jīng)元既負(fù)責(zé)存儲(chǔ)信息(記憶),也負(fù)責(zé)處理信息(思考)。這種結(jié)構(gòu),使得大腦能夠以極高的效率處理復(fù)雜的任務(wù),而且能耗極低。
█存算一體的發(fā)展歷程
存算一體的研究,其實(shí)很早就已經(jīng)開始了。
早在1969年,斯坦福研究所的Kautz等人,率先提出了存算一體計(jì)算機(jī)的概念。但是,受限于當(dāng)時(shí)的技術(shù)和工藝,概念僅僅停留在理論研究階段,并未得到實(shí)際應(yīng)用。
后來(lái),為了實(shí)現(xiàn)存算一體,科學(xué)家們進(jìn)行了大量的研究和嘗試,但仍然進(jìn)展緩慢。
進(jìn)入21世紀(jì)后,芯片與半導(dǎo)體技術(shù)日趨成熟,存算一體化實(shí)現(xiàn)的曙光亦逐漸顯現(xiàn)。科學(xué)家們發(fā)現(xiàn),某些特殊的材料或器件,能夠在存儲(chǔ)數(shù)據(jù)的同時(shí),在存儲(chǔ)單元內(nèi)部執(zhí)行簡(jiǎn)單的邏輯運(yùn)算。這將大大減少數(shù)據(jù)的搬運(yùn)次數(shù)和功耗。
2010年,惠普實(shí)驗(yàn)室的Williams教授團(tuán)隊(duì)提出并驗(yàn)證利用憶阻器實(shí)現(xiàn)簡(jiǎn)單布爾邏輯功能(聯(lián)合、相交、相減等)。
2016年,美國(guó)加州大學(xué)圣塔芭芭拉分校(UCSB)的謝源教授團(tuán)隊(duì),提出使用阻變存儲(chǔ)器(RRAM)構(gòu)建存算一體架構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(PRIME)。相較于傳統(tǒng)馮·諾伊曼架構(gòu)方案,PRIME可以實(shí)現(xiàn)功耗降低約20倍、速度提升約50倍。
2017年,在微處理器頂級(jí)年會(huì)(Micro 2017)上,包括英偉達(dá)、英特爾、微軟、三星、蘇黎世聯(lián)邦理工學(xué)院與加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型,掀起了學(xué)術(shù)界和產(chǎn)業(yè)界的一股“存算一體”熱潮。
最近這幾年,隨著AI浪潮的到來(lái),海量的大模型訓(xùn)練和推理計(jì)算需求爆發(fā),引發(fā)了算力產(chǎn)業(yè)的新一輪增長(zhǎng)。存算一體,更是進(jìn)入了一個(gè)高速發(fā)展的快車道。
除了傳統(tǒng)芯片巨頭在加緊研究之外,也有很多創(chuàng)業(yè)企業(yè)“扎堆”入場(chǎng)。國(guó)內(nèi)有蘋芯科技、后摩智能、知存科技、億鑄科技、智芯科、千芯科技、九天睿芯等。國(guó)外有Mythic、Syntiant等公司。
2023年9月,清華大學(xué)團(tuán)隊(duì)宣布研發(fā)出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器存算一體芯片,再次將“存算一體”推上熱搜。
如今,存算一體已經(jīng)成為業(yè)界最熱門的研究方向,正在加速?gòu)睦碚撗芯孔呦虍a(chǎn)業(yè)落地。
█ 存算一體的技術(shù)路線
接下來(lái),我們看看存算一體的具體技術(shù)分類。
目前,業(yè)界根據(jù)存儲(chǔ)和計(jì)算的距離遠(yuǎn)近,將存算一體分為三類,分別是近存計(jì)算、存內(nèi)處理和存內(nèi)計(jì)算。
●近存計(jì)算(Processing Near Memory,PNM)
近存計(jì)算,通過(guò)芯片封裝和板卡組裝等方式,將存儲(chǔ)單元和計(jì)算單元集成,增加訪存帶寬、減少數(shù)據(jù)搬移,提升整體計(jì)算效率。
前面提到的HBM共封裝,就是近存計(jì)算。
近存計(jì)算又分為存儲(chǔ)上移和計(jì)算下移。HBM那個(gè),屬于存儲(chǔ)上移。計(jì)算下移是采用板卡集成技術(shù),將數(shù)據(jù)處理能力卸載到存儲(chǔ)器,典型方案是CSD可計(jì)算存儲(chǔ)。
近存計(jì)算嚴(yán)格來(lái)說(shuō)仍然是屬于存算分離架構(gòu)。這個(gè)路線比較容易實(shí)現(xiàn),現(xiàn)在已經(jīng)廣泛應(yīng)用于AI、大數(shù)據(jù)、邊緣計(jì)算、物聯(lián)網(wǎng)等場(chǎng)景。
●存內(nèi)處理(Processing In Memory,PlM)
存內(nèi)處理,是在芯片制造的過(guò)程中,將“存”與“算”集成在同一個(gè)晶粒(Die)中,使存儲(chǔ)器本身具備了一定的算力。
存內(nèi)處理本質(zhì)上仍是存算分離。相比于近存計(jì)算,“存”與“算”距離更近。
目前,業(yè)內(nèi)的存內(nèi)處理方案大多在內(nèi)存(DRAM)芯片中加“算力”,比較典型的產(chǎn)品形態(tài)為HBM-PIM(三星)和PIM-DIMM。這類方案適合應(yīng)用于語(yǔ)音識(shí)別、數(shù)據(jù)庫(kù)索引搜索、基因匹配等場(chǎng)景。
●存內(nèi)計(jì)算(Computing in Memory,ClM)
存內(nèi)計(jì)算,這是真正的存算一體了(也屬于業(yè)界所說(shuō)的狹義的存算一體)。
在芯片設(shè)計(jì)的過(guò)程中,不再區(qū)分存儲(chǔ)單元和計(jì)算單元,直接消除“存”“算”界限,真正實(shí)現(xiàn)存算徹底融合。
這個(gè)方案的主要服務(wù)場(chǎng)景就是AI計(jì)算。
AI深度學(xué)習(xí)算法中包含了大量的矩陣乘法運(yùn)算,其本質(zhì)是乘累加(Multiply Accumulate, MAC)運(yùn)算。
存算一體技術(shù)可以將這些運(yùn)算直接映射到存儲(chǔ)結(jié)構(gòu)中,在存儲(chǔ)單元的核心電路上做修改,從而在讀取的同時(shí)進(jìn)行數(shù)據(jù)輸入和計(jì)算處理,在存儲(chǔ)陣列中完成卷積運(yùn)算。這帶來(lái)了極高的能效比和極低的延遲。
存算一體芯片的大致架構(gòu)
█存算一體的存儲(chǔ)介質(zhì)
以前小棗君給大家介紹半導(dǎo)體存儲(chǔ)的時(shí)候說(shuō)過(guò),存儲(chǔ)器分為易失性存儲(chǔ)器和非易失性存儲(chǔ)器。
存內(nèi)計(jì)算的電路,也可以基于這兩種存儲(chǔ)器。
易失性,就是內(nèi)存那種,掉電了數(shù)據(jù)就沒(méi)了,例如SRAM、DRAM。
非易失性,掉電時(shí)數(shù)據(jù)不會(huì)丟失,如傳統(tǒng)的閃存NOR Flash和NAND Flash,以及一些新型存儲(chǔ)器:阻變存儲(chǔ)器RRAM(ReRAM)、磁性存儲(chǔ)器MRAM、鐵變存儲(chǔ)器FRAM(FeRAM)、相變存儲(chǔ)器PCRAM(PCM)等。
SRAM、DRAM、Flash等都是成熟的技術(shù),基于電荷的移動(dòng)完成數(shù)據(jù)存儲(chǔ)。
DRAM成本低,容量大,但是可用的eDRAM IP核工藝節(jié)點(diǎn)不先進(jìn),讀取延遲(Latency)也大,且需要定期刷新數(shù)據(jù)。Flash則屬于非易失性存儲(chǔ)器件,具有低成本優(yōu)勢(shì),一般適合小算力場(chǎng)景。SRAM在速度方面具有極大優(yōu)勢(shì),有幾乎最高的能效比,容量密度略小,在精度增強(qiáng)后可以保證較高精度,一般適用于云計(jì)算等大算力場(chǎng)景。
目前,針對(duì)新型存儲(chǔ)器的研究非常熱門。例如RRAM、MRAM等,基于電阻大小的變化完成數(shù)據(jù)存儲(chǔ)功能。
新型存儲(chǔ)器中,憶阻器(RRAM)的研究熱度最高。
RRAM使用電阻調(diào)制來(lái)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),讀出電流信號(hào)而非傳統(tǒng)的電荷信號(hào),可以獲得較好的線性電阻特性。但目前RRAM工藝良率爬坡還在進(jìn)行中,而且依然需要面對(duì)非易失存儲(chǔ)器固有的可靠性問(wèn)題。
需要說(shuō)明的是,存內(nèi)計(jì)算主要包含模擬和數(shù)字兩種實(shí)現(xiàn)方式。
模擬存內(nèi)計(jì)算能效高,但誤差較大,實(shí)現(xiàn)低功耗低位寬的整數(shù)乘加計(jì)算,適用于低精度、低功耗計(jì)算場(chǎng)景,例如端側(cè)可穿戴設(shè)備等。模擬存內(nèi)計(jì)算通常使用FLASH、RRAM、PRAM等非易失性介質(zhì)作為存儲(chǔ)器件,存儲(chǔ)密度大,并行度高,但是對(duì)環(huán)境噪聲和溫度非常敏感。
數(shù)字存內(nèi)計(jì)算誤差低,但單位面積功耗較大,適用于高精度、功耗不敏感的計(jì)算場(chǎng)景,例如云端AI場(chǎng)景。數(shù)字存算一體主要以SRAM和RRAM作為存儲(chǔ)器件,具有高性能、高精度的優(yōu)勢(shì),且具備很好的抗噪聲能力和可靠性,
█存算一體的應(yīng)用場(chǎng)景
前面已經(jīng)說(shuō)過(guò),存算一體天然適合AI相關(guān)的計(jì)算場(chǎng)景。
自然語(yǔ)言處理、信息檢索、圖神經(jīng)網(wǎng)絡(luò)、智能決策、具身智能等人工智能應(yīng)用,對(duì)算力效率以及系統(tǒng)能耗有極高的要求。傳統(tǒng)的“存算分離”難以應(yīng)對(duì),存算一體則非常適合。
除了AI之外,就是AIoT智能物聯(lián)網(wǎng)產(chǎn)品。碎片化的AIoT市場(chǎng)對(duì)先進(jìn)工藝芯片的需求并不強(qiáng)烈,反而更關(guān)注芯片的成本、功耗、開發(fā)難度。
存算一體芯片在這些方面都有優(yōu)勢(shì),非常適合采用。
在一些大算力場(chǎng)景,例如云端AI計(jì)算,也是存算一體的用武之地。
目前的AI計(jì)算,基本上都是GPU為主。GPU在算力和能效上都無(wú)法同時(shí)與專用加速芯片(ASIC)競(jìng)爭(zhēng)。在云計(jì)算算力市場(chǎng),GPU的單一架構(gòu)也已經(jīng)不能適應(yīng)不同AI計(jì)算場(chǎng)景的算法離散化特點(diǎn)。例如在圖像、推薦、NLP領(lǐng)域,都有各自的主流算法架構(gòu)。
新型的存算一體芯片,具有能效優(yōu)勢(shì),也適合固定場(chǎng)景的計(jì)算任務(wù),應(yīng)用潛力巨大。
此外,存算一體芯片還有一些其他延伸應(yīng)用,比如感存算一體、類腦計(jì)算等。這些也是非常具有潛力的市場(chǎng)領(lǐng)域。
█存算一體面臨的挑戰(zhàn)
存算一體的技術(shù)前景非常廣闊,但是我們也必須認(rèn)識(shí)到,這項(xiàng)技術(shù)的實(shí)現(xiàn)和普及還面臨著諸多挑戰(zhàn)。
首先,是來(lái)自技術(shù)上的挑戰(zhàn)。
存算一體采用新型存儲(chǔ)技術(shù),對(duì)半導(dǎo)體工藝有更高的要求。在芯片架構(gòu)、電路設(shè)計(jì)和材料選擇等方面,都仍有待進(jìn)一步研究和創(chuàng)新。
其次,是來(lái)自生態(tài)上的挑戰(zhàn)。
存算一體技術(shù)作為一個(gè)新興領(lǐng)域,其生態(tài)系統(tǒng)尚未完全建立。
例如,在芯片設(shè)計(jì)階段,由于存算一體芯片區(qū)別于常規(guī)的芯片設(shè)計(jì)方案,所以目前市面上沒(méi)有成熟的專用EDA工具輔助設(shè)計(jì)和仿真驗(yàn)證。芯片流片之后,也沒(méi)有成熟的工具協(xié)助測(cè)試。在芯片落地應(yīng)用階段,沒(méi)有專用的軟件與之匹配。
為此,需要產(chǎn)業(yè)界協(xié)作,進(jìn)一步提高設(shè)計(jì)工具鏈的成熟度,實(shí)現(xiàn)自動(dòng)化EDA工具與跨平臺(tái)編譯器的支持,加強(qiáng)代工廠標(biāo)準(zhǔn)IP庫(kù)的建設(shè)與優(yōu)化多場(chǎng)景下的制造成本,以便提高產(chǎn)業(yè)鏈的整體協(xié)同能力。
最后,是來(lái)自市場(chǎng)上的挑戰(zhàn)。
雖然存算一體技術(shù)具有廣闊的市場(chǎng)前景,但目前市場(chǎng)上仍存在諸多不確定因素。存算一體芯片的架構(gòu)場(chǎng)景通用性及規(guī)模擴(kuò)展能力較差。傳統(tǒng)存算分離架構(gòu)仍占據(jù)主導(dǎo)地位,存算一體技術(shù)需要與傳統(tǒng)架構(gòu)進(jìn)行競(jìng)爭(zhēng)。
存內(nèi)計(jì)算僅適合原本就對(duì)存儲(chǔ)需求較大的場(chǎng)景,而對(duì)于本身存儲(chǔ)需求并不高的場(chǎng)景,為了引入內(nèi)存計(jì)算而加上一塊大內(nèi)存反倒會(huì)增加成本適得其反。
用戶對(duì)性價(jià)比非常關(guān)注,需要考慮用戶的需求和場(chǎng)景是否能夠接受存算一體。存算一體,也要在AI的發(fā)展過(guò)程中尋找自己的落地場(chǎng)景。
總之,挑戰(zhàn)還是很多的。但是,隨著技術(shù)的不斷進(jìn)步以及業(yè)界的不懈努力,相信這些問(wèn)題都會(huì)得到逐步解決。
█最后的話
根據(jù)QYResearch調(diào)研團(tuán)隊(duì)報(bào)告《全球存算一體技術(shù)市場(chǎng)報(bào)告2023-2029》顯示,預(yù)計(jì)2029年全球存算一體技術(shù)市場(chǎng)規(guī)模將達(dá)到306.3億美元,未來(lái)幾年年復(fù)合增長(zhǎng)率CAGR為154.7%。
這是一個(gè)非常具有潛力的市場(chǎng)。未來(lái)幾年,存算一體領(lǐng)域還會(huì)有更多的技術(shù)創(chuàng)新出現(xiàn),涌現(xiàn)出更多優(yōu)秀的企業(yè)。讓我們拭目以待!
參考文獻(xiàn):
1、《存算一體:內(nèi)核架構(gòu)創(chuàng)新,打破算力能效極限》,勢(shì)乘資本和光錐智能;
2、《存算一體白皮書(2022年)》,中國(guó)移動(dòng)研究院;
3、《ChatGPT:存算一體,算力的下一極》,華西證券;
4、《消除馮·諾依曼計(jì)算架構(gòu)瓶頸,存算一體未來(lái)幾何?》,松禾資本。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.