當(dāng)前國(guó)內(nèi)云計(jì)算產(chǎn)業(yè)到了亟待變革的階段,那我們現(xiàn)在面臨什么問(wèn)題呢?我是這樣理解的:
從產(chǎn)業(yè)發(fā)展的角度,隨著AI與數(shù)字經(jīng)濟(jì)的快速發(fā)展,算力需求呈“爆炸式”增長(zhǎng),而當(dāng)前存量算力規(guī)模面臨總量不足、供給較為單一的問(wèn)題,以當(dāng)前CPU年性能提升15%計(jì)算,算力增長(zhǎng)難以跟上需求增長(zhǎng)步伐,產(chǎn)業(yè)正在呼喚全新的算力供給模式。
從技術(shù)演進(jìn)的角度,當(dāng)前國(guó)內(nèi)云計(jì)算面臨“封閉的技術(shù)生態(tài),復(fù)雜的技術(shù)堆棧,碎片化的技術(shù)體系”等困境,而頭部廠商囿于各自的藩籬內(nèi)內(nèi)卷至死(比如某廠商發(fā)起新一輪價(jià)格戰(zhàn)),亟需一個(gè)腳踏七彩云霞的蓋世英雄來(lái)嘗試打破這個(gè)困局。
從國(guó)家安全的角度,當(dāng)前世界局勢(shì)波詭云譎,國(guó)家產(chǎn)業(yè)鏈安全受到極大的影響,對(duì)數(shù)字經(jīng)濟(jì)發(fā)展的穩(wěn)定性造成沖擊,亟需一套全棧自主可控的國(guó)產(chǎn)化系統(tǒng),助力國(guó)家新型高性能基礎(chǔ)設(shè)施建設(shè),給數(shù)字經(jīng)濟(jì)一個(gè)堅(jiān)實(shí)穩(wěn)定的基礎(chǔ)。
面對(duì)以上三方面的需求和矛盾,當(dāng)前云計(jì)算業(yè)界開(kāi)展了廣泛的研究和探索,比如,阿里云這兩年提出“B2B”(Back to Basic),回到云計(jì)算本質(zhì),重新定義下一代的云,以此謀求超車(chē)的機(jī)會(huì)。而另一個(gè)云計(jì)算的新生勢(shì)力——中國(guó)移動(dòng)也提出了自己的方案。
中國(guó)移動(dòng)的方案概括而言就是“算力網(wǎng)絡(luò)”,充分發(fā)揮自身在信息網(wǎng)絡(luò)和新型算力上的優(yōu)勢(shì),打造以算為中心、網(wǎng)為根基,網(wǎng)云數(shù)智安邊端鏈(ABCDNETS)等深度融合、提供一體化服務(wù)的算力網(wǎng)絡(luò),這相當(dāng)于逐步革新當(dāng)前的云計(jì)算服務(wù)模式,重新設(shè)計(jì)了一套云計(jì)算服務(wù)的供給模式——
算力網(wǎng)絡(luò)將徹底改變過(guò)去單純的以帶寬、流量、虛擬機(jī)等獨(dú)立資源為主的服務(wù)形態(tài),將以“算力”為載體為客戶(hù)提供“融合、智能、無(wú)感、極簡(jiǎn)”的一體化服務(wù),這將重塑整個(gè)產(chǎn)業(yè)格局、重新定義國(guó)家競(jìng)爭(zhēng)力。
而在算力網(wǎng)絡(luò)體系中,算力底層技術(shù)是一個(gè)關(guān)鍵“硬核”要素,也是中國(guó)移動(dòng)當(dāng)前重點(diǎn)發(fā)力的方向之一。
近日,4月25日,在2023移動(dòng)云大會(huì)分論壇上,中國(guó)移動(dòng)正式發(fā)布了移動(dòng)云COCA(Compute on chip Architecture)軟硬一體片上計(jì)算架構(gòu),以此打造國(guó)家級(jí)自主可控的高性能算力底座,從布局國(guó)產(chǎn)化智算生態(tài)、共建自主GPU+DPU產(chǎn)業(yè)聯(lián)盟、聯(lián)創(chuàng)高性能網(wǎng)絡(luò)技術(shù)三大方面,帶動(dòng)國(guó)產(chǎn)化智算產(chǎn)業(yè)成熟發(fā)展,抓住云計(jì)算技術(shù)定義權(quán)。
移動(dòng)云COCA架構(gòu)的先進(jìn)性體現(xiàn)在哪里呢?
移動(dòng)云COCA架構(gòu)由GPU、DPU、HPN三大核心單元構(gòu)成,以COCA為核心可打造基于自研可編程DPU、多元異構(gòu)智能算力、高性能RDMA網(wǎng)絡(luò)、Diskless存儲(chǔ)架構(gòu)引擎等技術(shù)的大模型算力基礎(chǔ)設(shè)施,實(shí)現(xiàn)高性能算力集群化橫向融合與垂直抽象,統(tǒng)一實(shí)現(xiàn)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全、管控能力的硬件卸載加速。
1、COCA-GPU單元異構(gòu)協(xié)同,構(gòu)建智算基礎(chǔ)設(shè)施能力基石
在GPU單元方面,移動(dòng)云COCA架構(gòu)將統(tǒng)一算子接口標(biāo)準(zhǔn)、提供統(tǒng)一北向接口,兼容各GPU的深度學(xué)習(xí)框架。通過(guò)AI抽象降低客戶(hù)遷移成本;通過(guò)AI加速提高訓(xùn)練+推理效率;通過(guò)AI池化提升GPU資源利用率。
2、COCA-DPU單元實(shí)現(xiàn)軟硬一體化,釋放智算基礎(chǔ)設(shè)施澎湃性能
在DPU單元方面,以COCA架構(gòu)為基礎(chǔ),打造網(wǎng)絡(luò)引擎、存儲(chǔ)引擎、管控引擎、虛擬化引擎、安全引擎等五大卸載引擎,軟硬融合重構(gòu)算力基礎(chǔ)設(shè)施,助力編程加速單元DPU成為新算力核心,重新定義算力時(shí)代云計(jì)算技術(shù)新標(biāo)準(zhǔn),構(gòu)建算力時(shí)代新技術(shù)曲線。
3、COCA-HPN單元攻克多機(jī)多卡規(guī)?;ヂ?lián)的業(yè)界難題
在HPN單元方面,COCA架構(gòu)融合X-Link + 自研“烏蒙協(xié)議”+ 分布式通信庫(kù)等技術(shù),其中,X-Link聚焦算力物理連接提升單機(jī)內(nèi)部算力交互效率,自研“烏蒙協(xié)議”聚焦打造端到端高性能網(wǎng)絡(luò)連接,分布式通信庫(kù)聚焦算力調(diào)度及連接。三者協(xié)同配合攻堅(jiān)大模型等應(yīng)用場(chǎng)景的算力供給,突破算力連接瓶頸,推動(dòng)算力新基建能力躍升。
總結(jié)來(lái)看,COCA架構(gòu)主要面向算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施技術(shù)生態(tài),通過(guò)算力卸載、解耦、無(wú)損技術(shù),力圖構(gòu)建算力的標(biāo)準(zhǔn)化接入生態(tài),同時(shí)彌補(bǔ)算力與應(yīng)用之間的鴻溝。
當(dāng)前COCA架構(gòu)已經(jīng)在移動(dòng)云內(nèi)部落地使用,在移動(dòng)云最新發(fā)布的第三代磐石服務(wù)器上,磐石服務(wù)器所搭載的磐石DPU由COCA DPU單元納管,從實(shí)際運(yùn)行情況來(lái)看,COCA架構(gòu)有效提升了整體算力、整機(jī)存儲(chǔ)與讀寫(xiě)資源等核心性能。當(dāng)前磐石服務(wù)器現(xiàn)已全面商用支撐計(jì)算密集型場(chǎng)景。
據(jù)了解,當(dāng)前,COCA已接入產(chǎn)業(yè)界合作伙伴超30家,支撐行業(yè)落地案例10余個(gè),覆蓋政務(wù)、金融、科學(xué)計(jì)算等領(lǐng)域。
而為了加速推動(dòng)COCA生態(tài)繁榮發(fā)展,中國(guó)移動(dòng)組建了COCA聯(lián)合生態(tài)工作組,目標(biāo)是:到2024年,打通DPU、GPU、HPN三大單元,面向大模型場(chǎng)景打造一套全棧自主可控的系統(tǒng),助力國(guó)家新型高性能基礎(chǔ)設(shè)施建設(shè)。
2006年,亞馬遜推出AWS,正式開(kāi)創(chuàng)了公有云市場(chǎng),過(guò)去十幾年來(lái),云重構(gòu)了整個(gè)IT硬件體系,數(shù)據(jù)中心、芯片、服務(wù)器等產(chǎn)業(yè)鏈發(fā)生深刻變化,云和端加速融合,算力從端轉(zhuǎn)移上云,軟件研發(fā)范式發(fā)生深刻變革,Serverless、低代碼、AI大模型開(kāi)源等趨勢(shì),大幅提升軟件生產(chǎn)效率。
當(dāng)前,云計(jì)算又進(jìn)入到亟待變革以激發(fā)新的生產(chǎn)力的階段,大大小小的參與者都在進(jìn)行著自我思考和探索,我很期待一個(gè)全新的云計(jì)算時(shí)代的到來(lái)。
附:移動(dòng)云COCA架構(gòu)介紹材料
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.