從去年開始,大模型的出現(xiàn)“一石激起千層浪”,將人工智能推到了前所未有的高度。
隨著智能算力“流”入千行百業(yè),越來越多的行業(yè)場(chǎng)景與人工智能相結(jié)合,從智慧醫(yī)療,智慧金融,智慧城市再到無人駕駛,智能化轉(zhuǎn)型延伸到各行各業(yè)的方方面面。麥肯錫的報(bào)告也預(yù)測(cè):到 2040年,生成式 AI每年可為全球經(jīng)濟(jì)帶來 2.6萬億至 4.4萬億美元的增長。
越是巨大的市場(chǎng)機(jī)遇,越需要穩(wěn)固的“底座”,否則就會(huì)成為“空中樓閣”。無疑,智能算力就是行業(yè)智能化時(shí)代的“算力底座”。
如何讓這個(gè)“算力底座”發(fā)揮最大的能量,解決異構(gòu)智算帶來的諸多挑戰(zhàn)就是當(dāng)前的重中之重。由聯(lián)想、中國智能計(jì)算產(chǎn)業(yè)聯(lián)盟和異構(gòu)智算產(chǎn)業(yè)生態(tài)聯(lián)盟,共同出品的《異構(gòu)智算產(chǎn)業(yè)趨勢(shì)與技術(shù)白皮書》正是為此而來。
01
智算崛起,標(biāo)準(zhǔn)先行
智算時(shí)代,最典型的特征就是算力的異構(gòu)化。
異構(gòu)算力通常由 CPU、 GPU、 FPGA、 ASIC等不同的算力處理體系組成,這些不同類型的處理器各自具有獨(dú)特的優(yōu)勢(shì),能夠滿足不同場(chǎng)景中的應(yīng)用需求。通過將它們組合在一起,可以實(shí)現(xiàn)計(jì)算資源的優(yōu)化分配和高效利用,進(jìn)而實(shí)現(xiàn)計(jì)算效力最大化。
換言之,要發(fā)揮智算的最大價(jià)值,就必然要走通異構(gòu)算力體系的路。
異構(gòu)智算,最大的挑戰(zhàn)就是要構(gòu)建開放的平臺(tái),能夠適應(yīng)和兼容各種技術(shù)體系。同時(shí)還要通過智算平臺(tái),能夠把這些技術(shù)傳遞給上層應(yīng)用,賦能千行百業(yè)。
聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群戰(zhàn)略總監(jiān)黃山
聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群戰(zhàn)略總監(jiān)黃山說:“在這本《白皮書》當(dāng)中,聯(lián)想起到的主要是協(xié)調(diào)的作用,我們邀請(qǐng)了各個(gè)權(quán)威機(jī)構(gòu)的專家和生態(tài)伙伴,并從聯(lián)想異構(gòu)智算的案例集當(dāng)中優(yōu)選了十大案例,進(jìn)行了集中的呈現(xiàn),希望可以做到‘他山之石可以攻玉’,為智算產(chǎn)業(yè)的發(fā)展帶來指引?!?/p>
《未來呼嘯而來》中提出:未來的創(chuàng)新將不是單向式、重度垂直的,若干個(gè)重要領(lǐng)域的創(chuàng)新需求之間,會(huì)突然產(chǎn)生 “疊加效應(yīng) ”,并改變我們的生活。智算生態(tài),也是由產(chǎn)業(yè)鏈當(dāng)中處在不同環(huán)節(jié)的標(biāo)準(zhǔn)機(jī)構(gòu)和企業(yè),將力量疊加,產(chǎn)生的“合力”推動(dòng)了整個(gè)產(chǎn)業(yè)的發(fā)展。
中國電子技術(shù)標(biāo)準(zhǔn)化研究院云計(jì)算研究室副主任陳志峰
中國電子技術(shù)標(biāo)準(zhǔn)化研究院云計(jì)算研究室副主任陳志峰表示,“異構(gòu)智算最終是要用起來。無論是要解決煙囪化,兼容性,還是軟硬件融合等問題,標(biāo)準(zhǔn)的建立是非常重要的,從芯片層一直到應(yīng)用層,所有的生態(tài)伙伴一起來群策群力,共同讓智算的生態(tài)繁榮起來?!?/p>
英特爾首席云架構(gòu)師胡明月
對(duì)于標(biāo)準(zhǔn)化,英特爾首席云架構(gòu)師胡明月則強(qiáng)調(diào),“不能忽略的一點(diǎn)是,如果在封閉的系統(tǒng)里,連接的成本其實(shí)很高,所以英特爾更強(qiáng)調(diào)系統(tǒng)的開放性,希望用通用的標(biāo)準(zhǔn)去實(shí)現(xiàn)連接?!?/p>
恰如所言,智算是一個(gè)與通用算力截然不同的賽道,在百花齊放的基礎(chǔ)設(shè)施架構(gòu)下,發(fā)揮算力的最大效能,標(biāo)準(zhǔn)先行的確是應(yīng)時(shí)之舉。從這個(gè)角度,《白皮書》的發(fā)布本身,也是希望通過推動(dòng)標(biāo)準(zhǔn)的落地,以及相關(guān)行業(yè)內(nèi)的標(biāo)桿案例展示,為智算深入各行各業(yè),成千上萬的場(chǎng)景提供幫助。
02
如何解決
異構(gòu)環(huán)境下的算效問題
根據(jù) IDC數(shù)據(jù)預(yù)測(cè), 2027年中國智能算力規(guī)模將達(dá)到 117EFlops,是 2024年 2.3倍,增速將達(dá)通用算力 2倍及以上,算力規(guī)模的擴(kuò)大為智算帶來了很多挑戰(zhàn)。
聯(lián)想萬全異構(gòu)智算平臺(tái)專家郭晉兵
聯(lián)想萬全異構(gòu)智算平臺(tái)專家郭晉兵說:“大模型為智算帶來了新的問題,就是它的集群規(guī)模會(huì)越來越大,一方面對(duì)智算的需求也變得大,另一方面也會(huì)帶來了算力性能損失和算力多樣化的問題?!?/p>
陳志峰也表示:“現(xiàn)在很多企業(yè)都在建萬卡集群,甚至十萬卡集群,在這么大的規(guī)模下,就一定會(huì)存在多種卡并存的情況,異構(gòu)化的大模型智算集群已經(jīng)是大勢(shì)所趨,自然也會(huì)遭遇到統(tǒng)一管理、資源隔離、算力調(diào)度、任務(wù)分配等難題,所以異構(gòu)智算的管理平臺(tái)建設(shè)是一個(gè)關(guān)鍵。”
聯(lián)想萬全異構(gòu)智算平臺(tái),正是為了解決這些痛點(diǎn)而來?!叭f全異構(gòu)智算平臺(tái),不僅僅是為了解決異構(gòu)智算統(tǒng)一管理的復(fù)雜性,也是為了發(fā)揮異構(gòu)算力的最大價(jià)值,因?yàn)榻?jīng)過我們的觀察, GPU卡作為系統(tǒng)中最貴的組件,實(shí)際的利用率并不高,目前平均只有 30%左右?!秉S山說。
引起智算效率普遍不高的原因,其實(shí)是異構(gòu)算力軟硬件融合情況不夠好所帶來的。
因?yàn)椋^去芯片都是煙囪式的,都在構(gòu)建自己的軟硬件架構(gòu)。但是,不同服務(wù)器類型、網(wǎng)絡(luò)類型和存儲(chǔ)類型之間的排列組合,會(huì)是一個(gè)復(fù)雜的矩陣。每個(gè)矩陣只有配置完整之后,才能順滑的跑通上面的應(yīng)用。而每個(gè)矩陣都有每一個(gè)矩陣的特性,用戶需要在數(shù)百種配置當(dāng)中去決策,無形中帶來了很多困難。
據(jù)郭晉兵介紹,聯(lián)想萬全異構(gòu)智算平臺(tái)的五大能力之首,就是算力匹配魔方?;诤A康挠布u(píng)測(cè)和 AI算子算法集成工作,聯(lián)想構(gòu)建了 AI場(chǎng)景與算法與集群硬件三者匹配關(guān)系的算力魔方知識(shí)庫。用戶只需輸入場(chǎng)景和數(shù)據(jù),系統(tǒng)即可自動(dòng)加載最優(yōu)算法和調(diào)度最佳集群配置,極大地簡化了選擇驗(yàn)證過程。
除此之外,平臺(tái)內(nèi)置的 ? GPU內(nèi)核態(tài)虛擬化 ?救贖,能夠大幅提升 GPU的利用率 , vGPU的利用率可以從 80%提升到 95% ?。另外,集合通信算法庫 ?可以使訓(xùn)練效率提升 10%~ 15% ?;再有 AI與 HPC集群超級(jí)調(diào)度器,能夠在 1小時(shí)內(nèi)自動(dòng)完成跨集群資源調(diào)度和共享。
“萬全異構(gòu)智算平臺(tái)實(shí)際上要解決就是兩件事:一是打破傳統(tǒng)算力的煙囪式架構(gòu),二是超智融合,讓算力在智算和超算兩套系統(tǒng)中平滑遷移,并發(fā)揮最大效能。”黃山說。
03
生態(tài)共進(jìn)
以智算為產(chǎn)業(yè)打造“長尾”
說到算力在不同算力系統(tǒng)中平滑流轉(zhuǎn),這與天數(shù)智芯的技術(shù)實(shí)踐其實(shí)不謀而合。
天數(shù)智芯副總裁兼客戶項(xiàng)目部總經(jīng)理宋煜
天數(shù)智芯副總裁兼客戶項(xiàng)目部總經(jīng)理宋煜提出:“今天的數(shù)據(jù)中心當(dāng)中,實(shí)際上會(huì)擁有不同廠商的通用 GPU,或者同一家廠商的不同代際的 GPU。無形中就出現(xiàn)一個(gè)問題:算力沒有辦法融合在一起,這就是算力孤島或者資源墻?!?/p>
打破資源墻,讓不同代際甚至不同廠商之間的 GPU,聯(lián)合在一起支持大模型的訓(xùn)練,就要建立一個(gè)異構(gòu)、統(tǒng)一的計(jì)算底座,支持大模型在混合異構(gòu)的集群里去做訓(xùn)練。一個(gè)關(guān)鍵的技術(shù)點(diǎn),就是不同的 GPU之間如何通信。
而天數(shù)智芯的解決方案就是要解決這個(gè)問題,在混合異構(gòu)集群中兼容不同品牌的 GPU,同時(shí)還要確保不同 GPU之間的數(shù)據(jù)交互是準(zhǔn)確的。那么如何去判斷混合異構(gòu)集群的性能不輸于單一 GPU集群?
宋煜給出了一個(gè)很好的解決方案:“比如有兩個(gè)單獨(dú)的集群,分別是 NV集群和天數(shù)集群。單獨(dú)訓(xùn)練時(shí)的峰值效率求和所得的百分之比,如果與各自集群原生算力的峰值效率相當(dāng),就解決了客戶對(duì)混合異構(gòu)集群算力效能的擔(dān)憂。事實(shí)證明,我們的混合集群的峰值效率可以達(dá)到 92%與單一 GPU集群的效率相當(dāng)?!?/p>
我們不難看出,在生態(tài)各界的攜手之下,異構(gòu)智算的前景一片光明。
談到未來,黃山相信,“未來的推理市場(chǎng)會(huì)加速,這個(gè)市場(chǎng)選擇的不再是大規(guī)模算力,而是垂直的方案,軟硬融合的方案,這也是聯(lián)想未來會(huì)持續(xù)去優(yōu)化的方向?!?/p>
可持續(xù)發(fā)展性,則是胡明月更為關(guān)注的點(diǎn),他提出,“隨著集群規(guī)模越來越大,功耗也會(huì)越來越大。不可避免地就采取各種各樣的制冷措施,我們和聯(lián)想也會(huì)共同推動(dòng)一些制冷的技術(shù)標(biāo)準(zhǔn)?!?/p>
宋煜表示,“聯(lián)盟中所處不同位置的伙伴,看到的問題和需求是不同的,比如端側(cè)的推理可能會(huì)有好的產(chǎn)品組合出現(xiàn),我們也希望通過產(chǎn)品的迭代能夠去參與到其中,和伙伴一起提供完整的解決方案,讓客戶能夠享受到智算的紅利?!?/p>
而對(duì)聯(lián)想來說,“我們也希望能夠針對(duì)不同行業(yè)的客戶,模型的變化和應(yīng)用的變化,去細(xì)分算力的需求,通過更為精細(xì)化的方式,與生態(tài)伙伴們共同去滿足日益增長的智算需求?!?郭晉兵說。
我們認(rèn)為,大模型的風(fēng)口終將成為過去式,但由此引發(fā)的智算變革,乃至更為深遠(yuǎn)的行業(yè)智能化轉(zhuǎn)型會(huì)是長期持續(xù)的進(jìn)程,解決了異構(gòu)智算的供需問題,就等于為整個(gè)產(chǎn)業(yè)創(chuàng)造了“長尾效應(yīng)”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.