新智元報道
編輯:Aeneas
【新智元導(dǎo)讀】西湖大學(xué)的一篇論文成功登頂Science,力壓另外4篇同主題論文,背后秘密武器,竟是來自這家中國公司的科研外掛?這次比拼速度和算力和全球科技奧運中,他們用150GB/s的神速存儲,直接把數(shù)據(jù)卷成全球第一!
5篇同樣主題投稿到Science,其中一篇來自西湖大學(xué)的論文脫穎而出,相應(yīng)團隊也順勢成為全球首個成功的團隊!
這驚人的成績背后,除了科研人員的硬實力,離不開強大的算力支撐。
所以,究竟是誰在背后支撐著這支團隊,讓他們卷贏了實力不容小覷的全球頂尖同行?
西湖大學(xué)
Science文章跑成第一
這就要從西湖大學(xué)的多年布局說起了。
在西湖大學(xué),建立之初的學(xué)科布局,基本就是生物醫(yī)學(xué)、物理、化學(xué)和工學(xué)這幾個方向。
這些學(xué)科對科學(xué)計算的要求都極高。因此,從2019年,學(xué)校就開始大力投入引進計算資源。
要知道,科研是個講究「又快又準(zhǔn)」的地方,比如冷凍電鏡這種研究,全球都在比拼同一個蛋白質(zhì)結(jié)構(gòu),無論是哪個國家的哪個實驗室,最終解出來的結(jié)構(gòu)都是差不多的。
而這就演變?yōu)橐粓鰥W林匹克競賽,追求的是誰能更快、更準(zhǔn)。
為此,曙光存儲對用戶數(shù)據(jù)做了系統(tǒng)測試,最終發(fā)現(xiàn),在少數(shù)幾個存儲技術(shù)上調(diào)整,就可以把整個計算過程加快大概30%。
要想建立一個集群,存儲就處于重要地位。
這是因為,CPU和GPU的節(jié)點可以不斷的去更新,用新的GPU節(jié)點代替老的CPU節(jié)點,用更新的更快的顯卡代替舊的顯卡,就能得到顯存的擴容。
而底層的存儲系統(tǒng),就要跟上計算能力升級的節(jié)奏。
要知道,在一所高校中,光是生物醫(yī)學(xué)方向就可能有十幾個甚至二十幾個課題組,能積累幾十PB的數(shù)據(jù)。這種情況下,存儲系統(tǒng)就很難輕易更新。
另外,很多應(yīng)用其實跑在單個的CPU或GPU節(jié)點上都還好,但是一旦應(yīng)用成了規(guī)模,整體性能就會下降了。
很大一部分原因就在于,存儲的帶寬對于小碎文件的操作能力不足,所以在高校的集群建設(shè)中,存儲的地位相當(dāng)重要。
為此,曙光存儲為西湖大學(xué)的AI集群做了一次大升級,給出了十分硬核的存儲方案:單節(jié)點帶寬150GB/s,是美國某先進友商的4倍性能,單個設(shè)備僅僅占用了2U的機架空間。
在那一期的Science上,全球有5篇同主題的投稿,而西湖大學(xué)的這一篇,不僅是第一個投出,數(shù)據(jù)質(zhì)量還是全場最高的!
三大平臺,超強實踐
現(xiàn)在,曙光存儲已經(jīng)為西湖大學(xué)打造出人工智能、科學(xué)計算等科研存儲平臺,以及冷數(shù)據(jù)歸檔的共享存儲平臺。
在不同科研領(lǐng)域,曙光存儲都表現(xiàn)了超強的實踐能力。
比如像冷凍電鏡這種科研場景,對IOPS(每秒輸入輸出操作次數(shù))的要求非常高。
另外還有一些跨業(yè)務(wù)場景數(shù)據(jù)的流轉(zhuǎn),比如先通過sum的協(xié)議寫到存儲集群里,然后再通過服務(wù)器對寫進來的數(shù)據(jù)做一些解析和處理。因此對于存儲系統(tǒng)是不小的挑戰(zhàn)。
而曙光存儲的性能水平在AI計算節(jié)點上的處理,可以實現(xiàn)單流極高的帶寬水平。
在客戶現(xiàn)場實測時,甚至能達到150GB/s。
而現(xiàn)在,這種帶寬速度直接讓科研數(shù)據(jù)跑得飛快,給科研速度開了掛。這種神速,也直接讓客戶當(dāng)場震驚了。
具體合作
具體來說,曙光存儲在西湖大學(xué)的其中一類存儲就是全閃存儲。
作為人工智能集群的一線存儲,它要承接最大的負(fù)載,壓力極大,尤其是多節(jié)點訓(xùn)練的時候,這就要求存儲有很高的IOPS。
同時,曙光也會有混閃存儲來為用戶提供一些空間的擴展,然后讓他們來儲存一些數(shù)據(jù)集,和值得保存的中間結(jié)果。
而且通用計算集群上,西湖大學(xué)也采用了曙光的存儲來做軟件目錄。
雖然這個軟件目錄沒有像人工智能集群那樣有那么大的吞吐,但對于一個集群的穩(wěn)定運行,也是不可或缺的。
此外,曙光存儲還會做許多溫數(shù)據(jù)之類的存儲,比如科研歸檔數(shù)據(jù),保存時間可以至少達到5年。
而西湖大學(xué)在選擇一線存儲的時候,過程十分慎重,因為需要滿足一些特別的指標(biāo)。
畢竟,用戶還是最看重集群的性能。
商業(yè)落地
不僅如此,曙光存儲現(xiàn)在已大規(guī)模落地科研領(lǐng)域,除了西湖大學(xué),還包括北京大學(xué)、中國農(nóng)業(yè)大學(xué)、華南理工大學(xué)、良渚實驗室、紫金山天文臺等的AI4S場景。
如今的AI浪潮中,科研行業(yè)同樣站在了風(fēng)口。
而真正能撐起這陣AI東風(fēng)的,絕不僅僅是算力,還有一個常被忽視卻至關(guān)重要的一環(huán)——存儲力!
面向AI的科研存儲方案,難點在哪?
總的來說,面向AI的科研存儲方案之所以困難,主要有四個原因:
1. 數(shù)據(jù)極其復(fù)雜
2. AI模型訓(xùn)推對性能要求極高
3. 數(shù)據(jù)應(yīng)用流通的挑戰(zhàn)
4. 數(shù)據(jù)存儲的成本過高
對此,曙光存儲都有解決之道。
數(shù)據(jù)復(fù)雜性挑戰(zhàn)
首先,AI應(yīng)用設(shè)計的數(shù)據(jù)類型,大多十分復(fù)雜,包括非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像、音視頻等)、結(jié)構(gòu)化數(shù)據(jù)(比如成績、檔案對應(yīng)的表格、數(shù)據(jù)庫記錄等數(shù)據(jù))。
而非結(jié)構(gòu)化數(shù)據(jù)到增長迅猛,占比不斷攀升,數(shù)據(jù)格式各異、處理方式不同,這就給存儲帶來了巨大挑戰(zhàn)。
對此,曙光打造了分布式全閃存儲ParaStor,充分發(fā)揮先進存力的融合屬性,支持塊、文件、對象、HDFS等多種存儲訪問協(xié)議,異構(gòu)數(shù)據(jù)無需格式轉(zhuǎn)換即可一路暢通,避免數(shù)據(jù)跨存儲系統(tǒng)復(fù)制。
這樣,就可以輕松處理PB級對象數(shù)據(jù)、百TB級文件數(shù)據(jù)。
AI訓(xùn)推性能挑戰(zhàn)
第二點,AI模型訓(xùn)練和推理過程需要處理海量數(shù)據(jù),這就對存儲系統(tǒng)的性能提出了極高要求。
比如在模型訓(xùn)練階段,數(shù)據(jù)讀取和寫入速度會直接影響訓(xùn)練周期。多數(shù)傳統(tǒng)存儲系統(tǒng)難以滿足每秒 TB 級的數(shù)據(jù)讀寫需求,無法匹配GPU的高速運算能力,就會導(dǎo)致計算資源閑置,形成性能瓶頸。
同樣,推理階段,對存儲的低延遲要求也極為嚴(yán)苛。
曙光的高性能全閃存儲ParaStor,可以通過過190GB/s 帶寬,500萬 IOPS支撐具身智能模型訓(xùn)練,把模型訓(xùn)練周期從「月?!辜铀僦痢钢苣!埂?/p>
數(shù)據(jù)應(yīng)用流通挑戰(zhàn)
因為數(shù)據(jù)共享機制不完善,區(qū)域、高校、院系間數(shù)據(jù)交易標(biāo)準(zhǔn)不明、確權(quán)困難,因此就急需打破數(shù)據(jù)壁壘,建立統(tǒng)一高效的平臺。
為此,曙光打造了數(shù)據(jù)資產(chǎn)的統(tǒng)一視圖,實現(xiàn)了跨域、跨站點、 跨廠家等復(fù)雜數(shù)據(jù)的全局可視、實時更新;還實現(xiàn)了數(shù)據(jù)目錄的智能化;能夠面對海量的文件,都能實現(xiàn)千億級文件秒級檢索的能力,以及數(shù)據(jù)的高效查找。
數(shù)據(jù)存儲成本問題
AI大模型應(yīng)用存儲系統(tǒng)的構(gòu)建成本是很高的,而曙光存儲通過更高的單位存儲密度、更少的空間占用、更優(yōu)異的性能顯著降低了成本,是百PB-EB級超大規(guī)模AI基礎(chǔ)設(shè)施的極佳選擇。
現(xiàn)在,根據(jù)賽迪顧問新發(fā)布的《中國分布式存儲市場研究報告(2025)》,曙光存儲在教育存儲市場份額已經(jīng)是妥妥的TOP 1。
而且自該報告開始發(fā)布以來,曙光存儲已連續(xù)3年市場份額排名第一。
曙光存儲用實打?qū)嵉臄?shù)據(jù)證實:懂科研的存儲,才能真正服務(wù)科研。
而在未來,曙光團隊必將用更強大的數(shù)字底座,讓中國科研插上翅膀,更早一天抵達世界前沿。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.