作者 | 王一鵬
如果將整個行業(yè)對智算中心的投資分拆來看,我們將得到一個趨勢性結(jié)論:算力不再是唯一重點,行業(yè)對存儲設(shè)備的重視正在上升。
有數(shù)據(jù)顯示,硅谷企業(yè)對于存儲的投資接近算力總購買成本的 10%。而來自“金融界”的消息稱,云廠商對存儲設(shè)備的采購占比,在數(shù)據(jù)中心 BOM(物料清單)中已升至 40%。到了今年 5 月,三星、SK 海力士、美光、鎧俠與閃迪五大 NAND Flash 制造商同步減產(chǎn),供給面收縮,進(jìn)一步使全球存儲市場熱度上升。
而這一切的根因,都源自 AI 業(yè)務(wù)對整個 AI 基礎(chǔ)設(shè)施建設(shè)的強(qiáng)烈刺激。一方面,無論是預(yù)訓(xùn)練還是推理,體量都在增長,近三年過去了,生成式 AI 技術(shù)仍未到達(dá)穩(wěn)定態(tài),有海量的數(shù)據(jù)需要被存儲和治理。另一方面,AI 推理業(yè)務(wù)自有其場景化、業(yè)務(wù)化特點,存儲設(shè)備需要從舊有的架構(gòu),進(jìn)化成先進(jìn)存儲。
2025 中國算力大會期間,信通院發(fā)布的《2025 存力發(fā)展報告》指出我國存力總規(guī)模迅速增長的同時,存力結(jié)構(gòu)持續(xù)優(yōu)化,閃存在外置存儲中的占比從 2023 年的 25% 提升至 2024 年的 28%,顯示存儲系統(tǒng)正加快由容量驅(qū)動向性能導(dǎo)向轉(zhuǎn)型,其結(jié)構(gòu)更趨高效。在 8 月剛完成的山東河口智算中心,先進(jìn)存儲占存儲總量 35% 以上;而在上海市智能算力基礎(chǔ)設(shè)施的規(guī)劃中,先進(jìn)存儲在總存儲容量中占比目標(biāo)是達(dá)到 50% 以上。
對于國內(nèi)廠商而言,這是明確的市場機(jī)會。從存儲晶圓顆粒、存儲介質(zhì)到主控芯片,國內(nèi)的存儲產(chǎn)業(yè)技術(shù)不斷進(jìn)步,生態(tài)逐漸壯大,同時最終客戶的需求也愈加清晰和急迫。主控芯片堪稱存儲產(chǎn)品的“大腦”,尤為重要。平頭哥在 2023 年就前瞻性地為 AI 需求增長打造了鎮(zhèn)岳 510 這款在時延、能效、帶寬、可靠性等各方面全方位領(lǐng)先的“六邊形戰(zhàn)士”。
1 想“喂飽”GPU,AI 存儲需要階段性重構(gòu)
主控芯片負(fù)責(zé)數(shù)據(jù)讀寫、錯誤糾正、損耗均衡等,對固態(tài)硬盤的性能、可靠性和壽命至關(guān)重要,因此也對 AI 負(fù)載的不同需求尤為敏感。
AI 預(yù)訓(xùn)練業(yè)務(wù)需要存儲系統(tǒng)具備超大容量,因為既需要存儲原始數(shù)據(jù),也需要存儲模型訓(xùn)練的中間結(jié)果和模型檢查點,數(shù)據(jù)量一般會達(dá)到 PB 級,讀多寫少。而 AI 推理業(yè)務(wù),對數(shù)據(jù)的請求量巨大、高并發(fā)、實時性強(qiáng),雖然要求的存儲容量相對預(yù)訓(xùn)練要低,但也需要緩存模型、參數(shù)和實時數(shù)據(jù)。
這種獨特的業(yè)務(wù)形態(tài),使得過往存儲于數(shù)據(jù)中心的“冷數(shù)據(jù)”的體量在下降,而“溫數(shù)據(jù)”、“熱數(shù)據(jù)”的占比在上升。到 2025 年,隨著 AI 推理業(yè)務(wù)占比的提升,“溫數(shù)據(jù)”的占比將進(jìn)一步增加。
曾經(jīng)數(shù)據(jù)中心的存儲系統(tǒng),任務(wù)比較多元,而隨著 AI 興起,數(shù)據(jù)消費行為發(fā)生改變,存儲系統(tǒng)的核心工作目標(biāo),全面轉(zhuǎn)向了與 GPU 的協(xié)同,包括盡量減少 GPU 等待數(shù)據(jù)供給的時間,提高 GPU 的利用率。尤其是服務(wù)于 AI 模型訓(xùn)練的算力集群,其利用率還遠(yuǎn)未達(dá)到理想值,瓶頸之一就在于配套存儲的吞吐能力。
因此,想把 GPU“喂飽”,實際上是個“既要又要”的問題——既需要存儲系統(tǒng)在容量、時延、帶寬、可靠性上有所突破,又要更好地控制能耗,盡最大可能控制成本。
今天的智算中心設(shè)計,目標(biāo)是萬卡集群、十萬卡集群,乃至二十、三十萬卡集群,其能源消耗已經(jīng)到達(dá)一個相當(dāng)恐怖的境地,甚至間接拉動了對核能領(lǐng)域的投資。美國能源部預(yù)測,到 2028 年,美國數(shù)據(jù)中心的電力需求將占美國總電力需求的 6.7%-12%。算力利用率不夠高,集群訓(xùn)練效率不夠高,也進(jìn)一步抬高了同等算力規(guī)模下,針對模型訓(xùn)練的能源需求。
另外,在世界范圍內(nèi),由于閉源頂級模型仍是承接業(yè)務(wù) Token 調(diào)用的“主力”,而對算力和模型訓(xùn)練的預(yù)投入,已經(jīng)消耗了大筆預(yù)算,企業(yè)在落地 AI 時總覺得有些捉襟見肘。所以,即便先進(jìn)存儲的能力已經(jīng)全面升級,客戶對可能會上揚(yáng)的價格仍是極度敏感的。
該如何理解這種價格敏感呢?英特爾的 Optane 傲騰作為曾經(jīng)的“明星內(nèi)存”,無論是延遲還是使用壽命都有極佳表現(xiàn),但如今已經(jīng)退市,2025 年底全面停止出貨。傲騰壽命終結(jié)的原因有很多,價格就是其中核心之一。
對于從業(yè)者而言,尋找一個性能、價格雙優(yōu)的新方案,成了當(dāng)務(wù)之急,而這也是新一代存儲主控需要回答的問題。
2 鎮(zhèn)岳 510 的“六邊形”能力
平頭哥提交的答案是鎮(zhèn)岳 510,并圍繞 AI 業(yè)務(wù)的發(fā)展現(xiàn)狀,為這款 SSD 主控芯片定義了“六邊形”能力:
在這六維能力中,隱藏著一個核心設(shè)問:當(dāng) AI 落地企業(yè)后,站在存儲設(shè)備的角度,應(yīng)該如何計算和節(jié)省整個產(chǎn)業(yè)的運(yùn)行成本?
鎮(zhèn)岳 510 從芯片設(shè)計上的回應(yīng),大概分可為三個層級:業(yè)務(wù)側(cè),主要是模型訓(xùn)練中斷后的恢復(fù)成本;基建側(cè),是智算中心的運(yùn)營成本;設(shè)備側(cè),是存儲的使用壽命,或者可以稱之為“換新成本”。
在業(yè)務(wù)側(cè),由于訓(xùn)練規(guī)模大、耗時長,模型訓(xùn)練中斷幾乎是不可避免的,此處成本的主要來源是,當(dāng)存儲設(shè)備出現(xiàn)不可恢復(fù)性錯誤,以至于模型無法基于斷點恢復(fù)訓(xùn)練,企業(yè)付出的代價可能比存儲設(shè)備本身的價值還要高。這就要求所謂“可靠存儲”。
業(yè)界對此的標(biāo)準(zhǔn)是一個很極端的值:UBER 10^-17,意為不可恢復(fù)錯誤率為十的負(fù)十七次方,在讀取 10^17 個比特的數(shù)據(jù)時,統(tǒng)計上預(yù)期只會發(fā)生 1 個無法自行糾正的錯誤。
鎮(zhèn)岳 510 的可靠性是 UBER 10^-18,優(yōu)于業(yè)界標(biāo)準(zhǔn)一個數(shù)量級:如果是讀取一塊 32TB 的硬盤,一天寫一遍,十年才出一個無法恢復(fù)的讀錯誤。
在基建側(cè),問題與能效指標(biāo)綁定了在一起,與智算中心的日常運(yùn)營直接相關(guān)。我們很難將此與“AI 應(yīng)用落地”這一大的趨勢分拆來看,因為產(chǎn)業(yè)上游所有的成本,最終都會以某種形式累積到下游的具體應(yīng)用上。
而對于位于上游的智算中心來說,50% 左右的運(yùn)營成本都出自電力和冷卻散熱。IOPS 可以提升嗎?當(dāng)然,提升主頻、提高電壓、增加核心 / 通道數(shù)等方案,都可以直觀地提升 I/O 能力。但這種略顯粗暴的升級手段,也會帶來能耗的直線上升。而鎮(zhèn)岳 510 的設(shè)計考慮更加全面,其能效比達(dá)到 420K IOPS/Watt,這比競品高 20%,實現(xiàn)了性能與功耗更優(yōu)的平衡性。
在設(shè)備側(cè),閃存類型是 SSD 先天的物理基礎(chǔ),涉及到三種主要技術(shù):SLC,TLC,QLC。SLC 速度快、壽命長、可靠性高,但是成本也很高;TLC,QLC 都是容量密度高、成本低,但壽命短。
鎮(zhèn)岳 510 不僅支持 TLC/QLC,同時也積極探索 pSLC 技術(shù),以及 QLC 和 ZNS 技術(shù)的融合——前者可以將 TLC/QLC 等顆粒模擬 SLC 模式運(yùn)行,以部分容量換取更高性能和更長壽命;后者將 SSD 空間劃分為只能順序?qū)懭氲膮^(qū)域,可以顯著降低寫放大,進(jìn)一步延長壽命。
QLC+ZNS 可以將以鎮(zhèn)岳 510 為核心的 SSD 方案的成本大幅降低,在容量密度、成本、壽命三個維度達(dá)到了一個很好的平衡點。
今天的企業(yè)在做 AI 基礎(chǔ)設(shè)施選型時,是兩條“腿”走路:一條“腿”是低成本,一條“腿”是高業(yè)務(wù)價值,所以回答完成本問題,平頭哥也要回答業(yè)務(wù)價值問題。AI 推理業(yè)務(wù)要求存儲設(shè)備提供的核心價值之一是時延——作為整個優(yōu)化鏈條的起點,存儲設(shè)備取數(shù)的時延必須足夠低,也就是前文提到的“喂飽 GPU”的問題。
行業(yè)一線水平是 6 微秒,鎮(zhèn)岳 510 的數(shù)據(jù)是 4 微秒——這意味著,平頭哥把時延壓到了近乎極致,幾乎接近 PCIe 鏈路本身的理論延遲下限,尤適配在線交易、實時分析類場景,與如今 Data & AI 的整體技術(shù)發(fā)展方向是一致的。
平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒對 InfoQ 表示,這是他認(rèn)為鎮(zhèn)岳 510 實現(xiàn)的超高難度、也最令人自豪的性能指標(biāo)。
此前存儲設(shè)備時延難以降低,核心是因為許多流程是串行的,而且需要與硬件頻繁交互,尤其是實際寫入階段,只有等數(shù)據(jù)全寫完了,主控才會發(fā)送“寫完”信號,光是這一步就需要上百微秒。
平頭哥的設(shè)計思路是,首先解決串行問題。
很多標(biāo)準(zhǔn)步驟(如命令解析、地址解析、數(shù)據(jù)獲取等)改由專用硬件模塊并行處理,相當(dāng)于打造了一條“硬件自動化處理流水線”,只有遇到異常時,才會交還給 Firmware 處理。這也減少了與硬件的交互頻率,提高了靈活性。
其次,解決寫數(shù)據(jù)時間長的問題。平頭哥采用了一個非常巧妙的策略:只要確保數(shù)據(jù)已經(jīng)安全接收并存入內(nèi)部緩存,就返回“完成”信號,而不是等數(shù)據(jù)真的寫完。而鎮(zhèn)岳 510 通過優(yōu)化的異常處理流程和算法來保證:即使在極端情況下(如突然斷電),已確認(rèn)但尚未完全落盤的數(shù)據(jù)不會丟失,上電后會繼續(xù)完成寫入。
這是個大膽的設(shè)計,難的是在設(shè)計和工程角度上確保可靠,平頭哥完成了這一任務(wù),以至于在容量、帶寬上的表現(xiàn),都變成了行業(yè)對鎮(zhèn)岳 510 的“合理期望”。
3 生態(tài)問題,不是平頭哥的短板
在鎮(zhèn)岳 510 面世后,平頭哥以此為核心在生態(tài)層面的工作也正迅速展開。
在 ODCC 的演講中,平頭哥展示了憶恒創(chuàng)源、得瑞領(lǐng)新、佰維存儲和長江萬潤幾家重點合作企業(yè),其中既有國內(nèi)企業(yè)級 SSD 頭部廠商,也有在全系存儲都有布局的龍頭企業(yè)。涉及領(lǐng)域不僅是工業(yè)級存儲,也包括消費級、車規(guī)級。
平頭哥和憶恒創(chuàng)源的合作開始得最早,進(jìn)展也最為迅速——憶恒創(chuàng)源推出了基于平頭哥主控芯片的全國產(chǎn)企業(yè)級 SSD 產(chǎn)品 PBlaze7 7A40。平頭哥作為核心芯片供應(yīng)商,與下游 SSD 制造商等企業(yè)協(xié)同,共同打造全國產(chǎn)化存儲解決方案的生態(tài)路徑。
有平頭哥技術(shù)專家進(jìn)一步解釋了這種生態(tài)合作的方式:作為半導(dǎo)體公司,平頭哥會與行業(yè)內(nèi)開發(fā) SSD 模組的公司進(jìn)行重點合作,提供芯片、軟件使用手冊,硬件指南,詳盡的技術(shù)支持,幫助合作伙伴更快的開發(fā)產(chǎn)品。
而到了 2025 年,這種合作模式已經(jīng)初見成效,使平頭哥的先進(jìn)芯片,能夠快速形成實際的硬件解決方案,走到最終客戶面前。中國硬科技企業(yè)在生態(tài)構(gòu)建上不斷進(jìn)步,從主控芯片、閃存顆粒,到 SSD 產(chǎn)品設(shè)計與制造,再到廣泛應(yīng)用,一個內(nèi)循環(huán)的產(chǎn)業(yè)鏈條已經(jīng)形成了。
市場對國產(chǎn)高端產(chǎn)品的接受度,固然還有改善空間,但對于掌握了核心技術(shù)的平頭哥來說,完全可以將其交給時間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.