“AI的落地速度,卡在了存儲(chǔ)調(diào)度上?
在WAIC 2025世界人工智能大會(huì)上,一則不算喧嘩卻極具分量的技術(shù)發(fā)布引發(fā)了產(chǎn)業(yè)鏈的密切關(guān)注:中國(guó)移動(dòng)聯(lián)合曙光存儲(chǔ),正式啟動(dòng)“算力中心的全局統(tǒng)一文件存儲(chǔ)產(chǎn)品落地應(yīng)用”,即國(guó)內(nèi)首個(gè)智能存力跨域調(diào)度平臺(tái)的正式落地。
這個(gè)節(jié)點(diǎn)并非偶然。大會(huì)一邊是“百模大戰(zhàn)”、大模型“全面出?!保硪贿厖s頻現(xiàn)“卡頓與瓶頸”。
問(wèn)題的根源,已經(jīng)不僅僅是“算力不夠”,更是“存力卡住算力”。
這是AI系統(tǒng)的隱形短板,也是決定大模型能否快速大規(guī)模落地的核心基礎(chǔ)設(shè)施問(wèn)題。而本次WAIC的發(fā)布,正是AI新基建路線圖中,“存力”走向臺(tái)前、躍升為戰(zhàn)略資源的重要標(biāo)志。
算力之后,存力加入“AI地基”陣營(yíng)
過(guò)去幾年,AI系統(tǒng)基礎(chǔ)設(shè)施的關(guān)鍵詞幾乎可以用四個(gè)字總結(jié):“加卡擴(kuò)機(jī)”。但隨著大模型從單點(diǎn)訓(xùn)練邁向多模態(tài)、多中心、大規(guī)模迭代的新階段,“只靠算力堆疊”的擴(kuò)容方式正遭遇物理極限與結(jié)構(gòu)性瓶頸。
很多行業(yè)早已發(fā)現(xiàn),GPU再?gòu)?qiáng),如果存力跟不上、數(shù)據(jù)進(jìn)不來(lái),那就只能“空轉(zhuǎn)”。AI真正的性能,不再只取決于算多少,還要看數(shù)據(jù)流得有多快、能不能在恰當(dāng)?shù)臅r(shí)間調(diào)度到恰當(dāng)?shù)奈恢谩?/p>
曙光存儲(chǔ)副總裁張新鳳指出:“GPU在等數(shù)據(jù)”,而不是“數(shù)據(jù)在等GPU”,已經(jīng)成為大量AI集群運(yùn)行時(shí)的普遍現(xiàn)象。初步測(cè)算表明:每增加1元的“存力”支出,可為AI系統(tǒng)節(jié)省10元的算力開銷。
也就是說(shuō),存力不僅僅是配角,更有望成為AI基建體系中“最具性價(jià)比的變量”。
而且,在平臺(tái)化演進(jìn)中,存儲(chǔ)資源正經(jīng)歷三大轉(zhuǎn)變:
趨勢(shì)一:資源碎片嚴(yán)重,調(diào)度智能化成必選項(xiàng)
AI訓(xùn)練數(shù)據(jù)的來(lái)源、格式和分布越來(lái)越復(fù)雜,尤其在政企、工業(yè)、科研等場(chǎng)景中,冷熱數(shù)據(jù)交雜、結(jié)構(gòu)化與非結(jié)構(gòu)化并存,且常常分布在多地、多廠商的存儲(chǔ)設(shè)備上,已無(wú)法高效完成統(tǒng)一供給。
這就對(duì)平臺(tái)的“資源整合調(diào)度能力”提出全新要求:能否跨區(qū)域統(tǒng)一納管?是否支持協(xié)議自動(dòng)轉(zhuǎn)換?數(shù)據(jù)調(diào)度是否具備智能化識(shí)別能力?這不僅影響訓(xùn)練能否完成,更決定AI的ROI能否跑得通。
趨勢(shì)二:大模型對(duì)“數(shù)據(jù)流速”提出極致要求
在實(shí)際訓(xùn)練中,AI集群規(guī)模動(dòng)輒成百上千張卡,如果存儲(chǔ)系統(tǒng)性能不足,就會(huì)出現(xiàn)“GPU排隊(duì)等數(shù)據(jù)”的尷尬局面。這個(gè)問(wèn)題,不是“買更多硬盤”就能解決,而是取決于數(shù)據(jù)在集群中的傳輸效率、調(diào)度優(yōu)先級(jí)與IO管控機(jī)制。
尤其在“東數(shù)西算”等工程背景下,數(shù)據(jù)流動(dòng)從跨機(jī)房變成跨省級(jí)域,傳統(tǒng)靜態(tài)部署方式完全無(wú)法滿足這種高頻、彈性、低延遲的需求。
如曙光存儲(chǔ)副總裁楊志雷所言:“AI的本質(zhì)是‘?dāng)?shù)據(jù)驅(qū)動(dòng)的計(jì)算’,很多時(shí)候,存力調(diào)度效率就等于模型訓(xùn)練效率?!?/p>
趨勢(shì)三:從“買硬件”到“調(diào)資源”的服務(wù)化供給
越來(lái)越多的AI用戶開始轉(zhuǎn)向“平臺(tái)即服務(wù)”模式使用存儲(chǔ)。冷數(shù)據(jù)進(jìn)入歸檔池、熱數(shù)據(jù)駐留高性能節(jié)點(diǎn)、臨時(shí)訓(xùn)練數(shù)據(jù)彈性調(diào)度,這些動(dòng)作都需要存儲(chǔ)系統(tǒng)具備資源感知+智能策略+成本控制的能力。
換句話說(shuō),未來(lái)的AI系統(tǒng),必須有一個(gè)“智能數(shù)據(jù)中樞”,能夠感知業(yè)務(wù)負(fù)載、動(dòng)態(tài)規(guī)劃帶寬、甚至提前預(yù)測(cè)訓(xùn)練所需的數(shù)據(jù)路徑與資源結(jié)構(gòu)。
智能存力調(diào)度平臺(tái),曙光存儲(chǔ)打了個(gè)樣
面對(duì)這種趨勢(shì),中國(guó)移動(dòng)與曙光存儲(chǔ)在WAIC 2025共同推出的“智能存力調(diào)度平臺(tái)”,給出了業(yè)界第一個(gè)體系化實(shí)踐范式。
這個(gè)平臺(tái),不只是技術(shù)組件拼裝,而是一個(gè)覆蓋全國(guó)、支持跨異構(gòu)、多中心、高性能調(diào)度的數(shù)據(jù)中控系統(tǒng)。首批部署于長(zhǎng)三角、成渝、內(nèi)蒙古、貴州等國(guó)家級(jí)算力樞紐,覆蓋7大存力資源池,支持8類主流AI芯片架構(gòu),并高度契合“東數(shù)西算”“全國(guó)算力一體化”國(guó)家戰(zhàn)略。
曙光將其定義為“AI系統(tǒng)的智能神經(jīng)網(wǎng)絡(luò)”,并將調(diào)度能力拆解為四個(gè)核心能力模塊:
核心能力一:全局統(tǒng)一調(diào)度 —— 打破資源孤島
傳統(tǒng)多地訓(xùn)練中心各自為政、存儲(chǔ)分散,形成數(shù)據(jù)孤島。而曙光平臺(tái)可通過(guò)標(biāo)準(zhǔn)接口、統(tǒng)一協(xié)議適配層,將各地存儲(chǔ)節(jié)點(diǎn)、不同品牌設(shè)備、異構(gòu)系統(tǒng)統(tǒng)籌接入,實(shí)現(xiàn)跨域、跨池、跨平臺(tái)的統(tǒng)一納管與策略調(diào)度。
更關(guān)鍵的是,它還能根據(jù)業(yè)務(wù)特性做“帶寬重排”,動(dòng)態(tài)調(diào)整不同訓(xùn)練任務(wù)所需IO資源。
核心能力二:冷熱數(shù)據(jù)智能分級(jí) —— 提效降本,系統(tǒng)自驅(qū)
平臺(tái)通過(guò)對(duì)數(shù)據(jù)訪問(wèn)頻率與模型階段的持續(xù)監(jiān)控,自動(dòng)判定哪些是“高頻訓(xùn)練調(diào)用”,哪些是“歷史歸檔”。再通過(guò)冷熱分級(jí)策略,將熱數(shù)據(jù)優(yōu)先調(diào)度至近端高性能SSD節(jié)點(diǎn),冷數(shù)據(jù)則遷移至遠(yuǎn)端成本更低的對(duì)象存儲(chǔ)/歸檔池。
這不僅實(shí)現(xiàn)了訓(xùn)練提速30%+,還有效降低了企業(yè)的整體TCO。據(jù)介紹,某項(xiàng)目落地后,整體存儲(chǔ)成本下降超過(guò)40%。
核心能力三:跨域無(wú)感流動(dòng),構(gòu)筑“東數(shù)西算”真實(shí)底座
AI系統(tǒng)的跨區(qū)域訓(xùn)練越來(lái)越常態(tài)化,但數(shù)據(jù)的跨域傳輸過(guò)去常受限于帶寬、延遲、業(yè)務(wù)中斷等問(wèn)題。智能存力調(diào)度平臺(tái)通過(guò)自研的數(shù)據(jù)路徑感知系統(tǒng)與并發(fā)鏈路機(jī)制,實(shí)現(xiàn)了數(shù)據(jù)在訓(xùn)練過(guò)程中的無(wú)感知遷移與實(shí)時(shí)帶寬調(diào)度。
如某客戶在華東部署推理業(yè)務(wù),訓(xùn)練任務(wù)卻可同步遷移至西部資源池,前臺(tái)服務(wù)完全不受影響。這一能力,為“東數(shù)西算”提供了可靠的數(shù)據(jù)底座。
核心能力四:協(xié)同芯片層革新,讓GPU不再空轉(zhuǎn)
曙光存儲(chǔ)基于超前技術(shù)預(yù)判,打造“超級(jí)隧道HyperTunnel”技術(shù)了,構(gòu)建超低阻數(shù)據(jù)基礎(chǔ)設(shè)施,支持具身智能加速升級(jí)算法,充分利用多模態(tài)大模型,開辟機(jī)器人“大腦”、“小腦”加速進(jìn)化的新方法。
以具身智能訓(xùn)練為例,其以190GB/s帶寬,500萬(wàn) IOPS,使AI訓(xùn)練速度提升4倍,有效支撐智元機(jī)器人模型迭代。
需要指出的是,這個(gè)平臺(tái)不是PPT,是已經(jīng)跑起來(lái)的落地樣板。
目前,平臺(tái)調(diào)度技術(shù)已在多個(gè)高密度場(chǎng)景中完成部署并驗(yàn)證:
·自動(dòng)駕駛: 為車企打造100PB訓(xùn)練資源池,訓(xùn)練效率提升超40%,模型迭代周期顯著縮短;
·具身智能: 支撐智元機(jī)器人平臺(tái)跨域高并發(fā)訓(xùn)練,提供500GB/s聚合帶寬;
·科研與AIGC: 通過(guò)自研元數(shù)據(jù)系統(tǒng)支持千億級(jí)小文件高效調(diào)度,提升渲染與科研數(shù)據(jù)處理效率數(shù)倍。
正如曙光存儲(chǔ)副總裁楊志雷所言,這不是一個(gè)新產(chǎn)品,而是“會(huì)思考、能調(diào)度、能進(jìn)化”的AI數(shù)據(jù)中控系統(tǒng)。
智能存力調(diào)度平臺(tái),是提前建設(shè)“AI糧倉(cāng)”
存儲(chǔ)曾是系統(tǒng)中“沉默”的一環(huán),如今已變?yōu)锳I系統(tǒng)的數(shù)據(jù)起點(diǎn)與協(xié)同中樞。從“數(shù)據(jù)倉(cāng)庫(kù)”到“數(shù)據(jù)調(diào)度大腦”,存力平臺(tái)正重構(gòu)AI基礎(chǔ)設(shè)施的邏輯。
那么,它有什么用呢?我們覺得,在以下方面將有重要價(jià)值:
一是降低門檻,讓AI可被普惠。
傳統(tǒng)AI部署動(dòng)輒上億,中小企業(yè)望而卻步。曙光平臺(tái)通過(guò)資源池化和服務(wù)化部署,支持“以租代建”“彈性調(diào)用”,用小得多的成本,即可用上高性能存力,大幅降低AI使用門檻。
二是提升效率,讓AI落得更實(shí)。
針對(duì)多模態(tài)訓(xùn)練、高密度并發(fā)等典型場(chǎng)景,平臺(tái)通過(guò)冷熱智能分級(jí)、動(dòng)態(tài)調(diào)度等機(jī)制,實(shí)現(xiàn)訓(xùn)練效率30%-50%提升,尤其在自動(dòng)駕駛、醫(yī)療、智算教育等領(lǐng)域價(jià)值顯著。
三是保障自主可控,夯實(shí)中國(guó)AI底座。
智能存力調(diào)度平臺(tái),全棧自研、兼容開放,應(yīng)用的存儲(chǔ)產(chǎn)品均處于全球第一梯隊(duì),為調(diào)度平臺(tái)提供高性能底座。它不僅打破技術(shù)壁壘,更構(gòu)建起面向未來(lái)的“AI糧倉(cāng)”。
當(dāng)大模型進(jìn)入實(shí)際落地階段,系統(tǒng)瓶頸早已從“算不動(dòng)”轉(zhuǎn)向“調(diào)不動(dòng)”。誰(shuí)能把資源存得下、調(diào)得順、數(shù)據(jù)用得快,誰(shuí)才有資格跑進(jìn)AI的深水區(qū)。
從WAIC 2025可以看到,AI的下一個(gè)臨界點(diǎn),不在模型參數(shù)里,而在數(shù)據(jù)路徑上。曙光存儲(chǔ)正通過(guò)“智能存力調(diào)度平臺(tái)”描繪出一條從“堆資源”到“調(diào)系統(tǒng)”的演進(jìn)路線。
AI系統(tǒng)的“含智量”,終將由它背后的“存力地基”來(lái)決定。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.