《科創(chuàng)板日?qǐng)?bào)》8月12日訊(記者 黃心怡)華為今日發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器)。作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級(jí)管理推理過(guò)程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。
據(jù)悉,華為計(jì)劃于2025年9月正式開(kāi)源UCM,屆時(shí)將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。
IDC預(yù)測(cè),到2027年中國(guó)智能算力中,推理算力占比將從2023年的41%左右上升到72.6%左右。中國(guó)信息通信研究院人工智能研究所平臺(tái)與工程化部主任曹峰表示,大模型推理需求爆發(fā)。一方面大模型服務(wù)調(diào)用量、推理計(jì)算量將翻倍,另一方面大模型推理算力供給將超過(guò)訓(xùn)練,基礎(chǔ)設(shè)施重心將逐步向推理偏移。
不過(guò),當(dāng)前AI推理應(yīng)用落地過(guò)程中存在推不動(dòng)、推得慢、推得貴等問(wèn)題。華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線總裁周躍峰舉例:中國(guó)互聯(lián)網(wǎng)大模型的首Token時(shí)延普遍慢于海外互聯(lián)網(wǎng)頭部的首Token時(shí)延,海外頭部大模型的推理吞吐率也要遠(yuǎn)高于中國(guó)。因此,如何改進(jìn)推理系統(tǒng)的效率和體驗(yàn)是重要課題。這也是華為此次推出UCM推理記憶數(shù)據(jù)管理器的原因。
據(jù)介紹,UCM推理記憶數(shù)據(jù)管理器已經(jīng)在中國(guó)銀聯(lián)的客戶服務(wù)、營(yíng)銷策劃、辦公會(huì)議等業(yè)務(wù)場(chǎng)景中,開(kāi)展AI推理加速應(yīng)用試點(diǎn)。
華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線副總裁、閃存領(lǐng)域總裁謝黎明表示,從銀行業(yè)來(lái)看,不管是生產(chǎn)環(huán)境的投研分析,還是輿情分析也好,都會(huì)涉及到非常多的長(zhǎng)序列輸入?!氨热缫环萃堆袌?bào)告就是上兆級(jí)別,精準(zhǔn)營(yíng)銷所需要輸入的上下文也是長(zhǎng)序列,所以推不動(dòng)這個(gè)問(wèn)題經(jīng)常出現(xiàn)。其次是推得慢的問(wèn)題,核心就是并發(fā)上不去,上去之后每Token時(shí)延特別長(zhǎng)。另外推得貴,原因是需要耗費(fèi)大量的算力?!?/p>
華為數(shù)據(jù)存儲(chǔ)產(chǎn)品線AI存儲(chǔ)首席架構(gòu)師李國(guó)杰進(jìn)一步解釋,不管是行業(yè)調(diào)研報(bào)告、公司財(cái)務(wù)信息以及其他公開(kāi)信息,都是超長(zhǎng)上下文的多源信息匯聚。隨著邁向Agentic AI(代理式AI),這些信息會(huì)拆成很多步,逐步地深度挖掘,最終給出一個(gè)專業(yè)的趨勢(shì)判斷和報(bào)告。這對(duì)顯存、計(jì)算量都會(huì)有很大的壓力。
推理體驗(yàn)和推理成本,將成為未來(lái)AI行業(yè)化落地的一大阻礙?!?strong>到了Agentic AI時(shí)代,Token消費(fèi)相比以前是百萬(wàn)級(jí)的,成本過(guò)高意味著落地就沒(méi)有了一個(gè)基本的前提,沒(méi)有人用得起。”謝黎明稱。
談及AI的發(fā)展趨勢(shì),李國(guó)杰認(rèn)為,模型智能轉(zhuǎn)向數(shù)據(jù)智能,這在專業(yè)領(lǐng)域已基本成為共識(shí)。未來(lái),華為會(huì)基于UCM構(gòu)筑更多的Agentic AI能力,以及多模檢索和數(shù)據(jù)湖的能力等等。
“從GPT5的發(fā)布可以看到,傳統(tǒng)的Scaling Law模式已經(jīng)遇到瓶頸。從應(yīng)用需求的角度來(lái)講,客戶開(kāi)始關(guān)注AI的商業(yè)循環(huán)和商業(yè)變現(xiàn),更關(guān)注體驗(yàn)。從技術(shù)驅(qū)動(dòng)的角度,當(dāng)模型的智能水平遇到瓶頸,會(huì)系統(tǒng)化地轉(zhuǎn)向數(shù)據(jù)智能。因?yàn)槠浔举|(zhì)原因是缺少高質(zhì)量數(shù)據(jù),大量用AI合成數(shù)據(jù)、數(shù)據(jù)荒以及數(shù)據(jù)質(zhì)量的問(wèn)題,都會(huì)成為新的產(chǎn)業(yè)研究焦點(diǎn)?!?/p>
華為計(jì)劃于今年9月份開(kāi)源UCM,目前已有訊飛等生態(tài)伙伴加入。李國(guó)杰透露,“很多政府行業(yè)、金融行業(yè)、制造行業(yè)等客戶,已經(jīng)使用起來(lái)。我們會(huì)與更多的基礎(chǔ)設(shè)施和生態(tài)伙伴一起共建,也會(huì)與更多具有非常典型性或者行業(yè)性的客戶,一起共建?!?/p>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.