8月12日,華為正式發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器)。據(jù)了解,作為一款以KV Cache為中心的推理加速套件,UCM融合了多類(lèi)型緩存加速算法工具,分級(jí)管理推理過(guò)程中產(chǎn)生的KV Cache記憶數(shù)據(jù),可擴(kuò)大推理上下文窗口,實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。該技術(shù)已率先在中國(guó)銀聯(lián)“客戶(hù)之聲”“營(yíng)銷(xiāo)策劃”“辦公助手”三大業(yè)務(wù)場(chǎng)景中,開(kāi)展智慧金融AI推理加速應(yīng)用試點(diǎn),并已取得成果。
華為計(jì)劃于2025年9月正式開(kāi)源UCM,屆時(shí)將在魔擎社區(qū)首發(fā),后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū),并共享給業(yè)內(nèi)所有Share Everything(共享架構(gòu))存儲(chǔ)廠商和生態(tài)伙伴。
圖片來(lái)源:每日經(jīng)濟(jì)新聞 資料圖
據(jù)悉,UCM可根據(jù)記憶熱度在HBM、DRAM、SSD等存儲(chǔ)介質(zhì)中實(shí)現(xiàn)按需流動(dòng),同時(shí)融合多種稀疏注意力算法實(shí)現(xiàn)存算深度協(xié)同,使長(zhǎng)序列場(chǎng)景下TPS(每秒處理token數(shù))提升2至22倍,從而降低每個(gè)Token的推理成本。
Token是AI模型中的基本數(shù)據(jù)單位。在訓(xùn)練過(guò)程中,AI大模型會(huì)學(xué)習(xí)標(biāo)記Token之間的關(guān)系,從而執(zhí)行推理并生成準(zhǔn)確、相關(guān)的輸出。
數(shù)據(jù)顯示,國(guó)外主流AI大模型的單用戶(hù)輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延5ms),而我國(guó)主流AI大模型的單用戶(hù)輸出速度普遍小于60 Tokens/s(時(shí)延50至100ms)。
每日經(jīng)濟(jì)新聞綜合自公開(kāi)信息
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.