在當(dāng)今數(shù)字化時(shí)代,AI的發(fā)展可謂日新月異。大模型訓(xùn)練的熱潮尚未消退,AI推理體驗(yàn)卻已悄然成為AI應(yīng)用的關(guān)鍵。
隨著AI 產(chǎn)業(yè)已從“追求模型能力的極限” 轉(zhuǎn)向“追求推理體驗(yàn)的最優(yōu)化”,推理體驗(yàn)直接關(guān)聯(lián)用戶滿意度、商業(yè)可行性等,成為了衡量模型價(jià)值的黃金標(biāo)尺。
中信建投在2025WAIC期間發(fā)布的白皮書指出,AI正從訓(xùn)練向推理的結(jié)構(gòu)性轉(zhuǎn)變而快速增長(如國內(nèi)某頭部互聯(lián)網(wǎng)公司每三個(gè)月Token消耗接近翻一倍,5月底為16.4萬億Token)。在這樣的大背景下,AI推理體驗(yàn)的重要性愈發(fā)凸顯。
推理體驗(yàn)直接關(guān)系到用戶與AI交互時(shí)的感受,包括回答問題的時(shí)延、答案的準(zhǔn)確度以及復(fù)雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶輸出速度已進(jìn)入200 Tokens/s區(qū)間(時(shí)延 5ms),而我國普遍小于60Tokens/s(時(shí)延50 - 100ms),如何解決推理效率與用戶體驗(yàn)的難題迫在眉睫。
據(jù)《鳳凰WEEKLY財(cái)經(jīng)》了解,8月12日華為將發(fā)布的AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),作為一款以KV Cache為中心的推理加速套件,融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴(kuò)大推理上下文窗口,以實(shí)現(xiàn)高吞吐、低時(shí)延的推理體驗(yàn),降低每Token推理成本。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.