圖片系A(chǔ)I生成
8月12日,華為發(fā)布AI推理創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動(dòng)AI推理體驗(yàn)升級,提升推理性價(jià)比,加速AI商業(yè)正循環(huán)。同時(shí),華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點(diǎn)應(yīng)用,并聯(lián)合發(fā)布智慧金融AI推理加速方案應(yīng)用成果。
UCM推理記憶數(shù)據(jù)管理器,包括對接不同引擎與算力的推理引擎插件(Connector)、支持多級KV Cache管理及加速算法的功能庫(Accelerator)、高性能KV Cache存取適配器(Adapter)三大組件,通過推理框架、算力、存儲三層協(xié)同,實(shí)現(xiàn)AI推理“更優(yōu)體驗(yàn)、更低成本”。
AI推理:既不夠快,也不夠便宜
從行業(yè)視角觀察,大模型的重心正在從訓(xùn)練轉(zhuǎn)向推理。相關(guān)行業(yè)數(shù)據(jù)顯示,當(dāng)前推理算力需求已超過訓(xùn)練(58.5%)。GPT-5開放首周20 億次/分鐘,70%的請求為復(fù)雜任務(wù)推理(如代碼生成、多步規(guī)劃);而國內(nèi)火山引擎的日均token調(diào)用量已達(dá)16.4萬億,其中70%以上來自線上推理而非訓(xùn)練。
與此同時(shí),大模型行業(yè)總會(huì)頻繁出現(xiàn)一個(gè)現(xiàn)象,一旦出現(xiàn)了一種火熱的新模型,該服務(wù)商的服務(wù)在一段時(shí)間會(huì)處于不太穩(wěn)定的狀態(tài),這是因?yàn)榇罅坑脩粼L問需求之下,服務(wù)商需要通過計(jì)算、存儲等優(yōu)化措施,降低它的推理成本,并且降本的同時(shí)不能影響用戶體驗(yàn)。
比如GPT-5發(fā)布就引起不少用戶詬病,通過智能路由降低后臺的算力成本,但是路由規(guī)劃的效果出現(xiàn)了偏差,用戶使用時(shí)頻繁出現(xiàn)了“降智”效果,海內(nèi)外用戶吐槽非常多。
此外,由于在基礎(chǔ)設(shè)施投資領(lǐng)域的差距,中國互聯(lián)網(wǎng)在AI基礎(chǔ)設(shè)施上的投資僅是美國的十分之一,疊加如算力卡閹割、算力卡漲價(jià)、HBM漲價(jià)等一系列因素,中國AI推理發(fā)展難上加難。
中國互聯(lián)網(wǎng)大模型首Token時(shí)延普遍慢于海外互聯(lián)網(wǎng)頭部的首Token時(shí)延,每秒或者一定時(shí)間內(nèi)推理的Token數(shù)也遠(yuǎn)小于海外頭部互聯(lián)網(wǎng)廠商。
國外主流大模型輸出速度為200 tokens/s區(qū)間(時(shí)延5ms),而中國普遍小于60 tokens/s(時(shí)延50~100ms),最大差距達(dá)到10倍。在上下文窗口上,海外模型普遍支持100萬級Token(如GPT-5、Claude 3.5),而國內(nèi)頭部(Kimi)僅50萬,且在長文本分析中,國內(nèi)模型遺漏關(guān)鍵信息的概率超50%。
行業(yè)通常用增加顯存、內(nèi)存的方式,提升AI推理的效率和性能,但是很多業(yè)界方案只關(guān)注基礎(chǔ)設(shè)施層,即分層流動(dòng)/開啟管理,在整個(gè)算法加速庫上缺少系列場景化加速算法、套件以及開放第三方庫等舉措,即缺少一套“推理框架、算力、存儲三層協(xié)同”的方案。
以存代算,首token延遲降低90%
華為公司副總裁、數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰解釋,以人的思考和大模型作對比,思考能力和記憶能力強(qiáng)相關(guān),AI推理系統(tǒng)也一樣的。整個(gè)AI推理系統(tǒng)當(dāng)中,記憶功能往往有三部分,高性能的緩存(HBM),中間是內(nèi)存(DRAM),這兩部分基本上在智算服務(wù)器當(dāng)中。第三部分是過去沒有得到利用的專業(yè)共享存儲。
UCM主要分為三部分:頂層和業(yè)界流行的推理框架對接,稱為“連接器”,它會(huì)連接業(yè)界普遍流行的推理引擎框架,包括華為的MindiE、SGLang等等,與目前推理框架進(jìn)行協(xié)同。
中間部分是加速程序,對于緩存記憶數(shù)據(jù)進(jìn)行分級緩存管理的算法程序,運(yùn)行在智算服務(wù)器當(dāng)中。
另外一部分是和專業(yè)共享存儲相結(jié)合的協(xié)同器,這個(gè)協(xié)同器(適配器)可以提升專業(yè)存儲直通的效率和降低時(shí)延,可以讓三級存儲協(xié)同起來。
通俗解釋,首先,華為通過UCM,將歷史已處理過的結(jié)果、歷史對話、語料庫、RAG知識庫的數(shù)據(jù)以KV Cache的形式緩存至第三層的高性能外置共享存儲上,遇到已推理過、已緩存過的信息就不需要重新推理了,而是只用從外置存儲中查詢并調(diào)用即可,實(shí)現(xiàn)大幅推理加速,將首token延遲降低90%、也節(jié)省了token by token的時(shí)間。
在過去,這些數(shù)據(jù)量通常較大、達(dá)到PB級,僅依賴HBM和DRAM這樣幾十GB、最多TB級的小容量是存不下來的,導(dǎo)致推理頻繁出現(xiàn)“失憶”,需要GPU反復(fù)計(jì)算、造成卡頓遲緩。而且過去HBM又貴又小、且與GPU卡強(qiáng)綁定,靠堆卡的形式普通企業(yè)根本買不起,只有被迫接受“重復(fù)造輪子”的低效方式。
在此基礎(chǔ)上,大模型能積累越來越多的歷史對話、歷史內(nèi)容,就變相地增加了知識豐富度和廣度,讓需要全新計(jì)算的比例越來越少,簡化計(jì)算復(fù)雜度,大模型也就越來越快、越來越聰明,如此解決“推得慢”的問題。
其次,當(dāng)推理任務(wù)越來越長、越來越復(fù)雜,長序列推理會(huì)讓大模型經(jīng)常出現(xiàn)“只有七秒鐘的記憶”。比如,在分析一篇萬字長文時(shí),由于HBM容量有限,僅緩存到前2000字就裝不下了,這樣就容易出現(xiàn)推理失敗、關(guān)鍵關(guān)聯(lián)信息丟失的情況。
華為UCM通過一系列智能的算法,對長序列內(nèi)容進(jìn)行切片,并把已處理的切片卸載到更大的DRAM或外置共享存儲,這就變相擴(kuò)充了HBM的容量,讓上下文窗口擴(kuò)大10倍、滿足長序列推理需求。
此外,華為采用了注意力稀疏技術(shù)及相關(guān)技術(shù),可以識別這些大量KV Cache數(shù)據(jù)的重要程度、相關(guān)性和熱度,將重要的/不重要的、相關(guān)的/不相關(guān)的數(shù)據(jù)分層分級地進(jìn)行緩存并流動(dòng)。在下一次推理過程中,只需要把關(guān)鍵的、合適的向量提取出來即可,這也就降低了向量推理過程中向量的數(shù)量,提升整體吞吐量,如此解決“推不動(dòng)”的問題。
在無需過多投資的情況下,UCM讓長序列場景下TPS(每秒處理token數(shù))提升2-22倍,相當(dāng)于降低每Token推理成本,企業(yè)可以繼續(xù)維持算力不變,僅花銷小部分外置存儲的投資、讓緩存原地“升級”,從而改善推理效率、攤薄每token推理成本,解決“推得貴”的問題。
已在中國銀聯(lián)落地,9月將開源
金融行業(yè)是擁抱大模型較為快速的行業(yè)之一,對于新技術(shù)的需求也十分迫切。金融AI規(guī)?;涞氐暮诵钠款i在于高成本、高延遲、高依賴,金融級應(yīng)用需微秒級響應(yīng),而卡頓、延遲直接影響風(fēng)控與交易安全,因此AI推理的效果至關(guān)重要。
中國銀聯(lián)智能化創(chuàng)新中心副總經(jīng)理?xiàng)钛嗝鞅硎?,通過分析來自客服、工單等數(shù)據(jù)發(fā)現(xiàn)以下痛點(diǎn):金融產(chǎn)品、金融服務(wù)的種類多、場景復(fù)雜,在問題進(jìn)行分類時(shí)相當(dāng)困難;用戶反饋內(nèi)容繁雜的、冗長,導(dǎo)致難以分析原因。
中國銀聯(lián)嘗試使用大模型技術(shù)解決這些問題,通常的解決方案是,將問題進(jìn)行標(biāo)簽化,構(gòu)建起一系列的問題標(biāo)簽,結(jié)合客戶對話內(nèi)容進(jìn)行切片,喂給大語言模型進(jìn)行處理,希望通過大語言模型幫助解決分類問題。
但隨之發(fā)現(xiàn)了新的技術(shù)挑戰(zhàn),首先它是一個(gè)多次推理,推理時(shí)間非常長,一通電話或者一個(gè)服務(wù),需要長達(dá)15分鐘的分析時(shí)間;第二因?yàn)闃?biāo)簽數(shù)量太多,分析準(zhǔn)確性非常低,無法應(yīng)用生產(chǎn)。
中國銀聯(lián)聯(lián)合華為開展了推理性能的技術(shù)攻關(guān),與華為存儲團(tuán)隊(duì)、算力先遣隊(duì)、業(yè)務(wù)專家一起組合了聯(lián)合創(chuàng)新小組,經(jīng)過一系列嘗試,提出了引入存儲的KV Cache的加速方案,滿足實(shí)際的業(yè)務(wù)需求。
采用KV Cache的方案,通使整個(gè)運(yùn)算方式從推理運(yùn)算,變?yōu)椴檎疫\(yùn)算和推理運(yùn)算相結(jié)合的方式,避免了大量重復(fù)推理,加速整個(gè)推理過程,實(shí)際效果標(biāo)簽分類的推理時(shí)間從原來的600秒,下降到10秒內(nèi),提升了50倍以上,標(biāo)簽分類準(zhǔn)確率從不到10%上升到80%,整個(gè)效果達(dá)到生產(chǎn)預(yù)期。
華為也公布了UCM開源計(jì)劃。UCM通過開放統(tǒng)一的南北向接口,可適配多類型推理引擎框架、算力及存儲系統(tǒng)。今年9月,UCM將正式開源,后續(xù)逐步貢獻(xiàn)給業(yè)界主流推理引擎社區(qū)。
華為相關(guān)專家表示,IT行業(yè)產(chǎn)品先行,標(biāo)準(zhǔn)隨后。華為希望通過UCM這樣一套開源的方式,能夠讓更多的廠商、業(yè)界存儲伙伴加入,能夠在推理加速推動(dòng)標(biāo)準(zhǔn)落地,這是一個(gè)共創(chuàng)標(biāo)準(zhǔn)的過程,共同在開源社區(qū)孵化成熟,真正形成標(biāo)準(zhǔn),才能真正解決今天看到的推理體驗(yàn)和推理成本的問題(本文首發(fā)于鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達(dá))
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.