夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大阿里聯(lián)手破局算力浪費(fèi)難題,讓單個(gè)GPU最多支持7個(gè)模型

0
分享至

每個(gè) GPU 最多可以支持 7 個(gè)模型、10 個(gè)模型所需 GPU 數(shù)量從 1192 個(gè)減至 213 個(gè)、最終節(jié)約高達(dá) 82% 的 GPU 資源——這便是由北京大學(xué)團(tuán)隊(duì)和阿里巴巴團(tuán)隊(duì)提出的名為 Aegaeon 的多模型服務(wù)系統(tǒng)實(shí)現(xiàn)的效果。相關(guān)論文發(fā)表于由美國(guó)計(jì)算機(jī)協(xié)會(huì)主辦的國(guó)際頂會(huì) 2025 年操作系統(tǒng)原理研討會(huì)(SOSP,Symposium on Operating Systems Principles)上,阿里云 CTO 周靖人也是相關(guān)論文的作者之一。


圖 | 相關(guān)論文(來(lái)源:https://dl.acm.org/doi/pdf/10.1145/373)

Aegaeon 能在 token 粒度上執(zhí)行模型自動(dòng)擴(kuò)縮容,從而能夠?qū)崿F(xiàn)有效的 GPU 池化(一種通過(guò)虛擬化技術(shù)將物理 GPU 資源動(dòng)態(tài)分配給多個(gè)模型使用的管理方法)。它以每個(gè) token 為基礎(chǔ)來(lái)調(diào)度多模型請(qǐng)求,并能做出自動(dòng)擴(kuò)縮容決策,從而可以實(shí)現(xiàn)服務(wù)質(zhì)量的最大化。它通過(guò)組件重用、顯式內(nèi)存管理和細(xì)粒度鍵值(KV,Key-Value)緩存同步,將自動(dòng)擴(kuò)縮容開(kāi)銷降低了 97%。

實(shí)驗(yàn)表明,與現(xiàn)有解決方案相比,Aegaeon 能維持高出 2 倍–2.5 的請(qǐng)求到達(dá)率,并能實(shí)現(xiàn)高出 1.5 倍–9 倍的有效吞吐量。目前,Aegaeon 已經(jīng)在阿里云 Model Studio 進(jìn)行 Beta 版部署并已服務(wù)于 10 個(gè)模型。

下圖是 Aegaeon 的架構(gòu)圖,展示了它服務(wù)于多個(gè)模型的過(guò)程。具體來(lái)說(shuō),Aegaeon 先是通過(guò)代理層分發(fā)這些模型,代理層通過(guò)共享內(nèi)存機(jī)制與底層服務(wù)實(shí)例同步請(qǐng)求元數(shù)據(jù),以便確保負(fù)載均衡和容錯(cuò)。Aegaeon 可以將不同模型的請(qǐng)求分發(fā)到同一個(gè)實(shí)例,一旦請(qǐng)求被發(fā)送到某個(gè)實(shí)例,Aegaeon 會(huì)在 token 級(jí)調(diào)度器的指導(dǎo)之下調(diào)度它們的執(zhí)行。


圖 | Aegaeon 的架構(gòu)圖(來(lái)源:https://dl.acm.org/doi/pdf/10.)



解決 token 級(jí)調(diào)度難題,實(shí)現(xiàn)自動(dòng)擴(kuò)縮容成本優(yōu)化

除了實(shí)現(xiàn)上述能力之外,Aegaeon 還解決了以下兩個(gè)技術(shù)問(wèn)題:

一方面,Aegaeon 解決了 token 級(jí)調(diào)度的挑戰(zhàn)。

在 token 級(jí)別執(zhí)行自動(dòng)擴(kuò)縮容的時(shí)候,需要一定的調(diào)度策略來(lái)處理 token 級(jí)執(zhí)行時(shí)間和自動(dòng)擴(kuò)縮容延遲之間復(fù)雜的相互作用,同時(shí)還要滿足服務(wù)等級(jí)目標(biāo)(SLO,Service-Level Objective)要求,因此很難實(shí)現(xiàn)這一問(wèn)題的最優(yōu)解,與此同時(shí)此前人們使用的啟發(fā)式方法很難實(shí)現(xiàn)多方面的平衡。

為此,本次研究人員提出了一個(gè) token 級(jí)調(diào)度器,從而能夠以聯(lián)合的方式調(diào)度請(qǐng)求處理和自動(dòng)擴(kuò)縮容決策。鑒于首個(gè) token 和后續(xù) token 的執(zhí)行時(shí)間和 SLO 的差異比較大,因此研究人員采用了預(yù)填充與解碼階段解耦的架構(gòu),并對(duì)二者進(jìn)行獨(dú)立的調(diào)度和服務(wù)。針對(duì)預(yù)填充階段,他們打造了一個(gè)分組先到先服務(wù)調(diào)度器,以便將每個(gè)請(qǐng)求的首個(gè) token 時(shí)間實(shí)現(xiàn)最小化。

另一方面,Aegaeon 實(shí)現(xiàn)了自動(dòng)擴(kuò)縮容成本優(yōu)化。

盡管自動(dòng)擴(kuò)縮容已經(jīng)得到廣泛研究,但是在本次研究人員的調(diào)查中他們發(fā)現(xiàn),此前已有的解決方案都無(wú)法支持 token 級(jí)的自動(dòng)擴(kuò)縮容,因?yàn)檫@涉及到 KV 緩存換出、顯存碎片整理、引擎重新初始化、KV 緩存換入等一系列超出既有考慮的關(guān)鍵過(guò)程。如果不對(duì)此進(jìn)行優(yōu)化,這一序列可能要耗時(shí)數(shù)十秒左右,從而讓 token 級(jí)方案變得不切實(shí)際。

而 Aegaeon 通過(guò)一系列深度優(yōu)化實(shí)現(xiàn)了高效的 token 級(jí)自動(dòng)擴(kuò)縮容。

具體來(lái)說(shuō):

其一,研究人員針對(duì)推理引擎的初始化步驟進(jìn)行了全面研究,借此識(shí)別并利用了引擎重新初始化中組件重用的機(jī)會(huì);

其二,研究人員針對(duì) GPU 和主機(jī)內(nèi)存進(jìn)行了顯式內(nèi)存管理,借此消除了碎片和顯存碎片整理開(kāi)銷;

其三,研究人員實(shí)現(xiàn)了一種用于傳輸 KV 緩存的細(xì)粒度同步機(jī)制,實(shí)現(xiàn)了更好的執(zhí)行重疊和解耦。



實(shí)現(xiàn)內(nèi)存零碎片,奠定 GPU 池化基石

達(dá)成內(nèi)存零碎片,是 Aegaeon 實(shí)現(xiàn) GPU 池化的基礎(chǔ)。這得益于它的以下特質(zhì):

其一,Aegaeon 擁有自管理的顯存緩沖區(qū)。

為了減少顯存碎片,研究人員在 GPU 上為模型權(quán)重和 KV 緩存完全使用資管理的分配。啟動(dòng)的時(shí)候,Aegaeon 在一次分配中請(qǐng)求所有權(quán)重和 KV 緩存所需的顯存作為一個(gè)自管理緩沖區(qū),留下大約 10% 的空閑內(nèi)存供張量庫(kù)管理使用。

這一緩沖區(qū)使用指針遞增的分配方式運(yùn)行,即通過(guò)遞增指針進(jìn)行連續(xù)分配,并且可以通過(guò)簡(jiǎn)單地重置這一指針立即完成釋放。

在每次的模型擴(kuò)容期間,Aegaeon 使用自定義包裝器類針對(duì)相關(guān)的 Python 類進(jìn)行猴子補(bǔ)丁 Monkey Patch,這些包裝器類由自管理緩沖區(qū)進(jìn)行分配和支持,這樣一來(lái)讓 Aegaeon 能夠繞過(guò)張量庫(kù)的分配機(jī)制,省去了調(diào)用顯存碎片整理的需要。

其二,Aegaeon 能夠?qū)崿F(xiàn)快速的模型加載。

它能通過(guò)將模型檢查點(diǎn)中的原始張量塊緩存在一個(gè)名為“模型緩存”的共享主機(jī)內(nèi)存區(qū)域來(lái)實(shí)現(xiàn)更快的模型加載。此外,每個(gè) GPU 關(guān)聯(lián)一個(gè)專用的“暫存緩沖區(qū)”,以用于在設(shè)備和主機(jī)之間暫存內(nèi)存拷貝。

假如擴(kuò)容模型已經(jīng)緩存在主機(jī)內(nèi)存之中,Aegaeon 可以通過(guò)暫存緩沖區(qū)以多線程的、分塊的、流水線的方式,直接將權(quán)重從模型緩存復(fù)制到 GPU,從而實(shí)現(xiàn)與此前最優(yōu)解決方案相當(dāng)?shù)募虞d時(shí)間。


(來(lái)源:https://dl.acm.org/doi/pdf/10.1145/3731569.3764815)

其三,Aegaeon 也實(shí)現(xiàn)了統(tǒng)一 KV 緩存。

為了解決存儲(chǔ)幾種不同形狀的 KV 緩存時(shí)的內(nèi)存碎片問(wèn)題,Aegaeon 借鑒了經(jīng)典的內(nèi)存管理技術(shù),采用 Slab 分配來(lái)為每個(gè)可能的形狀構(gòu)建統(tǒng)一的 KV 緩存。每個(gè) KV 緩存區(qū)域被劃分為固定大小的塊。每個(gè) Slab 被分配給一個(gè)形狀來(lái)作為這一特定形狀的 KV 緩存塊池,這樣一來(lái)就能在真實(shí)工作負(fù)載中實(shí)現(xiàn)高效的緩存內(nèi)存利用率。

Slab 分配好比是一個(gè)高效的“文具管理員”,它同時(shí)管理著許多盒子,每個(gè)盒子只裝一種特定尺寸的便簽紙,當(dāng)需要某種便簽紙的時(shí)候,它可以直接從對(duì)應(yīng)的盒子里取一張,用完之后再放回原來(lái)的盒子里。



讓 AI 模型服務(wù)從“專線”走向“高速公路”

從本次論文可知,這一成果要解決的痛點(diǎn)是:在 Hugging Face 等模型市場(chǎng)上擁有種類繁多的模型,這些模型的特性和用戶量各不相同。使用專用 GPU 實(shí)例來(lái)服務(wù)并發(fā)推理工作負(fù)載中那些偶發(fā)和不可預(yù)測(cè)的請(qǐng)求,會(huì)導(dǎo)致大量的資源浪費(fèi)。雖然現(xiàn)有的多模型服務(wù)解決方案采用 GPU 池化和無(wú)服務(wù)器計(jì)算來(lái)提高資源效率,但其有效性僅限于每個(gè) GPU,最多支持兩到三個(gè)模型,這對(duì)于充分利用 GPU 資源來(lái)說(shuō)是遠(yuǎn)遠(yuǎn)不夠的。

在 AI 模型爆炸式增長(zhǎng)的今天,各大模型平臺(tái)同時(shí)運(yùn)行著成百上千個(gè)模型,傳統(tǒng)部署方式導(dǎo)致 GPU 資源利用率極低,每個(gè) GPU 往往只能服務(wù) 2-3 個(gè)模型,大量的算力被閑置。而本次研究團(tuán)隊(duì)通過(guò) Aegaeon 實(shí)現(xiàn)的 token 級(jí)自動(dòng)擴(kuò)縮容技術(shù),通過(guò)將調(diào)度粒度細(xì)化到每個(gè)生成單元,在配合全棧優(yōu)化,讓單個(gè) GPU 可以智能地同時(shí)服務(wù)多個(gè)模型。

這一技術(shù)不僅大幅提升了資源利用效率,更為未來(lái)“模型超市”的設(shè)想奠定了基礎(chǔ)。也許未來(lái)人們只需輕點(diǎn)鼠標(biāo),就能在云端瞬間調(diào)用最適合的 AI 模型,無(wú)需擔(dān)心背后的資源調(diào)度難度。

參考資料:

相關(guān)論文 https://dl.acm.org/doi/10.1145/3731569.3764815

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大量生意人將消失,又一批人將崛起!

大量生意人將消失,又一批人將崛起!

水木然
2025-10-20 23:35:38
火箭首戰(zhàn)落敗后雙喜臨門,湯普森未進(jìn)傷病名單,后場(chǎng)老將恢復(fù)迅速

火箭首戰(zhàn)落敗后雙喜臨門,湯普森未進(jìn)傷病名單,后場(chǎng)老將恢復(fù)迅速

謝說(shuō)籃球
2025-10-24 14:42:11
姚明談31歲退役:最后2年傷病已經(jīng)把我身體和意志消磨光

姚明談31歲退役:最后2年傷病已經(jīng)把我身體和意志消磨光

雷速體育
2025-10-24 22:38:27
突發(fā)!川普赦免趙長(zhǎng)鵬,趙長(zhǎng)鵬承諾幫美國(guó)成為全球加密貨幣之都

突發(fā)!川普赦免趙長(zhǎng)鵬,趙長(zhǎng)鵬承諾幫美國(guó)成為全球加密貨幣之都

大洛杉磯LA
2025-10-24 06:09:57
美駐日大使:如果中國(guó)不按美國(guó)的意愿行事,就讓十四億人陷入饑荒

美駐日大使:如果中國(guó)不按美國(guó)的意愿行事,就讓十四億人陷入饑荒

荊楚寰宇文樞
2025-09-28 21:58:22
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰(shuí)的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰(shuí)的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
鬧大了,世體:皇馬打算與亞馬爾進(jìn)行溝通,卡瓦哈爾親自出面

鬧大了,世體:皇馬打算與亞馬爾進(jìn)行溝通,卡瓦哈爾親自出面

懂球帝
2025-10-24 23:51:04
俄總統(tǒng)新聞秘書:俄日雙邊合作已降至零

俄總統(tǒng)新聞秘書:俄日雙邊合作已降至零

澎湃新聞
2025-10-24 21:06:06
不顧央視警告頂風(fēng)作案,與劉濤傳出緋聞的楊爍,究竟是誰(shuí)給的底氣

不顧央視警告頂風(fēng)作案,與劉濤傳出緋聞的楊爍,究竟是誰(shuí)給的底氣

芳芳?xì)v史燴
2025-09-24 20:13:19
美國(guó)必勝?哈佛教授:不要高估中國(guó),美國(guó)已經(jīng)控制了中國(guó)的命脈

美國(guó)必勝?哈佛教授:不要高估中國(guó),美國(guó)已經(jīng)控制了中國(guó)的命脈

妙知
2025-07-29 16:31:23
超滿配性能!新機(jī)官宣:10月27日,正式發(fā)布登場(chǎng)!

超滿配性能!新機(jī)官宣:10月27日,正式發(fā)布登場(chǎng)!

Q科技基地
2025-10-24 11:44:11
日本首相高市早苗發(fā)表施政演說(shuō) 將推進(jìn)政治改革

日本首相高市早苗發(fā)表施政演說(shuō) 將推進(jìn)政治改革

新京報(bào)
2025-10-24 13:35:09
剛剛宣布!降息100個(gè)基點(diǎn)

剛剛宣布!降息100個(gè)基點(diǎn)

中國(guó)基金報(bào)
2025-10-23 22:00:53
安世半導(dǎo)體危機(jī),大眾汽車找到替代芯片供應(yīng)商

安世半導(dǎo)體危機(jī),大眾汽車找到替代芯片供應(yīng)商

新浪財(cái)經(jīng)
2025-10-24 09:52:27
賴清德,恐成為新中國(guó)歷史上,唯一在任上出事的臺(tái)灣地區(qū)領(lǐng)導(dǎo)人

賴清德,恐成為新中國(guó)歷史上,唯一在任上出事的臺(tái)灣地區(qū)領(lǐng)導(dǎo)人

軍機(jī)Talk
2025-10-22 10:31:37
被曝核酸造假,半年斂財(cái)4.5億,核酸大王張核子最終下場(chǎng)如何?

被曝核酸造假,半年斂財(cái)4.5億,核酸大王張核子最終下場(chǎng)如何?

蜉蝣說(shuō)
2025-10-05 23:57:52
白鹿與曾舜晞戀情曝光!熱巴有明星追求,孟子義與李昀銳現(xiàn)狀揭秘

白鹿與曾舜晞戀情曝光!熱巴有明星追求,孟子義與李昀銳現(xiàn)狀揭秘

阿廢冷眼觀察所
2025-10-24 08:10:50
籌劃重大事項(xiàng)!603118,停牌!控制權(quán)或變更

籌劃重大事項(xiàng)!603118,停牌!控制權(quán)或變更

證券時(shí)報(bào)e公司
2025-10-24 20:13:57
既然其他球員狀態(tài)不佳,為什么掘金不給板凳神經(jīng)刀多些表現(xiàn)機(jī)會(huì)?

既然其他球員狀態(tài)不佳,為什么掘金不給板凳神經(jīng)刀多些表現(xiàn)機(jī)會(huì)?

稻谷與小麥
2025-10-24 23:16:58
超穎電子上交所IPO:募資9億 市值371億 湖北新增一家上市企業(yè)

超穎電子上交所IPO:募資9億 市值371億 湖北新增一家上市企業(yè)

雷遞
2025-10-24 19:25:09
2025-10-25 00:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15772文章數(shù) 514224關(guān)注度
往期回顧 全部

科技要聞

馬斯克“加倍下注”,再次挑戰(zhàn)特朗普手下

頭條要聞

美媒批賴清德"魯莽領(lǐng)導(dǎo)者":讓臺(tái)灣成全球最危險(xiǎn)引爆點(diǎn)

頭條要聞

美媒批賴清德"魯莽領(lǐng)導(dǎo)者":讓臺(tái)灣成全球最危險(xiǎn)引爆點(diǎn)

體育要聞

被唾罵,被歌頌,一個(gè)隊(duì)長(zhǎng)的自我救贖

娛樂(lè)要聞

VOGUE大合照太勢(shì)利:影后只能站角落?

財(cái)經(jīng)要聞

央行:維護(hù)股市等金融市場(chǎng)平穩(wěn)運(yùn)行

汽車要聞

精致實(shí)用還智能 試駕體驗(yàn)全新歐拉5

態(tài)度原創(chuàng)

家居
教育
數(shù)碼
房產(chǎn)
公開(kāi)課

家居要聞

寵物友好 溫馨社交空間

教育要聞

高考地理|地理中的陰陽(yáng)臉

數(shù)碼要聞

1299元起,OPPO Watch S手表開(kāi)售

房產(chǎn)要聞

鎖定了萬(wàn)博東海景房性價(jià)比之王!廣州年輕人終于找到了置業(yè)優(yōu)選!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 一区二区四区国产| 午夜无码片在线观看影视| 中文字幕av无码不卡| 国内a∨免费播放| 欧美黑妇60一区二区视频| 无码a电影网| 精品国产乱码久久久| 亚洲AV无码精品一区二区宅男 | 大肉棒一出一进视频| 国产成人理论在线视频观看| 亚洲午夜精品一区二区| 国产成人精品日本亚洲11| 4hu44四虎www在线影院麻豆| 精品熟女一区二区| 亚洲无码 99| 国产精品久久久天天影视| 国产亚洲TV| 免看一级a一片高潮喷水| 中国极品少妇XXXX| 亚洲偷自拍国综合| www.色鬼7777| 四川农村女人一级毛片 | 人人妻人人澡人人爽超污| 婷婷丁香五月六月视频| 真人床震高潮全部视频免费| 欧美自拍另类欧美综合图片区| 野花视频在线观看免费观看最新| 先锋资源av在线| 国产欧美精品一区二区三区-老狼| 午夜人妻无码精品视频 | 99国产在线视频| 搡BBBB 搡BBB视频| 日本色综合网站| 性xxxxxxxxxxxx少妇| 欧美牲交a欧美牲交aⅴ一| 久久月本道色综合久久| 开心激情婷婷| 色婷婷啪啪| 亚洲人成亚洲精品| 成人性视频在线| 亚洲人成色77777在线观看|