IT之家 10 月 17 日消息,EXO Labs 昨日展示了其“分布式推理”新成果,解決了被部分網(wǎng)友戲稱為“世紀(jì)難題”的選擇問題 —— 買 AI 小主機(jī)究竟是買蘋果 Mac Studio 還是買英偉達(dá) DGX Spark?
如圖所示,EXO Labs 同時使用了兩臺 NVIDIA DGX Spark 與一臺搭載 M3 Ultra 芯片的 Mac Studio,在 AI 大語言模型推理測試中取得 2.8 倍性能提升。
該成果基于 EXO Labs 的開源項(xiàng)目 EXO,該框架旨在讓大語言模型(LLM)能夠高效運(yùn)行于不同硬件的混合環(huán)境中。
與傳統(tǒng)僅依賴單一 GPU 或加速器的推理方式不同,EXO 可將工作負(fù)載自動分配到多種設(shè)備上,使臺式機(jī)、筆記本、服務(wù)器甚至平板電腦與智能手機(jī)組成類似 WiFi Mesh 網(wǎng)絡(luò)的“AI Mesh”。
DGX Spark 與 M3 Ultra 的互補(bǔ)組合
正如 EXO 所述,3999 美元(IT之家注:現(xiàn)匯率約合 28505 元人民幣)的 DGX Spark 側(cè)重計(jì)算性能,而 5599 美元(現(xiàn)匯率約合 39910 元人民幣) Mac Studio 則在數(shù)據(jù)帶寬上更具優(yōu)勢。在這里,EXO 直接將兩臺 DGX Spark 與一臺 Mac Studio 組合成統(tǒng)一的 AI 系統(tǒng)。
大型語言模型的推理過程通常分為兩個階段:
- 預(yù)填充(prefill)階段:模型讀取和處理輸入提示,這一階段主要受計(jì)算性能限制;
- 解碼(decode)階段:模型逐個生成新詞元(token),此過程更依賴內(nèi)存帶寬。
EXO 的方案是將兩階段分配給不同設(shè)備執(zhí)行:
DGX Spark 負(fù)責(zé)計(jì)算密集的預(yù)填充任務(wù),而 M3 Ultra 負(fù)責(zé)帶寬敏感的解碼任務(wù)。系統(tǒng)通過逐層傳輸模型的內(nèi)部數(shù)據(jù)(稱為 KV 緩存),實(shí)現(xiàn)兩臺設(shè)備的同時工作,而非依次等待。
在使用 Meta Llama-3.1 8B 模型進(jìn)行的基準(zhǔn)測試中,該混合架構(gòu)相較單獨(dú)使用 Mac Studio,推理性能提升 2.8 倍。測試中 DGX Spark 的預(yù)填充速度比 Mac Studio 快 3.8 倍,而 Mac Studio 的生成速度又比 DGX Spark 快 3.4 倍,實(shí)現(xiàn)了性能互補(bǔ)。
“分布式推理”助力低成本擴(kuò)展 AI 算力
EXO 的實(shí)驗(yàn)展示了一種不同于傳統(tǒng)單機(jī)加速的 AI 擴(kuò)展思路。未來 AI 性能的提升,或不再依賴單一大型加速器,而是通過更智能的硬件協(xié)同實(shí)現(xiàn)整體算力的提升。
類似的理念也出現(xiàn)在 NVIDIA 自家的新一代 Rubin CPX 平臺設(shè)計(jì)中:計(jì)算密集型的上下文構(gòu)建由 Rubin CPX 處理器完成,而具有高帶寬 HBM3e 內(nèi)存的標(biāo)準(zhǔn) Rubin 芯片負(fù)責(zé)解碼階段,與 EXO 在現(xiàn)成硬件上實(shí)現(xiàn)的原理一致。
EXO 1.0 仍處早期階段
EXO 當(dāng)前的早期訪問版本 1.0 仍屬實(shí)驗(yàn)性質(zhì),尚未全面公開?,F(xiàn)有的開源版本 0.0.15-alpha 發(fā)布于 2025 年 3 月,后續(xù)版本計(jì)劃引入自動調(diào)度、KV 流式傳輸和異構(gòu)硬件優(yōu)化功能。
目前 EXO 仍是研究級工具,尚不適合普通消費(fèi)者直接使用,但其演示結(jié)果表明:通過智能調(diào)度不同硬件資源,分布式推理架構(gòu)能在無需大型數(shù)據(jù)中心的前提下顯著提升 AI 性能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.