幾個月前,愛范兒在一臺 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。相比傳統(tǒng) GPU 方案需要復(fù)雜的內(nèi)存管理和數(shù)據(jù)交換,蘋果 512GB 的統(tǒng)一內(nèi)存可以直接將整個模型加載到內(nèi)存中,避免了頻繁的數(shù)據(jù)搬運。
而如果把 4 臺頂配 M3 Ultra 的 Mac Studio,通過開源工具串聯(lián)成一個「桌面級 AI 集群」,是否就能把本地推理的天花板再抬高一個維度?
這正是來自英國創(chuàng)業(yè)公司 Exo Labs 正在嘗試解決的問題。
「不要以為牛津大學(xué) GPU 多得用不完」
你可能會以為像牛津這樣的頂級大學(xué)肯定 GPU 多得用不完,但其實完全不是這樣。
Exo Labs 創(chuàng)始人 Alex 和 Seth 畢業(yè)于牛津大學(xué)。即使在這樣的頂尖高校做研究,想要使用 GPU 集群也需要提前數(shù)月排隊,一次只能申請一張卡,流程漫長而低效。
他們意識到,當(dāng)前 AI 基礎(chǔ)設(shè)施的高度集中化,使得個人研究者和小型團隊被邊緣化。
去年 7 月,他們啟動了第一次實驗,用兩臺 MacBook Pro 成功串聯(lián)跑通了 LLaMA 模型。雖然性能有限,每秒只能輸出 3 個 token,但已經(jīng)足以驗證 Apple Silicon 架構(gòu)用于 AI 分布式推理的可行性。
真正的轉(zhuǎn)折點來自 M3 Ultra Mac Studio 的發(fā)布。512GB 統(tǒng)一內(nèi)存、819GB/s 的內(nèi)存帶寬、80 核 GPU,再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——這些規(guī)格讓本地 AI 集群從理想變成了現(xiàn)實。
同時跑兩個 670 億參數(shù)大模型是什么體驗?
4 臺頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯(lián)后,賬面數(shù)據(jù)相當(dāng)驚人:
- 128 核 CPU(32×4)
- 240 個 GPU 核心(80×4)
- 2TB 統(tǒng)一內(nèi)存(512GB×4)
- 總內(nèi)存帶寬超過 3TB/s
這樣的組合,幾乎是一臺家用級別的小型超算。但硬件只是基礎(chǔ),真正發(fā)揮效能的關(guān)鍵是 EXO Labs 開發(fā)的分布式模型調(diào)度平臺 Exo。Exo 會根據(jù)內(nèi)存與帶寬狀態(tài)將模型自動拆分,部署在最合適的節(jié)點上。
在現(xiàn)場,Exo 展示了以下核心能力:
- 大模型加載:8-bit 量化后的 DeepSeek 完整載入需要 700GB 以上內(nèi)存,單臺 Mac Studio 無力承擔(dān)。Exo 會將模型拆分部署到 2 臺 Mac Studio 上完成加載。激活后,它的「打字速度」基本上超過了人的閱讀速度。
- 并行推理:在運行 DeepSeek V3 的基礎(chǔ)上,又加載了同樣 670 億參數(shù)的 DeepSeek R1。系統(tǒng)立即將 R1 分配到剩余的兩臺設(shè)備上,實現(xiàn)兩個大模型并行推理,支持多用戶同時提問。
- 文檔私有問答:拖入公司財報 PDF,模型在本地完成知識嵌入與問答,不依賴任何云端資源,數(shù)據(jù)完全私有可控。
- 輕量微調(diào):若企業(yè)有數(shù)千份內(nèi)部資料,可通過 QLoRA + LoRA 技術(shù)進行本地微調(diào)。單臺微調(diào)需耗時數(shù)日,而通過 Exo 的集群調(diào)度能力,訓(xùn)練任務(wù)可線性加速,大幅縮短時間成本。
我們在現(xiàn)場后臺觀察拓撲圖發(fā)現(xiàn):即使 4 臺機器同時處于高負載狀態(tài),整套系統(tǒng)功耗始終控制在 400W 以內(nèi),運行幾乎無風(fēng)扇噪音。
要在傳統(tǒng)服務(wù)器方案中實現(xiàn)同等性能,至少需要部署 20 張 A100 顯卡,服務(wù)器加網(wǎng)絡(luò)設(shè)備成本超 200 萬人民幣,功耗達數(shù)千瓦,還需獨立機房與制冷系統(tǒng)。
蘋果芯片在 AI 浪潮中意外找到了新定位
在設(shè)計 M 芯片之初,蘋果更多是為節(jié)能、高效的個人創(chuàng)作而生。但統(tǒng)一內(nèi)存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性,卻在 AI 浪潮中意外找到了新定位。
M3 Ultra Mac Studio 的起售價格為 3999 美元,配備 96GB 統(tǒng)一內(nèi)存,而 512GB 的頂配版本價格確實不菲。但從技術(shù)角度來看,統(tǒng)一內(nèi)存架構(gòu)帶來的優(yōu)勢是革命性的。
傳統(tǒng) GPU 即使是最高端的工作站卡,顯存通常也只有 96GB。而蘋果的統(tǒng)一內(nèi)存讓 CPU 和 GPU 共享同一塊高帶寬內(nèi)存,避免了數(shù)據(jù)在不同存儲層級之間的頻繁搬運,這對大模型推理來說意義重大。
當(dāng)然,EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗,不是為了訓(xùn)練下一代 GPT,而是為了解決實際的應(yīng)用問題:運行自己的模型,保護自己的數(shù)據(jù),進行必要的微調(diào)優(yōu)化。
如果說 H100 是金字塔頂?shù)耐跽撸?Mac Studio 正在成為中小團隊手中的瑞士軍刀。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.