僅需 40 萬，4 臺頂配 Mac Studio 串聯(lián)，同時跑兩個 DeepSeek 是什么體驗？

2025-08-06 11:56:21　來源: 愛范兒

廣東舉報

分享至

幾個月前，愛范兒在一臺 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型（4-bit 量化版）。相比傳統(tǒng) GPU 方案需要復(fù)雜的內(nèi)存管理和數(shù)據(jù)交換，蘋果 512GB 的統(tǒng)一內(nèi)存可以直接將整個模型加載到內(nèi)存中，避免了頻繁的數(shù)據(jù)搬運。

而如果把 4 臺頂配 M3 Ultra 的 Mac Studio，通過開源工具串聯(lián)成一個「桌面級 AI 集群」，是否就能把本地推理的天花板再抬高一個維度？

這正是來自英國創(chuàng)業(yè)公司 Exo Labs 正在嘗試解決的問題。

「不要以為牛津大學(xué) GPU 多得用不完」

你可能會以為像牛津這樣的頂級大學(xué)肯定 GPU 多得用不完，但其實完全不是這樣。

Exo Labs 創(chuàng)始人 Alex 和 Seth 畢業(yè)于牛津大學(xué)。即使在這樣的頂尖高校做研究，想要使用 GPU 集群也需要提前數(shù)月排隊，一次只能申請一張卡，流程漫長而低效。

他們意識到，當(dāng)前 AI 基礎(chǔ)設(shè)施的高度集中化，使得個人研究者和小型團隊被邊緣化。

去年 7 月，他們啟動了第一次實驗，用兩臺 MacBook Pro 成功串聯(lián)跑通了 LLaMA 模型。雖然性能有限，每秒只能輸出 3 個 token，但已經(jīng)足以驗證 Apple Silicon 架構(gòu)用于 AI 分布式推理的可行性。

真正的轉(zhuǎn)折點來自 M3 Ultra Mac Studio 的發(fā)布。512GB 統(tǒng)一內(nèi)存、819GB/s 的內(nèi)存帶寬、80 核 GPU，再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——這些規(guī)格讓本地 AI 集群從理想變成了現(xiàn)實。

同時跑兩個 670 億參數(shù)大模型是什么體驗？

4 臺頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯(lián)后，賬面數(shù)據(jù)相當(dāng)驚人：

128 核 CPU（32×4）
240 個 GPU 核心（80×4）
2TB 統(tǒng)一內(nèi)存（512GB×4）
總內(nèi)存帶寬超過 3TB/s

這樣的組合，幾乎是一臺家用級別的小型超算。但硬件只是基礎(chǔ)，真正發(fā)揮效能的關(guān)鍵是 EXO Labs 開發(fā)的分布式模型調(diào)度平臺 Exo。Exo 會根據(jù)內(nèi)存與帶寬狀態(tài)將模型自動拆分，部署在最合適的節(jié)點上。

在現(xiàn)場，Exo 展示了以下核心能力：

大模型加載：8-bit 量化后的 DeepSeek 完整載入需要 700GB 以上內(nèi)存，單臺 Mac Studio 無力承擔(dān)。Exo 會將模型拆分部署到 2 臺 Mac Studio 上完成加載。激活后，它的「打字速度」基本上超過了人的閱讀速度。

并行推理：在運行 DeepSeek V3 的基礎(chǔ)上，又加載了同樣 670 億參數(shù)的 DeepSeek R1。系統(tǒng)立即將 R1 分配到剩余的兩臺設(shè)備上，實現(xiàn)兩個大模型并行推理，支持多用戶同時提問。
文檔私有問答：拖入公司財報 PDF，模型在本地完成知識嵌入與問答，不依賴任何云端資源，數(shù)據(jù)完全私有可控。
輕量微調(diào)：若企業(yè)有數(shù)千份內(nèi)部資料，可通過 QLoRA + LoRA 技術(shù)進行本地微調(diào)。單臺微調(diào)需耗時數(shù)日，而通過 Exo 的集群調(diào)度能力，訓(xùn)練任務(wù)可線性加速，大幅縮短時間成本。

巨大的成本差異

我們在現(xiàn)場后臺觀察拓撲圖發(fā)現(xiàn)：即使 4 臺機器同時處于高負載狀態(tài)，整套系統(tǒng)功耗始終控制在 400W 以內(nèi)，運行幾乎無風(fēng)扇噪音。

要在傳統(tǒng)服務(wù)器方案中實現(xiàn)同等性能，至少需要部署 20 張 A100 顯卡，服務(wù)器加網(wǎng)絡(luò)設(shè)備成本超 200 萬人民幣，功耗達數(shù)千瓦，還需獨立機房與制冷系統(tǒng)。

蘋果芯片在 AI 浪潮中意外找到了新定位

在設(shè)計 M 芯片之初，蘋果更多是為節(jié)能、高效的個人創(chuàng)作而生。但統(tǒng)一內(nèi)存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性，卻在 AI 浪潮中意外找到了新定位。

M3 Ultra Mac Studio 的起售價格為 3999 美元，配備 96GB 統(tǒng)一內(nèi)存，而 512GB 的頂配版本價格確實不菲。但從技術(shù)角度來看，統(tǒng)一內(nèi)存架構(gòu)帶來的優(yōu)勢是革命性的。

傳統(tǒng) GPU 即使是最高端的工作站卡，顯存通常也只有 96GB。而蘋果的統(tǒng)一內(nèi)存讓 CPU 和 GPU 共享同一塊高帶寬內(nèi)存，避免了數(shù)據(jù)在不同存儲層級之間的頻繁搬運，這對大模型推理來說意義重大。

當(dāng)然，EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗，不是為了訓(xùn)練下一代 GPT，而是為了解決實際的應(yīng)用問題：運行自己的模型，保護自己的數(shù)據(jù)，進行必要的微調(diào)優(yōu)化。

如果說 H100 是金字塔頂?shù)耐跽撸?Mac Studio 正在成為中小團隊手中的瑞士軍刀。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.