爱范儿 5小时前
仅需 40 万,4 台顶配 Mac Studio 串联,同时跑两个 DeepSeek 是什么体验?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了使用多台搭载M3 Ultra芯片的Mac Studio串联成“桌面级AI集群”以提升本地大模型推理能力的可能性。文章指出,苹果M3 Ultra芯片的统一内存、高带宽GPU以及Thunderbolt 5连接能力,为构建高性能、低功耗的本地AI基础设施提供了新思路。Exo Labs公司开发的分布式模型调度平台Exo,能够有效地将大型AI模型拆分加载和并行推理,并支持私有数据问答和轻量微调,为个人研究者和小型团队提供了成本效益高且数据私有的AI解决方案,与传统GPU方案形成鲜明对比,为苹果芯片在AI领域开辟了新的应用场景。

🚀 **Mac Studio集群的硬件优势**:文章强调,多台搭载M3 Ultra芯片的Mac Studio通过Thunderbolt 5串联,可以形成拥有海量统一内存(如2TB)和超高内存带宽(3TB/s)的“桌面级AI集群”。这种架构能够直接将大型模型加载到内存中,避免传统GPU方案中繁杂的数据交换,为本地AI推理提供了强大的硬件基础。

💡 **Exo Labs的分布式调度平台**:Exo Labs开发的Exo平台是实现Mac Studio集群效能的关键。该平台能够智能地将大型AI模型(如670B参数模型)拆分并部署到不同的Mac Studio节点上,实现模型的加载、并行推理,甚至支持多用户同时访问。这解决了单台设备内存不足的瓶颈,并显著提升了推理速度。

🔒 **数据隐私与本地化优势**:文章特别提到,Exo平台支持文档私有问答和轻量微调,所有数据处理均在本地完成,不依赖云端资源。这对于需要保护敏感数据(如公司财报)的企业和研究机构而言,具有极高的价值,确保了数据的安全和可控性。

💰 **显著的成本与功耗效益**:相比需要大量高端GPU(如20张A100)和复杂基础设施的传统AI方案,Mac Studio集群在实现同等性能时,成本和功耗优势明显。文章指出,即使在高负载下,整个集群功耗也控制在400W以内,且噪音极低,为中小团队提供了一种经济实惠且易于部署的AI解决方案。

🛠️ **苹果芯片的新定位**:文章认为,苹果M系列芯片凭借其统一内存架构、高带宽GPU和Thunderbolt连接等特性,在AI浪潮中找到了新的定位。虽然不直接与H100等顶级AI芯片竞争训练大型模型,但Mac Studio集群为运行自有模型、保护数据和进行必要优化提供了“瑞士军刀”般的灵活解决方案,适合中小规模的AI应用场景。

几个月前,爱范儿在一台 M3 Ultra 的 Mac Studio 成功部署了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。相比传统 GPU 方案需要复杂的内存管理和数据交换,苹果 512GB 的统一内存可以直接将整个模型加载到内存中,避免了频繁的数据搬运。

而如果把 4 台顶配 M3 Ultra 的 Mac Studio,通过开源工具串联成一个「桌面级 AI 集群」,是否就能把本地推理的天花板再抬高一个维度?

这正是来自英国创业公司 Exo Labs 正在尝试解决的问题。

 「不要以为牛津大学 GPU 多得用不完」

你可能会以为像牛津这样的顶级大学肯定 GPU 多得用不完,但其实完全不是这样。

Exo Labs 创始人 Alex 和 Seth 毕业于牛津大学。即使在这样的顶尖高校做研究,想要使用 GPU 集群也需要提前数月排队,一次只能申请一张卡,流程漫长而低效。

他们意识到,当前 AI 基础设施的高度集中化,使得个人研究者和小型团队被边缘化。

去年 7 月,他们启动了第一次实验,用两台 MacBook Pro 成功串联跑通了 LLaMA 模型。虽然性能有限,每秒只能输出 3 个 token,但已经足以验证 Apple Silicon 架构用于 AI 分布式推理的可行性。

真正的转折点来自 M3 Ultra Mac Studio 的发布。512GB 统一内存、819GB/s 的内存带宽、80 核 GPU,再加上 Thunderbolt 5 的 80Gbps 双向传输能力——这些规格让本地 AI 集群从理想变成了现实。

同时跑两个 670 亿参数大模型是什么体验?

4 台顶配 M3 Ultra 的 Mac Studio 通过 Thunderbolt 5 串联后,账面数据相当惊人:

这样的组合,几乎是一台家用级别的小型超算。但硬件只是基础,真正发挥效能的关键是 EXO Labs 开发的分布式模型调度平台 Exo。Exo 会根据内存与带宽状态将模型自动拆分,部署在最合适的节点上。

在现场,Exo 展示了以下核心能力:

巨大的成本差异

我们在现场后台观察拓扑图发现:即使 4 台机器同时处于高负载状态,整套系统功耗始终控制在 400W 以内,运行几乎无风扇噪音。

要在传统服务器方案中实现同等性能,至少需要部署 20 张 A100 显卡,服务器加网络设备成本超 200 万人民币,功耗达数千瓦,还需独立机房与制冷系统。

苹果芯片在 AI 浪潮中意外找到了新定位

在设计 M 芯片之初,苹果更多是为节能、高效的个人创作而生。但统一内存、高带宽 GPU、Thunderbolt 多路径聚合等特性,却在 AI 浪潮中意外找到了新定位。

M3 Ultra Mac Studio 的起售价格为 3999 美元,配备 96GB 统一内存,而 512GB 的顶配版本价格确实不菲。但从技术角度来看,统一内存架构带来的优势是革命性的。

传统 GPU 即使是最高端的工作站卡,显存通常也只有 96GB。而苹果的统一内存让 CPU 和 GPU 共享同一块高带宽内存,避免了数据在不同存储层级之间的频繁搬运,这对大模型推理来说意义重大。

当然,EXO 这套方案也有明显的定位差异。它不是为了与 H100 正面对抗,不是为了训练下一代 GPT,而是为了解决实际的应用问题:运行自己的模型,保护自己的数据,进行必要的微调优化。

如果说 H100 是金字塔顶的王者,而 Mac Studio 正在成为中小团队手中的瑞士军刀。

从技术的旁观者与记录者,成为技术影响生活方式的实践者。
邮箱 Twitter Flickr 新浪微博 Google+ 9

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Mac Studio AI推理 分布式计算 苹果芯片 Exo Labs
相关文章