Cnbeta 03月12日 17:23
实测苹果M3 Ultra运行DeepSeek R1满血版:速度超过8卡A100
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

B站UP主测试显示,满血版M3 Ultra在运行6710亿参数的DeepSeek R1模型时,性能甚至超越了8张A100显卡,成本却大大降低。通常运行如此规模的模型需要昂贵的专业服务器,但M3 Ultra仅需一台Mac Studio即可实现类似性能。测试还表明,M3 Ultra在GGUF和MLX格式下,速度均表现出色,甚至超越A100。此外,M3 Ultra在大语言模型推理速度测试中,也明显优于其他M系列芯片。然而,M3 Ultra并非在所有场景下都能超越A100,特别是在多用户推理和大模型训练方面,仍有差距。用户可根据自身需求调整统一内存容量,以节省成本。

🚀 M3 Ultra芯片在运行DeepSeek R1模型时,性能可与8张A100显卡媲美,并且成本更低,为用户提供了更具性价比的解决方案。

💡 在特定测试中,满血版M3 Ultra在MLX格式下运行DeepSeek R1模型,速度达到19.17 Tokens/s,超过了8张A100显卡的16.41 Tokens/s,展现了其在内存带宽和容量方面的优势。

💰 此次测试的满血版M3 Ultra配备了512GB统一内存,总价为74249人民币,用户可以根据自身需求适当降低统一内存容量,从而节省成本。

近日,B站UP主“虽然但是张黑黑”分享了一段视频展示了满血版苹果M3 Ultra运行6710亿参数的DeepSeek R1模型的测试结果,其速度甚至超过了8张A100显卡,而成本却低得多。

运行6710亿参数的DeepSeek R1模型通常需要一台搭载6-8张A100的专业级服务器,总价轻松超过百万元这对于普通用户来说几乎是不可能负担的。

然而满血版M3 Ultra仅需一台Mac Studio即可实现类似性能,性价比极高。

测试结果显示,在运行DeepSeek R1模型时,8张A100显卡的性能为16.41 Tokens/s,而满血版M3 Ultra在GGUF格式下达到15.78 Tokens/s,

切换到能发挥统一内存优势的MLX格式后,速度提升至19.17 Tokens/s,超越8张A100显卡,此外M3 Ultra在运行DeepSeek V3 6710亿参数模型时,速度也达到了19.66 Tokens/s。

不过这并不意味着M3 Ultra在所有场景下都能超越A100,单用户进行单一模型推理时,主要依赖内存带宽和容量,无法完全发挥A100的潜力,在多用户推理和大模型训练场景下,M3 Ultra则完全无法与A100相提并论。

此外,M3 Ultra在大语言模型推理速度测试中表现优异,无论是Llama 3.1 70B、Gemma2 27B还是Qwen 2.5 14B模型,其速度都明显优于其他M系列芯片,与M2 Ultra相比,速度分别提升了13%、34%和18%。

此次测试的满血版M3 Ultra配备了512GB统一内存,总价为74249人民币,对于大多数用户来说,如果不需要运行如此大规模的模型,可以适当降低统一内存容量,从而节省成本。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

M3 Ultra A100显卡 DeepSeek R1 大语言模型 性能测试
相关文章