庞若鸣的“谢幕之作”？苹果发布2025基础模型报告，揭开Apple Intelligence技术全貌

KIK 2025-07-19 20:18 北京

苹果公司近日正式发布了《Apple Intelligence Foundation Language Models Tech Report 2025》技术报告，这是继去年首次公开其 AI 基础模型技术细节后的重要更新。

苹果公司近日正式发布了《Apple Intelligence Foundation Language Models Tech Report 2025》技术报告，这是继去年首次公开其 AI 基础模型技术细节后的重要更新。而且，就在不久前 Meta 刚刚以数千万美元薪酬挖走了苹果基础模型团队负责人庞若鸣（Ruoming Pang），这份技术报告很可能是庞若鸣在苹果生涯的最后一份重要成果。

庞若鸣本人也在社交媒体上对这份报告进行了介绍，并正式将团队的重任交接给了 Zhifeng Chen。

图丨相关推文（来源：X）

报告详细介绍了一套双轨并行的模型策略。第一款是一个约 30 亿参数的端上模型，专为在 iPhone、iPad 和 Mac 等苹果设备上高效运行而设计。该模型经过深度优化，以充分利用苹果自研芯片的性能。另一款则是在苹果私有云计算上运行的可扩展服务器模型，用于处理更复杂的用户请求。这种“端云协同”的架构旨在平衡性能、效率和隐私，简单的任务在本地设备上完成，复杂任务则交由具备同等级别隐私保护的云端服务器处理。

图丨苹果基础模型的框架概览（来源：Apple）

为了提升端上模型的运行效率，苹果的工程师们引入了一项名为“键值缓存共享”（KV Cache Sharing）的创新架构。具体而言，他们将模型划分为两个区块，其中一个区块（占模型层数的 37.5%）直接共享另一区块（占 62.5%）生成的键值缓存，从而将缓存所需的内存减少了 37.5%，并显著缩短了生成第一个词元 token 的响应时间。

对于服务器端模型，苹果则开发了一种名为“并行轨道混合专家”（Parallel-Track Mixture-of-Experts, PT-MoE）的全新 Transformer 架构。该架构将一个大型模型分解为多个更小的、被称为“轨道”（Track）的并行处理单元。每个轨道独立处理信息，仅在特定节点进行同步，从而大幅减少了传统大型模型中常见的通信瓶颈，提高了训练和推理的效率。此外，通过在每个轨道内部署混合专家（MoE）层，该模型能够更高效地扩展，以低延迟处理复杂任务，同时不牺牲模型质量。

图丨PT-MoE 架构示意图（来源：Apple）

在赋予模型理解图像的多模态能力方面，报告也披露了其视觉编码器的技术细节。服务器和端上模型分别采用了 ViT-g 和更高效的 ViTDet-L 作为视觉主干网络。值得一提的是，端上模型还采用了一种新颖的“寄存器-窗口”（Register-Window）机制，使其能够同时有效捕捉图像的全局上下文信息和局部精细细节。

在训练数据方面，苹果保持了其一贯强调隐私保护的风格，在报告中明确了其数据来源和隐私原则。训练数据主要来自三方面：从出版商处授权的数据、由苹果网页爬虫 Applebot 抓取的公开网络信息，以及高质量的合成数据。苹果特别强调，在训练过程中绝不使用用户的私人个人数据或用户交互信息。

同时，公司遵循 robots.txt 协议，允许网站发布者选择不让其内容被用于模型训练，从源头上保障了内容所有者的权利和用户隐私。报告显示，苹果处理了超过 100 亿对高质量的图文对和 50 亿对合成图像标题数据，并通过先进的流水线进行过滤和提纯，以确保训练数据的质量。

图丨苹果的分布式异步强化学习基础设施（来源：Apple）

为了让这些模型能在实际设备上高效运行，苹果采用了积极的优化策略。端上模型通过“量化感知训练”（Quantization-Aware Training, QAT）技术，将模型权重压缩至每权重 2 比特。服务器模型则利用了一种名为“自适应可扩展纹理压缩”（Adaptive Scalable Texture Compression, ASTC）的技术，该技术利用了苹果 GPU 中已有的硬件解压模块，能够以几乎零计算成本的方式对模型权重进行解压，最终将模型压缩至每权重约 3.56 比特。对于压缩过程中可能出现的性能损失，苹果则通过训练低秩适配器（Low-Rank Adaptation, LoRA）来进行补偿和恢复。

性能评估的结果显示，在 MMLU 等标准测试中，苹果的端上模型表现优于或持平于 Qwen-2.5-3B、Gemma-3-4B 等同规模的开源模型。

图丨AFM 设备端模型与外部模型在代表性基准测试上的对比（来源：Apple）

服务器模型则在与 LLaMA 4 Scout 的对比中表现出色，但与 Qwen-3-235B 和 GPT-4o 等更大规模的模型相比仍有差距。在与人类评分员进行的并排比较中，苹果的模型在多个语言区域和任务中的表现都较为突出。

图丨苹果基础模型在文本上的人类评估（来源：Apple）

最后，苹果还为开发者推出了全新的“基础模型框架”（Foundation Models framework），允许开发者直接调用设备上的 30 亿参数模型。该框架与 Swift 语言深度集成，通过名为“引导式生成”的功能，开发者可以仅用几行代码就让模型直接生成结构化的 Swift 数据类型，极大地简化了在应用中集成 AI 功能的过程。苹果强调，整个框架的设计都贯彻了其负责任 AI 的原则，内置了多重安全护栏，旨在帮助开发者构建既智能又注重隐私保护的下一代应用。

参考资料：

1. https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025

01/ 首张“太阳系婴儿照”诞生！科学家拍到行星形成初始阶段，助力破解行星起源之谜

02/ 科学家设计覆盖免疫全流程的“AI引擎”，更快预测病毒和肿瘤细胞突变，助力疫苗设计和精准免疫治疗

03/ 40余名科学家罕见联合撰文：AI已能使用人类语言模拟思考，监控AI推理仅剩短暂窗口

04/ 科学家打造会“变魔术”的高分子，实现聚合物共轭可逆调控，第二代产品已启动研发

05/ 牛顿力学在AI中失效？Transformer模型能完美预测却不懂物理，哈佛团队揭示模型缺失物理常识