DeepTech深科技 12小时前
庞若鸣的“谢幕之作”?苹果发布2025基础模型报告,揭开Apple Intelligence技术全貌
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司近期发布了《Apple Intelligence Foundation Language Models Tech Report 2025》,详细阐述了其AI基础模型技术。报告介绍了双轨并行策略,包括一个30亿参数的端上模型和可扩展的服务器模型,旨在实现性能、效率和隐私的平衡。为提升端上模型效率,苹果引入了“键值缓存共享”技术,显著减少了内存占用和响应时间。服务器模型则采用了“并行轨道混合专家”(PT-MoE)架构,提高了训练和推理效率。报告还披露了多模态能力、数据隐私原则以及模型优化和性能评估结果,并推出了面向开发者的“基础模型框架”,简化AI功能集成。

🍎 **双轨并行模型策略**:苹果采用了端上模型(约30亿参数,优化于苹果设备)和服务器模型(云端,处理复杂请求)的双轨并行策略,以平衡性能、效率和用户隐私,实现简单任务本地处理,复杂任务云端处理。

⚙️ **端上模型效率提升**:通过“键值缓存共享”(KV Cache Sharing)创新架构,将模型划分为共享区块,成功将缓存所需内存减少37.5%,并显著缩短了生成首个词元(token)的响应时间,提升了端侧AI的响应速度。

🚀 **服务器模型架构创新**:苹果开发了“并行轨道混合专家”(PT-MoE)Transformer架构,将大型模型分解为并行处理单元(轨道),减少了通信瓶颈,提高了训练和推理效率,同时通过MoE层实现高效扩展。

🖼️ **多模态能力与数据隐私**:模型具备理解图像的多模态能力,分别采用ViT-g和ViTDet-L作为视觉编码器。苹果强调训练数据来自授权、公开网络和合成数据,绝不使用用户私人数据,并遵循robots.txt协议,保障数据源和用户隐私。

📊 **模型优化与性能表现**:通过“量化感知训练”将端上模型压缩至2比特,服务器模型使用ASTC技术压缩至约3.56比特。性能评估显示,端上模型优于或持平同规模开源模型,服务器模型在特定对比中表现出色,并在人类评估中获得好评。

KIK 2025-07-19 20:18 北京

苹果公司近日正式发布了《Apple Intelligence Foundation Language Models Tech Report 2025》技术报告,这是继去年首次公开其 AI 基础模型技术细节后的重要更新。

苹果公司近日正式发布了《Apple Intelligence Foundation Language Models Tech Report 2025》技术报告,这是继去年首次公开其 AI 基础模型技术细节后的重要更新。而且,就在不久前 Meta 刚刚以数千万美元薪酬挖走了苹果基础模型团队负责人庞若鸣(Ruoming Pang),这份技术报告很可能是庞若鸣在苹果生涯的最后一份重要成果。

庞若鸣本人也在社交媒体上对这份报告进行了介绍,并正式将团队的重任交接给了 Zhifeng Chen

图丨相关推文(来源:X

报告详细介绍了一套双轨并行的模型策略。第一款是一个约 30 亿参数的端上模型,专为在 iPhoneiPad 和 Mac 等苹果设备上高效运行而设计。该模型经过深度优化,以充分利用苹果自研芯片的性能。另一款则是在苹果私有云计算上运行的可扩展服务器模型,用于处理更复杂的用户请求。这种端云协同的架构旨在平衡性能、效率和隐私,简单的任务在本地设备上完成,复杂任务则交由具备同等级别隐私保护的云端服务器处理。

图丨苹果基础模型的框架概览(来源:Apple

为了提升端上模型的运行效率,苹果的工程师们引入了一项名为键值缓存共享KV Cache Sharing)的创新架构。具体而言,他们将模型划分为两个区块,其中一个区块(占模型层数的 37.5%)直接共享另一区块(占 62.5%)生成的键值缓存,从而将缓存所需的内存减少了 37.5%,并显著缩短了生成第一个词元 token 的响应时间。

对于服务器端模型,苹果则开发了一种名为并行轨道混合专家Parallel-Track Mixture-of-Experts, PT-MoE)的全新 Transformer 架构。该架构将一个大型模型分解为多个更小的、被称为轨道Track)的并行处理单元。每个轨道独立处理信息,仅在特定节点进行同步,从而大幅减少了传统大型模型中常见的通信瓶颈,提高了训练和推理的效率。此外,通过在每个轨道内部署混合专家(MoE)层,该模型能够更高效地扩展,以低延迟处理复杂任务,同时不牺牲模型质量。

图丨PT-MoE 架构示意图(来源:Apple

在赋予模型理解图像的多模态能力方面,报告也披露了其视觉编码器的技术细节。服务器和端上模型分别采用了 ViT-g 和更高效的 ViTDet-L 作为视觉主干网络。值得一提的是,端上模型还采用了一种新颖的寄存器-窗口Register-Window)机制,使其能够同时有效捕捉图像的全局上下文信息和局部精细细节。

在训练数据方面,苹果保持了其一贯强调隐私保护的风格,在报告中明确了其数据来源和隐私原则。训练数据主要来自三方面:从出版商处授权的数据、由苹果网页爬虫 Applebot 抓取的公开网络信息,以及高质量的合成数据。苹果特别强调,在训练过程中绝不使用用户的私人个人数据或用户交互信息。

同时,公司遵循 robots.txt 协议,允许网站发布者选择不让其内容被用于模型训练,从源头上保障了内容所有者的权利和用户隐私。报告显示,苹果处理了超过 100 亿对高质量的图文对和 50 亿对合成图像标题数据,并通过先进的流水线进行过滤和提纯,以确保训练数据的质量。

图丨苹果的分布式异步强化学习基础设施(来源:Apple

为了让这些模型能在实际设备上高效运行,苹果采用了积极的优化策略。端上模型通过量化感知训练Quantization-Aware Training, QAT)技术,将模型权重压缩至每权重 比特。服务器模型则利用了一种名为自适应可扩展纹理压缩Adaptive Scalable Texture Compression, ASTC)的技术,该技术利用了苹果 GPU 中已有的硬件解压模块,能够以几乎零计算成本的方式对模型权重进行解压,最终将模型压缩至每权重约 3.56 比特。对于压缩过程中可能出现的性能损失,苹果则通过训练低秩适配器(Low-Rank Adaptation, LoRA)来进行补偿和恢复。

性能评估的结果显示,在 MMLU 等标准测试中,苹果的端上模型表现优于或持平于 Qwen-2.5-3BGemma-3-4B 等同规模的开源模型。

图丨AFM 设备端模型与外部模型在代表性基准测试上的对比(来源:Apple

服务器模型则在与 LLaMA 4 Scout 的对比中表现出色,但与 Qwen-3-235B 和 GPT-4o 等更大规模的模型相比仍有差距。在与人类评分员进行的并排比较中,苹果的模型在多个语言区域和任务中的表现都较为突出。

图丨苹果基础模型在文本上的人类评估(来源:Apple

最后,苹果还为开发者推出了全新的基础模型框架Foundation Models framework),允许开发者直接调用设备上的 30 亿参数模型。该框架与 Swift 语言深度集成,通过名为引导式生成的功能,开发者可以仅用几行代码就让模型直接生成结构化的 Swift 数据类型,极大地简化了在应用中集成 AI 功能的过程。苹果强调,整个框架的设计都贯彻了其负责任 AI 的原则,内置了多重安全护栏,旨在帮助开发者构建既智能又注重隐私保护的下一代应用。

参考资料:

1. https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025

01/ 首张“太阳系婴儿照”诞生!科学家拍到行星形成初始阶段,助力破解行星起源之谜

02/ 科学家设计覆盖免疫全流程的“AI引擎”,更快预测病毒和肿瘤细胞突变,助力疫苗设计和精准免疫治疗

03/ 40余名科学家罕见联合撰文:AI已能使用人类语言模拟思考,监控AI推理仅剩短暂窗口

04/ 科学家打造会“变魔术”的高分子,实现聚合物共轭可逆调控,第二代产品已启动研发

05/ 牛顿力学在AI中失效?Transformer模型能完美预测却不懂物理,哈佛团队揭示模型缺失物理常识

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Apple Intelligence AI基础模型 端云协同 模型优化 多模态AI
相关文章