IT之家 07月22日 09:13
深挖苹果 AI 报告:端侧内存占用少 37.5%、云端创新 PT-MoE 架构、扩展多语言支持
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科技媒体9to5Mac深入分析了苹果最新的AI技术报告《Apple Intelligence Foundation Language Models – Tech Report 2025》,揭示了苹果在AI模型训练、优化和评估方面的多项关键技术。报告详细阐述了苹果AI模型的架构、数据来源、训练流程以及性能优化策略。其中,端侧模型采用了创新的双区块设计,有效降低了内存需求和响应时间;云端模型则引入了名为Parallel-Track Mixture-of-Experts(PT-MoE)的创新架构,通过模块化和并行处理提升效率和速度。此外,苹果大幅提升了AI模型的多语言支持能力,增加了外语数据的使用比例和标记器容量,并强调了在数据收集过程中尊重出版商意愿的原则。

💡 端侧模型双区块设计:苹果的端侧AI模型被分为两个区块,第一个区块包含约62.5%的Transformer层,第二个区块包含约37.5%的Transformer层并移除了键值映射。这种设计在保持模型整体性能的同时,显著减少了缓存时的内存需求(约37.5%)并缩短了输出首个token的时间(约37.5%)。

🚀 云端模型创新架构PT-MoE:苹果为云端模型开发了名为Parallel-Track Mixture-of-Experts(PT-MoE)的架构。该架构结合了并行轨道Transformer和混合专家(MoE)层,通过将模型拆分为多个专家子网络,并根据任务需求选择性激活,实现了更快的响应速度和更高的处理精度,同时克服了传统Transformer模型的处理瓶颈。

🌍 显著提升多语言支持:为解决初期英文为主的限制,苹果大幅扩展了AI模型的多语言支持。报告显示,训练过程中外语数据的占比从8%提升至30%,同时标记器容量增加了50%,使得模型能够识别15万个不同的标记,较之前有了显著提升。

⚖️ 数据收集原则:苹果在研究论文中明确表示,如果出版商不同意其数据被用于模型训练,苹果公司将不会抓取这些数据。苹果强调使用多样化、高质量的数据来源,包括授权数据、公开数据集以及通过Applebot爬取的公开信息,以确保模型的训练质量。

IT之家 7 月 22 日消息,科技媒体 9to5Mac 昨日(7 月 21 日)发布博文,挖掘苹果新技术报告论文,探究其 AI 模型的训练、优化及评估过程,并揭示了诸多幕后技术细节。

这份报告全称为《Apple Intelligence Foundation Language Models – Tech Report 2025》,详尽描述了苹果在多个 AI 方面的处理,涵盖模型架构、数据来源、预训练、后训练、工具开发、优化措施以及性能基准等。

该媒体解读该技术报告,挖掘了 4 个值得关注的要点:

端侧模型双区块设计

此前消息显示,苹果的 AI 模型将采用端侧 + 云端组合方式,端侧模型规模大约为 30 亿(3B)个参数。

根据最新公布的技术报告,苹果端侧 AI 模型分为 2 个区块(Blocks),其中第 1 个区块包含大约 62.5% 的 transformer 层,而第 2 个区块包含大约 37.5% 的 transformer 层,但移除了键(Key)和值(Value)的映射。

苹果表示这种分割方式,在不影响模型的总体性能和输出质量的情况下,让模型在缓存时,减少了约 37.5% 的内存需求,同时输出第一个 tokens 的时间也缩短了 37.5%。

云端模型采用创新架构

对于服务器端模型,苹果开发了一种专门为其私有云计算平台量身定制的架构,名为 Parallel-Track Mixture-of-Experts(PT-MoE)。

简单来说,混合专家(Mixture of Experts)模式意味着,不是依赖单一的大型 AI 模型,而是将其拆分为多个较小的子网络(或称为专家),只有在任务与它们的专长相关时才会激活这些子网络。

因此,如果输入提示与烹饪相关,只会激活烹饪领域的专家,而其他专家则保持休眠状态。这样,虽然整体模型依然庞大,但其模块化的设计使得模型能够更快、更精确地响应。

苹果构建了一种名为 Parallel Track Transformer 的新型 Transformer,并利用混合专家(MoE)层对其进行扩展。听起来可能很复杂,但关键在于:

传统的 Transformer 模型会通过一个层的堆栈依次处理 tokens,而苹果的设计则是将模型分为多个并行的轨道。每个轨道独立处理 tokens,并在某些点进行同步。

在每个轨道内,苹果将每个其他常规 Transformer 层替换为 MoE 层,每个标记只激活几个专家,而其他专家保持空闲。由于每个轨道都有自己的本地专家,模型避免了在整个系统中协调时的处理瓶颈。

再加上一个平衡本地上下文与整体理解(称为交织全局和本地关注层)的巧妙设计,最终形成了一个模块化、高效、可扩展的模型,速度更快、更精简,同时保持了高度的智能。

苹果大幅提升多语言支持

Apple 智能最初推出时最受诟病的问题之一(现在依然存在),是英语之外的语言支持有限。随着新模型的发布,苹果扩展了语言支持范围,并在报告中详细介绍了实现这一目标的步骤。

报告中提到,苹果将训练过程中使用的外语数据量从 8% 增加到了 30%。苹果还将其标记器的容量增加了 50%,意味着模型现在能够识别 150K 个不同的标记,而之前只能识别 100K 个。

数据收集

另外是关于数据收集方面,可以参考IT之家此前发布的博文

苹果在新发布的研究论文中表示,如果出版商不同意其数据被抓取用于训练,苹果公司将不会抓取这些数据。

我们相信,使用多样且高质量的数据来训练我们的模型是必要的。这些数据包括我们从出版商那里获得授权的数据、公开可用或开源数据集中的数据,以及通过我们的网络爬虫 Applebot 抓取的公开信息。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

苹果AI Apple Intelligence AI模型 技术报告 端侧AI
相关文章