cnBeta全文版 07月22日 09:59
苹果披露其AI模型训练策略:从大规模网络抓取到秘密授权交易和合成内容
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司在WWDC大会后发布了题为《Apple Intelligence基础语言模型——2025年技术报告》的详细文档,深入阐述了其下一代AI基础模型的训练、优化及隐私保护策略。报告揭示了苹果在模型架构、训练阶段、微调以及效率提升方面的具体举措,旨在平衡AI性能与用户隐私。苹果通过创新的模型分割技术(如Block 1和Block 2)以及服务器端的并行轨道混合专家(PT-MoE)架构,显著降低了模型的内存占用和响应时间。同时,为增强多语言支持,苹果大幅提升了训练数据中非英语内容的比例,并依赖Applebot爬取和授权内容进行训练,力求构建更智能、更强大的AI系统。

💡 **模型架构与效率优化**:苹果在其AI模型训练中采用了创新的架构设计,如将模型分割为Block 1和Block 2,通过移除内存占用大的技术部件,将模型内存占用减少约38%,并加快响应速度。服务器端则采用“并行轨道混合专家”(PT-MoE)架构,将大型模型分解为“专家”,仅激活与任务相关的部分,从而提高性能和效率。

🌐 **多语言能力显著提升**:为了克服Apple Intelligence语言支持的局限性,苹果大幅增加了训练数据中非英语内容的比例,从8%提升至30%,涵盖真实和AI生成内容,以增强模型的跨语言理解能力,从而改进写作工具等功能。

🔒 **隐私保护与数据来源**:苹果在AI模型训练过程中高度重视隐私保护。其训练数据主要来源于自主研发的网络爬虫Applebot收集的网络数据,并尊重网站的爬取意愿。此外,苹果还依赖出版商的授权内容,并使用合成数据(包括图像-字幕对)进行微调,确保模型在强大功能的同时不损害用户隐私。

⚙️ **训练方法的多元化**:苹果采用了多方面的数据训练方法,包括公开网络数据、出版商授权内容、以及利用小型模型生成合成数据,特别是在图像语言任务和代码执行方面。公司还拥有超过100亿个图像-字幕对,并利用自身模型生成更丰富的字幕,以构建更智能、更强大的AI模型。

WWDC 大会主要围绕其操作系统即将推出的全新视觉设计语言 Liquid 设计展开,同时苹果也宣布了下一代 AI 基础模型,这些模型将同时支持设备端和云端。大会结束后,这家科技巨头似乎准备通过一份详尽的技术报告,让用户和科技界深入了解其模型的训练和优化过程,从而更好地理解苹果的 AI 战略。苹果在报告中强调,其在训练模型时,真正注重隐私和效率。

尽管在当下的人工智能领域并不算举足轻重,苹果公司还是发布了一份关于其基础模型的详细报告,名为《Apple Intelligence基础语言模型——2025年技术报告》,该报告深入介绍了最新人工智能模型的关键要素。这份报告几乎涵盖了所有内容,从模型架构到训练阶段、训练后阶段,以及如何对模型进行微调。报告还探讨了用于确保模型技术改进的方法,以提高模型效率,同时避免隐私泄露。

虽然苹果此前曾分享过可供开发者使用的设备端 AI 模型,以及其拥有的 30 亿个参数,但其局限性在于其结构迄今为止较为稀疏。据报道,该模型被分成多个部分以提高效率。第一部分称为 Block 1,包含超过 60% 的核心构建块(称为转换层)。之后,AI 会理解语言的主要表达方式,并生成响应。

第二部分称为 Block 2,由于移除了两个占用大量内存的技术部件:键和值投影,因此更轻量。得益于这一策略,苹果能够将模型的内存占用减少约 38%,甚至加快模型的响应时间。该公司一直在研究如何在本地提升其 AI 模型的性能,几年前,他们曾探索过运行一个比设备内存容量更大的模型的想法。虽然最终没有采用既定方案,但他们一直在寻找应对硬件限制和其他挑战的方法。

关于AI模型的服务器端,苹果确保其私有云计算系统采用定制架构。这种方法被称为并行轨道混合专家(PT-MoE),这是一种巧妙的策略,简而言之,它将大型AI模型分解成更小的部分,称为专家。现在,通过将模型划分为专家混合模型,模型无需每次都完全运行;相反,它可以只关注与当前任务相关的专家。只有模型中具有该领域专业知识的部分才会被激活,从而节省性能并提高效率。

此外,苹果还设计了一种名为“并行轨道 Transformer”的全新 Transformer 架构,该架构拥有多个独立运行的轨道,仅在关键点协同工作。正因如此,该模型不会出现系统范围的延迟。这家科技巨头还解决了 Apple Intelligence 的一个最大痛点:对语言的支持有限。

凭借新模型,苹果显著提升了多语言能力。为了扩展语言支持,苹果将训练过程中非英语数据的比例从 8% 提升至 30%,涵盖真实内容和 AI 生成的内容,从而提升模型的理解能力,并支持更广泛的语言。这将使写作工具等功能更好地发挥作用。在训练新的 AI 系统时,苹果大量依赖其自主研发的网络爬虫 Applebot 收集的网络数据,这些数据也已在之前的模型中使用。有趣的是,由于苹果尊重隐私,如果网站不想被爬取,就不会使用其内容。

该公司使用多种技术来训练其模型;主要使用公共网络数据作为训练材料。苹果倾向于过滤不相关的内容,并专注于有用且切题的数据集。同样,这家科技巨头也依赖出版商的授权内容,尽管它确实透露了其所依赖的媒体公司的名称。该公司还使用较小的模型来收集合成数据,尤其是在涉及图像语言任务、代码或指令执行时,以便更好地进行微调。

这种多方法也涉及视觉数据,因为这家巨头拥有超过 100 亿个图像-字幕对,包括屏幕截图和手写笔记。它还使用自己的模型来生成更丰富的字幕。所有这些训练方法都有助于 Apple 构建更智能、更强大的模型。Apple 训练其 AI 模型的方法非常清晰。这是一种平衡的策略,既能确保系统保持强大和多功能性,又不会损害其核心价值:隐私。

查看评论

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Apple Intelligence AI模型 技术报告 隐私保护 深度学习
相关文章