IT之家 13小时前
iPhone 上实现更快 AI 响应:苹果创新 MTP 技术,不牺牲质量模型输出速度最高提升 5 倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司在最新研究中提出了“多 token 预测”(MTP)技术,旨在显著提升大语言模型的响应速度。该技术通过让模型一次预测多个词语,而非传统的逐个预测,在不牺牲输出质量的前提下,将响应速度提升 2-3 倍,特定场景下甚至可达 5 倍。MTP 框架通过引入“掩码”token 并结合“推测-验证”机制,确保了速度与准确性的平衡。这项技术有望在 iPhone、Mac 等设备端实现更快的模型响应,降低延迟和能耗,为 Siri 和 Apple Intelligence 等产品带来更好的用户体验。

🍎 苹果提出“多 token 预测”(MTP)技术,旨在优化大语言模型(LLM)的生成效率。传统 LLM 采用自回归方式逐个生成 token,速度受限。MTP 框架允许模型一次性预测多个后续 token,从而大幅提高响应速度,最高可达 5 倍。

🔬 MTP 的核心在于利用模型对未来词语的潜在判断能力,通过引入“掩码”(Mask)token 作为占位符,让模型并行推测后续词语。同时,采用“推测-验证”机制,将推测结果与标准自回归解码结果进行比对,若不符则自动回退,确保输出质量。

🚀 实验结果表明,MTP 技术在通用任务中平均提速 2-3 倍,在代码生成、数学推理等结构化场景中提速可达 5 倍,且未牺牲生成质量。这得益于“门控 LoRA 适配”技术,该技术能动态调节参数,仅在必要时激活推测模块。

📱 MTP 技术为在 iPhone、Mac 等设备端部署大模型提供了新思路。通过本地化处理,可以实现更快的响应速度,降低云端计算的延迟和能耗。该技术具备较强的落地潜力,有望集成到 Siri、Apple Intelligence 等苹果产品中,提升用户交互体验。

IT之家 8 月 9 日消息,科技媒体 9to5Mac 昨日(8 月 8 日)发布博文,报道称苹果在最新研究中,提出了“多 token 预测”(MTP)技术,不牺牲输出质量的情况下,可将大语言模型响应速度提升 2~3 倍,特定场景下最高可达 5 倍。

IT之家援引博文介绍,传统大语言模型(LLM)采用自回归方式生成文本,逐个输出 token,为保证连贯性,每一步都依赖前序内容。

例如生成“The cat is black”时,模型需在输出“is”后,基于上下文和训练经验,从词汇表中计算“black”等候选词的概率,再选择最合适的词。这种串行机制虽准确,但速度受限,尤其在移动设备上影响用户体验。

苹果在新论文《Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential》中发现,尽管模型仅被训练为预测下一个词,其内部其实蕴含对后续多个词的潜在判断能力。

研究团队据此提出“多 token 预测”(MTP)框架,支持模型一次生成多个词。例如输入“The cat is <MASK1><MASK2>”,模型可直接输出“very fluffy”,大幅提升生成效率。

该技术核心在于引入“掩码”(Mask)token 作为占位符,并让模型并行推测后续多个词。每个推测结果会立即与标准自回归解码结果比对,若不符则自动回退到逐词生成模式,确保输出质量不受影响。这一“推测-验证”机制在提速的同时,保留了传统方法的准确性,实现速度与质量的平衡。

实验基于开源模型 Tulu3-8B 进行,苹果训练其最多推测 8 个后续 token。结果显示,在问答和对话等通用任务中,响应速度平均提升 2–3 倍;在代码生成、数学推理等结构化场景中,提速可达 5 倍。

研究人员强调,性能提升未以牺牲生成质量为代价,关键在于采用了“门控 LoRA 适配”技术,动态调节参数,仅在需要时激活推测模块。

这项研究为设备端大模型部署提供了新路径。相比依赖云端计算,MTP 可在 iPhone、Mac 等本地设备实现更快响应,降低延迟与能耗。

虽然目前仍处于研究阶段,但其兼容现有模型架构的特点,使其具备较强落地潜力,未来或可集成至 Siri、Apple Intelligence 等产品中,提升用户交互体验。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多 token 预测 大语言模型 苹果 AI 提速 Apple Intelligence
相关文章