小米技术 2025-07-23 17:01 北京

“小米首款 AI 眼镜，不仅是面向下一个时代的个人智能设备，更是随身的 AI 入口。”

智能眼镜凭借 “视觉 + 语音” 双通道多模态感知的先天优势，已然成为下一代智能化体验的核心载体。当技术触角延伸至咖啡厅的嘈杂对话、交流会的观点碰撞等复杂场景时，交互痛点便愈发凸显：硬件算力跟不上算法复杂度、容易被旁人误唤醒、发声主体识别模糊、远场收音时抗干扰能力弱；同时，在图片知识问答以及图片翻译场景中，在低传输延迟的前提下，如何保证模型效果高准确率是功能实现过程中的最大难题。

技术理想与用户期待之间，横亘着多重壁垒，而突破这些壁垒，正是解锁智能眼镜 “前所未有体验” 的关键所在。

01 软硬件结合

有效抑制误唤醒

当 “小爱同学” 被旁人无意触发，当环境杂音干扰设备精准判断，用户对 “设备只听主人令” 的需求愈发迫切。智能设备误响应非佩戴者指令，堪称影响交互体验的 “顽疾”。如今，小米 AI 眼镜给出了一个务实且有效的解决方案 —— 通过 VPU 硬件与唤醒模型的深度耦合，辅以前端 BF 算法的定向增强技术，构建起双重防护的 “声学结界”，让智能交互更精准。

▍VPU加持，显著提升语音交互准确性

传统麦克风方案在复杂声场中常陷入困境 —— 无法有效剥离环境噪声与目标语音，而 VPU（语音拾取单元）的引入实现了突破性进展。其核心优势源于骨传导信号的物理特性：声音通过颅骨振动直接传输，从源头过滤空气传播的环境杂音，仅保留佩戴者的语音特征。

这种 “纯净提取” 能力，为区分 “主人声” 与 “干扰声” 提供了独特的硬件基础，如同为设备装上了 “专属听觉过滤器”，提供了独特的硬件基础。设备在纷繁复杂的声音环境中，能精准捕捉到佩戴者的语音信号。

在提升佩戴者语音交互准确性方面，当用户佩戴小米 AI 眼镜，“小爱同学” 被唤醒词触发时，准确区分语音信号来源是关键。但实践中存在硬件局限，无法完全依靠 VPU 判断非佩戴者语音，单纯使用 Mic 阵列也难以有效区分。

那么，应该如何解决 “谁在唤醒” 的识别难题？研发团队采取了针对性解决方案：一是寻求最佳特征组合，通过分析与筛选多种语音特征，找到最能有效区分佩戴者与非佩戴者语音的声学特征组合；二是采用 VPU 分频段与 VPU/MIC 对之间的相干特性相结合的方式，利用分频段处理及相干特性分析，提升区分能力，更好地抑制非佩戴者语音信号，让 “主人指令” 成为唯一触发源。

▍多波束技术，实现定向拾音精准化

BF 算法（波束形成算法）作为音频信号处理的核心技术，通过调控多麦克风阵列的信号相位与幅度，形成指向性 “声音波束”，实现对目标方向声音的增强与干扰方向的抑制。在小米 AI 眼镜中，这一算法与 VPU 协同，针对不同场景实现精细化优化。

当 VPU 信号与唤醒模型深度结合，通过精准对比判断，能在绝大多数场景下识别非用户唤醒指令；再搭配 BF 算法对非佩戴者语音强度的有效抑制，双重维度为用户筑起 “防打扰壁垒”。

除了抑制误唤醒，BF 算法与 VPU 的协同，还能解决复杂场景下的拾音精准性问题 —— 比如同传翻译时，如何清晰捕捉对方声音同时过滤自己的说话声。在该场景中，由于佩戴者在翻译过程中有交流或提问需求，技术需准确区分佩戴者与非佩戴者声音，增强外部需翻译音频，同时抑制佩戴者语音。但该需求实现存在困难，VPU 在播放时产生的振动会影响判断准确性，且单纯依靠 4 个麦克风构成的波束，因正常 4 个麦克风的波束宽度和衰减能力存在局限，大致只能覆盖 30 度范围，衰减 15-20dB，很难做到波束足够窄且衰减足够大（需大于 40dB）。

对此，研发团队采用的解决方案是通过 4 个麦克风构成 2 个波束，让设备在多人对话中，哪怕旁人提到“小爱同学”，也能精准锁定你的指令；若对方在你侧面或身后说话，也能清晰拾音，避免翻译漏听。最终实现对非佩戴者声音的全方位抑制，提升非佩戴者的语音拾音效果。

02

低功耗设计

8.6 小时全天候陪伴

续航能力对于智能穿戴设备而言至关重要。频繁充电不仅增加使用成本，更会割裂用户的连续体验。如何提升待机时长，减少频繁充电的问题？

小米 AI 眼镜采用了软硬件结合的低功耗设计，有效提升了设备的待机时长。

在硬件层面，小米 AI 眼镜采用高通 AR1 旗舰芯片作为主控芯片，并搭配低功耗蓝牙音频处理芯片，构建起 “一机双芯” 的异构计算平台。通过任务负载的智能分配，将音频信号实时处理、语音唤醒监测等需持续运行的轻量级任务交由低功耗芯片独立承载，既显著降低了设备待机状态下的功耗水平，又为主控芯片释放了充足算力资源，确保其能稳定支持多维度功能的流畅运行。

在软件层面，研发团队通过端侧 AI 模型的轻量化重构与音频处理算法的深度效能优化，在保持核心识别精度不下降的前提下实现了能耗的精准压缩。依托软硬件协同的深度优化策略，小米 AI 眼镜的典型使用续航时长达到 8.6 小时，可全面覆盖日常通勤、办公协作及户外出行等多场景使用需求，有效缓解用户的 “电量焦虑” 问题。

03

多模态大模型赋能

打造 “交互无感” 特色能力

解决误唤醒与续航问题后，如何让设备“看懂世界”并快速响应，成为突破体验上限的关键。这既需要设备具备 “看懂” 的能力，更要在复杂场景中实现 “秒懂” 的效率。

研发团队给出的答案是：依托小米自研多模态大模型技术，突破功能边界，实现 “所见即所得、所问即所答” 的智能体验。

为达成这一目标，首先要跨越智能眼镜固有的技术门槛：高清图像传输延迟高，大模型效果又严重依赖高清图像，形成 “速度与精度” 矛盾；且算力、延迟、精度的 “不可能三角” 难以通过单一端侧或云端突破。基于此，研发团队专为眼镜设计端云结合的图像问答大模型架构，分工协作破解难题。

▍端侧：轻量化模型 + 智能裁切

眼镜本地部署轻量级 ROI 区域检测模型，结合用户意图完成复杂计算，精准裁切关键区域后传输至云端，蓝牙传输延迟控制在百毫秒级，满足即时反馈需求。

关键 ROI区域检测：通过参数精简、模型量化等技术，在低算力下精准锁定用户兴趣区域，平衡检测精度与资源消耗；

基于意图的智能裁切：结合语义理解与 ROI 区域检测结果，自适应调整裁切范围，去除冗余信息、保留关键内容传输到云端，既保障传输速度，又为云端精准问答奠定基础。

▍云端：千亿参数大模型精准应答

云端大模型接收到端侧感知信息后，会结合用户意图，调用多垂类超千亿参数的多模态大模型，进行信息深度解析，对用户的意图进行分类和回答，使用户能以自然语言直接询问所见场景，实现“可见即可问”的智能交互。研发团队针对端云结合架构，设计了结合端侧信息的多任务学习模型训练方案。

端侧信息自适应增强训练：在多模态训练数据中融入端侧信息，同时设计针对性学习任务，让模型在训练中充分理解端侧信息，并能自动判断端侧信息的合理性，在实现端侧信息有效利用的同时避免错误信息的误导。

困难图片的针对性提升训练：在训练视觉编码器时引入模糊等困难图片样本，通过放缩、高斯模糊等实现对端侧困难图片的模拟，并在训练中调整不同困难图片的比例，提升大模型对困难图片的感知能力。

这种“端云结合”的架构，既突破了硬件算力限制，又实现了“极速响应+超高精度”的体验平衡，让智能眼镜通过技术架构创新，实现了“万物可识”从概念到日常的转变。

▍AI 眼镜图像问答：核心场景体验

多模态翻译/阅读：镜头所至，语言无阻

AI 智能眼镜巧妙融合 OCR 文字识别与手指检测引擎，在多模态翻译/阅读场景下，实现“抬眼看世界，耳边有答案”的交互体验。当面对外语菜单时，用户仅需发出“拍照翻译”等语音指令，系统便会迅速且自动地完成“拍摄→识别→翻译→语音播报”一系列操作，实时精准输出翻译结果，打破语言与信息壁垒。

多模态场景问答：一眼看穿万物奥秘

面对陌生物体想快速了解？AI 眼镜能一眼识别。依托百万级物体数据库（覆盖车型、动植物、电子产品等），AI 眼镜可实现 95%+识别准确率，并支持云端数据实时更新。不论是街头遇稀有跑车、公园见奇特花卉，眼镜均可即时解析，让 “万物皆可识” 成为日常。

从 “只听主人令” 的精准交互，到“8.6 小时”的续航，再到 “所见即所答” 的智能体验。小米 AI 眼镜的每一项技术突破，都在回应着用户对智能设备 “更懂需求、更贴生活” 的深层期待。

当智能设备从 “功能工具” 进化为 “贴身助手”，细节处的技术打磨往往决定着体验的跃升。小米 AI 眼镜以硬件创新为基、以算法优化为翼，正推动智能穿戴设备向“自然交互、无缝融入” 的理想形态加速迈进。

END

阅读原文

跳转微信打开

01

软硬件结合

有效抑制误唤醒

▍VPU加持，显著提升语音交互准确性

▍多波束技术，实现定向拾音精准化

02

03

▍端侧：轻量化模型 + 智能裁切

▍云端：千亿参数大模型精准应答

▍AI 眼镜图像问答：核心场景体验

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签