小米技术 07月26日 13:55
小米 AI 眼镜:以技术突破重构智能交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米首款AI眼镜以“视觉+语音”双通道多模态感知,成为下一代智能设备的核心。为解决复杂场景下的交互痛点,小米AI眼镜通过VPU硬件与唤醒模型深度耦合、BF算法定向增强,构建了抑制误唤醒的双重防护。在续航方面,采用“一机双芯”异构计算平台及端侧AI模型轻量化,实现8.6小时典型使用续航。更重要的是,其自研多模态大模型技术,通过端云结合的图像问答架构,实现了“所见即所得、所问即所答”的无感交互体验,如多模态翻译和场景问答,打破语言与信息壁垒,让智能眼镜真正成为“贴身助手”。

✨ 精准交互,误唤醒不再:小米AI眼镜通过VPU硬件与唤醒模型的深度耦合,并辅以前端BF算法的定向增强技术,构建了“声学结界”有效抑制非佩戴者的误唤醒指令。VPU利用骨传导信号特性从源头过滤环境杂音,仅保留佩戴者语音,再结合BF算法的多波束技术实现定向拾音,确保“主人指令”成为唯一触发源,提升语音交互的准确性和用户体验。

🔋 超长续航,告别电量焦虑:设备采用高通AR1旗舰芯片与低功耗蓝牙音频处理芯片的“一机双芯”异构计算平台,将轻量级任务交由低功耗芯片处理,为主控芯片释放算力。软件层面,通过端侧AI模型轻量化重构与音频处理算法优化,在保持高识别精度的前提下显著降低能耗。最终实现典型使用续航时长达到8.6小时,覆盖用户全天候使用需求。

🧠 万物皆可识,无缝智能问答:小米AI眼镜搭载自研多模态大模型技术,通过端云结合的图像问答架构,解决了高清图像传输延迟高和模型精度依赖的矛盾。端侧通过轻量化ROI区域检测模型进行智能裁切,蓝牙传输延迟控制在百毫秒级;云端则利用千亿参数大模型进行深度解析和精准应答。这种架构实现了“所见即所得、所问即所答”,并在多模态翻译、场景问答等核心场景中提供“一眼看穿万物奥秘”的体验。

💬 多模态翻译,语言无阻碍:在翻译场景中,AI眼镜巧妙融合OCR文字识别与手指检测引擎,用户只需发出语音指令,即可实现“拍摄→识别→翻译→语音播报”的全流程操作,打破语言与信息壁垒,提供“抬眼看世界,耳边有答案”的交互体验。

💡 场景问答,知识即时获取:依托百万级物体数据库,小米AI眼镜能够实现对车型、动植物、电子产品等95%+的识别准确率,并支持云端数据实时更新。这意味着用户在日常生活中遇到陌生事物时,眼镜可以即时解析并提供相关信息,让“万物皆可识”成为现实。

小米技术 2025-07-23 17:01 北京

“小米首款 AI 眼镜,不仅是面向下一个时代的个人智能设备,更是随身的 AI 入口。”

智能眼镜凭借 “视觉 + 语音” 双通道多模态感知的先天优势,已然成为下一代智能化体验的核心载体。当技术触角延伸至咖啡厅的嘈杂对话、交流会的观点碰撞等复杂场景时,交互痛点便愈发凸显:硬件算力跟不上算法复杂度、容易被旁人误唤醒、发声主体识别模糊、远场收音时抗干扰能力弱;同时,在图片知识问答以及图片翻译场景中,在低传输延迟的前提下,如何保证模型效果高准确率是功能实现过程中的最大难题。

技术理想与用户期待之间,横亘着多重壁垒,而突破这些壁垒,正是解锁智能眼镜 “前所未有体验” 的关键所在。


01 

软硬件结合

有效抑制误唤醒

当 “小爱同学” 被旁人无意触发,当环境杂音干扰设备精准判断,用户对 “设备只听主人令” 的需求愈发迫切。智能设备误响应非佩戴者指令,堪称影响交互体验的 “顽疾”。如今,小米 AI 眼镜给出了一个务实且有效的解决方案 —— 通过 VPU 硬件与唤醒模型的深度耦合,辅以前端 BF 算法的定向增强技术,构建起双重防护的 “声学结界”,让智能交互更精准。

VPU加持,显著提升语音交互准确性

传统麦克风方案在复杂声场中常陷入困境 —— 无法有效剥离环境噪声与目标语音,而 VPU(语音拾取单元) 的引入实现了突破性进展。其核心优势源于骨传导信号的物理特性:声音通过颅骨振动直接传输,从源头过滤空气传播的环境杂音,仅保留佩戴者的语音特征。

这种 “纯净提取” 能力,为区分 “主人声” 与 “干扰声” 提供了独特的硬件基础,如同为设备装上了 “专属听觉过滤器”,提供了独特的硬件基础。设备在纷繁复杂的声音环境中,能精准捕捉到佩戴者的语音信号。



在提升佩戴者语音交互准确性方面,当用户佩戴小米 AI 眼镜,“小爱同学” 被唤醒词触发时,准确区分语音信号来源是关键。但实践中存在硬件局限,无法完全依靠 VPU 判断非佩戴者语音,单纯使用 Mic 阵列也难以有效区分。

那么,应该如何解决 “谁在唤醒” 的识别难题?研发团队采取了针对性解决方案:一是寻求最佳特征组合,通过分析与筛选多种语音特征,找到最能有效区分佩戴者与非佩戴者语音的声学特征组合;二是采用 VPU 分频段与 VPU/MIC 对之间的相干特性相结合的方式,利用分频段处理及相干特性分析,提升区分能力,更好地抑制非佩戴者语音信号,让 “主人指令” 成为唯一触发源。

多波束技术,实现定向拾音精准化BF 算法(波束形成算法) 作为音频信号处理的核心技术,通过调控多麦克风阵列的信号相位与幅度,形成指向性 “声音波束”,实现对目标方向声音的增强与干扰方向的抑制。在小米 AI 眼镜中,这一算法与 VPU 协同,针对不同场景实现精细化优化。

当 VPU 信号与唤醒模型深度结合,通过精准对比判断,能在绝大多数场景下识别非用户唤醒指令;再搭配 BF 算法对非佩戴者语音强度的有效抑制,双重维度为用户筑起 “防打扰壁垒”。

除了抑制误唤醒,BF 算法与 VPU 的协同,还能解决复杂场景下的拾音精准性问题 —— 比如同传翻译时,如何清晰捕捉对方声音同时过滤自己的说话声。在该场景中,由于佩戴者在翻译过程中有交流或提问需求,技术需准确区分佩戴者与非佩戴者声音,增强外部需翻译音频,同时抑制佩戴者语音。但该需求实现存在困难,VPU 在播放时产生的振动会影响判断准确性,且单纯依靠 4 个麦克风构成的波束,因正常 4 个麦克风的波束宽度和衰减能力存在局限,大致只能覆盖 30 度范围,衰减 15-20dB,很难做到波束足够窄且衰减足够大(需大于 40dB)。

对此,研发团队采用的解决方案是通过 4 个麦克风构成 2 个波束,让设备在多人对话中,哪怕旁人提到“小爱同学”,也能精准锁定你的指令;若对方在你侧面或身后说话,也能清晰拾音,避免翻译漏听。最终实现对非佩戴者声音的全方位抑制,提升非佩戴者的语音拾音效果。

02 

低功耗设

8.6 小时全天候陪伴

续航能力对于智能穿戴设备而言至关重要。频繁充电不仅增加使用成本,更会割裂用户的连续体验。如何提升待机时长,减少频繁充电的问题?

小米 AI 眼镜采用了软硬件结合的低功耗设计,有效提升了设备的待机时长。

在硬件层面,小米 AI 眼镜采用高通 AR1 旗舰芯片作为主控芯片,并搭配低功耗蓝牙音频处理芯片,构建起 “一机双芯” 的异构计算平台。通过任务负载的智能分配,将音频信号实时处理、语音唤醒监测等需持续运行的轻量级任务交由低功耗芯片独立承载,既显著降低了设备待机状态下的功耗水平,又为主控芯片释放了充足算力资源,确保其能稳定支持多维度功能的流畅运行。

在软件层面,研发团队通过端侧 AI 模型的轻量化重构与音频处理算法的深度效能优化,在保持核心识别精度不下降的前提下实现了能耗的精准压缩。依托软硬件协同的深度优化策略,小米 AI 眼镜的典型使用续航时长达到 8.6 小时,可全面覆盖日常通勤、办公协作及户外出行等多场景使用需求,有效缓解用户的 “电量焦虑” 问题。

03 

多模态大模型赋能

打造 “交互无感” 特色能力

解决误唤醒与续航问题后,如何让设备“看懂世界”并快速响应,成为突破体验上限的关键。这既需要设备具备 “看懂” 的能力,更要在复杂场景中实现 “秒懂” 的效率。

研发团队给出的答案是:依托小米自研多模态大模型技术,突破功能边界,实现 “所见即所得、所问即所答” 的智能体验。

为达成这一目标,首先要跨越智能眼镜固有的技术门槛:高清图像传输延迟高,大模型效果又严重依赖高清图像,形成 “速度与精度” 矛盾;且算力、延迟、精度的 “不可能三角” 难以通过单一端侧或云端突破。基于此,研发团队专为眼镜设计端云结合的图像问答大模型架构,分工协作破解难题。

端侧:轻量化模型 + 智能裁切

眼镜本地部署轻量级 ROI 区域检测模型,结合用户意图完成复杂计算,精准裁切关键区域后传输至云端,蓝牙传输延迟控制在百毫秒级,满足即时反馈需求。

关键 ROI区域检测:通过参数精简、模型量化等技术,在低算力下精准锁定用户兴趣区域,平衡检测精度与资源消耗;


基于意图的智能裁切:结合语义理解与 ROI 区域检测结果,自适应调整裁切范围,去除冗余信息、保留关键内容传输到云端,既保障传输速度,又为云端精准问答奠定基础。

云端:千亿参数大模型精准应答

云端大模型接收到端侧感知信息后,会结合用户意图,调用多垂类超千亿参数的多模态大模型,进行信息深度解析,对用户的意图进行分类和回答,使用户能以自然语言直接询问所见场景,实现“可见即可问”的智能交互。研发团队针对端云结合架构,设计了结合端侧信息的多任务学习模型训练方案。

端侧信息自适应增强训练:在多模态训练数据中融入端侧信息,同时设计针对性学习任务,让模型在训练中充分理解端侧信息,并能自动判断端侧信息的合理性,在实现端侧信息有效利用的同时避免错误信息的误导。


困难图片的针对性提升训练:在训练视觉编码器时引入模糊等困难图片样本,通过放缩、高斯模糊等实现对端侧困难图片的模拟,并在训练中调整不同困难图片的比例,提升大模型对困难图片的感知能力。


这种“端云结合”的架构,既突破了硬件算力限制,又实现了“极速响应+超高精度”的体验平衡,让智能眼镜通过技术架构创新,实现了“万物可识”从概念到日常的转变。

AI 眼镜图像问答:核心场景体验

模态翻译/阅读:镜头所至,语言无阻

AI 智能眼镜巧妙融合 OCR 文字识别与手指检测引擎,在多模态翻译/阅读场景下,实现“抬眼看世界,耳边有答案”的交互体验。当面对外语菜单时,用户仅需发出“拍照翻译”等语音指令,系统便会迅速且自动地完成“拍摄→识别→翻译→语音播报”一系列操作,实时精准输出翻译结果,打破语言与信息壁垒。


多模态场景问答:一眼看穿万物奥秘

面对陌生物体想快速了解?AI 眼镜能一眼识别。依托百万级物体数据库(覆盖车型、动植物、电子产品等),AI 眼镜可实现 95%+识别准确率,并支持云端数据实时更新。不论是街头遇稀有跑车、公园见奇特花卉,眼镜均可即时解析,让 “万物皆可识” 成为日常。



-

从 “只听主人令” 的精准交互,到“8.6 小时”的续航,再到 “所见即所答” 的智能体验。小米 AI 眼镜的每一项技术突破,都在回应着用户对智能设备 “更懂需求、更贴生活” 的深层期待。

当智能设备从 “功能工具” 进化为 “贴身助手”,细节处的技术打磨往往决定着体验的跃升。小米 AI 眼镜以硬件创新为基、以算法优化为翼,正推动智能穿戴设备向“自然交互、无缝融入” 的理想形态加速迈进。


END

图片

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米AI眼镜 智能穿戴 多模态交互 AI技术 语音识别
相关文章