小米技术 10小时前
小米 AI 眼镜:以技术突破重构智能交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小米首款AI眼镜旨在成为下一代个人智能设备和AI入口。文章详细介绍了其在解决复杂场景下的交互痛点方面的创新技术。通过VPU硬件与唤醒模型及BF算法的深度耦合,有效抑制了误唤醒和提升了语音交互的准确性。同时,采用“一机双芯”的异构计算平台和端侧AI模型的轻量化,实现了8.6小时的超长续航。此外,小米自研的多模态大模型技术,通过端云结合的架构,实现了“所见即所得、所问即所答”的智能体验,尤其在图像问答和多模态翻译场景下表现出色,将智能穿戴设备推向了更自然、无缝的交互新阶段。

🎯 精准语音交互,告别误唤醒:小米AI眼镜通过VPU硬件与唤醒模型的深度耦合,并结合BF算法的定向增强技术,构建了双重“声学结界”。VPU利用骨传导信号过滤环境杂音,保留佩戴者语音;BF算法通过多麦克风阵列形成指向性波束,增强目标声音并抑制干扰。这些技术协同作用,显著提升了设备在嘈杂环境下的语音识别准确率,确保“只听主人令”,有效解决了智能设备误响应的顽疾。

🔋 8.6小时超长续航,缓解电量焦虑:为解决智能穿戴设备的续航痛点,小米AI眼镜采用了软硬件结合的低功耗设计。硬件上,“一机双芯”的异构计算平台将轻量级任务交给低功耗芯片处理,为主控芯片释放算力。软件上,通过端侧AI模型的轻量化重构和音频处理算法的优化,在保证精度的前提下压缩能耗。这一策略使得设备典型使用续航达到8.6小时,满足用户全天候使用需求,有效缓解了“电量焦虑”。

💡 端云结合,实现“所见即所答”:为让设备“看懂世界”并快速响应,小米AI眼镜依托自研多模态大模型,采用了创新的端云结合架构。端侧部署轻量级ROI区域检测模型,智能裁切关键区域并低延迟传输至云端;云端则利用千亿参数大模型进行深度解析和精准应答。这种架构有效解决了高清图像传输延迟高、模型依赖高清图像的矛盾,实现了“速度与精度”的平衡,让用户能够自然地询问所见场景,实现“所见即所得”的智能交互体验。

🌐 多模态应用,打破信息壁垒:小米AI眼镜在多模态场景下展现出强大的应用能力。在多模态翻译/阅读场景中,融合OCR文字识别与手指检测引擎,用户只需语音指令,即可实现“拍摄→识别→翻译→语音播报”的全流程操作,打破语言障碍。在多模态场景问答中,依托百万级物体数据库,可实现对各类物体(车型、动植物等)95%+的识别准确率,让“万物皆可识”成为可能,为用户提供即时、丰富的信息获取体验。

小米技术 2025-07-23 17:01 北京

“小米首款 AI 眼镜,不仅是面向下一个时代的个人智能设备,更是随身的 AI 入口。”

智能眼镜凭借 “视觉 + 语音” 双通道多模态感知的先天优势,已然成为下一代智能化体验的核心载体。当技术触角延伸至咖啡厅的嘈杂对话、交流会的观点碰撞等复杂场景时,交互痛点便愈发凸显:硬件算力跟不上算法复杂度、容易被旁人误唤醒、发声主体识别模糊、远场收音时抗干扰能力弱;同时,在图片知识问答以及图片翻译场景中,在低传输延迟的前提下,如何保证模型效果高准确率是功能实现过程中的最大难题。

技术理想与用户期待之间,横亘着多重壁垒,而突破这些壁垒,正是解锁智能眼镜 “前所未有体验” 的关键所在。


01 

软硬件结合

有效抑制误唤醒

当 “小爱同学” 被旁人无意触发,当环境杂音干扰设备精准判断,用户对 “设备只听主人令” 的需求愈发迫切。智能设备误响应非佩戴者指令,堪称影响交互体验的 “顽疾”。如今,小米 AI 眼镜给出了一个务实且有效的解决方案 —— 通过 VPU 硬件与唤醒模型的深度耦合,辅以前端 BF 算法的定向增强技术,构建起双重防护的 “声学结界”,让智能交互更精准。

VPU加持,显著提升语音交互准确性

传统麦克风方案在复杂声场中常陷入困境 —— 无法有效剥离环境噪声与目标语音,而 VPU(语音拾取单元) 的引入实现了突破性进展。其核心优势源于骨传导信号的物理特性:声音通过颅骨振动直接传输,从源头过滤空气传播的环境杂音,仅保留佩戴者的语音特征。

这种 “纯净提取” 能力,为区分 “主人声” 与 “干扰声” 提供了独特的硬件基础,如同为设备装上了 “专属听觉过滤器”,提供了独特的硬件基础。设备在纷繁复杂的声音环境中,能精准捕捉到佩戴者的语音信号。



在提升佩戴者语音交互准确性方面,当用户佩戴小米 AI 眼镜,“小爱同学” 被唤醒词触发时,准确区分语音信号来源是关键。但实践中存在硬件局限,无法完全依靠 VPU 判断非佩戴者语音,单纯使用 Mic 阵列也难以有效区分。

那么,应该如何解决 “谁在唤醒” 的识别难题?研发团队采取了针对性解决方案:一是寻求最佳特征组合,通过分析与筛选多种语音特征,找到最能有效区分佩戴者与非佩戴者语音的声学特征组合;二是采用 VPU 分频段与 VPU/MIC 对之间的相干特性相结合的方式,利用分频段处理及相干特性分析,提升区分能力,更好地抑制非佩戴者语音信号,让 “主人指令” 成为唯一触发源。

多波束技术,实现定向拾音精准化

BF 算法(波束形成算法) 作为音频信号处理的核心技术,通过调控多麦克风阵列的信号相位与幅度,形成指向性 “声音波束”,实现对目标方向声音的增强与干扰方向的抑制。在小米 AI 眼镜中,这一算法与 VPU 协同,针对不同场景实现精细化优化。

当 VPU 信号与唤醒模型深度结合,通过精准对比判断,能在绝大多数场景下识别非用户唤醒指令;再搭配 BF 算法对非佩戴者语音强度的有效抑制,双重维度为用户筑起 “防打扰壁垒”。

除了抑制误唤醒,BF 算法与 VPU 的协同,还能解决复杂场景下的拾音精准性问题 —— 比如同传翻译时,如何清晰捕捉对方声音同时过滤自己的说话声。在该场景中,由于佩戴者在翻译过程中有交流或提问需求,技术需准确区分佩戴者与非佩戴者声音,增强外部需翻译音频,同时抑制佩戴者语音。但该需求实现存在困难,VPU 在播放时产生的振动会影响判断准确性,且单纯依靠 4 个麦克风构成的波束,因正常 4 个麦克风的波束宽度和衰减能力存在局限,大致只能覆盖 30 度范围,衰减 15-20dB,很难做到波束足够窄且衰减足够大(需大于 40dB)。

对此,研发团队采用的解决方案是通过 4 个麦克风构成 2 个波束,让设备在多人对话中,哪怕旁人提到“小爱同学”,也能精准锁定你的指令;若对方在你侧面或身后说话,也能清晰拾音,避免翻译漏听。最终实现对非佩戴者声音的全方位抑制,提升非佩戴者的语音拾音效果。

02 

低功耗设

8.6 小时全天候陪伴

续航能力对于智能穿戴设备而言至关重要。频繁充电不仅增加使用成本,更会割裂用户的连续体验。如何提升待机时长,减少频繁充电的问题?

小米 AI 眼镜采用了软硬件结合的低功耗设计,有效提升了设备的待机时长。

在硬件层面,小米 AI 眼镜采用高通 AR1 旗舰芯片作为主控芯片,并搭配低功耗蓝牙音频处理芯片,构建起 “一机双芯” 的异构计算平台。通过任务负载的智能分配,将音频信号实时处理、语音唤醒监测等需持续运行的轻量级任务交由低功耗芯片独立承载,既显著降低了设备待机状态下的功耗水平,又为主控芯片释放了充足算力资源,确保其能稳定支持多维度功能的流畅运行。

在软件层面,研发团队通过端侧 AI 模型的轻量化重构与音频处理算法的深度效能优化,在保持核心识别精度不下降的前提下实现了能耗的精准压缩。依托软硬件协同的深度优化策略,小米 AI 眼镜的典型使用续航时长达到 8.6 小时,可全面覆盖日常通勤、办公协作及户外出行等多场景使用需求,有效缓解用户的 “电量焦虑” 问题。

03 

多模态大模型赋能

打造 “交互无感” 特色能力

解决误唤醒与续航问题后,如何让设备“看懂世界”并快速响应,成为突破体验上限的关键。这既需要设备具备 “看懂” 的能力,更要在复杂场景中实现 “秒懂” 的效率。

研发团队给出的答案是:依托小米自研多模态大模型技术,突破功能边界,实现 “所见即所得、所问即所答” 的智能体验。

为达成这一目标,首先要跨越智能眼镜固有的技术门槛:高清图像传输延迟高,大模型效果又严重依赖高清图像,形成 “速度与精度” 矛盾;且算力、延迟、精度的 “不可能三角” 难以通过单一端侧或云端突破。基于此,研发团队专为眼镜设计端云结合的图像问答大模型架构,分工协作破解难题。

端侧:轻量化模型 + 智能裁切

眼镜本地部署轻量级 ROI 区域检测模型,结合用户意图完成复杂计算,精准裁切关键区域后传输至云端,蓝牙传输延迟控制在百毫秒级,满足即时反馈需求。

云端:千亿参数大模型精准应答

云端大模型接收到端侧感知信息后,会结合用户意图,调用多垂类超千亿参数的多模态大模型,进行信息深度解析,对用户的意图进行分类和回答,使用户能以自然语言直接询问所见场景,实现“可见即可问”的智能交互。研发团队针对端云结合架构,设计了结合端侧信息的多任务学习模型训练方案。

这种“端云结合”的架构,既突破了硬件算力限制,又实现了“极速响应+超高精度”的体验平衡,让智能眼镜通过技术架构创新,实现了“万物可识”从概念到日常的转变。

AI 眼镜图像问答:核心场景体验

AI 智能眼镜巧妙融合 OCR 文字识别与手指检测引擎,在多模态翻译/阅读场景下,实现“抬眼看世界,耳边有答案”的交互体验。当面对外语菜单时,用户仅需发出“拍照翻译”等语音指令,系统便会迅速且自动地完成“拍摄→识别→翻译→语音播报”一系列操作,实时精准输出翻译结果,打破语言与信息壁垒。


面对陌生物体想快速了解?AI 眼镜能一眼识别。依托百万级物体数据库(覆盖车型、动植物、电子产品等),AI 眼镜可实现 95%+识别准确率,并支持云端数据实时更新。不论是街头遇稀有跑车、公园见奇特花卉,眼镜均可即时解析,让 “万物皆可识” 成为日常。



-

从 “只听主人令” 的精准交互,到“8.6 小时”的续航,再到 “所见即所答” 的智能体验。小米 AI 眼镜的每一项技术突破,都在回应着用户对智能设备 “更懂需求、更贴生活” 的深层期待。

当智能设备从 “功能工具” 进化为 “贴身助手”,细节处的技术打磨往往决定着体验的跃升。小米 AI 眼镜以硬件创新为基、以算法优化为翼,正推动智能穿戴设备向“自然交互、无缝融入” 的理想形态加速迈进。


END


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

小米AI眼镜 智能穿戴 多模态交互 AI技术 语音识别
相关文章