小米大模型团队 2025-07-16 17:01 北京

你是否有过这样的经历：在商场地下停车场绕了十几分钟，还是想不起车停在哪个柱子旁？或是从写字楼出来，手里拎着电脑包，却在成排的车辆中找不到自己的车？

地下车库信号弱、结构复杂，环境像“复制粘贴”一样相似，每次停车，如果没有记住车位号或者明显的标志，回过头来找车，就仿佛都在玩一场“记忆力游戏”。

作为“移动智能空间”的探索者，小米汽车始终关注用户在出行过程中的每一个细节体验，针对这一高频痛点，小米汽车上线了全新功能——快捷找车，锁车后即会自动总结车位信息，车主再也不用费劲记车位！

01 锁车一瞬，五视角自动拍照

离开车的瞬间，就是找车体验的开始。你只需在 小米汽车App - 车辆设置 - 安全与服务 中开启【自动拍照】功能，锁车后，车辆将自动从俯视、前、后、左、右五个角度拍摄周围环境照片，并上传至小米汽车APP 的【车辆位置】页面。每张照片，都是你“找车的线索”。

但小米大模型团队并未止步于“拍照存图”这一步，团队进一步洞察用户需求，力争为用户提供更加直观、快捷的找车体验。

02

AI识别，不仅能看、更能理解

驻车拍照的图片在小米汽车APP界面中显示较小，楼层、区域信息往往隐藏在墙面的小角落，用户需要点击放大后查看，而前后左右的环视图还需要用户自己去“脑补”方位关系，辨识困难。

为了解决这些痛点，小米自研图像理解大模型正式上线！

小米自研图像理解大模型基于大量停车场场景数据训练，模型能基于多视角图像，进行图像预处理、关键特征区域裁切、编码、推理，准确识别停车位特征，最终结构化地输出车位号、楼层、区域、周边设施等信息。

通过这一功能，用户无需反复比对图片、放大查看，就可以直接获取车位号及车位环境的描述。

这样简单自然的体验，背后是小米长期以来在图像理解领域的技术积累。

小米很早就开始布局视觉大模型的研发，构建起了一整套自研的图像理解大模型体系，考虑到不同场景的算力条件不同，小米自研图像理解大模型通过不同大小的视觉模块结合不同尺寸的大语言模型，推出了不同大小的模型：

大尺寸模型参数量大，具备更强的上下文理解和特征识别能力，适用于复杂的、精度要求高的场景；

小尺寸模型在保证基础识别能力的同时，具备更高的运行效率，服务器成本较低；

为了兼顾快捷找车的速度和性能需求，技术上采用“大模型跑通+小模型部署”的策略——首先采用大尺寸模型快速构建起完整的车位识别与环境分析框架，然后通过知识蒸馏的方式训练将能力“压缩”传递给轻量级模型，大大节约了大模型部署的成本。这一方案，不仅让智能识别更准确，也兼顾了速度与成本，是小米多模态大模型技术在垂直场景落地中的一次重要实践。

通过评测，室内车位号识别准确率达93%，室外车位号识别准确率达98%，周围环境特征准确率在90%以上。

*说明：该功能已率先上线YU7，需要您在车辆上登录个人账号后才能进行使用，泊车时若未开启透明底盘，车辆将无法获取底盘照片。