Cnbeta 07月08日 07:32
苹果正在研发能够向盲人描述街景场景的AI代理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果公司的工程师们开发了一款名为SceneScout的AI代理,它能够精准描述街景场景,有望成为视障人士提前探索环境的工具。该AI由多模态大型语言模型驱动,通过分析街景图像,向用户提供详细的环境描述,包括路线预览和虚拟探索两种模式。研究表明,SceneScout能够帮助视障人士获取现有方法无法获得的信息,尽管在描述的准确性和个性化方面仍有提升空间。未来,结合实时数据和可穿戴设备,SceneScout有望为视障用户提供更便捷、更全面的环境感知体验。

🏙️ SceneScout是一款由苹果公司开发的AI代理,它基于多模态大型语言模型,能够分析街景图像并生成详细的环境描述。

🚶 SceneScout提供两种模式:'路线预览'模式提供路线上的元素信息,如转弯处的树木;'虚拟探索'模式允许用户在街景图像内自由移动,并描述所见元素。

🔍 用户研究表明,SceneScout对视障人士有帮助,能够提供他们无法通过现有方法获得的信息。描述准确率为72%,稳定视觉元素描述准确率达95%。

💡 改进建议包括提供个性化描述,改进描述视角,以及结合实时数据。例如,将描述的视角从汽车顶部的摄像头转移到行人通常所在的位置。

👓 未来,SceneScout有望与苹果正在研发的可穿戴设备结合,如内置摄像头的AirPods和Apple Glass智能眼镜,通过实时数据为用户提供更便捷的环境感知。

苹果工程师们已经开发出一款能够精准描述街景场景的人工智能代理。如果研究成功,它有望成为一种帮助视障人士提前虚拟探索某个地点的工具。盲人和视障人士已经拥有了导航设备和当地环境的工具。然而,苹果认为,让他们在前往目的地之前了解当地的地形特征可能会大有裨益。

苹果机器学习研究中心周一发布的一篇论文探讨了 SceneScout,这是一款由多模态大型语言模型驱动的 AI 代理。该代理的核心功能是查看街景图像,分析所见内容,并向观看者进行描述。

该论文的作者是苹果公司的 Leah Findlater 和 Cole Gleason,以及哥伦比亚大学的 Gaurav Jain。

据称,视力低下的人可能会犹豫在陌生的环境中独立出行,因为他们事先不知道会遇到什么样的地形。

有一些工具可以描述本地环境,例如微软 2018 年推出的Soundscape 应用程序。然而,它们都是为现场工作而设计的,而不是提前工作的。

目前,出行前建议会提供地标和逐向导航等详细信息,但这些内容无法为视障用户提供太多的景观背景信息。然而,街景风格的图像,例如Apple Maps Look Around,通常会为视力正常的用户提供更多背景线索,而这些线索往往会被视力障碍人士忽略。

这就是 SceneScout 介入的地方,它作为 AI 代理,使用街景图像提供可访问的交互。

Scene Scout 有两种模式,其中“路线预览”模式提供路线上可观察到的元素的详细信息。例如,它可以提示用户注意转弯处的树木以及其他更具触感的元素。

SceneScout 输出示例

第二种模式是虚拟探索,它可以在街景图像内实现自由移动,向用户描述虚拟移动的元素。

在用户研究中,该团队发现 SceneScout 对视障人士很有帮助,因为它能发现他们使用现有方法无法访问的信息。

就描述而言,大多数描述被认为是准确的,准确率为72%,并且能够描述稳定的视觉元素,准确率为95%。然而,偶尔出现的“细微且似是而非的错误”使得描述很难在不使用视觉的情况下进行验证。

当谈到改进系统的方法时,测试参与者建议SceneScout可以提供适用于多个会话的个性化描述。例如,系统可以了解用户喜欢听到的信息类型。

将描述的视角从汽车顶部的摄像头转移到行人通常所在的位置也有助于改善信息。

改进系统的另一种方法也可以在现场进行。参与者表示,他们希望街景描述能够实时提供,以匹配他们行走的位置。

参与者表示,这可以是一个通过骨传导耳机或透明模式在用户移动时提供视觉信息的应用程序。此外,用户可能希望在设备中使用陀螺仪和指南针的组合来指向环境细节的大致方向,而不是指望着摄像头对准计算机视觉。

与专利申请类似,一篇详述人工智能新用途的论文并不能保证它一定会应用于未来的产品或服务。然而,它让我们得以一窥苹果公司为这项技术考虑的应用场景。

虽然不使用街景图像,但类似的方法可以利用一些传闻中的苹果产品。

据悉,苹果正在研发内置摄像头的AirPods,以及自带摄像头的Apple Glass智能眼镜。这两种眼镜的摄像头都能为Apple Intelligence提供世界视角,进而帮助解答用户的疑问。

不难想象,类似的系统也可以用来向用户描述本地环境。所有这些都是通过实时数据,而不是可能过时的街景图像来实现的。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

苹果 AI 视障人士 街景 SceneScout
相关文章