东方财富报告 02月12日
[杭州深度求索人工智能基础技术研究]基于内容的图像搜索和检索
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了基于自然语言处理的深度学习模型DeepSeek,旨在解决现有图像搜索方案的局限性。现有方案如亚马逊的图像搜索依赖于基于图片的查询,而苹果的搜索则受限于可处理的令牌数量。DeepSeek通过文本查询实现端到端的图像搜索和检索,用户只需输入图像类型的描述,系统就能检索出语义和上下文相关的图像,克服了传统方案的诸多问题。该模型利用深度学习在图像字幕、机器翻译等领域的成功应用,为用户提供更便捷、准确的图像搜索体验。

🔑 DeepSeek模型是一种端到端的图像搜索和检索方法,它允许用户通过自然语言描述来搜索图像,无需基于图像的查询,解决了传统图像搜索的痛点。

🛠️ 该模型基于深度学习技术,借鉴了其在图像字幕、机器翻译等领域的成功应用,这意味着它能够理解查询的语义和上下文,从而提供更准确的搜索结果。

🖼️ DeepSeek旨在克服现有图像搜索方案的局限性,例如亚马逊图像搜索依赖于图片查询,苹果搜索受限于令牌数量,而Google图像搜索则可能受到元数据误导。

  Abstract   大多数互联网内容由视频和图像等数字媒体构成。随着像素成为互联网上大多数交易的基础货币,拥有一个相对简便的方式来浏览这些信息海洋变得越来越重要。每分钟上传到YouTube的视频时长达到400小时,而Instagram、Facebook等平台上也浏览着数以千万计的图片。受近期深度学习领域进展的启发以及其在图像字幕等多种问题上的成功应用,Karpathy和Fei-Fei,2015)and(徐等人。,2015)、机器翻译(Bahdanau等人。,2014),word2vec,跳过思想(Kiros等人。,2015),等等,我们在后续部分描述了两种方法,介绍了基于自然语言处理的深度学习模型DeepSeek。该模型允许用户输入他们想要搜索的图像类型描述,系统则会检索所有与查询在语义和上下文上相关的图像。   1 Introduction   图像搜索是一个非常具有挑战性的问题,目前仍然是活跃的研究领域。所有主要玩家如亚马逊、谷歌、苹果等都提供了相应的解决方案。然而,这些方案各自存在局限性。例如,亚马逊的图像搜索使用计算机视觉来检索相似图片,虽然在大多数情况下较为准确,但最大的问题是用户需要输入基于图片的查询,这在很多情况下可能难以获取。苹果在其设备中通过使用短语如“带有……的照片”等选项来搜索图片,但这仍然不能完全解决问题。   “食品”,“生日”等。由于受到可以准确处理的令牌数量限制,表达能力严重受限。此外,这种搜索当然也受限于设备上的图像数量。一些其他解决方案,如Google的图像搜索,使用元数据,这可能会相当误导。   为了克服所有这些问题,我们提出了一种端到端的图像搜索和检索方法,通过基于文本的查询使用自然语言处理技术。在下一节中,我们将描述所使用的数据和方法。   2相关工作   在基于内容的图像检索领域已经做了很多工作。(周等人。,2017)特别是,两项开创性的工作为大规模多媒体数据库基于内容的视觉检索的重大进展铺平了道路。第一项工作是引入不变局部视觉特征SIFT(Scale-Invariant Feature Transform)。Lowe,2004)。第二件工作是引入视觉袋(BoW)模型(Sivic和Zisserman,2003).通过利用信息检索技术,BoW模型基于图像中局部特征的量化构建紧凑的图像表示,并且可以轻松适应经典的倒排文件索引结构以实现可扩展的图像检索。图像表示源自这样一个事实:基于内容的视觉检索中的核心问题是图像比较。为了便于比较,将图像转换为某种特征空间。其动机在于实现隐式的对齐,以便消除背景影响以及潜在的变换或变化的影响,同时保持内在的视觉内容可区分性。传统上,视觉特征是根据启发式方法设计的,并可以分为局部特征和全局特征。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 图像搜索 自然语言处理 深度学习
相关文章