Abstract 大多数互联网内容由视频和图像等数字媒体构成。随着像素成为互联网上大多数交易的基础货币,拥有一个相对简便的方式来浏览这些信息海洋变得越来越重要。每分钟上传到YouTube的视频时长达到400小时,而Instagram、Facebook等平台上也浏览着数以千万计的图片。受近期深度学习领域进展的启发以及其在图像字幕等多种问题上的成功应用,Karpathy和Fei-Fei,2015)and(徐等人。,2015)、机器翻译(Bahdanau等人。,2014),word2vec,跳过思想(Kiros等人。,2015),等等,我们在后续部分描述了两种方法,介绍了基于自然语言处理的深度学习模型DeepSeek。该模型允许用户输入他们想要搜索的图像类型描述,系统则会检索所有与查询在语义和上下文上相关的图像。 1 Introduction 图像搜索是一个非常具有挑战性的问题,目前仍然是活跃的研究领域。所有主要玩家如亚马逊、谷歌、苹果等都提供了相应的解决方案。然而,这些方案各自存在局限性。例如,亚马逊的图像搜索使用计算机视觉来检索相似图片,虽然在大多数情况下较为准确,但最大的问题是用户需要输入基于图片的查询,这在很多情况下可能难以获取。苹果在其设备中通过使用短语如“带有……的照片”等选项来搜索图片,但这仍然不能完全解决问题。 “食品”,“生日”等。由于受到可以准确处理的令牌数量限制,表达能力严重受限。此外,这种搜索当然也受限于设备上的图像数量。一些其他解决方案,如Google的图像搜索,使用元数据,这可能会相当误导。 为了克服所有这些问题,我们提出了一种端到端的图像搜索和检索方法,通过基于文本的查询使用自然语言处理技术。在下一节中,我们将描述所使用的数据和方法。 2相关工作 在基于内容的图像检索领域已经做了很多工作。(周等人。,2017)特别是,两项开创性的工作为大规模多媒体数据库基于内容的视觉检索的重大进展铺平了道路。第一项工作是引入不变局部视觉特征SIFT(Scale-Invariant Feature Transform)。Lowe,2004)。第二件工作是引入视觉袋(BoW)模型(Sivic和Zisserman,2003).通过利用信息检索技术,BoW模型基于图像中局部特征的量化构建紧凑的图像表示,并且可以轻松适应经典的倒排文件索引结构以实现可扩展的图像检索。图像表示源自这样一个事实:基于内容的视觉检索中的核心问题是图像比较。为了便于比较,将图像转换为某种特征空间。其动机在于实现隐式的对齐,以便消除背景影响以及潜在的变换或变化的影响,同时保持内在的视觉内容可区分性。传统上,视觉特征是根据启发式方法设计的,并可以分为局部特征和全局特征。