MIT 科技评论 - 本周热榜 01月27日
港中文团队打造新型基准测试集,可用于高级AI搜索引擎
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港中文大学博士生姜东志团队开展MMSearch研究,构建能处理多模态查询的搜索引擎框架及测试集,发现大模型在搜索任务中的不足,探讨其应用前景及后续研究方向。

🎯构建MMSearch-Engine,处理多模态查询和内容,在某些方面超越商业产品

📋构建MMSearch测试集,涵盖不同子领域,模拟真实世界问题

💡发现大模型在搜索任务中的不足,规划后续改进和扩展研究

🌐探讨MMSearch的应用前景,如高级AI搜索引擎、多模态电子商务搜索等

近日,香港中文大学博士生姜东志和所在团队开展了关于MMSearch研究。

图 | 姜东志(来源:姜东志)

研究背景主要源于当前AI搜索引擎领域的一个显著局限:随着大模型的出现,AI搜索引擎如SearchGPT展示了人类与互联网交互的新范式。然而,他们发现当前大多数AI搜索引擎仅限于文本的输入,这忽视了两个关键方面:

其一,忽视了用户查询的多模态性质:实际上,用户的信息需求常常包含文本和图像的混合。

其二,忽视了网站信息的文本-图像交错特性:现代网页通常包含丰富的视觉元素,这些元素往往携带关键信息。

同时,他们注意到大模型近期取得了令人印象深刻的进展。这促使他们思考:大模型是否能作为AI搜索引擎发挥作用?而这个问题此前并未得到充分探索。

基于这些背景,本次研究得到了如下成果:

首先,他们构建了MMSearch-Engine,这是一个能够处理多模态查询和内容的搜索引擎框架,该开源框架甚至在某些情况下超越了商业产品Perplexity Pro。

其次,他们构建了MMSearch,这是一个能用于全面评估大模型在搜索任务中的表现的测试集。

经过他们的测试,当前的大模型在问题重构和网页排序方面存在明显不足,这严重限制了它们在搜索任务中的整体表现。这些模型需要针对性地训练才能完美地胜任多模态AI搜索任务。

在应用前景上:

首先,可用于高级AI搜索引擎:除文本外,用户可以自由上传图片、语音等其他形式的信息,AI搜索引擎可以配合文本描述来查找相关信息。人们可以随意组织问题的格式,由AI来理解人类的意图,并且将人们的提问转化成传统搜索引擎更容易理解的形式去提问。一个可能的例子是,上传一张建筑物的照片并用语音询问“这栋建筑的历史是什么?”这样的AI搜索引擎将会颠覆目前的人与互联网的交互形式,使互联网的使用门槛更低、更自由和方便。

其次,可用于多模态电子商务搜索:消费者可以结合图片和文字描述来查找商品。比如,上传一张喜欢的家具照片并询问“哪里可以买到类似风格但更便宜的家具?”

再次,可用于智能旅游助手:旅行者可以拍摄景点照片并直接获取相关信息,如历史背景、参观建议等。

研究中,从最初的构思到最终的成果,他们经历了几个关键阶段。这一切始于他们对当前AI搜索引擎局限性的观察。他们注意到,尽管大模型在文本处理方面取得了巨大进展,但却无法处理多模态的信息。这促使他们开始思考:如何才能创造一个真正能够理解和处理文本与图像结合的搜索引擎以及如何进行评估?

带着这个想法,他们着手设计和构建MMSearch-Engine。设计的核心是需要创造一个能够无缝集成文本和视觉信息的系统,目标是让任何大模型都能够获得多模态搜索能力。

在经过反复的实验和优化,他们最终设计出了一个三步骤的工作流程:问题重构、网页排序和答案总结。这个框架中对输入的两种模态都进行了搜索,并且在每一步都引入了多模态的信息,以确保能够充分利用大模型的多模态信息理解能力。

有了MMSearch-Engine这个工具,他们进入了研究的第二个关键阶段:数据收集和基准构建。他们意识到,要真正评估多模态搜索能力,需要一个全面而富有挑战性的测试集。

这个阶段是耗时且需要创意的过程。他们精心设计了300个问题,涵盖了14个不同的子领域。为了确保测试的全面性和时效性,他们将内容分为新闻和知识两大类别。新闻类别聚焦于最新信息,而知识类别则收集了需要罕见知识才能回答的查询。

研究人员表示,他们的测试集模拟了真实世界的各类问题。由富有经验的标注员确保每个问题都是可回答的,同时又具有足够的挑战性。

有了MMSearch-Engine和MMSearch基准测试集,课题组开始在他们构建的框架上使用不同的大模型进行测试和评估。

他们选择了多个闭源和开源的大模型进行测试,包括像GPT-4这样的顶级模型。期间,不仅要评估这些模型在多模态搜索任务上的整体表现,还要分析它们在问题重构、网页排序和答案总结等具体任务上的能力。

测试中,他们发现了一些令人惊讶的结果。例如,他们发现高分辨率的图像输入并没有为大多数大模型带来明显的性能提升。这个发现让他们重新思考了多模态搜索中的关键挑战所在。

另一个重要发现是,在某些情况下,配备了MMSearch-Engine的大模型甚至超越了知名的商业产品。这不仅验证了他们框架的有效性,也为未来的AI搜索引擎发展指明了方向。

当然,本次研究远未结束。基于这些发现,他们已经规划了一系列后续研究,包括改进问题重构和网页排序能力以及优化推理时计算策略等等。

第一,他们将改进问题重构和网页排序能力:研究人员发现现有的多模态大模型在这两个方面存在明显不足。因此,他们计划开发专门的训练方法和数据集,以提升模型在这些任务上的表现,这可能包括设计特定的预训练任务或微调策略。

第二,他们计划扩展MMSearch测试集:具体来说其将持续扩充和更新测试集,加入更多领域和更复杂的查询类型,并且扩充更多类型的模态的输入,使之更符合现实的场景。同时,其还计划增加需要多个模态共同推理的问题,以更全面地评估模型能力。

第三,他们计划优化推理时计算策略:基于本次成果研究人员发现增加推理时的计算量比简单增大模型规模更有效。因此,他们计划深入研究这一现象,开发更高效的推理策略。


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MMSearch 多模态 搜索引擎 应用前景
相关文章