PaperAgent 2024年11月03日
AI时代大模型搜索引擎的16个局限性!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章对Perplexity.ai、BingChat、You.com进行量化评估,指出16个AI搜索引擎的局限性,提出16个设计建议,并与8个评估指标相关联,还展示了研究发现及量化评比结果

基于LLM的生成式搜索引擎正取代传统搜索引擎,文章研究评估了其与传统搜索引擎的交互,识别出16个答案引擎的局限性,如答案缺乏详细性、引用存在问题等

提出16个答案引擎设计建议,涵盖答案文本、引用、来源、用户界面等方面,如提供平衡答案、避免无支持引用等

对三个流行的引擎进行量化评比,结果显示没有一个引擎在大多数指标上表现良好,各有优缺点

介绍了答案引擎评估框架的8个量化指标,包括一边倒答案、过度自信的答案等

2024-11-03 18:48 湖北

Perplexity.ai、BingChat、You.com量化评估,16个AI搜索引擎设计建议,与8个评估指标相关联,16个AI搜索引擎局限性

基于LLM的生成式搜索引擎(Generative Search Engines正在取代传统搜索引擎。答案引擎不仅检索与用户查询相关的来源,还综合引用这些来源的答案摘要。与21名参与者进行了一项研究:评估答案引擎与传统搜索引擎的交互,识别出了16个答案引擎的局限性,提出了16个答案引擎设计建议,并与8个指标相关联。在三个流行的引擎(You.com、Perplexity.ai、BingChat)上实施了自动化评估,量化了常见的局限性(例如,频繁的幻觉、不准确的引用)和独特的特征(例如,答案信心的变化)。

答案引擎的设计流程和用于审计这些系统的研究框架。展示了答案引擎的关键组成部分,包括它如何根据用户查询生成答案,重点关注输出,如来源、答案文本和引用。在右侧,展示了进行的可用性研究的发现摘要,以及You Chat、Bing Copilot和Perplexity的最终评分卡评估。

16个答案引擎的局限性

总结了研究中发现的关于答案引擎的关键局限性,并将这些局限性归类为四个主题:答案文本(Answer Text)、引用(Citation)、来源(Sources)和用户界面(User Interface)

按答案引擎组件主题组织的研究发现摘要,以及明确识别并表达对每个组件担忧的参与者数量。

答案文本 (Answer Text)

    需要客观细节 (A.I):所有参与者(21/21)都表示生成的答案缺乏详细性和上下文深度。

    缺乏全面观点 (A.II):19名参与者表示答案引擎在处理有偏见的问题时未能展示多元观点。

    自信语言呈现声明 (A.III):16名参与者指出答案引擎在呈现声明时使用过于自信的语言。

    过于简化的写作形式 (A.IV):14名参与者认为答案引擎使用的语言过于简单,缺乏创造性和批判性思维。

[A] Perplexity的输出比较,它通过仅提供一个片面回应来反映问题中固有的偏见,以及[B] YouChat,它承认多种观点,避免呈现不完整的信息。

引用 (Citation)

    错误归属和误解来源 (C.I):21名参与者都提到答案引擎在引用时存在错误归属或误解来源的问题。

    基于假设上下文挑选信息 (C.II):19名参与者注意到答案引擎根据假设的上下文选择性地展示信息。

    声明和信息生成缺少引用 (C.III):18名参与者表示答案引擎在生成关键声明或信息时缺少必要的引用。

    模型回应中源选择的透明度缺乏 (C.IV):15名参与者对答案引擎在选择和优先考虑引用来源时的透明度表示担忧。

[A] Perplexity的输出比较,它缺乏对生成点的引用,导致对每个句子的实际来源产生混淆,以及[B] Copilot,它有效地指示了每个陈述的来源。

来源 (Sources)

    低频使用的来源 (S.I):19名参与者指出答案引擎用于总结的来源数量低。

    检索的来源多于用于生成实际答案的来源 (S.II):13名参与者提到答案引擎检索的来源多于实际用于生成答案的来源。

    来源类型缺乏信任 (S.III):12名参与者对答案引擎使用的来源类型表示不信任。

    来源引用和内容重复 (S.IV):12名参与者发现答案引擎检索的多个来源包含相同或高度相似的内容。

由Perplexity生成的结果[A]和相应的检索来源[B]。该图示说明了模型检索了8个来源,其中许多是同一来源的重复。尽管如此,模型以不同的方式引用它们,创造了内容多样化的假象,而实际上却是相同的。

用户界面 (User Interface)

    缺乏选择和过滤来源的能力 (U.I):17名参与者表示答案引擎的用户界面缺乏选择和过滤来源的能力。

    生成和源选择中缺乏人工输入 (U.II):17名参与者认为答案引擎在生成和源选择中缺乏人工输入。

    验证和信任答案需要额外工作 (U.III):14名参与者觉得答案引擎使得验证和信任答案需要额外的工作。

    引用格式非标准化交互 (U.IV):12名参与者对答案引擎的引用格式表示不满,认为它不是一个标准化的交互方式。

16个答案引擎设计建议

概述了针对答案引擎的16个设计建议,并将这些建议与研究发现和相应的8个量化指标相联系。

每个设计建议的总结,以及它们所针对的系统弱点和相应的量化指标

16个答案引擎设计建议的详细解释:

答案文本 (Answer Text) 设计建议

    提供平衡的答案 (S-I):对于可能具有引导性或偏见的问题,答案引擎应提供中立和平衡的答案,不假设或加强用户的偏见。

    提供客观细节以支持声明 (S-II):答案应包含支持其声明的客观细节,如数据和统计信息。

    最小化无关信息 (S-III):答案应避免包含无关的“填充”内容,确保每个句子都与问题直接相关。

    反映来源的全面性 (S-IV):答案引擎应透明地展示其选择和使用来源的理由,增强用户的信任。

引用 (Citation) 设计建议

    避免无支持的引用 (C-I):每个声明都应有适当的引用支持,否则应移除或明确其相关性。

    双重检查引用错误 (C-II):答案引擎应评估引用的外部一致性,减少错误归属或脱离上下文的引用。

    引用所有相关的来源 (C-III):对于需要多个参考点支持的声明,应引用所有相关来源。

    检索的来源必须等于使用的来源 (C-IV):确保列出的来源数量与实际用于构建答案的来源数量相匹配。

来源 (Sources) 设计建议

    明确关注专家来源 (S-I):答案引擎应识别并优先考虑权威来源,尤其是在它们提供明确答案时。

    仅检索和使用必要的来源 (S-II):模型应更选择性地检索来源,确保仅使用那些对于构建精确和上下文适宜的回答所必需的来源。

    区分来源基础与模型生成内容 (S-III):系统应区分基于来源的内容和模型生成的内容,增强透明度和用户信任。

    明确提及并意识到来源类型 (S-IV):答案引擎应智能评估和优先考虑来源类型,确保使用最可信和相关的来源。

用户界面 (User Interface) 设计建议

    纳入人类对来源和文本的反馈 (U-I):允许用户对搜索结果和生成内容提供反馈,提高回答的准确性和相关性。

    实施交互式引用 (U-II):开发交互式引用功能,如悬停弹出窗口,以提高用户对信息来源的理解和验证。

    采用段落级本地引用 (U-III):明确指示引用的确切信息和来源,提高透明度。

    在信息不足时避免强制回答 (U-IV):面对无法回答或信息不足的问题时,答案引擎应避免生成误导性或无关的回答。

答案引擎响应处理到答案引擎评估框架(AEE)的8个指标的说明图

8个量化指标

三个流行的引擎量化评比

对三个公共答案引擎(You.com、BingChat 和 Perplexity)基于自动化评估的量化结果。这些评估使用了之前开发的八个指标,这些指标构成了答案引擎评估(AEE)框架。以下是对量化评估结果的总结:

基于AEE基准的八个指标,对三个答案引擎——You.com、BingChat和Perplexity——进行定量评估:指标报告,用▲表示可接受,●表示边缘,▼表示有问题的性能。a图显示了答案置信度的分布。

    基本统计

答案文本指标

来源指标

引用指标

答案引擎评估得分卡

信心得分分布

https://arxiv.org/pdf/2410.22349Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI搜索引擎 设计建议 量化评估 局限性
相关文章