哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

IT之家 03月13日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

哥伦比亚大学数字新闻研究中心近期对八款AI搜索引擎进行了研究，结果显示，除了Perplexity及其付费版外，其余AI搜索引擎的准确性普遍较低。研究人员通过测试这些引擎对新闻报道的引用情况发现，AI搜索引擎提供的答案有60%是不准确的，并且AI对错误答案的“自信”加剧了问题。其中，ChatGPT Search虽然回答了所有问题，但错误率高达57%。Grok AI和微软Copilot的表现也令人担忧，错误率分别高达94%和接近70%。尽管存在这些问题，这些AI工具的开发公司仍在向用户收取高额订阅费用。

📝 研究对比了ChatGPT Search、Perplexity、Gemini等八款AI搜索引擎，评估其在引用新闻报道时的准确性，结果表明大部分AI搜索引擎的答案准确率较低。

❌ 研究发现，AI搜索引擎不仅会出错，还常常以肯定的语气陈述错误信息，甚至在被质疑时仍试图自圆其说。即使承认错误，也可能在后续回答中继续编造内容，体现了“无论如何都要给出答案”的设定。

📊 数据显示，ChatGPT Search虽然回答了所有查询，但“完全正确”率仅为28%，而“完全错误”率高达57%。Grok AI的错误率更是高达94%，微软Copilot也存在大量拒绝作答和错误回答的情况。

💰 值得注意的是，尽管AI搜索引擎存在诸多问题，但开发公司仍在向用户收取每月20至200美元的订阅费。付费版Perplexity Pro和Grok-3 Search虽然回答得更多，但错误率也更高。

IT之家 3 月 13 日消息，据外媒 Techspot 周二报道，哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期对八款 AI 搜索引擎展开研究，包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性，并记录了它们拒绝回答问题的频率。

研究人员从 20 家新闻机构中随机挑选了 200 篇报道（每家 10 篇），确保它们在谷歌搜索时能排在前三位，然后用相同的查询方式测试各 AI 搜索工具，并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。

测试结果显示，除 Perplexity 及其付费版外，其余 AI 搜索引擎的表现都不尽如人意。整体来看，AI 搜索引擎提供的答案有 60% 是不准确的，而且 AI 对错误答案的“自信”反而加剧了问题。

这项研究的重要性在于，它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错，还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息，甚至在被质疑时仍然试图自圆其说。

即使承认了错误，ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中，几乎是“无论如何都要给出答案”。研究数据支持了这一观点：ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具，但其“完全正确”率仅 28%，而“完全错误”率高达 57%。

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪，其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中，有 104 次拒绝作答，剩下的 96 次中，仅 16 次“完全正确”，14 次“部分正确”，66 次“完全错误”，总体错误率接近 70%。

这些 AI 工具的开发公司并未公开承认这些问题，却仍向用户收取每月 20 至 200 美元（IT之家备注：当前约 145 至 1449 元人民币）的订阅费。此外，付费版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）比免费版回答得更多，但错误率也更高。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签