量子位 05月08日 15:26
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一篇关于BrowseComp-ZH基准测试的文章,该测试旨在评估大模型在中文互联网上的信息处理能力。测试结果显示,现有大模型在中文网页信息检索方面表现不佳,准确率普遍较低。研究团队通过“逆向设计法”构建了289道高难度中文多跳检索题目,涵盖多个领域。测试结果揭示了模型在中文信息处理方面的“死角”,并强调了推理能力、多轮检索策略的重要性,以及模型在搜索功能使用上的挑战。文章呼吁构建真正“会用中文上网”的智能体,并开源了数据集,供开发者挑战。

🔍 BrowseComp-ZH是一个针对中文信息处理的新基准测试集,由多个机构联合发布,旨在评估大模型在中文网页上的信息处理能力。

📉 测试结果显示,众多主流大模型在BrowseComp-ZH测试中表现不佳,准确率普遍偏低,甚至低于10%,表明现有模型在中文互联网信息检索方面存在明显短板。

💡 研究团队采用“逆向设计法”构建了289道高难度中文多跳检索题目,覆盖多个领域,以更全面地评估模型在中文语境下的理解和检索能力。

🧐 测试结果揭示了模型在中文网页任务中的“死角”,包括过度依赖记忆、推理能力不足、多轮检索策略的重要性以及搜索功能使用上的挑战。

🚀 研究者希望BrowseComp-ZH成为推动LLM在中文信息环境落地的试金石,并开源了数据集,鼓励开发者改进模型,构建真正“会用中文上网”的智能体。

关注前沿科技 2025-05-06 12:24 北京

BrowseComp-ZH基准揭示中文信息处理技术瓶颈

BrowseComp-ZH团队 投稿
量子位 | 公众号 QbitAI

你以为大模型已经能轻松“上网冲浪”了?

新基准测试集BrowseComp-ZH直接打脸主流AI。

BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:

GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%

目前,BrowseComp-ZH的全部数据已开源发布。

研究团队直言:

为什么我们需要中文网页能力测试?

如今的大模型越来越擅长“用工具”:能连搜索引擎、能调用插件、能“看网页”。

但众多评估工具都只在英文语境下建立,对中文语境、中文搜索引擎、中文平台生态考虑甚少。

然而,中文互联网信息碎片化严重、搜索入口多样、语言表达复杂。

中文网页世界到底有多难?举几个例子你就明白了:

因此,英文测试集“翻译一下”根本不够。

需要从中文语境原生设计,才能真正衡量大模型是否能在中文网页上“看得懂”、“搜得到”、“推得准”。

BrowseComp-ZH是怎么炼成的?

研究团队采用了“逆向设计法”:从一个明确、可验证的事实答案出发(如某个画种、机构、影视剧名),反向构造出多个约束条件的复杂问题,确保以下三点:

最终,他们构建了289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域

大模型集体“翻车”?DeepResearch勉强破四成,绝大多数连10%都不到

在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”:

尽管这些模型在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人:

研究者指出,这一结果说明:模型不仅需要会“查资料”,更要会“多跳推理”与“信息整合”,才能在中文互联网中真正找到答案。

四大发现,揭示中文网页任务的“模型死角”

1. 仅靠记忆不行,得真本事

纯靠参数记忆(无搜索)的模型准确率往往低于10%,说明“硬背”不靠谱。

2. 有推理的模型,表现更好

DeepSeek-R1(23.2%)比DeepSeek-V3(8.7%)整整高出14.5%,Claude-3.7也比Claude-3.5提升了12.2%,推理能力成为关键变量。

3. 搜得多 ≠ 搜得准,多轮策略才是王道

具备多轮检索能力的AI搜索产品全面胜出:

相比之下,只检索一次的模型(如Kimi、Yuanbao)准确率低至个位数。

4. 搜索功能“翻车”?接入反而变差

最典型的反例是DeepSeek-R1,开启搜索功能后准确率从23.2%断崖式跌至7.6%

研究指出,模型未能将网页检索信息与已有知识有效融合,反而被误导。

数据集开放!欢迎模型开发者挑战

BrowseComp-ZH的全部数据已开源发布。

研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。

下一步,他们计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。

论文地址:
https://arxiv.org/abs/2504.19314
代码地址:
https://github.com/PALIN2018/BrowseComp-ZH

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你



🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

BrowseComp-ZH 大模型 中文信息处理 基准测试 信息检索
相关文章