自动评估基准 | 一些评估测试集

智源社区 01月09日

自动评估基准 | 一些评估测试集

本文是自动评估基准系列文章的第三篇，主要介绍了近年来开发构建的一些评估数据集。这些数据集大多是在大型语言模型（LLM）出现之前构建的，主要用于评估语言文本的特定属性，如翻译和摘要。尽管部分数据集可能因为公开时间较长而存在污染，但它们对于特定任务的评估仍然具有参考价值。文章还提到，随着LLM的发展，评估方法也在不断演变，因此需要关注新的评估数据集和方法。此外，文章鼓励读者为数据集添加出版日期，并表示后续会更新包含大语言模型的评估内容。

📚 自动评估基准系列文章的第三篇，重点介绍近年来开发的评估数据集。

⚠️ 多数数据集构建于LLM出现之前，主要用于评估如翻译、摘要等特定语言属性，可能不完全适用于当前的LLM评估。

🌐 部分数据集可能因长期公开而存在污染，但对于特定任务评估仍具参考价值。文章鼓励为数据集添加出版日期，并提到后续会更新包含大语言模型的评估内容。

这是 自动评估基准 系列文章的第三篇，敬请关注系列文章:
基础概念
设计你的自动评估任务
一些评估测试集
技巧与提示

如果你感兴趣的任务已经得到充分研究，很可能评估数据集已经存在了。

下面列出了一些近年来开发构建的评估数据集。需要注意的是：

大部分数据集有些 “过时”，因为它们是在 LLM 出现之前构建的，当时是为了评估语言文本的某个特定属性 (如翻译、摘要)，但是可能已经不适合现在的 LLM 评估方法了 (现在的评估方法倾向于通用、整体性)。(如果你有空余时间可以对下列数据集添加出版日期，会对本文非常有帮助!)(这部分后续也会更新包含大语言模型的评估)

有些数据集可能受到污染，因为它们已经在网络上公开了很多年了。不过这并不意味着在你的任务中它们就毫无用处！

Pre-LLM 数据集

可手动重现的数据集想法

英文原文:https://github.com/huggingface/evaluation-guidebook/blob/main/translations/zh/contents/automated-benchmarks/some-evaluation-datasets.md
原文作者: clefourrier
译者: SuSung-boy
审校: adeenayakup

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

自动评估评估数据集 LLM 基准测试语言模型

相关文章

Coalition of news publishers sue Microsoft and OpenAI

Import AI 368: 500% faster local LLMs; 38X more efficient red teaming; AI21’s Frankenmodel

Learn AI Together — Towards AI Community Newsletter #23

This AI newsletter is all you need #98

This AI Paper by Microsoft and Tsinghua University Introduces YOCO: A Decoder-Decoder Architectures for Language Models

OLMo: Everything You Need to Train an Open Source LLM with Akshita Bhagia - #674

Patterns and Middleware for LLM Applications with Kyle Roche - #659

Building LLM-Based Applications with Azure OpenAI with Jay Emery - #657

Mental Models for Advanced ChatGPT Prompting with Riley Goodside - #652

Multilingual LLMs and the Values Divide in AI with Sara Hooker - #651