index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
本文是人工评估系列文章的第二篇,重点介绍了人工标注员在数据标注质量管理中的重要性。文章强调,选择合适的标注员、制定详细的标注准则、进行多轮迭代标注以及严格的质量检查是确保标注质量的关键步骤。此外,文章还提供了相关资源,如开源工具Argilla和Hugging Face的教程,以及多篇关于标注实践的指南,帮助读者深入理解大规模人工标注的注意事项,并提供了减少标注员间分歧的建议和方法。文章旨在为追求生产级质量的数据标注提供实践指导。
🧑💼选择合适的标注员:标注员的背景特征,如母语、教育水平和专业知识,会直接影响标注质量。根据评估任务的不同,需筛选出符合特定要求的标注员,并提供合理的经济激励。
📝制定详细的标注准则:务必投入大量时间制定清晰明确的标注准则,因为标注员可能会误解指南。通过多轮迭代,不断改进准则,以确保标注结果符合预期。
🔍质量检查与手动筛选:仔细检查答案质量,评估标注员间的一致性,并筛选出高质量、相关性高的答案。同时,可以借助Argilla等工具来构建高质量标注数据集。
这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括:
推荐阅读这篇综述的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧!
Analyzing Dataset Annotation Quality Management in the Wildhttps://aclanthology.org/2024.cl-3.1/
Best_annotation_practices无论项目规模多大,一旦定义了具体的评估任务和打分细则,请注意:
符合特定的人口统计特征。
例如:母语是测试目标语言、较高的教育水平、特定领域的专业知识、多样化的地域背景等。根据评估任务不同,对标注员统计特征需求也不一样。提供高质量标注。有些任务中筛选合适的标注员很重要,比如近期有一种任务是检查回答是否是 LLM 生成的。个人认为,除非你众包标注员有强烈的自我驱动意识,否则一般还是支付合理的费用更好。
设计标注准则请务必深入思考制定标注准则,非常值得花费大量时间去做!我们在制作GAIA数据集时的耗时最多的地方就是这里。
迭代标注很多时候标注员会误解标注指南 (他们的想法可能比你想象的更模棱两可),所以要做好多轮迭代标注的准备,来不断改进直到达到你的需求。
质量检查 和 手动筛选你需要仔细检查答案的质量 (检查标注员间的答案一致性),并筛选出质量最优、相关性最高的答案。
你也可以使用专用工具来构建高质量标注数据集,如Argilla。
深入阅读推荐链接:
⭐五分钟构建自己的标注平台,Moritz Laurer 出品的数据标注教程。这篇文章介绍了使用开源工具 (如 Argilla 和 Hugging Face) 的实际经验,可以帮助更好的理解大规模人工标注的注意事项。https://hf.co/learn/cookbook/enterprise_cookbook_argilla
⭐标注实践指南。这是一篇 2023 年所有关于人工标注论文的综述,内容完整,干货满满,但很容易理解。https://aclanthology.org/2024.cl-3.1/
ScaleAI 出品的另一篇标注实践指南,专注于人工评估。它是对上述文档的更轻量级补充。https://scale.com/guides/data-labeling-annotation-guide
关于减少人工标注分歧的假设与挑战,论文探讨了标注员间分歧来源的原因,以及在实践中的缓解方法。https://aclanthology.org/2024.naacl-long.126/
Argillahttps://argilla.io/
原文链接:https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/using-human-annotators.md
作者: clefourrier
译者: SuSung-boy
审校: adeenayakup