为解决高质量数据集建设中存在的问题,全国数标委正加紧制定技术文件及系列标准,旨在明确数据集的建设路径、格式规范、分类要求、质量评测体系等。此举旨在推动人工智能模型从“能用”到“好用”的转变,从而加速各行业领域的数智化转型。未来,将重点加快标准研制、深化标准验证试点、完善标准试点平台工具,并加强国际标准协同,全面推进高质量数据集的建设。
💡 制定标准:全国数标委将加快研制高质量数据集的技术文件及系列标准,涵盖建设指南、格式要求、分类指南、质量评测规范、数据标注和数据合成要求等。
🚀 试点先行:将以中央企业为重点,开展标准验证试点,旨在完善标准内容并打造示范案例,加速标准在更多行业中的推广应用。
🛠️ 工具赋能:将完善标准试点平台工具,以提高标准的实用性和可操作性,从而提高标准验证试点的效率,有序推进高质量数据集的建设。
🤝 国际合作:加强国际标准协同,积极参与ISO/IEC JTC1/SC42 WG2国际标准工作,推动数据集建设的国际化发展。

针对当前高质量数据集建设中存在的规范缺失、质量参差、效率不高等问题,全国数标委加快研制高质量数据集技术文件及系列标准,明确高质量数据集的建设路径、格式规范、分类要求、质量评测体系等,推动人工智能模型从能用向好用转变,有力推进各行业领域数智化转型。下一步:一是加快重点标准研制,聚焦产业共性需求,推进高质量数据集建设指南、格式要求、分类指南、质量评测规范、数据标注、数据合成要求等重点领域标准制定。二是深化标准验证试点,以中央企业为重点开展先行先试,完善标准内容并打造示范案例,加速更多行业推广应用。三是做好标准试点平台工具,提高标准的实用性和可操作性,提高标准验证试点效率,有序推进高质量数据集建设。四是加强国际标准协同,参与并积极承担ISO/IEC JTC1/SC42 WG2国际标准工作。