IT之家 04月11日 14:59
大模型基准测试有了 ITU 国际标准,中国信通院牵头制定
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国信通院主导制定的ITU-T F.748.44国际标准正式发布,该标准规范了大模型基准测试的指标和方法,旨在推动大模型基准测试体系的国际共识。标准基于500余项基准测试研究,确立了测试维度、数据集、测试方法和工具四大核心要素,并提供标准化测试用例,帮助企业规范评估大模型能力。中国信通院自2023年起布局大模型基准测试研究,发布“方升”测试体系,并持续监测国内外标杆大模型,为大模型技术发展提供重要支撑。

💡 ITU-T F.748.44国际标准由中国信通院牵头制定,旨在规范大模型基准测试的指标和方法,推动行业标准化。

📊 该标准确立了四大核心要素:测试维度(场景、能力、任务、指标)、测试数据集、测试方法和测试工具,为大模型评估提供全面框架。

✅ 针对通用场景的基础模型,标准提供标准化测试用例和范例流程,帮助企业规范开展大模型能力评估。

🚀 中国信通院已发布“方升”大模型基准测试体系,并持续监测国内外标杆大模型,为技术创新提供支持。

🌍 该国际标准的发布,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流具有重要意义。

IT之家 4 月 11 日消息,据中国信通院今日消息,国际电信联盟电信标准分局(ITU-T)于 2025 年 3 月正式发布 ITU-T F.748.44 基础模型的评估标准:基准测试 / Assessment criteria for foundation models: Benchmark

该项国际标准由中国信息通信研究院(简称“中国信通院”)牵头制定,规范了大模型基准测试的指标要求和测试方法。该标准旨在推动大模型基准测试体系架构形成国际共识,为大模型技术提供方和应用方提供高质量的能力评估依据,引导大模型技术及产业健康有序发展。

近些年来,如何客观、全面地衡量大模型能力并且充分挖掘大模型潜在缺陷得到产学研各界的广泛关注。模型基准测试(Benchmark)通过设计合理的测试任务和评价数据集来客观、公正、量化的评估模型的性能,是目前产业界和学术界最为认可的模型能力评估方法。

当前已有数百个基准测试方法和数据集用于衡量大模型的能力,例如 MMLU、C-Eval、AGIEval、GSM8K 等。但当前产学研各界对大基础模型基准测试的体系、指标、数据集、方法、平台工具等仍未达成一致,缺乏统一的标准,导致大模型评测的结果公正性受到质疑。为进一步推动大模型基准测评的技术发展与实际应用,充分释放基准测试在人工智能领域的价值,特联合相关单位开展标准的编制工作。

本次发布的国际标准基于当前产学研界 500 余项基准测试系统性研究,一方面确立了大模型基准测试的 4 项核心要素,包括测试维度(测试场景、测试能力、测试任务和测试指标)、测试数据集、测试方法和测试工具。另一方面,针对通用场景的基础模型,提供了标准化的测试用例和范例流程,以支持企业规范开展大模型能力评估。

IT之家从中国信通院官方获悉,中国信通院人工智能研究所于 2023 年开始布局大模型基准测试研究,并于 2023 年底发布“方升”大模型基准测试体系,推出自适应动态测试方法,积累 600 万条数据集,构建 FactTeting 测试工具,支撑整个大模型测试过程的自动化实施。

自 2024 年以来,参照已发布的 ITU 大模型基准测试国际标准,对国内外标杆大模型以两个月为周期开展持续监测工作,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模型 X1 等上百个测试模型,目前已发布大语言通用能力、推理能力、代码能力,多模态理解能力、文生图能力、文生视频能力等多个轮次的评测结果。国际标准 ITU-T F.748.44 的发布是大模型测试领域的重要标准化成果,对推动技术创新和发展、引领行业发展趋势、促进国际合作与交流等方面具有重要意义。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 基准测试 ITU-T 中国信通院 标准
相关文章