蓝点网 2024年06月28日
HuggingFace搭建新系统测试模型能力 通义千问排名第一 部分模型被发现作弊
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

知名模型托管平台 HuggingFace 日前使用 300 张 NVIDIA H100 AI 加速卡构建了一个新系统用来测试开源和开放的人工智能模型,此次测试使用 MMLU-Pro 等 AI 模型测试集,较此前的测试集难度有所提升。

该平台称以前的数据测试集对于现在新推出的模型来说实在是太简单了,就像是拿初中试卷给高中生考试一样,因此无法真正有效的评估模型能力。

而且出于营销和宣传考虑,部分模型实际上存在作弊行为,即使用经过优化的提示词或评估设置来为模型提供最佳机会,这样可以取得更高的分数。

这种情况就像是部分 Android 厂商在进行跑分测试时会冻结其他应用释放内存和降低 CPU 使用率,甚至还会通过外部硬件进行降温来获得更过的基准测试分数。

基于这种原因 HuggingFace 此前构建了 Open LLM Leaderboard,通过设置完全相同的问题、相同的排序等来评估模型,收集在真实世界中用户也可以重现和可比较的结果。

现在为了尽可能获得真实有效的评估结果,HuggingFace 推出了 Open LLM Leaderboard v2 版,使用 300 张英伟达的 H100 加速卡和数据集对模型进行了重新评估。

在最新发布的测试中,阿里云推出的通义千问系列模型超过 Meta Llama 系列模型成为综合能力最强的模型,获得第一的具体模型是通义千问 Qwen-72B 版。

此次测试有几个特点:

这应该是目前 AI 行业里首次有明确提到测试作弊的说法,也就是一些开发商现在可能会侧重于对基准测试进行优化以取得更好的分数,这种情况显然是不好的,但由于 AI 公司现在实在是太多,这些公司为了表现自己用于宣传或融资等目的,只能尽可能优化分数来吸引人注意。

除了常规的作弊方法外 (就是上面提到的使用优化后的提示词和测试设置),这种针对基准测试进行优化的做法难以发现,未来行业可能要花费更多时间构建更独特的测试集来评估模型。


限时活动推荐:开搜AI智能搜索免费无广告直达结果全能播放器VidHub支持挂载网盘云播阿里云服务器36元/年

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

相关文章