魔搭ModelScope社区 2024年12月19日
CompassArena上新!JudgeCopilot与新一代Bradley-Terry模型重塑大模型竞技体验
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

CompassArena大模型评测平台迎来新升级,引入全新Judge Copilot功能,利用强大的评价模型快速评估模型优劣,提供精准主观评测辅助。榜单算法升级,通过引入控制变量,降低混淆因素影响,使模型排名更科学。新增20余个国内外商业及开源模型,丰富对战体验。Judge Copilot从多维度评价模型对话质量,支持实时对比,提供智能决策辅助。榜单算法改进,借鉴LMSYS Chatbot Arena风格控制方法,增加回复风格统计,去除归一化步骤,并引入搜索功能控制变量,提升排名准确性和公正性。

🤖Judge Copilot功能:利用强大的评价模型,从逻辑性、创造性、语言流畅性等多维度快速评估模型优劣,提供实时对比和智能决策辅助,帮助用户更精准地进行主观评测。

📊榜单算法升级:通过引入回复长度、风格、是否使用搜索功能等控制变量,改进Bradley-Terry统计算法,降低混淆因素对模型排名的影响,使模型排名更科学、精准,更准确地反映模型真实能力。

✨新增模型:平台新增20余个国内外商业和开源模型,如360gpt2-pro、llama3.1系列、Mistral系列等,进一步丰富了对战体验,为用户提供了更多选择和对比机会。

2024-12-19 17:41 浙江

为用户带来更加科学、全面的模型评估体验!

2024 年 5 月,上海人工智能实验室司南 OpenCompass 团队携手魔搭 ModelScope,联合推出了大模型评测平台——CompassArena(大模型竞技场),为大模型领域引入了一种全新的竞技模式。


平台自上线以来广受关注,在过去的几个月里,吸引了海量社区用户踊跃参与并无私贡献。依托用户的真实体验数据,CompassAren 持续优化,如今迎来新升级,将为用户带来更加科学、全面的模型评估体验!


此次升级亮点:


魔搭社区体验链接:

https://www.modelscope.cn/studios/opencompass/CompassArena





全新 Judge Copilot 功能:

评价大模型打辅助,主观评测更准更有趣




CompassArena 全新上线的 Judge Copilot 功能,充分利用了强大的评价模型(LLM-as-a-Judge ) Compass-Judger-1-32B-Instruct,为用户带来了全方位对比分析对话模型表现的能力。无论是模型的逻辑性、创造性,还是语言表达的流畅性,Judge Copilot 都能快速评估两大模型之间的优劣,为用户提供精准、高效的主观评测辅助


功能亮点

示例1


示例2


CompassArena 高度重视 Judge 模型在实际应用中的表现。为了进一步提升 Judge 模型的综合能力和对齐效果,CompassArena 将积极收集用户的反馈意见。用户可以通过点击“赞”和“踩”按钮来表达他们对 Judge 模型的评价。




榜单算法升级:

Bradley-Terry 模型 + 控制变量




为了进一步提升榜单的准确性,CompassArena 对原始的 Bradley-Terry 统计算法进行了改进,通过引入控制变量来降低混淆因素的影响,让模型排名更加科学、精准。


引入控制变量


Bradley-Terry 模型是一种广泛应用于排名和比较的统计方法,用于估计模型的强度系数。然而,这个强度系数的估计有可能受模型能力以外的因素的影响,如模型的输出长度、输出风格和模型是否使用了外部工具辅助


在此次升级中,CompassArena 借鉴了 LMSYS Chatbot Arena 的风格控制(style control)方法,并在此基础上进行了改进,使排名计算更加精确和可解释。具体来说:

    风格控制变量的改进:在风格特征的定义中,CompassArena 增加了额外的回复风格统计(如表情符号数量),使风格控制更加适应多样化的输出样式。

    去除归一化步骤:在计算长度与风格变量的相对差值时,CompassArena 去除了归一化的步骤,使模型的系数具有更直观的解释,同时不影响对系数估计的准确性。

    新增搜索功能控制变量:CompassArena 进一步引入了“是否开启搜索功能”这一控制变量,用于区分模型在使用外部工具辅助时的表现差异。


通过这些改进,CompassArena 对模型对战结果的影响因素进行了更精细的控制,有效减少了混淆因素对排名的干扰。在因果推断中,混淆因素会同时影响因变量和自变量,从而导致模型系数的偏差。通过改进后的 Bradley-Terry 模型,CompassArena 能够更准确地分离干扰因素,确保排名更加准确和公正



控制变量定义:


 


在榜单界面将模式切换成“含控制变量”后,页面将显示控制变量的相关解读,同时模型排名也会随之更新


引入控制变量前后排名对比


我们可以通过对比加入和不加入控制变量的 Bradley-Terry  模型拟合结果分析这些外在因素对模型能力评估的影响。


原始 Bradley-Terry 算法下的排名:


引入控制变量后的排名:


经过对比分析后发现:


控制变量解析


通过拟合包含控制变量的 Bradley-Terry 统计模型,我们可以估计众多外在因素的影响程度。具体影响程度可以通过几率比(OddsRatio)的形式表达:

 在以上公式中:


当目标模型和对战模型的能力相当(  ),并且其他变量保持不变时:




新增模型一览




此次升级,我们迎来了 20+ 全新模型的加入,涵盖国内外商业模型及开源模型,进一步丰富了对战体验。


国内商业模型



国外商业模型



开源模型



此次新增模型所属机构一览(排名不分先后)


欢迎大家点击下方链接或点击“阅读原文”,体验相关功能及查看完整对战榜单!


魔搭社区体验链接:

https://www.modelscope.cn/studios/opencompass/CompassArena




?点击关注ModelScope公众号获取

更多技术信息~



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CompassArena 大模型评测 Judge Copilot Bradley-Terry 模型评估
相关文章