智源研究院推出全球首个包含文生视频的模型对战评测服务

2024-09-04 19:35 北京

FlagEval大模型角斗场覆盖国内外约40款大模型，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。

2024年9月4日，智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场，覆盖国内外约40款大模型，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测，包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端，该服务还率先开放了国内首个移动端访问入口，为用户提供高效便捷的模型对战评测体验。

秉承FlagEval评测体系的科学、权威、公正、开放四大原则，大模型角斗场的评测过程采取匿名机制，在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效，该条评测数据不对模型分数产生任何影响。

此外，FlagEval大模型角斗场网页端首次引入了主观倾向阶梯评分体系，包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A共5个梯度，其中“AB差不多”又分为“都好与都不好”。这一阶梯胜负评测方法，相较于传统的Arena仅有的三个评分等级（“A更优、B更优、两者相似”），更能捕捉模型生成内容的细微差异，精确揭示模型性能差异，从而提供更丰富和深入的评测洞察。

为了降低评分细化带来的用户认知负荷增加，我们特别对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性，用户的舒适度和操作流畅性均表现出色。

用户提交倾向程度评分结果后，可立即查看该轮模型对战结果。FlagEval将对所有大模型角斗场用户评分进行汇总计算，根据收集的有效数据，最终形成角斗场榜单，对大模型对战能力进行公示。

为确保模型能力主观评测的覆盖范围，用户可与模型进行多轮交流和提问，以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面，FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式，以确保公平性。在模型对战机制方面，不支持对战过程中进行模型切换，只支持重开一轮，对战结束后，不支持用户继续提问、更改评分。

FlagEval大模型角斗场可支持Runway、Pika以及爱诗科技PixVerse、快手可灵（性能版）、字节即梦2.0、智谱AI清影（Ying）、星火绘镜、Luma等国内外文生视频模型。用户可从预设问题中进行任意选择，覆盖场景、动物、人物、想象等能力类型。

智源研究院推出FlagEval大模型评测体系以来，持续迭代和优化，FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来，智源将对模型对战评测的全链路数据，包括用户输入、模型输出的数据，进行开源，以促进大模型评测生态的发展。

扫描二维码

进入FlagEval大模型角斗场移动端

或访问官网体验模型对战

https://flageval.baai.ac.cn/#/home

阅读更多

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签