智源研究院 2024年10月25日
智源研究院推出全球首个包含文生视频的模型对战评测服务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

FlagEval大模型角斗场是智源研究院推出的评测服务,覆盖约40款国内外大模型,支持四大任务的自定义盲测,有多种预设问题,具备科学公正等原则,评测方法更精细,还对用户体验进行了优化,且将开源全链路数据。

🎯FlagEval大模型角斗场覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含多种预设问题。

🌟该服务除网页端外,还率先开放了国内首个移动端访问入口,评测过程秉承科学、权威、公正、开放四大原则,采取匿名机制,确保评测的有效性和公正性。

💡网页端引入主观倾向阶梯评分体系,更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,且对打分展示形式进行了人性化设计,降低用户认知负荷。

📈用户提交评分结果后可查看对战结果,FlagEval会汇总计算用户评分,形成角斗场榜单,对战中模型匹配机制确保公平性,且有相关限制规定。

🌐FlagEval大模型角斗场可支持多种国内外文生视频模型,用户可从预设问题中任意选择,智源研究院将开源模型对战评测的全链路数据,促进大模型评测生态发展。

2024-09-04 19:35 北京

FlagEval大模型角斗场覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。


2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。


秉承FlagEval评测体系的科学、权威、公正、开放四大原则,大模型角斗场的评测过程采取匿名机制,在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效,该条评测数据不对模型分数产生任何影响。



此外,FlagEval大模型角斗场网页端首次引入了主观倾向阶梯评分体系,包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B远好于A共5个梯度,其中“AB差不多”又分为“都好与都不好”。这一阶梯胜负评测方法,相较于传统的Arena仅有的三个评分等级(“A更优、B更优、两者相似”),更能捕捉模型生成内容的细微差异,精确揭示模型性能差异,从而提供更丰富和深入的评测洞察。


为了降低评分细化带来的用户认知负荷增加,我们特别对打分展示形式进行了人性化设计。初步的产品试用结果已经验证了这一评测设计的有效性,用户的舒适度和操作流畅性均表现出色。


用户提交倾向程度评分结果后,可立即查看该轮模型对战结果。FlagEval将对所有大模型角斗场用户评分进行汇总计算,根据收集的有效数据,最终形成角斗场榜单,对大模型对战能力进行公示。


为确保模型能力主观评测的覆盖范围,用户可与模型进行多轮交流和提问,以最大程度衡量模型输出与人类期望或偏好保持一致性。在模型匹配机制方面,FlagEval大模型角斗场采取均匀采样、分流随机抽取的方式,以确保公平性。在模型对战机制方面,不支持对战过程中进行模型切换,只支持重开一轮,对战结束后,不支持用户继续提问、更改评分。



FlagEval大模型角斗场可支持Runway、Pika以及爱诗科技PixVerse、快手可灵(性能版)、字节即梦2.0、智谱AI清影(Ying)、星火绘镜、Luma等国内外文生视频模型。用户可从预设问题中进行任意选择,覆盖场景、动物、人物、想象等能力类型。


智源研究院推出FlagEval大模型评测体系以来,持续迭代和优化,FlagEval大模型角斗场进一步拓展了智源在模型对战评测领域的技术布局和工具方法的研发。未来,智源将对模型对战评测的全链路数据,包括用户输入、模型输出的数据,进行开源,以促进大模型评测生态的发展。


扫描二维码

进入FlagEval大模型角斗场移动端


或访问官网体验模型对战

https://flageval.baai.ac.cn/#/home


阅 读 更 多


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

FlagEval大模型角斗场 模型评测 文生视频 主观评分体系 开源数据
相关文章