原创 金色传说大聪明 2024-06-12 17:06 广东
国产 LMSYS,带来更中立的排名(另附风险提醒)
长话短说
扣子将在今日正式更新
带来「大模型竞技场」,盲测版
可以试试下面这个链接,现在放出来了没
https://www.coze.cn/model/arena
也就是
让俩大模型答一个问题
用户投票决优劣
比如
询问:桃源结义时,刘关张拜的谁?
在大模型回复结束后,会弹框
而在用户评价后
才会告诉说这是哪个模型
(豆包竟然还不错...之前一直觉得挺...)
然后这些成绩会被并入榜单
(下个月初会发榜)
为什么我会说,这个更新很重要?
众所周知,各家评分都是第一
很困扰开发者
有盲测榜单,会好很多
保守来说,大多数的排名、测试、评分,不可信:- 任何的大模型,在特有约束下,都可以是第一- 任何的大模型,都可以通过一定方法,在某些测试里成绩突出- 测试者很可能不知道 web 端和 api 端的区别
金色传说大聪明,公众号:赛博禅心AI 生态:我说几句实话
实际体验
由于各种原因
我是各种产品的第 0 批体验用户
趁着没人注意
我录了点视频
「魔兽世界怀旧服」的相关新闻
「让狗狗给猫猫让窝」的策略
对于结果的分享图,长这样:
一些额外
刷榜技巧 / 反作弊须知
如果我是大模型厂,想刷榜,也有法(很多),只举一个例子:
作弊:
设立一个问题集,可能有1000个题,或者更多。被问到这些题的时候,就返回的时候包含字段的内容,或者某个预设结果。
找一些人,或者脚本,反复问这些预设问题
如果 2 个答案中,存在命中情况,对其点赞;
如果均未命中,刷新页面(不计入成绩)
应对:
过程:检查用户的输入行为,和模型的返回行为,是否异常
输出:看是否频繁出现特定标识
时间:看大模型点赞增长,是否过于偏离自然增长
结果:看某些用户的评分是否过于偏离均值
看看是扣子的朋友先看到这条,还是大模型厂的朋友先看到条(然后卷国外的LMSYS)
LMSYS Chatbot Arena
这是最早被大众认可的大模型竞技场
地址:https://arena.lmsys.org/
规则相似:
向两个匿名模型(如 ChatGPT、Claude、Llama)提问,并为表现更好的投票!
你可以进行多轮对话,直到选出优胜者。
如果在对话中透露了模型身份,投票将不被计入。
LMSYS 当前排行榜
GPT 一马当先,Gemini 紧随其后,国产零一万物杀入前十