剧透：扣子正上线「大模型竞技场」

原创金色传说大聪明 2024-06-12 17:06 广东

国产 LMSYS，带来更中立的排名（另附风险提醒）

长话短说

扣子将在今日正式更新

带来「大模型竞技场」，盲测版

可以试试下面这个链接，现在放出来了没

https://www.coze.cn/model/arena

也就是

让俩大模型答一个问题

用户投票决优劣

比如

询问：桃源结义时，刘关张拜的谁？

在大模型回复结束后，会弹框

而在用户评价后

才会告诉说这是哪个模型

（豆包竟然还不错...之前一直觉得挺...）

然后这些成绩会被并入榜单

（下个月初会发榜）

为什么我会说，这个更新很重要？

众所周知，各家评分都是第一

很困扰开发者

有盲测榜单，会好很多

保守来说，大多数的排名、测试、评分，不可信：- 任何的大模型，在特有约束下，都可以是第一- 任何的大模型，都可以通过一定方法，在某些测试里成绩突出- 测试者很可能不知道 web 端和 api 端的区别

金色传说大聪明，公众号：赛博禅心AI 生态：我说几句实话

实际体验

由于各种原因

我是各种产品的第 0 批体验用户

趁着没人注意

我录了点视频

「魔兽世界怀旧服」的相关新闻

「让狗狗给猫猫让窝」的策略

对于结果的分享图，长这样：

一些额外

刷榜技巧 / 反作弊须知

如果我是大模型厂，想刷榜，也有法（很多），只举一个例子：

作弊：

设立一个问题集，可能有1000个题，或者更多。被问到这些题的时候，就返回的时候包含字段的内容，或者某个预设结果。

找一些人，或者脚本，反复问这些预设问题

如果 2 个答案中，存在命中情况，对其点赞；

如果均未命中，刷新页面（不计入成绩）

应对：

过程：检查用户的输入行为，和模型的返回行为，是否异常

输出：看是否频繁出现特定标识

时间：看大模型点赞增长，是否过于偏离自然增长

结果：看某些用户的评分是否过于偏离均值

看看是扣子的朋友先看到这条，还是大模型厂的朋友先看到条（然后卷国外的LMSYS)

LMSYS Chatbot Arena

这是最早被大众认可的大模型竞技场

地址：https://arena.lmsys.org/

规则相似：

向两个匿名模型（如 ChatGPT、Claude、Llama）提问，并为表现更好的投票！

你可以进行多轮对话，直到选出优胜者。

如果在对话中透露了模型身份，投票将不被计入。

LMSYS 当前排行榜

GPT 一马当先，Gemini 紧随其后，国产零一万物杀入前十

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签