赛博禅心 2024年07月02日
剧透:扣子正上线「大模型竞技场」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LMSYS Chatbot Arena 是一个大模型竞技场,让用户可以比较不同大模型的性能。它通过让用户对两个匿名模型的回答进行投票来决定哪个模型更出色。LMSYS Arena 旨在提供一个更公平、更中立的排名系统,帮助用户找到最适合自己的大模型。

🤔 LMSYS Chatbot Arena 是一个大模型竞技场,用户可以比较不同大模型的性能,它通过让用户对两个匿名模型的回答进行投票来决定哪个模型更出色。

🏆 LMSYS Arena 旨在提供一个更公平、更中立的排名系统,帮助用户找到最适合自己的大模型,避免了传统排名系统中可能存在的偏差和作弊行为。

📊 LMSYS Arena 的规则与扣子类似,用户可以进行多轮对话,直到选出优胜者,如果在对话中透露了模型身份,投票将不被计入。

🚀 LMSYS 当前排行榜 GPT 一马当先,Gemini 紧随其后,国产零一万物杀入前十,这表明国产大模型正在快速发展,并在国际舞台上展现出强劲的竞争力。

⚠️ LMSYS Arena 同时也提醒用户,任何的大模型在特定的约束下都可以是第一,因此用户在选择大模型时,需要谨慎考虑自己的需求和实际应用场景。

原创 金色传说大聪明 2024-06-12 17:06 广东

国产 LMSYS,带来更中立的排名(另附风险提醒)


长话短说

扣子将在今日正式更新

带来「大模型竞技场」,盲测版

可以试试下面这个链接,现在放出来了没

https://www.coze.cn/model/arena


也就是

让俩大模型答一个问题

用户投票决优劣


比如

询问:桃源结义时,刘关张拜的谁?

在大模型回复结束后,会弹框


而在用户评价后

才会告诉说这是哪个模型

(豆包竟然还不错...之前一直觉得挺...)



然后这些成绩会被并入榜单

(下个月初会发榜)



为什么我会说,这个更新很重要?

众所周知,各家评分都是第一

很困扰开发者

有盲测榜单,会好很多

保守来说,大多数的排名、测试、评分,不可信:- 任何的大模型,在特有约束下,都可以是第一- 任何的大模型,都可以通过一定方法,在某些测试里成绩突出- 测试者很可能不知道 web 端和 api 端的区别

金色传说大聪明,公众号:赛博禅心AI 生态:我说几句实话




实际体验


由于各种原因

我是各种产品的第 0 批体验用户

趁着没人注意

我录了点视频


「魔兽世界怀旧服」的相关新闻


「让狗狗给猫猫让窝」的策略


对于结果的分享图,长这样:



一些额外

刷榜技巧 / 反作弊须知


如果我是大模型厂,想刷榜,也有法(很多),只举一个例子:


作弊:


应对:


看看是扣子的朋友先看到这条,还是大模型厂的朋友先看到条(然后卷国外的LMSYS)

LMSYS Chatbot Arena


这是最早被大众认可的大模型竞技场

地址:https://arena.lmsys.org/

规则相似:


LMSYS 当前排行榜


GPT 一马当先,Gemini 紧随其后,国产零一万物杀入前十


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LMSYS 大模型 竞技场 排名 中立
相关文章