硅基流动 2024年10月28日
模型判官来了!一键快测多个大模型效果
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

模型判官能同时展示多个模型回答并评估其质量,用户输入问题后选择模型即可使用。它支持多种模型,输出速度快,适用开发者和普通用户,且工作原理独特,目前用户反馈良好,近期有多项更新。

🎯模型判官可同时呈现4个模型的回答,使用户直观评估模型效果。用户输入问题、选择模型后即可操作,开源地址及使用链接均有提供。

💪能让4个模型同时解决一个问题,从专业度和效率上讲很可靠。最重要的是,第四个模型评估前三个模型的答案,取长补短得出最优结果。

📊具有打分系统功能,以满分100分为标准给其他模型答案打分,增加趣味性。虽当前评分标准不明确,但后续可能会增加如ABC或星级评分。

🌟目前支持Qwen、Deepseek、智谱等模型,所有模型来自硅基流动SiliconCloud,输出速度快,注册送2000万token,适用于多种用户需求。

laughing聊产品 2024-10-22 08:03 北京

各个大模型表现无法直观评判?模型判官帮你筛选。

作者|laughing哥

大语言模型层出不穷,但它们的能力如何、效果怎么样却无法直观评判。

不论是使用国外的ChatGPT、Claude还是国内的Kimi、Qwen、DeepSeek、豆包等模型,当你每次提问时只能看到1个模型的回答,如果能同时查看多个模型的回答结果并且有模型能帮助用户评估模型回答的质量,那么会为你节省很多评估时间。

所以,“模型判官”就诞生了,它让你能够同时看到4个回答,直观评估模型效果。与使用其他AI工具一样,在“模型判官”里输入任意问题或者描述,选择模型后点击开始,就可以玩儿起来了。

开源地址:

https://github.com/flashclub/ModelJudge

立即使用(无需注册和登录):

https://modeljudge.awesomeprompt.net/zh

所谓孩子多了好打架,4个模型同时解决一个问题,从回答的专业度和效率上讲都是非常可靠的。最重要的是,由第四个模型评估前三个模型的答案,取长补短,得到最优结果。

模型判官”还有打分系统功能,以满分100分为标准给其他模型的答案打分,这增加了一定的趣味性。当然,当前还没有一个明确的评分标准,全凭判官的喜好,后续可能会增加例如ABC或者星级评分,然后让某个判官给其他模型的评分偏好,说不定会更有趣味性。
目前,模型判官”支持Qwen、Deepseek、智谱等模型。所有模型都来自硅基流动SiliconCloud(http://siliconflow.cn/zh-cn/siliconcloud),输出速度很快,注册即送2000万token,做MVP验证产品完全够用了。

不论你是AI应用开发者还是普通用户都适用模型判官。如果你正在开发一个AI应用,不知道各个模型的表现如何,那么可以直接使用模型判官帮你筛选模型,模型判官有几十个模型供你选择。

如果你不方便使用其他AI问答应用(它们通常需要登录后使用)或者想全面的获取问题的答案,模型判官也可以帮你生成多条回答。

模型判官的工作原理


首先,在得到用户输入的内容并且选择好模型后,模型判官直接同时请求3个模型并且同时返回结果。有一种黑客帝国中从屏幕上落下各种字符的感觉。有些模型返回的内容长并且返回的速度慢,有些模型返回的速度快(后续也将增加此类统计)。

当3个模型完全返回所有结果后,第四个模型便开始启动。首先它将评估前三个模型的回答效果,指出他们回答的优缺点,然后给出一个综合结果。如此看来,这对于前三个模型来说可能是闭卷考试,对于第四个模型来说这有点像开卷考试。

生成式AI产品开发心得


在实际开发“模型判官”时思考了很久。确定需求和大概产品形态后,从用户交互角度出发,到完成评分返回最终结果为止。全部逻辑在几天内完成开发和调试。

其实有了之前的很多项目积累,基础框架搭建起来非常快。例如技术栈选择、回答的流式传输、多语言、页面UI框架选择、API设计、数据库存储设计等都很快解决。重点在于如何通过产品呈现你的想法。

好的产品可以向用户传递开发者的想法,让人一下就知道它是干这个的,怎么用多从用户的角度出发,把复杂问题留给开发者,把简单交互留给用户。

目前版本的用户反馈效果还不错,这次硅基流动向我约稿也算是对我工作的一种认可,做产品能得到用户和大佬们的认可对建立信心和坚持下去非常重要。当然,迭代永无止境,有任何想法或者建议都可以向我反馈,也希望大家借助AI的力量多尝试多展示自己的项目。

我相信社区的力量,开源可以让项目与开发者产生更多连接。目前项目已开源,欢迎大家提交PR和Star。 

新产品预告经过大量的开发和准备,模型辩论(或者叫AI杠精?)即将登场,这又是你没有用过的全新版本,准备好啤酒饮料矿泉水,花生瓜子火腿肠,看两个AI抬杠。敬请关注网站和仓库更新。)

近期更新

 SiliconCloud上线Qwen2-VL、InternVL2
• SiliconCloud API更新:FLUX.1收费版不限流
10倍工程师编码工具:Cursor x SiliconCloud
SiliconCloud上线Llama-3.1-Nemotron-70B
• 分享ComfyUI BizyAir工作流,赢东京往返机票
• SiliconCloudx国产算力:Qwen2-72B仅¥1.00/M tokens

让超级产品开发者实现“Token自由”
邀请好友体验SiliconCloud
狂送2000万Token/人
邀请越多,Token奖励越多
siliconflow.cn/zh-cn/siliconcloud
扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

模型判官 模型评估 AI应用 硅基流动
相关文章