昆仑万维集团 02月20日
DeepSeek-R1 网页端稳定性测评:天工AI位居总榜第二
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

SuperCLUE发布DeepSeek-R1网页端稳定性测评报告,对12个第三方平台进行了测试。结果显示,各平台在完整回复率上差异较大,字节火山引擎和天工AI表现出色,完整回复率分别达到100%和95%。整体而言,各平台准确率较高,表明DeepSeek-R1模型本身强大可靠。报告还分析了回复中断的原因,包括平台对模型最大输出长度的限制和用户负载等因素。该测评旨在为用户选择合适的DeepSeek-R1服务平台提供客观参考。

✅ **完整回复率差异显著**: 字节火山引擎和天工AI在DeepSeek-R1的完整回复率上表现优异,分别达到100%和95%,而部分平台如百度智能云、腾讯云TI平台和硅基流动的完整回复率低于50%,显示出明显的不稳定性。

📊 **整体准确率较高**: 尽管各平台完整回复率存在差异,但整体准确率相对较高,平均准确率达到85.76%,表明DeepSeek-R1模型本身具备强大的能力和可靠性,能为第三方应用提供稳定的支持。

⚙️ **模型输出长度限制的影响**: 测评报告指出,不同平台对模型最大输出长度的限制可能是导致回复中断的关键因素之一。未提供灵活设置max_tokens参数的平台截断率较高,尤其是在处理复杂度较高、解题步骤繁琐的数学奥数题时更为明显。

👨‍💻 **用户负载的影响**: 平台用户负载也是影响模型服务稳定性的潜在因素。用户数量较高的平台可能因服务器负载过重而面临更高的不稳定性风险,进而影响回复的完整性和推理速度。

昆仑万维 2025-02-15 11:15 北京

近日,第三方AI评测机构SuperCLUE发布了《DeepSeek-R1网页端稳定性测评报告》,「天工AI」在第三方平台的测评中,取得了总榜排名第二完整回复率排名第二准确率排名第二的优异成绩。

背景介绍

随着人工智能技术的迅速发展,推理模型DeepSeek-R1凭借卓越性能和复杂任务处理优势迅速走红。但因用户激增和外部攻击,其稳定性问题日益显现。为此,多家第三方平台推出支持DeepSeek-R1的优化服务,致力于提供更稳定、高效的体验。

为了给用户提供一份全面、客观的参考,帮助他们选择最适合自身需求的服务平台,SuperCLUE对支持DeepSeek-R1的多个第三方平台进行了稳定性测评。本次测评选择了12个第三方平台,使用20道原创小学奥数推理题来考察在各个第三方平台上使用DeepSeek-R1的实际效果,从回复率和准确率等方面进行评估,以下为详细测评报告。本次测评体验主要针对第三方平台的网页版本;当前是首次体验测评,仅代表发布时点的稳定性;后续计划对该类平台,包括网页端、API、APP、本地部署版本等进行跟进测评

 排行榜地址:www.SuperCLUEai.com

DeepSeek-R1稳定性测评体验摘要



测评要点1:各个第三方平台使用DeepSeek-R1的完整回复率表现差异较大。

字节火山引擎(100%)、天工AI(95%)以及秘塔AI搜索、无问芯穹和商汤大装置(各90%)表现出色,稳定性优异;而百度智能云、腾讯云TI平台和硅基流动的完整回复率均低于50%,当前显示出明显的不稳定性。这一结果凸显了稳定性在平台选择中的关键作用。

测评要点2:整体来看,所有平台的准确率都相对较高,这表明 DeepSeek-R1 本身是一个非常强大和可靠的模型,能够为各种第三方应用提供较为稳定的高准确率支持。除了完整回复率低于50%的第三方平台,其他九大平台的平均准确率达到了85.76%,最高准确率达到了100%,最低准确率也有78%。



榜单概览

完整回复率 + 截断率 + 无回复率 = 100%

测评方法

1. 对于每个第三方平台,使用20道小学奥数题进行统一测试。

2. 由于测评集为推理题,输出较长,因此对于所有支持调节最大输出max_tokens参数的第三方平台,我们均将该参数调为最大,其他参数保持平台默认。

测评结果

(1)完整回复率

字节火山引擎、天工AI、秘塔AI搜索、无问芯穹和商汤大装置的完整回复率均达到了90%以上,其中字节火山引擎的完整回复率达到了100%,而百度智能云、腾讯云 TI 平台和硅基流动的完整回复率不足50%。在截断率方面,腾讯云 TI 平台达到了95%,出现无响应/请求出错这种情况最多的是硅基流动,达到了75%。

(2)准确率

准确率统计的是在所有完整回复的题目中模型回答正确的题目占比。九个第三方平台使用Deepseek-R1的平均准确率达到了85.76%,表明 DeepSeek-R1 本身是一个非常强大和可靠的模型,能够为各种第三方应用提供较为稳定的高准确率支持。

示例展示

题目:一只青蛙早上6点从深为10米的井底向上爬,它每向上爬2米,因为井壁打滑,就会下滑0.5米、下滑 0.5米的时间是向上爬2米所用时间的二分之一。6点 12 分时,青蛙爬至离井口 2.5米处,那么青蛙从井底爬到井口时所花的时间总共多少分钟?

标准答案:15.2 分钟(即15 分钟 12 秒)参考答案(来自模型:Gemini-2.0-Flash-Exp):

原因分析

1. 不同平台对模型最大输出长度的限制可能是导致回复中断的关键因素之一。根据相关统计,部分第三方平台未提供对max_tokens参数的灵活设置(百度智能云、腾讯云TI平台等),这使得模型在生成较长回复时更容易发生截断现象,不可设置max_tokens参数的第三方平台平均截断率为39%,可设置该参数的第三方平台截断率为16.43%。特别是在本次实验中,由于采用了数学奥数测试集,题目复杂度较高且解题步骤较为繁琐,模型需要生成的内容长度显著增加,进一步加剧了因 token 限制而导致的输出截断问题。

2. 平台用户负载可能是影响其模型服务稳定性的潜在因素。

考虑到不同平台的用户量级存在差异,用户数量较高的平台可能因服务器负载过重而面临更高的不稳定性风险。平台服务稳定性不足,或将间接影响模型生成回复的完整性和推理速度。

SuperCLUE结论和建议



1. 不同第三方平台在部署和运行DeepSeek-R1时表现出的稳定性存在显著差异。建议在选择平台时,综合评估其技术架构、资源调度能力以及用户负载情况,并结合自身需求(如回复率、推理耗时等指标)进行权衡。对于追求更高稳定性的用户,可以考虑用户量较少但资源分配更均衡的第三方平台,以降低因高并发导致的性能波动风险。

2. 数据显示,字节火山引擎、天工AI、秘塔AI搜索、无问芯穹和商汤大装置等平台的完整回复率均达到90%及以上,表明这些平台在模型输出完整性和可靠性方面表现优异。对于需要确保高回复率的应用场景,可优先选择这些平台作为技术支持。



在“实现通用人工智能,让每个人更好地塑造和表达自我”这一企业使命的引领下,昆仑万维及其旗舰产品「天工AI」,始终致力于将最先进的AI研究成果转化成用户喜爱的产品。未来,「天工AI」将探索DeepSeek R1模型与天工AI自研算法的深度结合,强化多模态交互(如语音、图像、视频融合)能力,以DeepSeek-R1为技术支点,撬动从个人用户到企业客户的全链条价值创造。

天工AI地址:

www.tiangong.cn



往期推荐

01

 昆仑万维发布Matrix-Zero世界模型


02

 天工AI正式上线DeepSeek R1+联网搜索

03

 天工大模型4.0 o1版和4o版正式上线

04

 天工大模型4.0 o1版启动邀请测试

05

 昆仑万维推出天工大模型4.0 4o版

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 天工AI 稳定性测评 SuperCLUE
相关文章