SuperCLUE 2024-05-22 16:01 北京
本测评结果仅用于学术研究。据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月
本测评结果仅用于学术研究。
据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请,对Baichuan4在SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。
Baichuan4体验地址:
https://www.baichuan-ai.com/(已官方更新为准)
测评环境
参考标准:SuperCLUE综合性测评标准
评测模型:Baichuan4(官方于5月19日提供的内测API版本)
评测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。
模型GenerationConfig配置:
temperature=0.3
repetition_penalty=1.05
top_p=0.85
max_new_tokens=2048
stream=false
测评方法:
本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。
先说结论
结论1:国内最佳成绩
在SuperCLUE综合基准上的评测中,Baichuan4以总得分80.64分刷新了国内记录。不仅如此,它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。
结论2:分类任务表现分析
理科表现:在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。
文科表现:在文科任务中,Baichuan4以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。
结论3:全面而均衡的能力展示
Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而,它在代码能力方面仍有提升的潜力。
对比模型数据来源:SuperCLUE, 2024年4月30日
以下是我们从定量和定性两个角度对模型进行的测评分析。
测评分析
1 定量分析
在SuperCLUE测评中,Baichuan4总体表现如下:
Baichuan4总体表现
注:对比模型数据均来源于SuperCLUE,Baichuan4为5月19日测试结果,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。
在SuperCLUE通用综合测评基准上,Baichuan4取得80.64分,表现出色,刷新了国内大模型的最好成绩。并且,Baichuan4在中文综合能力上较GPT-4-Turbo-0125高1.51分。
Baichuan4在理科任务上的表现
对比模型数据来源:SuperCLUE
Baichuan4在理科任务上表现不俗,取得76.90分,国内模型中排名第一,略高于SenseChat V5,较GPT-4-Turbo-0125低4.23分,还有一定提升空间。其中,逻辑推理(74.4)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。
Baichuan4在文科任务上的表现
对比模型数据来源:SuperCLUE
Baichuan4在文科任务上表现出色,取得83.12的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高5.33分。其中,知识百科(89.8)、长文本(80.8)、生成创作(83.4)、传统安全(90.2)均刷新国内最好成绩;
对比数据来源:SuperCLUE, 2024年4月30日
将Baichuan4与国内大模型平均得分对比,我们可以发现,Baichuan4在所有能力上均高于平均线,展现出较均衡的综合能力。尤其在逻辑推理(+18.64)、代码(+18.89)、长文本(+20.77)能力上远高出平均线15分以上。
Baichuan4与国外代表模型对比
将Baichuan4与国外代表大模型对比,Baichuan4在文科类中文任务上好于国外大模型,尤其在知识百科、长文本、生成创作能力较为领先。在理科如计算、逻辑推理、代码能力上与GPT-4-Turbo-0125还有一定提升空间。
Baichuan4与Baichuan3对比
对比数据来源:SuperCLUE, 2024年4月30日
将Baichuan4与Baichuan3对比,Baichuan4在绝大部分能力上有一定提升。其中,计算(+5)、逻辑推理(+5.8)、逻辑推理(+5.8)、工具使用(+6.4)、知识百科(+7.8)、长文本(+16.2)、角色扮演(+5.2)、语义理解(+7.2)、生成创作(+12.0)、传统安全(+9.8)任务上均有超过5分的提升。在代码能力上有2.2分的下降,是后续可以优化的方向之一。
小结:
从评测结果我们发现,Baichuan4综合能力上表现不俗,在总分上刷新了国内外最好成绩,其中文科任务上有超过GPT-4 Turbo的表现,理科任务上刷新国内最好成绩,与GPT-4 Turbo还有一定距离。
2 定性分析
通过一些典型示例,对比定性分析Baichuan4的特点。
(建议:在电脑端查看获得更好体验)
示例1:长文本
示例2:逻辑推理
示例3:知识百科
测评局限性
1.随着国内外大模型的技术和应用进展,当前通用测评中的任务维度还存在继续优化空间。
2.自动化评估方式,虽然已经与人类评估有较高一致性,但仍然存在一定波动,需要继续提升量化模型性能的方法。
3.在目前的评估框架中,我们主要关注大模型效果表现,未能探讨其核心技术的来源和质量。未来,会持续尝试多种方式并探索深层次的大模型测评方法。
更多Baichuan4模型的测评信息,请加入SuperCLUE Baichuan4交流群。
扩展阅读
[1] SuperCLUE在线完整4月报告地址(可下载):
www.cluebenchmarks.com/superclue_2404
[2] CLUE官网:www.CLUEBenchmarks.com
[3] SuperCLUE排行榜网站:www.superclueai.com
[4] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
点击阅读原文,查看SuperCLUE排行榜