国内大模型竞争加剧！百川智能「Baichuan4」全网首测，以总分80.64刷新SuperCLUE中文基准

SuperCLUE 2024-05-22 16:01 北京

本测评结果仅用于学术研究。据悉，百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月

本测评结果仅用于学术研究。

据悉，百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请，对Baichuan4在SuperCLUE通用大模型综合性中文测评基准上，进行了全方位综合性测评。

Baichuan4体验地址：

https://www.baichuan-ai.com/（已官方更新为准）

测评环境

参考标准：SuperCLUE综合性测评标准

评测模型：Baichuan4（官方于5月19日提供的内测API版本）

评测集：SuperCLUE综合性测评基准4月评测集，2194道多轮简答题，包括计算、逻辑推理、代码、长文本在内的基础十大任务。

模型GenerationConfig配置：

temperature=0.3

repetition_penalty=1.05

top_p=0.85

max_new_tokens=2048

stream=false

测评方法：

本次测评为自动化评测，具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论

结论1：国内最佳成绩

在SuperCLUE综合基准上的评测中，Baichuan4以总得分80.64分刷新了国内记录。不仅如此，它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125，展现了其在大模型方面的强大实力。

结论2：分类任务表现分析

理科表现：在理科领域，Baichuan4虽然以国内最佳成绩领先，但与GPT-4-Turbo-0125相比还有4.23分的差距，显示出进一步优化的空间。

文科表现：在文科任务中，Baichuan4以83.13分的高分不仅领先国内，也是国际上的最高分，比GPT-4-Turbo-0125高出5.33分，验证了其在文科领域的卓越能力。

结论3：全面而均衡的能力展示

Baichuan4在多个领域展示了其均衡的能力，特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而，它在代码能力方面仍有提升的潜力。

对比模型数据来源：SuperCLUE, 2024年4月30日

以下是我们从定量和定性两个角度对模型进行的测评分析。

测评分析

1 定量分析

在SuperCLUE测评中，Baichuan4总体表现如下：

Baichuan4总体表现

注：对比模型数据均来源于SuperCLUE，Baichuan4为5月19日测试结果，SenseChat V5和Yi-Large取自2024年5月11日，其余所有模型取自2024年4月30日。由于部分模型分数较为接近，为了减少问题波动对排名的影响，本次测评将相距0.25分区间的模型定义为并列，以上排序不代表实际排名。

在SuperCLUE通用综合测评基准上，Baichuan4取得80.64分，表现出色，刷新了国内大模型的最好成绩。并且，Baichuan4在中文综合能力上较GPT-4-Turbo-0125高1.51分。

Baichuan4在理科任务上的表现

对比模型数据来源：SuperCLUE

Baichuan4在理科任务上表现不俗，取得76.90分，国内模型中排名第一，略高于SenseChat V5，较GPT-4-Turbo-0125低4.23分，还有一定提升空间。其中，逻辑推理（74.4）、工具使用（80.8）均刷新国内最好成绩；在代码能力上还有一定优化空间。

Baichuan4在文科任务上的表现

对比模型数据来源：SuperCLUE

Baichuan4在文科任务上表现出色，取得83.12的高分，国内外模型中排名第一，较GPT-4-Turbo-0125高5.33分。其中，知识百科（89.8）、长文本（80.8）、生成创作（83.4）、传统安全（90.2）均刷新国内最好成绩；

对比数据来源：SuperCLUE, 2024年4月30日

将Baichuan4与国内大模型平均得分对比，我们可以发现，Baichuan4在所有能力上均高于平均线，展现出较均衡的综合能力。尤其在逻辑推理（+18.64）、代码（+18.89）、长文本（+20.77）能力上远高出平均线15分以上。

Baichuan4与国外代表模型对比

将Baichuan4与国外代表大模型对比，Baichuan4在文科类中文任务上好于国外大模型，尤其在知识百科、长文本、生成创作能力较为领先。在理科如计算、逻辑推理、代码能力上与GPT-4-Turbo-0125还有一定提升空间。

Baichuan4与Baichuan3对比

对比数据来源：SuperCLUE, 2024年4月30日

将Baichuan4与Baichuan3对比，Baichuan4在绝大部分能力上有一定提升。其中，计算（+5）、逻辑推理（+5.8）、逻辑推理（+5.8）、工具使用（+6.4）、知识百科（+7.8）、长文本（+16.2）、角色扮演（+5.2）、语义理解（+7.2）、生成创作（+12.0）、传统安全（+9.8）任务上均有超过5分的提升。在代码能力上有2.2分的下降，是后续可以优化的方向之一。

小结：

从评测结果我们发现，Baichuan4综合能力上表现不俗，在总分上刷新了国内外最好成绩，其中文科任务上有超过GPT-4 Turbo的表现，理科任务上刷新国内最好成绩，与GPT-4 Turbo还有一定距离。

2 定性分析

通过一些典型示例，对比定性分析Baichuan4的特点。

（建议：在电脑端查看获得更好体验）

示例1：长文本