百川大模型 2024年10月28日
国内大模型竞争加剧!百川智能「Baichuan4」全网首测,以总分80.64刷新SuperCLUE中文基准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百川智能于5月22日发布了其最新的大模型Baichuan4,SuperCLUE团队对Baichuan4进行了全方位测评。结果显示,Baichuan4在SuperCLUE通用大模型综合性中文测评基准上取得了80.64分,刷新了国内记录,并在中文综合能力测试中超过GPT-4-Turbo-0125。Baichuan4在文科任务上表现突出,以83.13分的高分领先国内外模型,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。同时,Baichuan4在理科任务上也展现出了强大的实力,取得了国内最佳成绩,但在与GPT-4-Turbo-0125相比仍有提升空间。总体而言,Baichuan4在多个领域展示了其均衡的能力,非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。

🧑‍🏫 **刷新国内记录:** Baichuan4在SuperCLUE通用大模型综合性中文测评基准上取得了80.64分,刷新了国内记录,并在中文综合能力测试中超过GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。

🏆 **文科能力领先:** Baichuan4在文科任务上表现出色,以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。具体表现为在知识百科、长文本理解、生成创作等方面处于领先地位。

📊 **理科能力提升空间:** 在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。例如在代码能力方面仍有提升的潜力。

🌟 **均衡能力:** Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。

🚀 **未来展望:** Baichuan4在大部分能力上都有提升,但仍存在一些可以优化的方向,例如代码能力和理科任务的表现。未来,百川智能将继续提升Baichuan4的能力,使其在更多领域展现出更强大的实力。

SuperCLUE 2024-05-22 16:01 北京

本测评结果仅用于学术研究。据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月

本测评结果仅用于学术研究。

据悉,百川智能于5月22日正式发布Baichuan4。SuperCLUE团队于5月19日受百川智能官方邀请,对Baichuan4SuperCLUE通用大模型综合性中文测评基准上,进行了全方位综合性测评。

Baichuan4体验地址:

https://www.baichuan-ai.com/(已官方更新为准)

测评环境

参考标准:SuperCLUE综合性测评标准

评测模型:Baichuan4(官方于5月19日提供的内测API版本)


测集:SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,包括计算、逻辑推理、代码、长文本在内的基础十大任务。


模型GenerationConfig配置:


测评方法

本次测评为自动化评测,具体评测方案可点击查阅SuperCLUE综合性测评标准。本次测评经过人工抽样校验。

先说结论

结论1:国内最佳成绩

SuperCLUE综合基准上的评测中,Baichuan4以总得分80.64分刷新了国内记录。不仅如此,它在中文综合能力测试中以1.51分的领先优势超过了GPT-4-Turbo-0125,展现了其在大模型方面的强大实力。

结论2:分类任务表现分析

理科表现:在理科领域,Baichuan4虽然以国内最佳成绩领先,但与GPT-4-Turbo-0125相比还有4.23分的差距,显示出进一步优化的空间。

文科表现:在文科任务中,Baichuan4以83.13分的高分不仅领先国内,也是国际上的最高分,比GPT-4-Turbo-0125高出5.33分,验证了其在文科领域的卓越能力。

结论3:全面而均衡的能力展示

Baichuan4在多个领域展示了其均衡的能力,特别是在知识百科、长文本理解、工具使用、语义理解和创意生成等方面处于领先地位。这使得Baichuan4非常适合应用于知识运用、智能体、内容创作和长程对话等多种场景。然而,它在代码能力方面仍有提升的潜力。

对比模型数据来源:SuperCLUE, 2024年4月30日

以下是我们从定量和定性两个角度对模型进行的测评分析。


测评分析

1  定量分析

在SuperCLUE测评中,Baichuan4总体表现如下:

Baichuan4总体表现

注:对比模型数据均来源于SuperCLUE,Baichuan4为5月19日测试结果,SenseChat V5和Yi-Large取自2024年5月11日,其余所有模型取自2024年4月30日。由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表实际排名。

在SuperCLUE通用综合测评基准上,Baichuan4取得80.64分,表现出色,刷新了国内大模型的最好成绩。并且,Baichuan4在中文综合能力上较GPT-4-Turbo-0125高1.51分。

Baichuan4在理科任务上的表现

对比模型数据来源:SuperCLUE

Baichuan4在理科任务上表现不俗,取得76.90分,国内模型中排名第一,略高于SenseChat V5,较GPT-4-Turbo-0125低4.23分,还有一定提升空间。其中,逻辑推理(74.4)、工具使用(80.8)均刷新国内最好成绩;在代码能力上还有一定优化空间。

Baichuan4在文科任务上的表现

对比模型数据来源:SuperCLUE

Baichuan4在文科任务上表现出色,取得83.12的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高5.33分。其中,知识百科(89.8)、长文本(80.8)、生成创作(83.4)、传统安全(90.2)均刷新国内最好成绩;

对比数据来源:SuperCLUE, 2024年4月30日

Baichuan4与国内大模型平均得分对比,我们可以发现,Baichuan4在所有能力上均高于平均线,展现出较均衡的综合能力。尤其在逻辑推理(+18.64)、代码(+18.89)、长文本(+20.77)能力上远高出平均线15分以上。

Baichuan4与国外代表模型对比

Baichuan4与国外代表大模型对比,Baichuan4在文科类中文任务上好于国外大模型,尤其在知识百科、长文本、生成创作能力较为领先。在理科如计算、逻辑推理、代码能力上与GPT-4-Turbo-0125还有一定提升空间。

Baichuan4与Baichuan3对比

对比数据来源:SuperCLUE, 2024年4月30日

将Baichuan4与Baichuan3对比,Baichuan4在绝大部分能力上有一定提升。其中,计算(+5)、逻辑推理(+5.8)、逻辑推理(+5.8)、工具使用(+6.4)、知识百科(+7.8)、长文本(+16.2)、角色扮演(+5.2)、语义理解(+7.2)、生成创作(+12.0)、传统安全(+9.8)任务上均有超过5分的提升。在代码能力上有2.2分的下降,是后续可以优化的方向之一。

小结


从评测结果我们发现,Baichuan4综合能力上表现不俗,在总分上刷新了国内外最好成绩,其中文科任务上有超过GPT-4 Turbo的表现,理科任务上刷新国内最好成绩,与GPT-4 Turbo还有一定距离。

2  定性分析

通过一些典型示例,对比定性分析Baichuan4的特点。

(建议:在电脑端查看获得更好体验)

示例1:长文本

示例2:逻辑推理


示例3:知识百科


测评局限性


1.随着国内外大模型的技术和应用进展,当前通用测评中的任务维度还存在继续优化空间。

2.自动化评估方式,虽然已经与人类评估有较高一致性,但仍然存在一定波动,需要继续提升量化模型性能的方法。

3.在目前的评估框架中,我们主要关注大模型效果表现,未能探讨其核心技术的来源和质量。未来,会持续尝试多种方式并探索深层次的大模型测评方法。

更多Baichuan4模型的测评信息,请加入SuperCLUE Baichuan4交流群。

扩展阅读

[1] SuperCLUE在线完整4月报告地址(可下载):

www.cluebenchmarks.com/superclue_2404

[2] CLUE官网:www.CLUEBenchmarks.com

[3] SuperCLUE排行榜网站:www.superclueai.com

[4] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

   点击阅读原文,查看SuperCLUE排行榜


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Baichuan4 大模型 SuperCLUE 中文测评 GPT-4
相关文章