Cnbeta 2024年12月23日
智源研究院“百模”评测结果:字节跳动多项第一 大厂AI整体领先
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智源研究院发布的大模型综合评测显示,2024年下半年大模型发展更注重综合能力和实际应用。字节跳动在多项AI能力上领先,阿里巴巴、百度等大厂表现优异。中文场景的开放式问答趋于稳定,但复杂场景仍有差距。字节、百度模型在中文理解上领先,多模态模型图文理解差距缩小,但长尾知识仍需提升。文生图模型已具备中文文字生成能力,但复杂场景人物变形,数量关系推理仍需加强。文生视频模型画质提升,但动作变形和物理规律理解仍是挑战。此次评测基于FlagEval平台,覆盖全球800多个模型。

🥇 字节跳动在多项AI能力评测中领先,展现出强大的技术实力,特别是在中文能力理解和视觉语言多模态模型方面表现突出。

🧐 国内头部语言模型在复杂场景任务中与国际一流水平仍有显著差距,表明国内大模型在处理复杂问题上仍有提升空间。

🖼️ 文生图模型已初步具备中文文字生成能力,但仍存在复杂场景人物变形、数量关系推理能力不足等问题,表明文生图技术仍需进一步完善。

🎬 文生视频模型在画质、动态性和镜头语言方面有所提升,但普遍存在动作变形、无法理解物理规律等问题,表明文生视频技术仍有较大发展空间。

近日,智源研究院发布国内外100余个开/闭源语言、视觉语言、文生图、文生视频大模型综合及专项评测结果。评测发现,2024年下半年,大模型发展更聚焦综合能力提升与实际应用。多项评测结果中,字节跳动多项AI能力领先,阿里巴巴、百度等大厂派AI均取得优异表现。


据评测结果,针对一般中文场景的开放式问答或生成任务,语言模型能力已趋于饱和稳定,但是复杂场景任务的表现,国内头部语言模型仍然与国际一流水平存在显著差距。在中文能力理解上,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。


在视觉语言多模态模型能力评测结果中,一些较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距,而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测显示,OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

此外,文生图多模态模型今年上半年参评模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力,但整体普遍存在复杂场景人物变形的情况,针对常识或知识性推理任务,小于3的数量关系任务表现有所提升,大于3的数量关系依然无法处理。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型,画质进一步提升,动态性更强,镜头语言更丰富,专场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模的情况。评测结果显示,快手可灵1.5(高品质)、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3、MiniMax海螺AI、Pika 1.5位列前五。

据介绍,本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型评测 字节跳动 多模态模型 文生图 文生视频
相关文章