Datawhale 2024年09月08日
对标 OpenAI ,这家大模型企业发布一大波旗舰级模型!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI发布了一系列新模型,包括语言基座模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型CogVideoX,性能全面提升,在语言文本能力、多模态理解和生成方面比肩GPT-4o,并已开放API调用,为众多AI应用提供强力支持。

💥 **GLM-4-Plus语言基座模型:** 性能比肩GPT-4o,在语言理解、指令遵循、长文本处理等方面取得显著提升。GLM-4-Plus在语言文本能力评测上与GPT-4o和405B参数量的Llama3.1相当,在长文本能力上也超越了Gemini1.5Pro和ClaudeSonnet3.5。

💥 **GLM-4V-Plus图像/视频理解模型:** 具备卓越的图像理解能力和基于时间感知的视频理解能力,在图像和视频理解方面与GPT-4o不相上下,能够轻松理解网页内容并将其转换为HTML代码,并提供国内首个通用视频理解模型API。

💥 **多模态生成模型:** 智谱AI还推出了文生图模型CogView-3-Plus和视频生成模型CogVideoX,性能均处于业界领先水平。CogView-3-Plus性能接近MJ-V6和FLUX等模型,CogVideoX 5B版本开源,是当前开源视频生成模型的最佳选择。

💥 **多模态理解和生成统一:** 智谱AI正在寻求多模态理解和生成统一的技术路线,用AI理解现实世界、生成AI世界,最终实现AI彻底理解和生成现实世界,迈向AGI。

💥 **应用前景广阔:** 智谱AI的新模型可以应用于智能内容审核、个性化广告生成、多模态搜索引擎、智能宠物监控等领域,为千行百业带来持续创新与变革,加速迈向通用人工智能时代。

原创 Datawhale 2024-09-07 22:01 浙江

 Datawhale发布 

发布:智谱AI,最新旗舰级模型

自 ChatGPT 以来, OpenAI 每次发布的新模型都成为了全球科技公司追逐和对标的目标。


但仔细观察会发现,想要短时间内追赶或对标 OpenAI 的最新模型变得越来越难。


就在此时,智谱AI BigModel开放平台发布了一大波新模型:

语言基座模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像/视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX。


体验地址

https://zhipuaishengchan.datasink.sensorsdata.cn/t/eB


这些模型可以分为语言基座模型和多模态两大类,背后透露出了Bigmodel开放平台的全面且强大的实力,以及迈向AGI的野心。


基座模型:GLM-4-Plus 性能比肩 GPT-4o


语言文本能力是大模型最基础的能力,也是和人自然交流不可获取的能力。


GLM-4-Plus 在语言理解、指令遵循、长文本处理等方面性能得到全面提升


在语言文本能力评测上,GLM-4-Plus 比肩 GPT-4o 及 405B 参数量的 Llama3.1。



GLM-4-Plus 的长文本能力也很优秀,比肩GPT-4o,超过Gemini 1.5 Pro和 Claude Sonnet 3.5。



在实际体验中,GLM-4-Plus 的回答非常牛!


它能答对我国但凡看过春晚就人人皆知的问答,快来用它测一测你身边有没有“行走的50万”(手动狗头)。




GLM-4-Plus 已经支持 API 调用;各位学习者可以前往体验。


多模态模型 :理解和生成统一,迈向AGI


智谱这次更新了好几个多模态模型,可以分为两类:多模态理解模型、多模态生成模型。


先说这个非常强大的多模态理解模型——图像/视频理解模型 GLM-4V-Plus。


它具备卓越的图像理解能力以及基于时间感知的视频理解能力。


在图像和视频理解能力方面,GLM-4V-Plus 和 GPT-4o 不相上下,它可以轻松理解网页内容,并将其转换为 html 代码。


Vision capabilities 

GLM-4V-Plus 能够理解并分析复杂的视频内容,同时具备时间感知能力。在上线智谱的 BigModel大模型开放平台( bigmodel.cn )后,将提供国内首个通用视频理解模型 API 。


Video capabilities 


下面具体来看一个视频理解的案例,在一段“菲律宾炸鱼”视频片段中,GLM-4V-Plus 凭借模型强大的视频分析能力+ 推理能力正确对答了问题,还“看懂”了视频的笑点。



    提问:这段视频描述了什么运动?


    GLM-4V-Plus:这段视频展示了一个人在跳板上进行跳水,并落在游泳池中。


    提问:这段视频好笑的地方在哪里?


    GLM-4V-Plus这段视频有趣的地方在于,有一个人跳进了泳池,溅起了巨大的水花。这创造了一个幽默且令人愉快的时刻,因为观众们被这个跳水的出乎意料的结果所娱乐。


再简单说下多模态生成模型:


一是文生图模型 CogView-3-Plus:它具备与当前业内最优秀的 MJ-V6 和 FLUX 等模型接近的性能。


二是视频生成模型 CogVideoX:在此前发布并开源 2B 版本后,本次它的5B 版本也正式开源,并且性能进一步增强,是当前开源视频生成模型中的最佳选择。


虽然以上智谱的多模态理解和生成模型暂时是分开的,但可以看出,智谱已经把二者都分别做到了业内最顶尖的水平。智谱的各种动作也透露出了他们正在寻求多模态理解和生成统一的技术路线——用AI理解现实世界、生成AI世界,再理解现实和AI世界......


直到有一天 AI 彻底理解和生成现实世界,但人类却彻底分不清AI和现实世界的一天,AGI 就真正到来了~



调最好的API,做最好的AI应用


大模型时代,AI 产品和应用非常内卷,2024年,要想众多AI公司中活下来、甩开对手一个大身位,必须要拼应用,这时除了应用本身之外,背后调用的大模型 API 也很重要,调用的模型越强,应用的表现也会越好。


智谱AI本次一大波GPT-4o级的语言基座+多模态模型,应用前景非常巨大。


GLM-4-Plus、 CogView-3-Plus、 GLM-4V-Plus、 CogVideoX 一套组合拳下来,能应用的场景简直太多了!


下面提供一些目前和未来非常有潜力的应用场景,仅作参考。


①智能内容审核


②个性化广告生成

③多模态搜索引擎

④智能宠物监控


此外,智谱基座模型和多模态模型,还可以被用来开发工作助手、“AI家庭教师”,24小时在线的陪伴机器人......帮助视障人群开发一双“会说话会导航的眼睛”,把AI向善的意义最大程度发挥。



全面对标 OpenAI ,实力和勇气来源于自主创新


无论是最新推出的旗舰级别的基座⼤模型,还是清言视频通话功能,智谱AI都越来越像中国的 OpenAI了,这本身就是一种实力和勇气的象征。


那么智谱AI实力和勇气究竟来源于何处?


答案是自主创新,原创的世界顶尖水平的全栈⼤模型谱系,不给自己留任何短板。


我们来对比一下 OpenAI 今年的发布和智谱AI 今年的发布。


智谱AI 24年发布

OpenAI 24年发布

智谱清影

全量开放

Sora

不可体验

清影视频通话

全量开放

GPT-4o 高级版

极少内测

GLM-4-Flash

API 免费用


话又说回来,智谱AI能支持海量用户同时并发的背后,模型、产品、infra等技术实力可见一斑!


通过⼤模型赋能产品应用,链接物理世界亿级⽤⼾,智谱AI正致⼒于为千⾏百业带来持续创新与变⾰,加速迈向通⽤⼈⼯智能时代。


让机器像人一样思考,智谱AI早晚有一天会实现。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱AI GLM-4-Plus CogView-3-Plus GLM-4V-Plus CogVideoX GPT-4o 大模型 AGI 多模态
相关文章