GLM大模型 2024年10月25日
智谱发布新一代基座模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI发布新一代基座模型,包括多种类型,在相应领域达国际第一梯队水平。还上线清言APP视频通话功能,开放GLM-4-Flash API免费使用,开源CogVideoX等,持续推动技术发展。

语言基座模型GLM-4-Plus在语言理解等方面性能全面提升,与GPT-4o等第一梯队模型持平,已上线开放平台并将在清言APP上线体验。

文生图基座模型CogView-3-Plus效果接近MJ-V6和FLUX等一线模型,已在开放平台对外提供API服务并上线清言APP。

图像/视频理解基座模型GLM-4V-Plus具备卓越图像理解和时间感知视频理解能力,已上线开放平台,是国内首个通用图像&视频理解模型API。

清言APP上线国内首个面向C端用户的视频通话服务,跨越多种模态,具备实时推理能力,8月30日首批面向部分用户开放并接受申请。

视频生成基座模型CogVideoX的5B版本开源,开源协议调整,智谱在开源模型数量和种类上领先,累计下载量突破2000万次。

智谱AI 2024-08-29 21:41 北京

让机器像人一样思考!

自 2023 年 3 月发布第一代语言基座模型 ChatGLM 以来,我们经过对基座模型的深入探索,在模型性能和模态上取得了显著的提升。

基于此,在KDD 2024大会上,我们发布了新一代基座模型,包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus、视频生成模型 CogVideoX等,这些模型在相应领域均达到了国际第一梯队的水平。

此外,我们还在「清言APP」上线了视频通话功能,并在MaaS平台上开放了GLM-4-Flash API的免费使用。

让机器像人一样思考」,智谱将持续前行。


主要更新:


目录:

> 模型:GLM-4-Plus

> 模型:CogView-3-Plus

> 模型:GLM-4V-Plus

> 清言:视频通话

> 开源:CogVideoX

> API :GLM-4-Flash 免费


在过去的半年中,我们针对语言模型做了大量理论研究。在此基础之上,我们研发了 GLM-4-Plus 基座模型,通过多种方式构造出了海量高质量数据,并利用 PPO等多项技术,有效提升了模型推理、指令遵循等方面的表现,并能够更好地反映人类偏好。我们在各项指标上,做到与 GPT-4o 等第一梯队模型持平。

此外,在GLM-4-Plus模型的训练过程中,我们通过采用更精准的长短文本数据混合策略,显著增强了模型在长文本推理方面的表现。

目前 GLM-4-Plus 模型已经正式上线开放平台(bigmodel.cn),对外提供 API 服务;同时也即将在「清言 APP」上线体验。


在文生图模型的研发中,我们采用Transformer架构替代了传统的UNet架构来训练扩散模型,并深入研究了扩散模型的噪声规划。在此基础上,我们显著优化了模型效果,并验证了模型参数量提升所带来的 Scale-up效益。我们还构建了高质量的图像微调数据集,使得模型在预训练所获得的广泛知识基础上,能够生成更符合指令需求且具备更高美学评分的图像结果,其效果接近目前处于一线水平的 MJ-V6 和 FLUX 等模型。

| Prompt:A stone in a cave with the words 'CogView3+' carved on it, set in a mystical and ancient environment.

目前 CogView-3-Plus 模型已经在开放平台(bigmodel.cn)对外提供 API服务,且正式上线「清言 APP」供大家使用。


基于我们在 CogVLM系列模型上的研究经验,我们研发了同时具备高质量图像理解和视频理解能力的多模态模型 GLM-4V-Plus。

GLM-4V-Plus 除了能理解并分析复杂的视频内容外,同时还具备超强的时间感知能力。

目前该模型已经正式上线开放平台(bigmodel.cn),成为国内首个通用图像&视频理解模型 API。


基于我们在模型领域的深入研究,我们在「清言 APP」上正式推出了“视频通话”功能,这是国内首个面向C端用户开放的视频通话服务。

清言视频通话功能跨越了文本、音频和视频模态,并具备实时推理能力。用户在拨打清言的视频通话时,可以体验到流畅的互动,即使频繁打断,它也能迅速响应。清言不仅能够理解摄像头拍摄到的画面,还能听懂并准确执行用户的指令,带来如同真人视频通话般的体验。

「清言 APP」 的视频通话功能将于 8月30日上线,首批将面向部分用户开放,同时接受外部申请。我们将持续迭代优化,并逐步扩大开放范围,力求尽快实现全员覆盖。

申请体验:

申请链接:https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf


智谱始终秉持将最先进的模型开源给广大开发者的理念,以推动大模型社区的繁荣发展。

为进一步促进AI视频生成社区的自主使用和开放式创新,我们在开源 CogVideoX-2B 版本后,再次开源了参数规模更大、性能更强的产品级视频生成模型 CogVideoX-5B。同时,将 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。

开源仓库地址:https://github.com/thudm/cogvideo

随着CogVideoX等模型的相继开源,智谱在开源模型的数量和种类上均处于领先地位,累计下载量已突破2000万次。智谱以实际行动为国际开源社区做出了贡献。


在大型模型技术持续进步的背景下,MaaS 服务正逐步迈向普及化阶段。智谱坚持「运用最先进的技术,服务最广大的用户」的宗旨,将在“速度”和“性能”两方面都具有较大优势的 GLM-4-Flash API 全面免费开放。用户可以通过调用GLM-4-Flash,快速且免费地构建专属模型和应用。这也是智谱开放平台(bigmodel.cn)首个完全免费的大模型 API。

在完全免费开放 GLM-4-Flash API 的基础之上,为了支持广大用户更好地将模型适用到特定应用场景,我们同步提供了模型微调功能,以满足不同用户的需求。欢迎使用!



阅读原文,申请「视频通话」体验!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱AI 基座模型 清言APP CogVideoX GLM-4-Flash
相关文章