GLM大模型 05月14日 18:20
智谱 Realtime、4V、Air 新模型发布,同步上新API
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱团队发布全新端到端多模态模型GLM-Realtime,该模型实现了近乎实时的视频理解与语音交互,支持清唱功能和长达2分钟的记忆及Function Call功能。同时升级了GLM-4-Air和GLM-4V-Plus模型,提供高性价比的语言模型解决方案。此外,智谱还推出了Flash系列普惠模型,向全社会免费开放,涵盖语言、文生图、文生视频及图像理解等多个场景,助力开发者轻松实现应用创新。

⏱️ 全新端到端多模态模型 GLM-Realtime,实现了近乎实时的视频理解与语音交互,并融入清唱功能,支持长达2分钟的记忆及Function Call功能。该模型已被集成到智能眼镜和陪伴娃娃中,提供近乎实时的智能助手交互,且API已上线智谱开放平台并免费调用。

🚀 GLM-4-Air 模型升级为 GLM-4-Air-0111,性能大幅提升,接近更大规模的GLM-4-Plus模型,价格降至原来的50%,大幅降低企业落地大模型应用的门槛。

🖼️ GLM-4V-Plus 视觉理解模型也进行了升级,在多个公开榜单上效果显著提升,支持变分辨率功能,小图场景下显著降低token消耗,同时支持4K超清图像和极致长宽比图像的无损识别,并具备长达2小时的视频理解能力。

🎁 智谱推出 Flash 系列普惠模型 API,向全社会免费开放,涵盖语言、多模态理解、多模态生成功能,包括语言模型 GLM-4-Flash、图像理解模型 GLM-4V-Flash、图像生成模型 CogView-3-Flash 和视频生成模型 CogVideoX-Flash。

GLM技术团队 2025-01-16 14:22 北京

全新模型,赋能 AI 硬件

继视频通话功能上线「智谱清言」之后,我们进一步在语言、语音、图像和视频的理解与生成领域展开深入探索,相继推出GLM-Voice、GLM-4V、CogView、CogVideoX等多模态模型。 

 

今日,基于对多模态模型的理解与研发积累,我们将发布全新端到端多模态模型 GLM-Realtime,实现近乎实时的视频理解与语音交互,该模型融入了清唱功能,并支持长达2分钟的记忆及Function Call功能。 

 

此外,我们同步升级了 GLM-4-Air 和 GLM-4V-Plus 模型,致力于提供业界最强性价比的语言模型解决方案。智谱始终致力于以先进的大模型技术回馈社会,特别设立 Flash 系列普惠模型,向全社会免费开放,涵盖语言、文生图、文生视频及图像理解等多个场景,助力开发者轻松实现应用创新。 

 

现所有模型API已正式上线 bigmodel.cn,欢迎广大开发者访问体验。 


 

一、新模型:GLM-Realtime

 

基于我们对多模态模型的持续研究,我们推出了全新的端到端多模态模型GLM-Realtime。该模型在视频通话上具备长达2分钟的会话内容记忆能力。 

 

此外,GLM-Realtime模型在语音交互方面,支持端到端语音交互,尤其创新性地提供了清唱功能,让大模型具备歌唱能力。 


值得一提的是,GLM-Realtime 在实现完全实时交互的基础上,进一步支持 Function Call 功能。这一功能使得 GLM-Realtime 不仅能够依靠自身的知识和能力,还能灵活调用外部知识和工具,从而能够拓展到更广泛的应用场景当中。 


为展示 GLM-Realtime 的实时交互能力,我们将 GLM-Realtime 集成到智能眼镜和陪伴娃娃中,用户可以体验到近乎实时的智能助手交互。我们相信具备视频&语音能力并能够实时交互能力的 GLM-Realtime 模型,将为 AI硬件奠定坚实的智能基础。 


GLM-Realtime API已经上线智谱开放平台 bigmodel.cn现阶段可以免费调用



二、极致性价比:GLM-4-Air / GLM-4V-Plus


GLM-4-Air自上线以来,凭借「高性价比」赢得了平台开发者的广泛青睐。今日,我们推出全面升级版——GLM-4-Air-0111。通过对于训练数据和训练流程的全面优化,GLM-4-Air-0111在多个维度上实现了性能飞跃,接近规模更大的GLM-4-Plus模型。

与此同时,GLM-4-Air-0111的价格降至原来的50%,大幅降低企业落地大模型应用的门槛。

同时,我们针对视觉理解模型 GLM-4V-Plus 也进行了全面升级。新版本在多个公开榜单上均展现出显著的效果提升。


更新后的 GLM-4V-Plus 支持变分辨率功能,能够适应不同尺寸的图像输入,在小图场景下显著降低token消耗(例如,224 * 224的分辨率下,输入的图像token数仅为原来的3%),同时支持4K超清图像和极致长宽比图像的无损识别


此外,新版 GLM-4V-Plus 还具备长达2小时的视频理解能力,为视频理解和分析领域提供了更加高效、精准的解决方案。


case:红绿色盲测试

case:儿童绘本故事

case3:OCR菜单提取


三、全免费:Flash 系列普惠模型


智谱致力于「大模型普惠」,为助力所有开发者更便捷地利用大模型进行创新,智谱专门设置了针对全社会免费开放 Flash 系列普惠模型 API。作为行业首个一站式、全模态的免费系列模型,开发者可以免费调用语言、多模态理解、多模态生成功能,其中四大模型: 

 

与此同时,我们预计将在春节之前,全面升级 Flash 系列普惠模型,以给开发者提供免费但更强大的模型能力!

 

🌀

智谱致力于为用户和伙伴提供世界一流的大模型技术、产品和服务。我们随后也将有更多迭代更新,敬请关注。 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-Realtime 多模态模型 Flash系列 智谱 AI硬件
相关文章