MarkTechPost@AI 9小时前
Zhipu AI Releases GLM-4.5V: Versatile Multimodal Reasoning with Scalable Reinforcement Learning
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI正式发布并开源了其下一代视觉语言模型GLM-4.5V,在开放多模态AI领域取得了重大进展。该模型基于智谱AI拥有1060亿参数的GLM-4.5-Air架构,并采用了120亿活跃参数的专家混合(MoE)设计。GLM-4.5V在视觉和文本内容处理上均展现出强大的真实世界性能和无与伦比的多功能性。它能够进行全面的视觉推理,包括精细的场景理解、多图像分析和空间识别,还能处理长视频并进行事件识别。此外,GLM-4.5V在高级GUI和代理任务、复杂图表和文档解析方面表现出色,并支持长达64,000个token的多模态上下文。其创新的“思考模式”允许用户调整推理深度,实现了速度与严谨性的平衡。GLM-4.5V在多项公开多模态基准测试中取得了最先进的成果,并以MIT许可协议开源,极大地推动了多模态AI技术的普及。

🌟 **全面的视觉和空间推理能力**:GLM-4.5V能够深入理解复杂场景,支持多图像分析、空间关系识别,并利用3D卷积视觉编码器处理长视频,实现事件识别和故事板生成。其集成的3D旋转位置编码(3D-RoPE)使其在感知三维空间关系方面表现卓越,这对于解释视觉场景和定位视觉元素至关重要。

🚀 **强大的GUI交互与自动化支持**:该模型擅长读取桌面和应用程序界面,能够精确定位按钮和图标,并辅助自动化操作,这对于机器人流程自动化(RPA)和辅助功能工具具有重要意义。通过详细的视觉理解,GLM-4.5V还能规划和描述GUI操作,帮助用户更高效地导航软件或执行复杂工作流程。

📊 **高效的图表和长文档解析**:GLM-4.5V能够解析PDF或PowerPoint文件中的图表、信息图和科学图示,即使在密集、长篇幅的文档中也能提取摘要性结论和结构化数据。支持高达64,000个token的多模态上下文,使其能够处理和总结包含大量图像的扩展文档,如研究论文、合同或合规报告,非常适合商业智能和知识提取。

🎯 **精准的视觉定位与世界知识结合**:模型能够利用世界知识和语义上下文,不仅基于像素线索,还能精确地定位和描述视觉元素,如对象、边界框或特定的UI元素。这为质量控制、增强现实(AR)应用和图像标注工作流程提供了更详细的分析能力。

💡 **创新的架构与“思考模式”**:GLM-4.5V采用混合视觉-语言流水线,无缝融合视觉和文本信息。其专家混合(MoE)设计在拥有海量参数的同时,确保了高吞吐量和可负担的部署。独有的“思考模式”允许用户在推理时控制模型的推理深度,平衡速度与解释性,适用于不同复杂度的任务。

Zhipu AI has officially released and open-sourced GLM-4.5V, a next-generation vision-language model (VLM) that significantly advances the state of open multimodal AI. Based on Zhipu’s 106-billion parameter GLM-4.5-Air architecture—with 12 billion active parameters via a Mixture-of-Experts (MoE) design—GLM-4.5V delivers strong real-world performance and unmatched versatility across visual and textual content.

Key Features and Design Innovations

1. Comprehensive Visual Reasoning

2. Advanced GUI and Agent Tasks

3. Complex Chart and Document Parsing

4. Grounding and Visual Localization

Architectural Highlights

“Thinking Mode” for Tunable Reasoning Depth

A prominent feature is the “Thinking Mode” toggle:

Benchmark Performance and Real-World Impact

Example Use Cases

FeatureExample UseDescription
Image ReasoningDefect detection, content moderationScene understanding, multiple-image summarization
Video AnalysisSurveillance, content creationLong video segmentation, event recognition
GUI TasksAccessibility, automation, QAScreen/UI reading, icon location, operation suggestion
Chart ParsingFinance, research reportsVisual analytics, data extraction from complex charts
Document ParsingLaw, insurance, scienceAnalyze & summarize long illustrated documents
GroundingAR, retail, roboticsTarget object localization, spatial referencing

Summary

GLM-4.5V by Zhipu AI is a flagship open-source vision-language model setting new performance and usability standards for multimodal reasoning. With its powerful architecture, context length, real-time “thinking mode”, and broad capability spectrum, GLM-4.5V is redefining what’s possible for enterprises, researchers, and developers working at the intersection of vision and language.


Check out the Paper, Model on Hugging Face and GitHub Page here. Feel free to check out our GitHub Page for Tutorials, Codes and Notebooks. Also, feel free to follow us on Twitter and don’t forget to join our 100k+ ML SubReddit and Subscribe to our Newsletter.

The post Zhipu AI Releases GLM-4.5V: Versatile Multimodal Reasoning with Scalable Reinforcement Learning appeared first on MarkTechPost.

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4.5V Zhipu AI 多模态AI 视觉语言模型 开源AI
相关文章