掘金 人工智能 07月11日 18:58
“28项评测23项SOTA——GLM-4.1V-9B-Thinking本地部署教程:10B级视觉语言模型的性能天花板!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了智谱AI推出的多模态大模型GLM-4.1V-9B-Thinking,该模型在视觉理解和复杂推理能力上有所提升,并支持长上下文输入。文章详细阐述了模型的关键特性,包括深度推理能力、媲美GPT-4o的性能,以及开源特性。此外,文章还提供了模型部署的详细步骤,涵盖了环境配置、虚拟环境创建、项目克隆、依赖下载、模型下载和推理启动等环节,为用户提供了全面的技术指导。

💡 GLM-4.1V-9B-Thinking 是智谱AI联合清华大学团队推出的多模态大模型,基于GLM-4-9B-0414基座模型,增强了跨模态推理能力和稳定性。

✨ 该模型支持多种模态输入,包括图像、视频和文本,适用于教育、科研、工业和政务等多个领域。在28项测评任务中,有23项达到10B级别模型的最佳表现,其中18项任务甚至超过了8倍参数量的Qwen-2.5-VL-72B。

🚀 模型在深度推理领域表现卓越,支持图像、视频、文档等多模态输入,并且作为仅9B参数的模型,在部分高难度任务中,表现可媲美GPT-4o。

💻 部署模型需要一定的环境配置,包括Ubuntu 22.04.4 LTS、Python 3.12.4、CUDA 12.6和NVIDIA Corporation RTX 4090 * 2,并推荐使用PyTorch 2.7.1。提供了详细的配置步骤,包括更新软件包、配置镜像源、创建虚拟环境、克隆项目、下载依赖和模型。

⚙️ 模型推理和WebUI启动提供了命令行交互脚本和Gradio界面脚本,用户可以通过命令行或Web界面进行连续对话、图像推理和视频推理。同时,文章还提供了解决端口占用问题的方案。

一、模型介绍

GLM-4.1V-9B-Thinking是由智谱AI联合清华大学团队推出的多模态大模型,以GLM-4-9B-0414基座模型为底,通过引入“思维链推理机制”和“课程采样强化学习策略”(Reinforcement Learning with Curriculum Sampling),显著提升了模型的跨模态推理能力与稳定性。在继承 GLM 系列通用大模型能力的基础上,进一步强化了视觉理解和复杂推理能力。

该模型支持长上下文输入,具备处理图像、视频、文本等多种模态的能力,适用于教育、科研、工业和政务等多个领域。在28项测评任务中有23项达到10B级别模型最佳,其中18项任务持平甚至超过8倍参数量的Qwen-2.5-VL-72B。

GLM-4.1V-9B-Thinking标志着智谱GLM系列模型从感知向认知阶段的跃迁,在突破了小模型的性能极限下,也作出如下创新:

1.在深度推理领域表现卓越,支持图像、视频、文档等多模态输入。

2.作为参数模型仅为9B的模型,在部分高难度任务中,模型表现可以媲美GPT-4o。

3.模型开源,还提供了坚实的GLM-4.1V-9B-Base模型,利于研究者们的二次开放与创新。

二、模型部署

基础环境最低配置推荐

环境名称版本信息
Ubuntu22.04.4 LTS
Python3.12.4
CUDA12.6
NVIDIA CorporationRTX 4090 * 2

注:推荐pytorch 2.7.1

1.更新基础软件包、配置镜像源

查看系统版本信息

#查看系统的版本信息,包括 ID(如 ubuntu、centos 等)、版本号、名称、版本号 ID 等cat /etc/os-release

更新软件包列表

#更新软件列表apt-get update

配置国内镜像源(阿里云)

具体而言,vim指令编辑文件 sources.list

#编辑源列表文件vim  /etc/apt/sources.list

按 “i”进入编辑模式,将如下内容插入至 sources.list文件中

deb http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiversedeb-src http://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiversedeb http://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiversedeb-src http://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiversedeb http://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiversedeb-src http://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiversedeb http://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiversedeb-src http://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse

最后,按 "esc"键退出编辑模式,输入 :wq 命令并按下 “enter”键便可保存并退出 sources.list文件

2.虚拟环境创建

进入pytorch官网(Get Started

找到从本地开始(Start Locally)——>PyTorch Build(Stable 2.7.1)——>Your OS(Windows)——>Packge(Pip)——>Language(Python)——>Compule Platform(CUDA 12.6)

复制所框选“命令行“后,转入至终端中粘贴执行安装

创建虚拟环境

#创建名为GLM-Thking的虚拟环境,python版本:3.12conda create -n GLM-Thking python=3.12

激活虚拟环境

#激活

conda activate GLM-Thking

3.克隆项目

进入文件夹GLM-4.1V-9B-Thinking

cd /root/sj-tmp/GLM-4.1V-9B-Thinking/

从github官网中克隆存储库

#克隆存储库git clone https://github.com/THUDM/GLM-4.1V-Thinking.git

4.下载依赖

requirements.txt文件

pip install -r requirements.txt

5.模型下载

转到魔塔社区官网下载模型文件:GLM-4.1V-9B-Thinking · 模型库

使用命令行下载完整模型库

#在下载前,请先通过如下命令安装 pip install modelscope#命令行下载modelscope download --model ZhipuAI/GLM-4.1V-9B-Thinking

6.模型推理及webUI启动

模型推理代码均在 inference文件夹中

(1)执行命令行交互脚本 trans_infer_cli.py 便可进行连续对话

python trans_infer_cli.py --model_path '/root/sj-tmp/GLM-4.1V-9B-Thinking/'

(2)执行Gradio 界面脚本 trans_infer_gradio.py便可搭建一个可以直接使用的 Web 界面

python trans_infer_gradio.py

若遇到端口被占用的问题,可通过如下命令解决:

#查看端口号进程lsof -i :<端口号>#强制退出进程kill -9 <API>

(3)web页面图像推理

(4)web页面视频推理

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4.1V-9B-Thinking 多模态大模型 模型部署 智谱AI
相关文章