魔搭ModelScope社区 04月19日 14:12
全新GLM模型登场:9B/32B系列模型全面开源,性能媲美顶尖选手,MIT协议商用无忧!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI开源了32B/9B系列GLM模型,包括基座、推理、沉思模型,并遵循MIT许可协议。其中,GLM-Z1-32B-0414推理模型性能媲美DeepSeek-R1。文章介绍了模型的基本信息,提供了推理和微调的实战教程,包括使用transformers进行推理,以及使用ms-swift框架进行微调,并提供了自定义数据集的格式和推送模型到ModelScope的步骤。

💡 智谱AI开源了GLM系列模型,包含32B和9B两种尺寸,涵盖基座、推理和沉思模型,均采用MIT许可协议,允许商业使用和自由分发。

🚀 GLM-Z1-32B-0414推理模型性能出色,在推理速度和数理能力上表现优异,部分指标接近甚至超越GPT-4o等更大模型。

💻 文章提供了基于transformers的推理代码示例,展示了如何加载模型并进行推理。同时,介绍了使用ms-swift框架进行微调的方法,以及自定义数据集的格式。

💾 文章详细介绍了使用ms-swift框架进行模型微调的步骤,包括环境准备、代码示例、参数配置等,并提供了将微调后的模型推送到ModelScope的指导。

2025-04-15 13:37 浙江

最新鲜推理、微调实战教程来啦!

01

模型介绍



4月15日,智谱开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。该系列模型现已首发在魔搭社区,其中,推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度可达 200 Tokens/秒。


本次开源的所有模型均采用宽松的 MIT 许可协议。这意味着可以免费用于商业用途、自由分发,为开发者提供了极大的使用和开发自由度。开源了 9B 和 32B 两种尺寸的模型,包括基座模型、推理模型和沉思模型,具体信息如下:



模型链接:

https://modelscope.cn/collections/GLM-4-0414-e4ecc89c179d4c


体验页面:

https://modelscope.cn/studios/ZhipuAI/GLM-Z1-9B-0414 



基座模型 GLM-4-32B-0414 拥有 320 亿参数,其性能可与国内、外参数量更大的主流模型相媲美。该模型利用 15T 高质量数据进行预训练,特别纳入了丰富的推理类合成数据,为后续的强化学习扩展奠定了基础。在后训练阶段,除了进行面向对话场景的人类偏好对齐,研究团队还通过拒绝采样和强化学习等技术,重点增强了模型在指令遵循、工程代码生成、函数调用等任务上的表现,以强化智能体任务所需的原子能力。


GLM-4-32B-0414 在工程代码、Artifacts 生成、函数调用、搜索问答及报告撰写等任务上均表现出色,部分 Benchmark 指标已接近甚至超越 GPT-4o、DeepSeek-V3-0324(671B)等更大模型的水平。


GLM-Z1-32B-0414 是一款具备深度思考能力的推理模型。该模型在 GLM-4-32B-0414 的基础上,采用了冷启动与扩展强化学习策略,并针对数学、代码、逻辑等关键任务进行了深度优化训练。与基础模型相比,GLM-Z1-32B-0414 的数理能力和复杂问题解决能力得到显著增强。此外,训练中整合了基于对战排序反馈的通用强化学习技术,有效提升了模型的通用能力。


在部分任务上,GLM-Z1-32B-0414 凭借 32B 参数,其性能已能与拥有 671B 参数的 DeepSeek-R1 相媲美。通过在 AIME 24/25、LiveCodeBench、GPQA 等基准测试中的评估,GLM-Z1-32B-0414 展现了较强的数理推理能力,能够支持解决更广泛复杂任务。



02

模型推理



Transformers

源码安装

    pip install git+https://github.com/huggingface/transformers.git

    模型推理

      from modelscope import AutoModelForCausalLM, AutoTokenizerMODEL_PATH = "ZhipuAI/GLM-4-Z1-Rumination-32B-0414"tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")message = [{"role""user""content""Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]inputs = tokenizer.apply_chat_template(    message,    return_tensors="pt",    add_generation_prompt=True,    return_dict=True,).to(model.device)generate_kwargs = {    "input_ids": inputs["input_ids"],    "attention_mask": inputs["attention_mask"],    "max_new_tokens": 128,    "do_sample": False,}out = model.generate(**generate_kwargs)print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

      显存占用:



      03

      模型微调



      ms-swift已经支持了GLM4-0414系列模型的微调。ms-swift是魔搭社区官方提供的大模型与多模态大模型训练部署框架。


      ms-swift开源地址:

      https://github.com/modelscope/ms-swift


      我们将展示可运行的微调demo,并给出自定义数据集的格式。

      在开始微调之前,请确保您的环境已准备妥当。

        # pip install git+https://github.com/modelscope/ms-swift.gitgit clone https://github.com/modelscope/ms-swift.gitcd ms-swiftpip install -e .

        以GLM-4-9B-Chat-0414模型为例,使用文本数据集进行训练
          CUDA_VISIBLE_DEVICES=0 \swift sft \    --model ZhipuAI/GLM-4-9B-Chat-0414 \    --train_type lora \    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#5000' \              'AI-ModelScope/alpaca-gpt4-data-en#5000' \    --torch_dtype bfloat16 \    --num_train_epochs 1 \    --per_device_train_batch_size 1 \    --per_device_eval_batch_size 1 \    --learning_rate 1e-4 \    --lora_rank 8 \    --lora_alpha 32 \    --target_modules all-linear \    --gradient_accumulation_steps 16 \    --eval_steps 50 \    --save_steps 50 \    --save_total_limit 5 \    --logging_steps 5 \    --max_length 2048 \    --output_dir output \    --warmup_ratio 0.05 \    --dataloader_num_workers 4

          训练显存占用:


          如果要使用自定义数据集进行训练,你可以参考以下格式,并指定`--dataset 

            <dataset_path>`。{"messages": [{"role""user""content""浙江的省会在哪?"}, {"role""assistant""content""浙江的省会在杭州。"}]}


            训练完成后,使用以下命令对训练后的权重进行推理,这里的`--adapters`需要替换成训练生成的last checkpoint文件夹。

              CUDA_VISIBLE_DEVICES=0 \swift infer \    --adapters output/vx-xxx/checkpoint-xxx \    --stream false \    --max_batch_size 1 \    --load_data_args true \    --max_new_tokens 2048

              推送模型到ModelScope:
                CUDA_VISIBLE_DEVICES=0 \swift export \    --adapters output/vx-xxx/checkpoint-xxx \    --push_to_hub true \    --hub_model_id '<your-model-id>' \    --hub_token '<your-sdk-token>'


                点击阅读原文,即可跳转体验~



                👇点击关注ModelScope公众号获取
                更多技术信息~



                阅读原文

                跳转微信打开

                Fish AI Reader

                Fish AI Reader

                AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

                FishAI

                FishAI

                鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

                联系邮箱 441953276@qq.com

                相关标签

                GLM模型 智谱AI 模型推理 模型微调
                相关文章