一文学会 Qwen2-0.5B+Lora+alpaca_zh 微调实战，附完整可运行源代码

预训练大模型在训练过程中，虽然学到了很多通用知识，但是很多时候，大模型本身并不能在专业领域表现得非常好。

比如你让 Qwen 模型回答“量子力学中的叠加态是什么”，它可能会给出一个笼统的解释，但要是让模型严格按照某一格式（比如论文格式）回答时，可能就不太行。

除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式，但这并不改变模型的本质。

一旦你切换了与模型聊天的上下文，模型又会恢复到它原来的样子。

因此，对这种需要改变模型回答模式的需求，我们一般对预训练模型进行微调。

这是因为微调“真正的”会改变模型的参数。

大模型微调的方法有很多，比如“全参数微调”、Lora及各种Lora的变种、P-Tuning 等等。但大部分情况下我们都会使用 LoRA 的技术方法对模型进行微调。

这是因为 Lora 只会改变模型原有参数的“一部分”，并且改变的是比较对模型表现比较重要的部分，并且取得非常不错的结果。

如下图，微调只会修改全部参数中的部分参数。

这样做的好处之一，就是节省资源。

和全参数微调(事实上类似于从中间某个检查点（checkpoint) 进行训练）那种模型的所有参数都要更新不同的是，LoRA 只会更新模型中一小部分参数（比如原本0.5亿参数的模型，Lora 微调时可能只需要更新几千个）。

这样就会是的微调过程中对显存的依赖非常低，即使是普通开发者也能玩一玩 Lora 微调。

这篇文章，我假定你对 Lora 微调的技术背景有了一定的认识，如果你还不懂 Lora 的技术细节，欢迎关注📌AI 学习路线图：从小白到大神的爬天梯之路中的“微调小课”，另外在这个路线图中，还有完整的 Transformer 架构的原理解析和《4、从零手写大模型（炸裂实战）》，都会帮助你更好的学习和理解微调技术。

这篇文章我将带你从头开始，以代码实战的方式，使用 Qwen2-0.5B 模型和中文指令数据集 alpaca_zh，手把手教你如何微调模型。

希望阅读完本文后，你可以了解微调的原理，并且真正能自己动手完成实战！（PS：本文代码实操时最好有一块可用的GPU卡，不然如果用CPU的话，要等多久可能只有天知道了。）

下面我将边讲解相关知识，边展示关键代码并对其进行解释。

第一步：准备环境，加载模型

首先，我们需要加载Qwen2-0.5B模型，并准备好后续要用的工具。代码如下：

from transformers import AutoModelForCausalLM, AutoTokenizer  from peft import LoraConfig, get_peft_model  device = "cuda" if torch.cuda.is_available() else "cpu"  model_name = "/mnt/workspace/.cache/modelscope/models/Qwen/Qwen2-0.5B" model = AutoModelForCausalLM.from_pretrained(model_name)  tokenizer = AutoTokenizer.from_pretrained(model_name)

这段代码的作用是加载模型和分词器。

AutoModelForCausalLM 是 Hugging Face transformers 库提供的函数，专门用于加载因果语言模型（即逐词生成文本的模型）。

AutoTokenizer 负责将文本转换成模型能理解的 token id。

这里我们选择本地路径加载模型，是因为直接从互联网下载模型可能遇到网络问题，本地加载更快也更稳定。

device 变量会检测你的计算机是否有GPU，有就用GPU加速，没有就用CPU。

为什么选择Qwen2-0.5B？

因为它参数量只有0.5亿，比其他规模参数的Qwen大模型小很多，适合资源有限的场景。如果你有GPU且GPU很给力（内存足够），你也可以选择其他规模的模型来进行微调，还有一个原因是 Qwen 是阿里推出的大模型，对中文语句的理解会更精准。

第二步：加载数据集，格式化数据

接下来，我们准备微调需要的数据集，这里用的是 alpaca_zh 数据集。

这个数据集是一个中文版本的指令微调数据集，通常用于训练或微调大语言模型（LLMs），使其能够更好地理解和执行中文指令。这个数据集是基于英文的 Alpaca 数据集翻译和改编而来的。它包含了很多“指令→输入→输出”的三元组问答对，比如：

指令：解释量子力学中的叠加态输入：无输出：叠加态是指量子系统同时处于多个状态的组合，直到被观测时才会坍缩到一个确定状态……

加载并格式化数据集的代码如下：

from modelscope.msdatasets import MsDataset  dataset = MsDataset.load("llamafactory/alpaca_zh", subset_name="default").to_hf_dataset()  dataset = dataset.map(      lambda example: {          "text": f"Instruction: {example['instruction']}"          + (f"\nInput: {example['input']}" if example['input'] else "")          + f"\nOutput: {example['output']}"      }  )

这段代码做了两件事：

MsDataset.load()

map()

为什么选择alpaca_zh数据集？

因为它专门用于“指令对齐”，教模型按照用户给定的格式回答问题。

比如，用户希望模型严格按照“Output: ...”的格式输出答案，而不是随意发挥。此外，这个数据集是中文社区优化的，更适合国内用户的提问习惯。

第三步：数据处理和分词

分词是把文本转换为 token ID 的过程。比如把“量子力学”变成 [2345, 6789, ...]。

代码如下：

len_data = int(0.01 * len(dataset))  train_size = int(0.8 * len_data)  train_dataset = dataset.select(range(train_size))  eval_dataset = dataset.select(range(train_size, len_data))  train_dataset = train_dataset.map(      lambda examples: tokenizer(          examples["text"], truncation=True, padding="max_length", max_length=512      ),      batched=True, remove_columns=["text"]  )

这段代码分为两个部分：

数据分割：将数据集分成训练集（80%）和验证集（20%）。这里只用了原始数据 1% 的数据，是为了快速验证代码逻辑。实际使用时建议用全部数据，但需要确保显存足够。分词与填充：

tokenizer()

truncation=True

padding="max_length"

remove_columns=["text"]

为什么只用1%的数据？因为完整数据集可能有成千上万条，微调需要时间。

这里用小数据先跑通流程，再用全量数据进行训练效果会更好。此外，如果显存较小（比如8GB GPU），小数据集也能避免爆显存。

第四步：配置LoRA，开始微调

现在，我们开始配置 LoRA 参数并开始训练！

from peft import LoraConfig  peft_config = LoraConfig(      r=8,              lora_alpha=16,      target_modules=["q_proj", "v_proj"],      lora_dropout=0.05,      bias="none",      task_type="CAUSAL_LM"  )  model = get_peft_model(model, peft_config)

这段代码配置了 LoRA 的关键参数：

r=8

target_modules=["q_proj", "v_proj"]

这里没有微调 K 矩阵，也是根据大部分人的经验得来的。很多实验表明，K矩阵对于模型最终输出的效果影响不大，因此可以不对其进行微调。当然，你也可以在上述代码中添加 k_proj 来启动 K 矩阵的微调。

task_type="CAUSAL_LM"

get_peft_model()

第五步：训练与保存模型

from transformers import Trainer, TrainingArguments  training_args = TrainingArguments(      output_dir="./output",      num_train_epochs=1,      per_device_train_batch_size=4,      evaluation_strategy="epoch",      save_strategy="epoch",      load_best_model_at_end=True  )  trainer = Trainer(      model=model,      args=training_args,      train_dataset=train_dataset,      eval_dataset=eval_dataset  )  trainer.train()  trainer.save_model("./final_model")

这段代码展示了完整的模型训练过程的参数配置和流程：

num_train_epochs=1

per_device_train_batch_size=4

evaluation_strategy="epoch"

load_best_model_at_end=True

通过Trainer.train()启动模型的训练。

启动训练后，模型会开始根据微调数据集中的回答样式，学习如何生成正确的输出。最后通过save_model()保存微调后的 LoRA 参数。

注意此时保存的仅仅是 LoRa 参数，而不是整个微调后的模型，用来节省存储空间，你可以认为这个 Lora 参数是一个微调后的“补丁”。

第六步：测试模型效果

from peft import PeftModel  base_model = AutoModelForCausalLM.from_pretrained(model_name)  new_model = PeftModel.from_pretrained(base_model, "./final_model")  new_model.to(device)  prompt = "可再生能源的存在对环境有什么影响？"  text = f"Instruction: {prompt}\nOutput: "  inputs = tokenizer([text], return_tensors="pt").to(device)  output = new_model.generate(inputs.input_ids, max_new_tokens=200)  answer = tokenizer.batch_decode(output, skip_special_tokens=True)[0]  print(f"问题：{prompt}\n回答：{answer}")

这段代码演示了如何加载微调后的模型并生成回答：

PeftModel.from_pretrained()

generate()

max_new_tokens=200

使用“原始模型+微调补丁”产生的新模型进行对话，你会发现模型的回答方式就和微调数据集中的非常相似了，此时就说说明你已经通过微调的方式，调整了模型的回答样式。

常见问题解答

Q：显存不够怎么办？

TrainingArguments

gradient_accumulation_steps=2

Q：训练时模型输出全是乱码？

r

target_modules

通过这篇文章，你已经完成了模型微调的全流程。

获取本文完整的代码的方式，关注公众号：mp.weixin.qq.com/s/rAIsaTH5L… 后，在后台回复 “微调千问1”，即可获得完整的源代码。

第一步：准备环境，加载模型

第二步：加载数据集，格式化数据

第三步：数据处理和分词

第四步：配置LoRA，开始微调

第五步：训练与保存模型

第六步：测试模型效果

常见问题解答

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签