智源社区 2024年09月09日
《开源大模型食用指南》,一杯奶茶速通大模型!新增Examples最佳实践!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Datawhale开源项目Self-LLM Examples系列第一期发布,旨在通过实际案例,帮助学习者深入理解和掌握大模型应用开发核心技术,涵盖数据准备、模型训练等环节,并以《甄嬛传》剧本数据为例,示范如何训练一个能够模仿甄嬛说话风格的Chat-嬛嬛模型。

😊 **数据准备:** 从原始剧本数据中提取角色和对话,筛选出目标角色的对话,并将其转换成合适的格式,例如JSON格式。该步骤可以利用正则表达式或其他方法快速提取数据,也可以借助大模型从文本中提取角色对话,并进行格式转换。

😄 **模型训练:** 使用Self-LLM项目提供的Lora微调模块,将处理好的数据输入到模型训练脚本中,进行模型微调。例如,可以使用LLaMA3_1-8B-Instruct模型进行微调,并通过代码测试训练结果。

😉 **应用实践:** 训练完成后,可以使用微调后的模型进行对话测试,体验模仿角色说话风格的效果。该示例项目还鼓励学习者尝试使用其他模型进行微调,并进行进一步的应用开发。

🥰 **项目意义:** Self-LLM Examples系列旨在降低大模型应用门槛,帮助学习者快速上手,并通过实际案例促进技术学习和应用探索。该项目也体现了Datawhale团队对开源和自由的理念的坚持,以及对推动大模型技术发展和应用的积极态度。

🤩 **项目贡献者:** Self-LLM Examples系列项目由多位Datawhale成员共同完成,并获得了多个奖项,展现了团队合作和创新精神。

 Datawhale干货 

作者:宋志学Datawhale成员

01
「Example系列的前世今生」
   我们希望成为 LLM 与普罗大众的阶梯,以自由、平等的开源精神,拥抱更恢弘而辽阔的 LLM 世界。
Self-llm 开源项目是一个围绕开源大模型、针对国内初学者、适合中国宝宝的专属大模型教程,针对各类开源大模型提供包括环境配置、本地部署、高效微调等技能在内的全流程指导,简化开源大模型的部署、使用和应用流程,让更多的普通学生、研究者更好地使用开源大模型,帮助开源、自由的大模型更快融入到普通学习者的生活中。
为了进一步深化学习者对大模型应用的理解,self-llm项目特别增加了大模型最佳实践应用集合。应用将不断更新,以反映最新的技术进展和应用趋势。筹备已久 self-llm examples 系列第一期现已更新,这标志着我们self-llm项目的进一步拓展。
Examples 系列的目标是帮助学习者在完成基础知识学习后,通过精选的实际案例,深入理解和掌握大模型应用开发的核心技术。这些案例将涵盖不同的实际应用类型,引导学习者探讨和实践如何有效利用大模型解决实际问题。我们期望,通过这些精心设计的大模型应用项目示范(Demo),学习者能够在完成我们的示例后,不仅全面掌握大模型应用开发的技术要点,还能具备独立进行大模型应用的二次开发或自主开发的能力。项目以教程及blog形式展示。

项目地址↓ 欢迎 Star ⭐️

https://github.com/datawhalechina/self-llm/tree/master/examples


02
Examples系列第一期
Chat嬛嬛 是如何炼成的

Step 2: 数据准备

首先,我们需要准备《甄嬛传》剧本数据,这里我们使用了《甄嬛传》剧本数据,我们可以查看一下原始数据的格式。

第2幕(退朝,百官散去)官员甲:咱们皇上可真是器重年将军和隆科多大人。官员乙:隆科多大人,恭喜恭喜啊!您可是国家的大功臣啊!官员丙:年大将军,皇上对你可是垂青有加呀!官员丁:年大人,您可是皇上的股肱之臣哪!苏培盛(追上年羹尧):年大将军请留步。大将军——年羹尧:苏公公,有何指教?苏培盛:不敢。皇上惦记大将军您的臂伤,特让奴才将这秘制的金创药膏交给大人,叫您使用。年羹尧(遥向金銮殿拱手):臣年羹尧恭谢皇上圣恩!敢问苏公公,小妹今日在宫中可好啊?苏培盛:华妃娘娘凤仪万千、宠冠六宫啊,大将军您放心好了。年羹尧:那就有劳苏公公了。(转身离去)苏培盛:应该的。

每一句都有人物及对应的台词,所以就可以很简单的将这些数据处理成对话的形式,如下:

[
    {"rloe":"官员甲""content":"咱们皇上可真是器重年将军和隆科多大人。"},
    {"rloe":"官员乙""content":"隆科多大人,恭喜恭喜啊!您可是国家的大功臣啊!"},
    {"rloe":"官员丙""content":"年大将军,皇上对你可是垂青有加呀!"},
    {"rloe":"官员丁""content":"年大人,您可是皇上的股肱之臣哪!"},
    {"rloe":"苏培盛""content":"年大将军请留步。大将军——"},    ...]

然后再将我们关注的角色的对话提取出来,形成 QA 问答对。对于这样的数据,我们可以使用正则表达式或者其他方法进行快速的提取,并抽取出我们关注的角色的对话。
然后很多情况下,我们并没有这样优秀的台词格式数据。所以我们可能就需要从一大段文本中抽取角色的对话数据,然后将其转换成我们需要的格式。
比如《西游记白话文》,我们可以看到他的文本是这样的。对于这样的文本,那我们就需要借助大模型的能力,从文本中提取出角色和角色对应的对话。然后再筛选出我们需要的橘角色对话。
可以借助一个小工具:extract-dialogue 从文本中提取对话。

......原来孙悟空走了以后,有一个混世魔王独占了水帘洞,并且抢走了许多猴子猴孙。孙悟空听到这些以后,气得咬牙跺脚。他问清了混世魔王的住处,决定找混世魔王报仇,便驾着筋斗云,朝北方飞去。不一会儿,孙悟空就来到混世魔王的水脏洞前,对门前的小妖喊到∶“你家那个狗屁魔王,多次欺负我们猴子。我今天来,要和那魔王比比高低!”小妖跑进洞里,报告魔王。魔王急忙穿上铁甲,提着大刀,在小妖们的簇拥下走出洞门。孙悟空赤手空拳,夺过了混世魔王的大刀,把他劈成了两半。然后,拔下一把毫毛咬碎喷了出去,毫毛变成许多小猴子,直杀进洞里,把所有的妖精全杀死,然后救出被抢走的小猴子,放了一把火烧了水脏洞。

......

chat-甄嬛 的原始数据:
https://github.com/KMnO4-zx/huanhuan-chat/tree/master/dataset/input/huanhuan
西游记白话文原始数据:
https://github.com/KMnO4-zx/huanhuan-chat/blob/master/dataset/input/wukong/%E8%A5%BF%E6%B8%B8%E8%AE%B0%E7%99%BD%E8%AF%9D%E6%96%87.txt

最后再将其整理成 json 格式的数据,如下:

[    {

        "instruction""小姐,别的秀女都在求中选,唯有咱们小姐想被撂牌子,菩萨一定记得真真儿的——",


        "input""",
        "output""嘘——都说许愿说破是不灵的。"    },    {

        "instruction""这个温太医啊,也是古怪,谁不知太医不得皇命不能为皇族以外的人请脉诊病,他倒好,十天半月便往咱们府里跑。",


        "input""",
        "output""你们俩话太多了,我该和温太医要一剂药,好好治治你们。"    },    {

        "instruction""嬛妹妹,刚刚我去府上请脉,听甄伯母说你来这里进香了。",


        "input""",
        "output""出来走走,也是散心。"    }

]

Chat-嬛嬛 的数据:
https://github.com/datawhalechina/self-llm/blob/master/dataset/huanhuan.json

所以,在这一步处理数据的大致思路就是:

1. 从原始数据中提取出角色和对话  

2. 筛选出我们关注的角色的对话  

3. 将对话转换成我们需要的格式

这一步也可以增加数据增强的环节,比如利用两到三条数据作为 example 丢给LLM,让其生成风格类似的数据。再或者也可以找一部分日常对话的数据集,使用 RAG 生成一些固定角色风格的对话数据。这里大家可以完全放开的大胆去尝试!

Step 3: 模型训练

那这一步,大家可能再熟悉不过了。在self-llm的每一个模型中,都会有一个 Lora 微调模块,我们只需要将数据处理成我们需要的格式,然后再调用我们的训练脚本即可。
此处选择我们选择 LLaMA3_1-8B-Instruct 模型进行微调,首先还是要下载模型,创建一个model_download.py文件,输入以下内容:

import torch
from modelscope import snapshot_download, AutoModel, AutoTokenizer
import os

model_dir = snapshot_download('LLM-Research/Meta-Llama-3.1-8B-Instruct', cache_dir='/root/autodl-tmp', revision='master')

注意:记得修改 cache_dir 为你的模型下载路径哦~
其次,准备训练代码。对于熟悉 self-llm 的同学来说,这一步可能再简单不过了,在此处我会在当前目录下放置train.py,大家修改其中的数据集路径和模型路径即可。
当然也可以使用 self-llm 中的 lora 微调教程。

教程地址:
https://github.com/datawhalechina/self-llm/blob/master/models/LLaMA3/04-LLaMA3-8B-Instruct%20Lora%20%E5%BE%AE%E8%B0%83.md
在命令行运行以下指令:

python train.py

注意:记得修改 train.py 中的数据集路径和模型路径哦~
训练大概会需要 20 ~ 30 分钟的时间,训练完成之后会在output目录下生成lora模型。可以使用以下代码进行测试:

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
from peft import PeftModel

mode_path = './LLM-Research/Meta-Llama-3___1-8B-Instruct'


lora_path = './output/llama3_1_instruct_lora/checkpoint-699' # 这里改称你的 lora 输出对应 checkpoint 地址

# 加载tokenizer


tokenizer = AutoTokenizer.from_pretrained(mode_path, trust_remote_code=True)

# 加载模型


model = AutoModelForCausalLM.from_pretrained(mode_path, device_map="auto",torch_dtype=torch.bfloat16, trust_remote_code=True).eval()

# 加载lora权重

model = PeftModel.from_pretrained(model, model_id=lora_path)

prompt = "嬛嬛你怎么了,朕替你打抱不平!"

messages = [

        {"role""system""content""假设你是皇帝身边的女人--甄嬛。"},


        {"role""user""content": prompt}]

input_ids = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

# print(input_ids)

model_inputs = tokenizer([input_ids], return_tensors="pt").to('cuda')


generated_ids = model.generate(model_inputs.input_ids,max_new_tokens=512)generated_ids = [

    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)

]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]


print('皇上:', prompt)
print('嬛嬛:',response)

皇上: 嬛嬛你怎么了,朕替你打抱不平!嬛嬛: 皇上,臣妾不是故意的。

接下来,我们就可以使用这个嬛嬛模型进行对话了~
有兴趣的同学可以尝试使用
self-llm 中的其他模型进行微调,检验你的学习成果!
写在最后
Chat-嬛嬛是在去年LLM刚火起来的时候,我们觉得如果不做点什么的话,可能会错过很多有趣的事情。于是就和几个小伙伴一起,花了很多时间,做了这个项目。在这个项目中,我们学到了很多,也遇到了很多问题,但是我们都一一解决了。并且Chat-嬛嬛也获得了奖项,让项目得到了很多人的关注。所以,我觉得这个项目是非常有意义的,也是非常有趣的。
    2023 讯飞星火杯人认知大模型场景创新赛 Top50
    2024 书生·浦语大模型挑战赛(春季赛)创意应用奖 Top12

Chat-嬛嬛贡献者

    宋志学(Datawhale成员)
    邹雨衡(Datawhale成员)
    王熠明(Datawhale成员)
    邓宇文(Datawhale成员)
    杜   森(Datawhale成员)

    肖鸿儒(Datawhale成员)

-End-
欢迎更多有志于大模型应用开发的贡献者

来一起共建、共享 self-llm examples系列

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 开源 LLM Self-LLM Examples Chat-嬛嬛
相关文章