LLaMA系列文章:
在大语言模型的竞赛中,闭源巨头们一路狂奔:GPT-4 展示出惊人的通用智能,Claude 与 Gemini 也在对话场景中崭露头角。然而,另一个维度的革命却悄然发生 ——开源模型正以惊人的速度崛起。在继承了初代 LLaMA 强大性能与开源精神的基础上,Meta 于 2023 年推出了 LLaMA 2,这不仅是一次模型能力的升级,更是一场关于 可控、安全、可用的开源 AI 的深刻变革。
LLaMA 2 不仅训练数据翻倍、性能全面提升,还首次开放了对齐过的 Chat 模型,且支持商业用途。本文将带你走近这艘开源旗舰,看看它是如何在对话质量、推理能力、安全机制上与 GPT-3.5 乃至 GPT-4 分庭抗礼的。
所有相关源码示例、流程图、模型配置与知识库构建技巧,我也将持续更新在Github:LLMHub,欢迎关注收藏!
大家可以带着这三个问题阅读本文:
- LLaMA 2 相比初代 LLaMA 有哪些核心提升?LLaMA 2 Chat 是如何进行对齐训练的?LLaMA 2 相较于 GPT-3.5、Claude 等对话模型表现如何?
一、LLaMA 2:开源更进一步
LLaMA 2 是 Meta 于 2023 年发布的新一代大语言模型,分为两个子系列:
- 基础模型(base models):LLaMA 2-7B / 13B / 70B
- 对话模型(chat models):LLaMA 2-Chat-7B / 13B / 70B
最重要的是:LLaMA 2 全面开源可商用,标志着开源大模型步入实用阶段。
二、LLaMA 2 的技术演进亮点
相比初代 LLaMA,LLaMA 2 在数据规模、训练方法和对齐机制上都有系统升级:
2.1 更强的训练数据
- 训练数据从 LLaMA 的 1T token 提升至 2T token增加了更高质量的网页、代码、数学数据去除了重复内容与低质量段落,更干净的数据源保证了泛化能力
2.2 模型结构优化
- 上下文长度扩大至 4K token依旧采用 RoPE 编码 + SwiGLU + PreNorm + RMSNorm 架构加入了 分组查询注意力(GQA),提升推理效率在 6144 个 A100 GPU 上,使用混合精度训练 + DeepSpeed ZeRO Stage 3
三、LLaMA 2-Chat 的对齐方法
基础模型强大只是第一步,要实现安全、连贯、有用的对话体验,还需要对齐(alignment)。
在大语言模型中,“对齐(Alignment)”指的是让模型的行为更符合人类的意图和价值观。
虽然基础语言模型在预训练后已经具备强大的语言理解和生成能力,但它们往往不够安全、不够稳重、不知道什么时候该拒答或收敛话题,容易生成不准确、有害或不负责任的内容。\ 这时就需要通过一系列人工干预手段对它们进行“对齐”,让它们更加“听得懂人话”、“说得像人话”。
LLaMA 2-Chat 使用以下三阶段对齐流程:
1. SFT(监督微调)
- 人类标注者基于 prompt 和回答进行示范(instruction tuning)
2. RLHF(强化学习人类反馈)
- 使用奖励模型对回答排序,并通过 PPO 算法优化生成策略
此外,LLaMA 2-Chat 还采用了 拒答机制,防止不当回答,如回答非法、毒性、虚假问题。
四、安全性与责任机制
- 构建了系统化的 红队测试(red-teaming) 框架
- 设计多层面拒答策略,保障回答合规
- 提供了详细的 Use & Misuse 指导文档
LLaMA 2 的这些机制,也标志着开源大模型在走向“可控 AI”的关键一步。
最后,我们回答开头提出的三个问题:
1. LLaMA 2 相比初代 LLaMA 有哪些核心提升?
LLaMA 2 在多个关键维度全面升级:
- 训练数据量翻倍,从 1T 提升至 2T token,数据质量更高、更多样;模型结构增强,引入 分组查询注意力(GQA)、支持更长上下文(4K token);训练更稳定,使用更大的 batch size、更长训练时间,使模型泛化能力更强。
这些提升使得 LLaMA 2 的性能远超初代,在多个任务上达到或超过闭源模型。
2. LLaMA 2 Chat 是如何进行对齐训练的?
LLaMA 2 Chat 采用了三阶段对齐流程:
- 监督微调(SFT):通过人类提供的优质问答数据进行训练;强化学习人类反馈(RLHF):使用奖励模型优化生成策略。
此外,模型还内置 拒答机制 和 安全筛查流程,有效减少了有害、虚假回答的风险。
3. LLaMA 2 相较于 GPT-3.5、Claude 等对话模型表现如何?
在多项评估任务中,LLaMA 2-Chat(尤其是 70B 版本)在 代码生成(HumanEval)、推理任务(MMLU、GSM8k)、多轮对话质量(MT-Bench) 上与 GPT-3.5 表现相当,部分任务甚至超过。
虽然仍未达到 GPT-4 的水平,但在开源模型中,LLaMA 2 Chat 是最接近闭源 SOTA 的存在,并且具有开放、商用、安全的优势。
关于深度学习和大模型相关的知识和前沿技术更新,请关注公众号算法coting!