1. 什么是大语言模型?
大语言模型(Large Language Model,LLM)是基于海量文本数据训练的深度学习模型,核心目标是理解和生成类人文本。其底层依赖 Transformer 架构,通过自注意力机制捕捉文本中长距离的上下文关系,能完成问答、创作、推理等复杂语言任务。
- 典型例子:GPT 系列(GPT-4)、LLaMA、文心一言、讯飞星火等。核心特点:无需针对特定任务修改参数,仅通过输入指令即可适配多种场景,具备强大的泛化能力。
2. 提示词(Prompt)
提示词是用户输入给大语言模型的文本指令、问题或上下文信息,是引导模型生成特定输出的 “桥梁”。它是人机交互的核心媒介,其设计质量直接决定模型响应的准确性和相关性。
- 本质:通过自然语言描述 “任务目标”,让模型理解 “要做什么” 和 “怎么做”。示例:“用 300 字总结《红楼梦》第三回的核心情节”“解释‘区块链’时举 3 个生活中的例子”。
3. 什么是提示工程?
提示工程是研究如何设计、优化提示词,以高效引导大语言模型完成任务的技术与方法。它无需修改模型参数,仅通过优化输入即可提升模型性能,是低成本提升 LLM 效果的核心策略。
- 核心逻辑:将人类需求转化为模型可理解的 “精准指令”,类似给 AI 编写 “使用说明书”。示例:若想让模型写一篇适合小学生的科学短文,与其说 “写一篇关于宇宙的文章”,不如说 “用小学生能懂的语言(比如把地球比作苹果、太阳比作篮球),写一篇 200 字的宇宙科普短文,重点讲地球和太阳的关系”。
4. 提示词的应用场景?
提示词可用于驱动大语言模型完成多种任务,具体包括:
- 文本概括:将长文本浓缩为简洁摘要(如把 1000 字报告缩成 300 字要点)。信息提取:从文本中提取特定信息(如从新闻中提取 “事件时间、地点、参与人物”)。问答:解答特定问题(如 “什么是光合作用?”)。文本分类:给文本贴标签(如把邮件分为 “工作”“垃圾”“私人” 三类)。对话:模拟多轮交互(如角色扮演 “客服与用户沟通退货流程”)。代码生成:根据需求生成代码(如 “用 Python 写一个计算斐波那契数列的函数”)。推理:完成逻辑或数学推导(如 “小明今年 5 岁,妈妈比他大 25 岁,10 年后妈妈多少岁?”)。
提示工程简介
大语言模型设置(参数调控)
通过调整模型参数,可控制生成结果的风格、长度和可靠性:
控制维度 | 参数 | 含义与作用 |
---|---|---|
控制随机性 | temperature | 取值范围 0-1,值越小(如 0.1),结果越确定(重复度高);值越大(如 0.9),结果越多样(可能偏离主题)。 |
top_p | 与 temperature 类似,基于累积概率筛选 token(如 top_p=0.5 表示从累积概率前 50% 的 token 中选择),值越小结果越集中。 | |
top_k | 生成下一个 token 时,仅从概率最高的前 k 个 token 中选择(如 k=10 表示只看前 10 个最可能的词),k 越小结果越局限。 | |
控制生成长度 | max length | 限制生成的最大 token 数(1token≈0.75 个汉字),避免输出过长。 |
stop sequences | 设定终止符(如 “###”“ END”),当模型生成该符号时停止输出(如用 “11.” 作为终止符,可限制列表不超过 10 项)。 | |
控制 token 重复性 | frequency penalty | 对高频出现的 token 进行惩罚(出现次数越多,惩罚越重),减少 “反复说同一句话” 的问题。 |
presence penalty | 只要 token 出现过就进行惩罚(与出现次数无关),鼓励使用新词汇(如避免反复用 “然后”“但是”)。 | |
两者区别 | frequency penalty 按出现次数差异化惩罚;presence penalty 对所有出现过的 token 惩罚相同。 |
什么是 “幻觉”?
“幻觉” 指模型生成看似合理但与事实不符的内容(如编造不存在的历史事件、错误公式)。
产生原因:
- 高 temperature 值会增加随机性,可能导致错误累积;模型通过 “自回归” 逐词生成,每一步依赖前序内容,局部错误可能扩散;训练数据中存在噪声或知识盲区。
缓解方法:
- 降低 temperature 值(如设为 0.2),减少随机错误;采用检索增强生成(RAG),结合外部知识库验证信息(如回答医学问题时调用权威医学文献);添加限制指令(如 “仅基于提供的资料回答,不确定的内容注明‘无法确认’”);要求模型先验证再输出(如 “先检查每个数据是否准确,再整理成答案”)。
对抗提示
指通过设计特殊提示词诱导模型生成有害、违规内容(如绕过安全限制生成虚假信息、暴力描述)。研究对抗提示的目的是提升模型的鲁棒性(如通过防御机制过滤恶意指令)。
提示词的基本格式与要素
标准提示词格式
核心是清晰传递 “任务需求”,常见格式包括:
- 问答式:
Q: <问题>? A:
(如 “Q: 李白是哪个朝代的诗人?A:”)指令式:[指令]
(如 “总结以下文本:[文本内容]”)分隔式:用 “###”“---” 等符号分隔指令与上下文(如 “### 指令:翻译下文 ### 上下文:Hello world”)提示词核心要素
一个完整的提示词通常包含以下要素(至少需包含 “指令” 或 “问题”):
- 指令:明确任务(如 “翻译”“总结”“分析”);上下文:提供背景信息(如 “基于 2023 年中国 GDP 数据”);输入数据:模型需要处理的原始内容(如待翻译的英文句子、待分析的报告全文);输出指示:指定输出格式(如 “用表格呈现”“分 3 点回答”);示例:提供少量正确案例(如 “示例:输入‘1+1’,输出‘2’;现在输入‘2+3’,输出:”),帮助模型理解格式。
设计提示词的通用技巧
- 指令前置:将核心指令放在提示词开头(如 “请先总结再分析:[文本]”),避免模型忽略重点。使用分隔符:用 “###”“【】” 等符号分隔不同要素(如 “【指令】:提取人名 【文本】:张三和李四去了北京”),增强清晰度。具体化描述:任务越详细,结果越精准。例如不说 “写一篇作文”,而说 “以‘环保’为主题,写一篇 500 字的记叙文,主角是初中生小明,情节包含‘发现垃圾’‘组织清理’‘呼吁环保’”。避免模糊表述:不说 “写得好一点”,而说 “语言生动,用 3 个比喻句,结尾有升华”。正面表述:不说 “不要写太长”,而说 “控制在 300 字以内”;不说 “别用复杂词汇”,而说 “用小学五年级学生能懂的词”。角色设定:让模型 “扮演” 特定身份(如 “请以高中物理老师的身份解释相对论”),输出更贴合场景。
常用提示技术
技术类型 | 定义与特点 | 适用场景 | 示例 |
---|---|---|---|
零样本提示 | 不提供示例,直接给指令让模型完成任务。 | 简单、模型熟悉的任务 | “将‘我爱中国’翻译成英语。” |
少样本提示 | 提供 3-5 个示例(“演示”),引导模型模仿格式完成任务。 | 需明确格式或逻辑的任务 | “示例 1:输入‘苹果’→输出‘水果’;示例 2:输入‘胡萝卜’→输出‘蔬菜’;输入‘牛肉’→输出:” |
微调 | 通过特定数据集继续训练模型参数,使其深度适配任务(需修改模型)。 | 长期、高频的专业任务(如法律文书生成) | 用 10 万份医疗病例微调模型,使其擅长写病历总结。 |
三者区别 | 零样本无数据需求,少样本需少量示例,微调需大量标注数据;前两者不改模型,微调改参数。 | - | - |
链式思考(Chain-of-Thought, CoT)
要求模型显式输出中间推理步骤(类似 “解题过程”),而非直接给答案,可提升复杂任务的准确性和可解释性。
- 示例:问题 “小红有 5 颗糖,妈妈又给了她 3 颗,分给弟弟 2 颗,还剩几颗?”
CoT 提示:“请一步步计算。”
模型响应:“1. 小红初始有 5 颗;2. 妈妈给了 3 颗后有 5+3=8 颗;3. 分给弟弟 2 颗后剩 8-2=6 颗;答案是 6。”
贪婪解码问题与解决方案
贪婪解码:模型每一步只选概率最高的词,可能陷入局部最优(如 “算错一步导致最终答案错误”)。
解决方案:
- 自我一致性(Self-Consistency) :生成多个推理路径,通过 “投票” 选最优结果(如让模型生成 3 种解法,多数答案为 6 则选 6);束搜索(Beam Search) :保留多个候选路径(如同时跟踪前 2 个最可能的推理方向),最终选全局最优;外部验证工具:结合计算器、知识图谱等验证中间步骤(如用计算器核对 “5+3=8” 是否正确);分阶段审核:要求模型分阶段输出,人工或自动审核每一步后再继续。
思维树(Tree-of-Thought, TOT)
对 CoT 的升级,将推理路径扩展为 “树状”,允许模型回溯修正错误(类似人类 “试错 - 调整” 的思路)。
- 原理:将问题拆分为子任务,每个子任务尝试多种思路,通过评估筛选最优路径(如某分支出错则退回上一步换思路)。优点:更接近人类推理,适合复杂问题(如规划、创意生成);缺点:计算成本高(需处理多路径)。示例提示:“假设有 3 位专家解决这个问题,每位专家写下第一步思路,发现错误就淘汰该专家,直到得出正确答案。问题:[具体问题]”
检索增强生成(RAG)
将 “信息检索” 与 “文本生成” 结合:先从外部知识库(如文档库、数据库)中检索相关信息,再让模型基于检索结果生成答案,可显著减少 “幻觉”。
- 流程:用户提问→检索相关资料→将资料与问题结合作为提示→模型生成答案。示例:回答 “2024 年诺贝尔文学奖得主是谁?” 时,RAG 会先检索 2024 年诺奖官网信息,再整理成答案。
自动推理并使用工具(Auto Reasoning & Tool-use, ART)
模型可自动分解任务、调用工具(如计算器、搜索引擎、API),并整合结果输出。
- 示例:问题 “2023 年全球碳排放总量是多少?”
ART 流程:“需要最新数据→调用搜索引擎→获取‘360 亿吨’→整理成‘2023 年全球碳排放约 360 亿吨’”。
自动提示优化技术
- 自动提示工程师(APE) :通过算法自动生成、评估提示词(如让模型生成 10 个候选提示,用验证集选最优),减少人工成本。Active-Prompt:优先标注 “模型最不确定” 的问题,用少量人工标注迭代优化提示(适用于数据稀缺场景)。Auto-Cot:自动聚类问题(如将数学题分为加减、乘除类),生成典型示例引导推理,减少人工写示例的工作量。
原始 prompting、CoT、CoT-SC、TOT 对比
技术 | 推理路径 | 适用场景 | 优点 | 缺点 |
---|---|---|---|---|
原始 prompting | 无显式步骤 | 简单任务(翻译、摘要) | 操作简单 | 复杂任务易出错,不可解释 |
CoT | 线性推理步骤 | 中等逻辑任务(简单数学) | 提升准确性,可解释 | 单一路径可能错到底 |
CoT-SC(自一致性) | 多线性路径投票 | 高确定性任务(逻辑推理) | 降低错误率 | 计算成本增加 |
TOT | 树状路径 + 回溯 | 复杂任务(规划、创意) | 接近人类推理,可修正错误 | 成本高,实现复杂 |
通过以上内容,可系统掌握大语言模型、提示词及提示工程的核心概念、技术与应用,提升人机交互效率。