一文了解大模型应用基本概念

大型语言模型（LLM）的概念

简介

大语言模型（LLM，Large Language Model），也称大型语言模型，是一种旨在理解和生成人类语言的人工智能模型。

LLM 通常指包含数百亿（或更多）参数的语言模型，它们在海量的文本数据上进行训练，从而获得对语言深层次的理解。你可以把大语言模型想象成一个超级学霸，它读了互联网上无数的书、文章、对话，学会了人类语言的规律。当你问它问题或让它写东西时，它就能像人一样回答你，甚至写诗、编故事、解数学题。

模型命名

大模型（如DeepSeek-V3、通义千问2.5-VL-32B）的命名通常遵循一定的规则，以体现其架构、版本、参数规模或功能特性。以下是常见的命名规则及其示例分析：

1. 模型系列名称

DeepSeek

通义千问（Qwen）

2. 版本号

2.5

3. 模型架构或类型

Vision-Language（视觉-语言）

MoE

Mixture of Experts（专家混合）

4. 参数规模

32B

72B

671B

5. 其他特性

Instruct

开源/闭源

另外，如果在模型名称中看到 "Distill" ，通常表示该模型是通过 知识蒸馏技术 从大模型压缩而来，特点是 轻量化、高效、适合落地应用，例如Distil-Llama-3-8B → 表示从Llama 3蒸馏出的80亿参数轻量版。

常见名词解释

Token：

大模型的Token可以通俗理解为文本处理的“积木块”，它是模型理解和生成文本的最小单位。就像拼图需要拆分成小块才能组装一样，大模型也需要将输入的句子或段落拆解成Token来处理。

例如：“我喜欢篮球！”可能被拆成：["我", "喜欢", "篮球", "!"]四个Token来处理，所以并不是一个文字对应一个token，这种文本转化为Token（通常对应数字编码），更加有利于模型的计算和处理。

大模型API通常按Token数量收费（输入+输出的Token总和）。

参数

参数是什么：参数是神经网络中权重（Weights）和偏置（Biases）的统称，通过训练过程从数据中学习得到。这些参数决定了模型如何将输入数据映射到输出结果。

参数与训练数据的关系

例如：参数中可能隐含“猫是一种动物”“巴黎是法国首都”等知识。

蒸馏

在机器学习和深度学习中，模型蒸馏是一种将大型模型（满血版）压缩为小型模型（蒸馏版）的技术。

原理：

使用大型模型（教师模型）的输出作为监督信号，训练一个小型模型（学生模型）。学生模型通过学习教师模型的“知识”，达到接近教师模型的性能。

满血版 是 DeepSeek 的完整形态，性能强大但资源需求高，蒸馏版 是轻量级版本，适合资源有限的场景，但性能有所下降。

温度

大模型的“温度”（Temperature）是一个控制生成文本随机性的参数，可以理解为调节模型“脑洞大小”的旋钮。

Temperature 一般取值在 0~1 之间，当取值较低接近 0 时，预测的随机性会较低，产生更保守、可预测的文本，不太可能生成意想不到或不寻常的词。当取值较高接近 1 时，预测的随机性会较高，所有词被选择的可能性更大，会产生更有创意、多样化的文本，更有可能生成不寻常或意想不到的词。

什么是RAG技术

RAG（Retrieval-Augmented Generation，检索增强生成） 是一种结合了信息检索和文本生成的技术，主要用于提升大语言模型（LLM）在问答、对话和内容生成等任务中的准确性和可靠性。RAG 的核心思想是通过检索外部知识库或文档来增强生成模型的能力，从而生成更准确、更有依据的答案。

简单理解就是：给模型配个外挂， 比如一个学生考试不会做题，但是旁边有个超级图书馆，每次做题前都翻一下图书馆里面的书，答案马上就精准了，RAG就是这么回事。所以一般配合大模型来进行检索，一般有以下步骤：

准备知识库，把一堆文档（比如公司文档，历史文章等等）整理好，存在一个图书馆里。当问模型问题时，他先去图书馆搜索相关的资料，然后结合自己的知识融会贯通，最后进行回答。模型本身不会改变，只是多个查资料的步骤。

通过以上例子可以看出，RAG 技术的核心优势在于：

准确性

可解释性

动态更新

RAG 技术特别适合需要高准确性和可解释性的场景，如企业知识库、教育问答、医疗诊断等。

完整的RAG应用流程主要包含两个阶段：

数据准备阶段：数据提取->文本分割->向量化（embedding）->数据入库

应用阶段：用户提问->数据检索（召回）->注入Prompt->LLM生成答案

LangChain

LangChain 是一个开源框架，旨在简化基于语言模型的应用程序开发，提供模块化的组件（如模型调用、记忆管理、工具集成等），可以简单类比Java界的Spring框架来理解，Nodejs界的express等。

其中：

LainChain：提供底层的核心能力。LainGraph：提供流程编排能力。Integrations：提供扩展和集成能力。LangSmith：提供调试、监控、评测能力。LainGraph Platform：LangChain 的商业化大模型应用发布平台。

LangChain.js 是基于Langchain的 JavaScript/TypeScript 版本，支持在浏览器、Node.js 等环境中快速构建AI应用，除此之外还有Python版本。

LangChain.js 支持多种 LLM 提供商（如 OpenAI、Ollama 等），并提供了灵活的接口，使得开发者可以轻松集成不同的模型和服务，主要包括以下模块包：

langchain-core：提供基础抽象和核心运行时机制（聊天模型、向量存储、工具等）的抽象接口和组装方式。langchain：langchain的主包，包含了内置的通用的链（chains）、代理（agents）、检索策略（retrieval strategies），不包含第三方集成。langchain-community：由LangChain社区维护的第三方集成包，包括 OpenAI、Anthropic 等 LLM，以及向量存储（如 Pinecone）、工具（如 Tavily 搜索）等。

Function Calling

Function Calling 是一个允许大型语言模型（如 GPT）在生成文本的过程中调用外部函数或服务的功能。

Function Calling允许我们以 JSON 格式向 LLM 模型描述函数，并使用模型的固有推理能力来决定在生成响应之前是否调用该函数。模型本身不执行函数，而是生成包含函数名称和执行函数所需的参数的 JSON。

例如，定义一个查询天气的函数：

json复制{  "name": "get_weather",  "description": "获取某地天气",  "parameters": {    "location": {"type": "string"},    "date": {"type": "string"}  }}

用户通过自然语言提出需求（如“查询北京明天的天气”），请求被发送给大模型。模型分析用户意图，判断是否需要调用外部函数。若需要，则生成结构化调用指令（如函数名get_weather和参数{"location":"北京","date":"明天"}）。函数执行结果（如天气数据）返回给模型，模型结合上下文生成最终回答（如“北京明天晴，25℃”）。

MCP

Model Context Protocol (MCP) 是由 Anthropic 公司推出的一个开放协议，它标准化了应用程序如何向大型语言模型 (LLM) 提供上下文和工具的方式。我们可以将 MCP 理解为 AI 应用的"USB-C 接口"——就像 USB-C 为各种设备提供了标准化的连接方式，MCP 为 AI 模型提供了与不同数据源和工具连接的标准化方式。

通俗来说就是一个数据通信的应用协议，约定了应用和大模型之间如何传递数据进行无缝连接。

MCP和Function Calling的区别

Function Calling

MCP

向量和向量数据库

向量是数学和物理学中的基本概念，可以理解为具有大小和方向的量。核心是有序数组的元素，通常表示为一个列或行的形式。

核心特点：

几何意义：在二维或三维空间中，向量可以用箭头表示，箭头的长度代表大小（模长），方向代表方向。代数意义：在更抽象的数学中，向量是满足加法和标量乘法的元素，构成向量空间（Vector Space）。维度：向量的维度由其分量的数量决定，例如：

什么是词向量

词向量是自然语言处理（NLP）和机器学习中的一项核心技术，它将非结构化数据，如单词、句子或者整个文档映射为数值化的向量（通常为实数向量），使得计算机能够理解和处理语言中的语义和语法信息。嵌入（Embeddings）背后的主要想法是，通过向量的几何距离和线性关系，隐式表达词语的语义和语法信息。也就是相似或相关的对象在嵌入空间中的距离应该很近。

Embeddings Model

文本嵌入模型（Embedding Model）是AI领域的“语义翻译器”，其实就是把文本转换成向量的方式。因为计算机不能直接理解文本这种非数字的数据，它们只能处理数字。所以，我们需要把文本转换成低维的稠密向量，才能让计算机进行计算和分析。

词向量嵌入可以在一定程度上捕捉并表达文本中的语义信息，但忽略了单词在不同语境中的意思，在RAG应用中使用的向量技术一般为通用文本向量(Universal text embedding)，与词向量不同的是向量化的单位不再是单词而是输入的文本，输出的向量会捕捉更多的语义信息。

Embedding Model的优势

更适合检索：词向量中包含了原文本的语义信息，可以通过计算问题与数据库中数据的点积、余弦距离、欧几里得距离等指标，直接获取问题与数据在语义层面上的相似度；跨模态查询：词向量综合信息能力更强，当传统数据库存储文字、声音、图像、视频等多种媒介时，很难去将上述多种媒介构建起关联与跨模态的查询方法；但是词向量却可以通过多种向量模型将多种数据映射成统一的向量形式。

向量数据库

向量数据库（Vector Database）是一种专门用于存储、管理和查询高维向量数据的数据库系统。它的核心目标是高效处理相似性搜索（Similarity Search）任务，即快速找到与给定向量最相似的其他向量。与传统关系型数据库（如MySQL）不同，向量数据库专注于非结构化数据的向量化表示（如文本、图像、音频等）和近似最近邻（ANN）查询。

在向量数据库中，数据被表示为向量形式，每个向量代表一个数据项。这些向量可以是数字、文本、图像或其他类型的数据。向量数据库使用高效的索引和查询算法来加速向量数据的存储和检索过程。

如下图所示，是一个完整的智能Agent平台，配合上述的大预言模型LLM，RAG技术，向量数据库，解决用户问题的方案。

结语

大模型的核心是通过海量数据与复杂架构实现“统计智能”，其能力边界仍在不断拓展。随着算法创新，大模型将更深度赋能千行百业，成为智能时代的核心基础设施。