掘金 人工智能 前天 15:13
Embedding(嵌入)是什么?从文本到Embedding的流程是怎样的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Embedding(嵌入)技术是将文本等数据转化为具有语义信息的浮点数向量,向量间的数学距离能反映文本间的语义相关性。其生成方式主要有两种:一是大模型推理中的Token级Embedding,通过分词、编号映射和Embedding矩阵提取;二是独立使用的句子/文档级Embedding,利用专门模型生成包含丰富上下文的向量。Embedding的本质在于模型能从海量数据中自动学习到文本语义的数字表示,例如“猫”与“狗”的向量距离近。该技术广泛应用于检索增强生成(RAG)、相似性判断、文本聚类与分析等场景,是AI大模型理解和处理信息的基础。

✨ **Embedding的核心是将文本转化为语义向量:** Embedding(嵌入)是将文本(或其他模态数据)转换成能够表达其语义信息的浮点数向量。这些向量之间的数学距离,如余弦相似度或欧氏距离,能够直观地反映出对应文本内容之间的语义关联程度。例如,语义相近的词语如“猫”和“狗”,其对应的向量在空间中会比较接近,而语义无关的词语如“房子”和“你好”,其向量距离则会很远。

🚀 **Embedding的生成流程:** Embedding的生成主要有两种方式。一种是在大模型推理过程中,将输入文本先进行分词(tokenization),然后将每个token映射为数字ID,再通过查询Embedding矩阵获得对应的Token级向量。另一种是独立使用,通过专门训练的Embedding模型(如Sentence-BERT)处理整个句子或文档,生成包含更丰富上下文信息的句子/文档级向量,这种方式更适合RAG等需要全局语义理解的场景。

💡 **Embedding的本质是语义的数字可表示:** Embedding的强大之处在于,模型能够从海量的文本数据中自动学习到文本的深层语义,并将其“压缩”到数字向量中。这种学习过程并非人为设定,而是模型在训练过程中发现的规律。模型甚至能够学习到类似“king - man + woman ≈ queen”这样的语义数学关系,证明了向量空间能够捕捉到复杂的人类语言逻辑。

📈 **Embedding的应用场景广泛:** Embedding技术在人工智能领域有着广泛的应用。最典型的包括检索增强生成(RAG),通过将知识库内容向量化存储,在用户提问时检索最相关的片段来丰富模型的上下文,提高回答的准确性。此外,它还广泛用于相似性判断(如检测重复内容)、文本聚类与分析(如发现文章主题分布)等任务,是连接自然语言理解与下游应用的关键桥梁。

❓ **Embedding与Token的区别:** 需要明确的是,Token和Embedding是两个不同的概念。Token是文本经过分词后得到的最小语言单位,通常表示为一个离散的数字ID。而Embedding则是承载了Token(或句子/文档)语义信息的连续浮点数向量。Token是输入文本的初步表示,而Embedding则是对文本语义的深度编码。

1、什么是Embedding?

Embedding(嵌入)是指把文本(也可能包括图像、视频等其他模态数据)转成能表达语义信息的浮点数向量,向量之间的数学距离可以反映对应文本之间的语义相关性。

2、从文本到Embedding的流程

Embedding的生成方式,主要分两种情况:

1)大模型推理中的Embedding(Token级)

文本先通过分词器拆分成最小语言单位token,例如:"unbelievable"→["un","believ","able"]

接着查询词表,将每个token被映射成一个数字编号,比如:"un"→1087。

根据编号查询Embedding矩阵,快速取出对应的浮点数向量,例如:"un"→[0.24,-0.31,0.88,…, 0.05]。

生成Token级的Embedding,是大模型理解输入文本的第一步。

2)独立使用的Embedding(句子/文档级)

如果需要表示一整句或一段文本(比如在RAG中检索),就不能只查表了。

常见做法是:将文本输入到一个专门训练好的Embedding模型(如 Sentence-BERT、M3E),通过推理生成一个完整的句子或文档级向量。

这种Embedding包含了更丰富的上下文信息,适合检索、相似性判断等场景。

3、Embedding的本质:语义可被数字表示

在模型训练中,发现文本的语义可以被“压缩”成一组数字向量,且向量之间的距离和方向,能自然反映文本间的语义关系。

比如

“猫”和“狗”对应向量的数学距离很近,代表它们语义接近(都是动物)

“房子”和“你好”对应向量的数学距离很远,表示它们语义无关

模型甚至可以学到:king-man+woman≈queen 这样的语义数学关系

这些规律并非人为设定,而是模型通过海量数据自动学习到的。

4、Embedding的应用场景

Embedding不仅用于大模型推理时将输入文本编码为语义向量,也广泛应用于实际场景,例如:

检索增强生成(RAG) :将文档或知识内容转化为向量存储,推理时通过向量检索相关片段,扩展模型上下文,提升回答准确性。

相似性判断:比较文本向量的距离或角度,判断语义一致性或检测重复内容。

文本聚类与分析:将文本编码为向量后进行聚类,挖掘内容结构和主题分布,如K-means聚类。

5、常见问题答疑

Q:Token 和 Embedding 是一回事吗?

A:不是。Token是编号(离散的ID),Embedding是承载语义的连续向量,二者功能完全不同。

Q:Embedding 是模型训练出来的吗?

A:是的。Embedding 向量是模型通过海量语料学习到的语义表示,而不是手动设定或硬编码的。

Q:Embedding 向量长度固定吗?为什么?

A:在同一个模型中,所有Embedding向量的长度是固定的(例如:512维、768维),这样可以统一模型内部的计算结构,方便批量处理和矩阵运算。不同模型之间的向量长度则可能不同。

AI大模型系统化学习入口

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Embedding 自然语言处理 AI 向量数据库 深度学习
相关文章