揭秘大语言模型：从文字到数字，token 是如何变成向量的？

掘金人工智能 10小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本文深入浅出地介绍了大语言模型（如ChatGPT）理解文字的核心过程。首先，模型将输入的文本分解为最小单元“token”，这些token可以是单词、子词或字符。接着，每个token被赋予一个唯一的数字ID，以便模型识别。最关键的一步是将ID转化为高维度的向量，这些向量代表了token在数字空间中的“坐标”。经过海量文本训练，向量会逐渐学习到词语间的语义关系，使得语义相近的词语在向量空间中的距离也相近。这一系列转化使得文本能够被模型进行数学计算和理解，从而实现复杂的语言处理任务。

📝 **Tokenization：文字的“零件化”处理** 大语言模型处理文本的第一步是将句子拆解成更小的单元，称为“token”。token可以是完整的单词（如“apple”）、单词的一部分（如“unhappy”拆分为“un”和“happy”），甚至是单个字符（如“cat”拆分为“c”、“a”、“t”）。这种分解使得模型能够更精细地处理和理解语言的结构。

🔢 **ID编码：为“零件”赋予唯一标识** 拆分后的token需要被转换为模型能够识别的数字形式。这一步是通过为每个token分配一个独一无二的数字ID来完成的。例如，“我”可能被映射到ID 1，“爱”被映射到ID 2。这相当于给每一个语言的“小零件”都打上了唯一的编号。

📐 **向量嵌入：从ID到语义空间的“坐标”** 将数字ID转化为高维度的向量是模型理解语义的关键。通过“嵌入层”，每个ID会被映射到一个包含数百甚至数千个数值的向量，这个向量可以被看作是token在数字空间中的“坐标”。起初这些向量是随机的，但通过海量文本的训练，模型会调整向量数值，使得语义相似的token在空间中的位置也更接近，例如“爸爸”和“父亲”的向量会比较靠近。

🧠 **向量的“成长”与语义关系** 向量的意义在于它们能够捕捉词语之间的关系。通过“损失函数”和“梯度下降”等机制，模型在训练过程中不断优化向量。训练完成后，向量能够反映出丰富的语义信息，例如，向量运算“国王” - “男人” + “女人” ≈ “王后”，展示了模型对抽象语义关系的理解能力，使得机器能够进行更深层次的语言“计算”。

揭秘大语言模型：从文字到数字，token 是如何变成向量的？

你有没有想过，ChatGPT 这样的大语言模型是怎么 “看懂” 文字的？其实，它们靠的是一套 “数字密码”—— 把文字变成向量。今天就用大白话，带你看懂这个神奇过程。

第一步：文字先拆成 “小零件”——token

大模型处理文字前，会先把句子拆成最小单位 “token”。就像把拼图拆成小块，方便后续处理。

（此处建议配图：左侧是一句话 “我爱吃苹果”，被拆成右侧的 token “我”“爱”“吃”“苹果”，每个 token 用不同颜色方块表示）

token 分三种常见类型：

单词级

子词级

字符级

第二步：给 “小零件” 贴标签 —— 从 token 到 ID

拆好的 token 不能直接被模型识别，得先变成数字。就像给每个零件编个唯一编号，比如：

（此处建议配图：左侧是不同 token “我”“爱”“a”“b”，右侧对应数字 ID “1”“2”“3”“4”，用箭头连接）

“我”→ID:1“爱”→ID:2“a”→ID:3

第三步：编号变 “坐标”——ID 到向量

有了 ID，还要通过 “嵌入层” 变成向量。向量就像 token 在数字空间里的 “坐标”，比如 [0.2, 0.5, -0.3]（维度通常有几百到几千）。

（此处建议配图：一个表格样式的 “嵌入层查找表”，行是 ID，列是向量维度，ID “1” 对应一行数字，用箭头指向一个三维坐标点表示向量）

向量的 “成长记”：从随机到有意义

刚生成的向量是随机数字，没啥含义。但经过海量文本训练后，奇迹发生了：

（此处建议配图：左侧是杂乱分布的向量点，标注 “训练前”；右侧是聚集的向量群，“高兴”“开心” 聚在一堆，“大”“小” 分在两边，标注 “训练后”）

模型通过 “损失函数” 判断预测对错，用 “梯度下降” 调整向量数值最后，语义近的 token 向量会靠得近（如 “爸爸” 和 “父亲”），相反的则离得远（如 “冷” 和 “热”）

为啥要费这劲？

因为模型只懂数学运算。向量让文字能被 “计算”：比如 “国王 - 男人 + 女人≈王后”，这种神奇的语义关系，就是靠向量运算实现的。

（此处建议配图：用箭头表示向量运算，“国王” 向量减去 “男人” 向量，加上 “女人” 向量，箭头终点指向 “王后” 向量）

从文字拆成 token，到变成 ID，再转化为有语义的向量，这三步就是大模型 “理解” 语言的核心。看似复杂的过程，本质是把人类语言翻译成机器能懂的数字密码。

未来随着技术发展，这套 “翻译系统” 会越来越精准，说不定哪天，模型真能像人类一样理解文字背后的喜怒哀乐呢～

揭秘大语言模型：从文字到数字，token 是如何变成向量的？

第一步：文字先拆成 “小零件”——token

第二步：给 “小零件” 贴标签 —— 从 token 到 ID

第三步：编号变 “坐标”——ID 到向量

向量的 “成长记”：从随机到有意义

为啥要费这劲？

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签