掘金 人工智能 10小时前
揭秘大语言模型:从文字到数字,token 是如何变成向量的?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入浅出地介绍了大语言模型(如ChatGPT)理解文字的核心过程。首先,模型将输入的文本分解为最小单元“token”,这些token可以是单词、子词或字符。接着,每个token被赋予一个唯一的数字ID,以便模型识别。最关键的一步是将ID转化为高维度的向量,这些向量代表了token在数字空间中的“坐标”。经过海量文本训练,向量会逐渐学习到词语间的语义关系,使得语义相近的词语在向量空间中的距离也相近。这一系列转化使得文本能够被模型进行数学计算和理解,从而实现复杂的语言处理任务。

📝 **Tokenization:文字的“零件化”处理** 大语言模型处理文本的第一步是将句子拆解成更小的单元,称为“token”。token可以是完整的单词(如“apple”)、单词的一部分(如“unhappy”拆分为“un”和“happy”),甚至是单个字符(如“cat”拆分为“c”、“a”、“t”)。这种分解使得模型能够更精细地处理和理解语言的结构。

🔢 **ID编码:为“零件”赋予唯一标识** 拆分后的token需要被转换为模型能够识别的数字形式。这一步是通过为每个token分配一个独一无二的数字ID来完成的。例如,“我”可能被映射到ID 1,“爱”被映射到ID 2。这相当于给每一个语言的“小零件”都打上了唯一的编号。

📐 **向量嵌入:从ID到语义空间的“坐标”** 将数字ID转化为高维度的向量是模型理解语义的关键。通过“嵌入层”,每个ID会被映射到一个包含数百甚至数千个数值的向量,这个向量可以被看作是token在数字空间中的“坐标”。起初这些向量是随机的,但通过海量文本的训练,模型会调整向量数值,使得语义相似的token在空间中的位置也更接近,例如“爸爸”和“父亲”的向量会比较靠近。

🧠 **向量的“成长”与语义关系** 向量的意义在于它们能够捕捉词语之间的关系。通过“损失函数”和“梯度下降”等机制,模型在训练过程中不断优化向量。训练完成后,向量能够反映出丰富的语义信息,例如,向量运算“国王” - “男人” + “女人” ≈ “王后”,展示了模型对抽象语义关系的理解能力,使得机器能够进行更深层次的语言“计算”。

揭秘大语言模型:从文字到数字,token 是如何变成向量的?


你有没有想过,ChatGPT 这样的大语言模型是怎么 “看懂” 文字的?其实,它们靠的是一套 “数字密码”—— 把文字变成向量。今天就用大白话,带你看懂这个神奇过程。

第一步:文字先拆成 “小零件”——token

大模型处理文字前,会先把句子拆成最小单位 “token”。就像把拼图拆成小块,方便后续处理。

(此处建议配图:左侧是一句话 “我爱吃苹果”,被拆成右侧的 token “我”“爱”“吃”“苹果”,每个 token 用不同颜色方块表示)

token 分三种常见类型:

第二步:给 “小零件” 贴标签 —— 从 token 到 ID

拆好的 token 不能直接被模型识别,得先变成数字。就像给每个零件编个唯一编号,比如:

(此处建议配图:左侧是不同 token “我”“爱”“a”“b”,右侧对应数字 ID “1”“2”“3”“4”,用箭头连接)

第三步:编号变 “坐标”——ID 到向量

有了 ID,还要通过 “嵌入层” 变成向量。向量就像 token 在数字空间里的 “坐标”,比如 [0.2, 0.5, -0.3](维度通常有几百到几千)。

(此处建议配图:一个表格样式的 “嵌入层查找表”,行是 ID,列是向量维度,ID “1” 对应一行数字,用箭头指向一个三维坐标点表示向量)

向量的 “成长记”:从随机到有意义

刚生成的向量是随机数字,没啥含义。但经过海量文本训练后,奇迹发生了:

(此处建议配图:左侧是杂乱分布的向量点,标注 “训练前”;右侧是聚集的向量群,“高兴”“开心” 聚在一堆,“大”“小” 分在两边,标注 “训练后”)

为啥要费这劲?

因为模型只懂数学运算。向量让文字能被 “计算”:比如 “国王 - 男人 + 女人≈王后”,这种神奇的语义关系,就是靠向量运算实现的。

(此处建议配图:用箭头表示向量运算,“国王” 向量减去 “男人” 向量,加上 “女人” 向量,箭头终点指向 “王后” 向量)


从文字拆成 token,到变成 ID,再转化为有语义的向量,这三步就是大模型 “理解” 语言的核心。看似复杂的过程,本质是把人类语言翻译成机器能懂的数字密码。

未来随着技术发展,这套 “翻译系统” 会越来越精准,说不定哪天,模型真能像人类一样理解文字背后的喜怒哀乐呢~

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 Token 向量嵌入 自然语言处理 AI
相关文章