赛博禅心 2024年12月25日
中学生能看懂:10 分钟理解大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文通过交互演示的方式,深入浅出地介绍了大模型的基本原理。文章将大模型的“生成”过程比作“文字接龙”,核心在于预测下一个词。AI通过“注意力机制”来理解词语关系,并使用“词嵌入”将文字转化为数字进行计算。大模型的训练分为“预训练”和“微调”两个阶段,前者让AI学习语言规律,后者使其成为领域专家。通过这些关键概念,读者可以快速理解大模型如何生成内容,并认识到AI的智能并非神秘莫测,而是基于严谨的算法和大量的学习。

✍️ 大模型的核心在于“续写”,即根据前文预测下一个词,像文字接龙一样逐步生成内容。这个过程称为自回归,AI通过不断预测和连接下一个词来完成文章的生成。

🧠 “注意力机制”让AI在续写时能够“划重点”,关注重要的词语,理解句子中词语之间的关系,从而更好地生成通顺的内容。AI并非对所有词语都一视同仁,而是侧重于对关键信息的处理。

🔢 “词嵌入”是将文字转换为数字编号的过程,AI通过这种方式来“理解”词语。每个词都被映射为一个数字向量,向量之间的距离代表词语意思的相关度,从而使AI能够计算和理解词语之间的关系。

📚 大模型的训练包括“预训练”和“微调”两个阶段。“预训练”阶段,AI通过大量阅读学习语言规律,并为每个词生成“数字身份证”(词嵌入);“微调”阶段则让大模型成为特定领域的专家,例如针对唱、跳、RAP和篮球进行训练。

原创 金色传说大聪明 2024-12-25 17:22 广东

使用「交互演示」,抹除阅读门槛

我将以「交互演示」方式:

尝试帮你在 10 分钟内,理解大模型的基本原理。




大模型的“生成”,不过是续写


大模型,能够写一篇很长的内容:不过是“文字接龙”的小游戏。

简单来说,就是:根据前面的内容,预测下一个词是什么,然后把这个词接上,再预测,再接上,循环往复。(你也可以管这个叫:自回归)


这里有一个简单的演示,可以点击 天气 来试试



大模型就这么一个个词的猜,直到猜完一整篇文章。

不过这里就有了一个新问题:AI 是如何判断哪个词可能性最大?又是如何理解我们写的内容呢?




大模型自己“划重点” :所谓的“注意力”


AI 在“续写”时,不会对所有词都一视同仁,它会“划重点”!这项能力叫做 “注意力机制”:把注意力更多地放在重要的词语上。


在下面的演示中,点击 阳光  花香  人们  微风  感叹 或者 今天 ,来看看大模型都关注到了什么。



通过注意力机制,AI 能够理解句子中词语之间的关系,从而更好地“续写”出通顺的内容。

但问题又来了:AI 是怎样去辨别,哪些内容彼此更相似呢?




AI 眼中文字,是一串串数字


我们能看懂文字,但 AI 看见的却是一串串数字。因为 AI 会先把每个词变成一个数字编号,这个过程叫做 “词嵌入” (Word Embedding)。 


举个例子:比如“猫”和“狗”这两个词,我们知道它们都是动物,也都很可爱,但在叫声上有所不同。而 AI 却不懂这些,它看到的一切信息,都是被从不同纬度标记的。假设标记数字的取值范围是 -1 到 1:


这像这样,AI 在一通数值比较后,就知道“猫”和“狗”一样可爱,但叫声不同。


大模型不认识文字

它把每个词都变成数字

每个词都有个专属的数字编码

这样它才能计算和理解

任意滑动,查看各词向量




所有词都有数字编号

这编号代表着词的意思

意思差不多的那些词

它们的编号也会更接近

词语被转换成数字代码

这种代码叫作词向量

向量之间距离的远近

表示了词语意思相关度


于是,通过大量的 “词嵌入” ,AI 就能“理解”词语的含义,然后开始干活了。




塞数据,然后吸收 - 大模型是这样训练的


那么,词嵌入的值,是如何得到的呢?答案是:“预训练”。你可以把它想象成 AI 在正式工作前,先进行大量的“阅读”学习。而这个学习过程中,也诞生了我们之前提到的“数字身份证” (词嵌入)。


但这个“阅读”过程,不仅仅是“塞”数据,还包含了 AI 的“消化吸收”,就像星之卡比一样。


院子轨道杂化理论

禅与摩托车维修艺术

金刚经   

大一统理论   

艾泽拉斯国家地理

上下五千年   

唐诗三百首   

九九乘法表   


在这个“阅读 + 吸收”的过程中,大模型不仅学习语言规律,还为每个词生成“数字身份证”(词嵌入)。但要知道,这些“身份证”并非一成不变,而是随着“阅读”不断优化。例如,读到“猫”和“狗”常一起出现,它就会让这两个词的“身份证”更接近。  


这种“阅读”加“吸收”的过程,就是大模型的“训练”,使 AI 逐步掌握语言规律,并构建出包含“数字身份证”的庞大“词汇库”。




“专项训练” -  从“通才”到“专才”


如果把“预训练”比作“通识教育”,那么 “微调” 就像是“专业培训”:让大模型成为领域专家。 


比如,我们手里有一个训练时长两年半的大模型,非常善于背带裤穿搭。


如果我们想得到一个“iKun 模型”,也就是让它精通唱、跳、RAP 和篮球,就需要定向的进行一些微调。在微调过程中,每个词的“数字身份证”也会发生变化。


体验:在下图中,让 iKun 练习     Rap 或者 篮球 



现在,iKun 经过“微调”,就是一个合格的大模型了,立刻出道!


现在,想必你已经完全了解大模型“生成内容”的几个关键概念了:

正是通过这些过程,我们得到了各式各样的大模型,而且非常聪明!




后记


这篇文章,是我第一次尝试通过「交互演示」,来做更直观的信息表达,思路源自于之前的思考:《人类的认知协议》。后续还有一篇《世界的物理接口》,正在结合 OpenAI 的一些没宣传的内容,进行优化,很快就好完工。


如果你觉得本篇有点用,可以把它转给你身边的小朋友,又或者...正准备学习 AI 的大朋友们,感谢!


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 注意力机制 词嵌入 预训练 微调
相关文章