宝玉的分享 07月11日 10:10
大语言模型(LLM)到底是怎么运作的?(配图通俗讲解)
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入浅出地介绍了条件概率的概念,并阐释了其与GPT-4等大语言模型之间的核心关联。文章通过生动的例子和图示,解释了条件概率在预测下一个单词中的应用,揭示了模型如何通过计算条件概率来生成文本。此外,文章还探讨了温度参数在文本生成中的作用,以及如何通过调整温度来平衡文本的创造性和连贯性。通过清晰的解释和图示,帮助读者理解大语言模型的工作原理。

🎾 **条件概率的定义与应用:** 条件概率指的是在已知某个事件发生的前提下,另一个事件发生的概率,写作P(A|B)。文章通过网球和足球的例子,直观地解释了条件概率,并说明在已知天空阴云密布的条件下预测下雨的可能性增加,即P(A|B)升高。

⚽ **大语言模型与条件概率:** 大语言模型的任务是预测句子中下一个单词,这本质上是一个条件概率问题。模型会计算所有可能的单词在给定上下文条件下的条件概率,选择概率最高的单词作为预测结果。大语言模型学习的是高维单词序列的概率分布,调整的“参数”是这个概率分布中的权重。

💡 **温度(Temperature)的作用:** 直接选择概率最高的单词会导致模型输出内容重复、单调。温度的概念用于调整概率分布,影响抽样结果。较低的温度使模型更保守,生成更连贯的内容;较高的温度增加随机性,使输出更具创意,但也可能导致内容无意义。

📈 **温度对概率分布的影响:** 温度值(T)会调整概率分布,影响抽样的结果。较低的温度会使概率分布更集中,模型更倾向于选择高概率的词;较高的温度会使概率分布更平缓,模型会更多地从低概率的词中抽样,从而增加多样性。

在讲LLM之前,我们得先搞懂什么是条件概率

比如我们现在有14个人:

    有些人喜欢网球 🎾

    有些人喜欢足球

    还有少数人同时喜欢两种运动 🎾

    而另外一些人,两种都不喜欢

我们可以用下面的图清晰地表示这群人的偏好👇

那到底什么是条件概率呢?

条件概率就是指,在已知某个事件发生的前提下,另一个事件发生的概率。如果我们用事件A和事件B来表示,可以写作P(A|B),读作“在B发生的条件下,A发生的概率”。

看看下面这个直观的图示👇

比如,我们预测今天是否下雨(事件A),如果已知天空阴云密布(事件B),我们预测下雨的可能性就会增加,这时我们就说条件概率P(A|B)比较高。这就是条件概率!

那么,这和GPT-4这样的LLM有什么关系呢?

大语言模型的任务就是预测句子里下一个单词会是什么,这本质上就是一个条件概率的问题:

已知前面出现的一系列单词(上下文),下一个单词最可https://baoyu.io/uploads/2025-07-11-GvUMKc9bAAACSyf.pngs/2025-07-11-GvUMKc9bAAACSyf.png" data-width="100%" data-align="center" alt="">

为了预测下一个单词,模型会计算所有可能的单词在https://baoyu.io/uploads/2025-07-11-GvUMLYlaYAECxW-.pngimg src="/uploads/2025-07-11-GvUMLYlaYAECxW-.png" data-width="100%" data-align="center" alt="">

大语言模型其实是在学习一个高维的单词序列的概率分布,而训练过程中调整的那些“参数”,就是这个概率分布中的权重。这个训练过程(或更准确地说是预训练过程)是有监督的。下一次,我会再深入介绍训练的具体过程,先看下面这张图理解一下👇

不过,直接挑选概率最高的单词存在一个问题!

如果每次都选概率最高的单词,那么模型输出的内容就会变得非常重复、单调,让LLM变得毫无创意。这时候就要用到**温度(Temperature)**这个概念了。

先看下面的图,再https://baoyu.iohttps://baoyu.io/uploads/2025-07-11-GvUMNWfaYAAmOGa.jpgdata-type="emoji">👇:

但如果温度设置得太高,又会产https://baoyu.iohttps://baoyu.io/uploads/2025-07-11-GvUMOU-a0AA6sdE.jpgme="point_down" data-type="emoji">👇:

到底什么是温度(Temperature)?

大语言模型并不是简单地选择得分最高的那个“词”(为简单起见,我们把token视为单词),而是会从概https://baoyu.io/uploads/2025-07-11-GvUMPRea4AA8rDd.jpg>

即使“词1”的概率最高,也不一定会选中它,因为我们是从分布里抽样的。

温度值(T)在这个过程中,会对概率分布进行调整,影响抽样的结果:

看下面的示例代码图就更清楚了👇


总结一下:

如果你觉得这篇讲解对你有帮助,欢迎分享给更多人!

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

条件概率 大语言模型 GPT-4 温度
相关文章