自信息与信息熵
原书中列举的公式比较抽象,这里将原书中的公式改写为简单形式
信息论主要研究的是对一个信号包含信息的多少进行量化。信息论的基本想法是,一个不太可能是的事件发生了,要比一个非常可能的事件发生提供更多的信息(带来更少的不确定性)。
自信息只能处理单个的输出,使用香农熵(Shannon entropy, 又称信息熵)来对整个概率分布中的不确定性进行量化:
上式等价为
交叉熵
交叉熵(Cross Entropy)的定义与熵类似,但定义在两个概率之上的分布。对于两个概率分布p(x)和q(x),交叉熵定义为:
可见,交叉熵也是数学期望,衡量了两个概率分布的差异。
KL散度
KL散度(Kullback-Leibler Divergence)也成为相对熵(Relative Entropy)。也用于衡量两个概率分布之间的差异。其值越大,差异越大。对于两个概率分布p(x)p(x)和q(x)q(x),KL散度定义为:
KL散度和交叉熵的关系是:
我的知乎主页:https://www.zhihu.com/people/panverson
公众号正在筹划中,欢迎大家到时关注!