The Information Theory
约 612 个字 预计阅读时间 3 分钟
1. Amount of Information
Def. 事件发生的信息量大小,满足:
- 小概率事件有更大的信息量
- 独立事件的积事件信息量等于事件信息量的和,即 \(I(AB)=I(A)+I(B)\)
符合条件的定义信息量为 \(I(x):=-\log_2p_x\).
2. Entropy
Def. 概率分布 \(p\) 的信息量期望
用于评估概率模型的不确定性,不确定性越大熵越大;概率密度均匀则不确定性大、熵也大.
3. Cross Entropy
Def. 预测概率分布 \(q\) 对真实概率分布 \(p\) 的平均信息量估计 $$ H(p,q)=\sum p_iI_i^q=-\sum p_i\log_2 q_i $$
吉布斯不等式可以证明,交叉熵 \(H(p,q)\) 总是大于等于熵 \(H(p)\) 的值;概率分布越接近交叉熵越小,当 \(p,q\) 为相同概率分布时交叉熵最小,为熵的值.
4. KL Divergence
Def. KL 散度用于衡量两个概率分布的相对差异,预测概率分布 \(q\) 对真实概率分布 \(p\) 的平均信息量差值估计 $$ \begin{aligned} D_{KL}(p|q)&=\sum p_i[I_q-I_p]\ &=H(p,q)-H(p)\ &= \sum p_i \log_2(p_i / q_i) \end{aligned} $$
由交叉熵可知 \(D(p\|q)\ge 0\),当且仅当 \(p,q\) 相同分布时取等.
注意:\(D(p\|q)\ne D(q\|p)\),括号内前者为真实概率分布后者为估计概率分布
5. Cross Entropy Loss
Def. KL 散度能衡量两个概率分布的相对差异,可以直接将损失函数定义为 KL 散度
对于分类问题,真实分布是一个单点分布,即错误类别 \(p_i=0\),而正确类别 \(p_i=1\) 又有 \(\log_2p_i=0\),故前项被消去,后项剩下 \(-\log_2q_j\),其中 \(q_j\) 为正确类别预测概率.
对于二分类问题,由于知道其中一个预测概率就知道另一个,所以二分类常只输出一个 \(p\),表示预测标签为 1 的概率(二分类是标签一般选择 1 与 0).因此,如果真实标签为 1,损失即为 \(-\log_2p\);如果真实标签为 0,等价于以 \(1-p\) 概率预测标签为 0, 损失为 \(-\log_2(1-p)\).即