KL散度

KL散度&相对熵

相对熵又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度(KL散度)等。设$p(x)$$q(x)$$x$取值的两个概率概率分布,则$p$$q$的相对熵为

$$ D(p||q) = \sum_{i=1}^{n}p(x_i)log\frac{p(x_i)}{q(x_i)} $$

在一定程度上,熵可以度量两个随机变量的距离。KL散度是两个概率分布PQ差别的非对称性的度量。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。 相对熵(KL散度)有两个主要的性质。如下 (1)尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即$$D(p||q) \neq D(q||p)$$ (2)相对熵的值为非负值,即

$$ D(p||q) > 0 $$

相对熵的应用

相对熵可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度,先统计出词的频率,然后计算KL散度就行了。另外,在多指标系统评估中,指标权重分配是一个重点和难点,通过相对熵可以处理。

互信息

两个随机变量$X$$Y$的互信息,定义为$X$$Y$的联合分布和独立分布乘积的相对熵。 $$I(X,Y)=D(P(X,Y)||P(X)P(Y))$$ $$I(X,Y)=\sum_{x,y}log\frac{p(x,y)}{p(x)p(y)}$$

信息增益

信息增益表示得知特征A的信息而使得类$X$的信息的不确定性减少的程度。信息增益的定义为特征$A$对训练数据集$D$的信息增益$g(D,A)$,定义为集合$D$的经验熵$H(D)$与特征$A$给定条件下$D$的经验条件熵$H(D|A)$之差:

$$g(D,A) = H(D) - H(D|A)$$

下一页