KL散度

KL散度&相对熵

相对熵又称互熵，交叉熵，鉴别信息，Kullback熵，Kullback-Leible散度(即KL散度)等。设$p(x)$和$q(x)$是$x$取值的两个概率概率分布，则$p$对$q$的相对熵为

$$ D(p||q) = \sum_{i=1}^{n}p(x_i)log\frac{p(x_i)}{q(x_i)} $$

在一定程度上，熵可以度量两个随机变量的距离。KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度是用来度量使用基于Q的编码来编码来自P的样本平均所需的额外的位元数。典型情况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布，或P的近似分布。相对熵(KL散度)有两个主要的性质。如下 (1)尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即$$D(p||q) \neq D(q||p)$$ (2)相对熵的值为非负值，即

$$ D(p||q) > 0 $$

相对熵的应用

相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度，先统计出词的频率，然后计算KL散度就行了。另外，在多指标系统评估中，指标权重分配是一个重点和难点，通过相对熵可以处理。

互信息

两个随机变量$X$，$Y$的互信息，定义为$X$，$Y$的联合分布和独立分布乘积的相对熵。 $$I(X,Y)=D(P(X,Y)||P(X)P(Y))$$ $$I(X,Y)=\sum_{x,y}log\frac{p(x,y)}{p(x)p(y)}$$

信息增益

信息增益表示得知特征A的信息而使得类$X$的信息的不确定性减少的程度。信息增益的定义为特征$A$对训练数据集$D$的信息增益$g(D,A)$，定义为集合$D$的经验熵$H(D)$与特征$A$给定条件下$D$的经验条件熵$H(D|A)$之差：

$$g(D,A) = H(D) - H(D|A)$$

最近更新于0001-01-01