信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之就越高。对于事件$X=x$,定义自信息Self-Information为:$I(x)=-\log P(x)$。自信息仅仅处理单个输出,而熵就是为自信息的期望:

$$ H(X)=\mathbb{E}{X \sim P(X)}[I(x)]=-\mathbb{E}{X \sim P(X)}[\log P(x)] $$

熵一般记作$H(P)$。熵刻画了按照真实分布 来识别一个样本所需要的编码长度的期望(即平均编码长度,譬如含有4个字母 (A,B,C,D) 的样本集中,真实分布$P=\left(\frac{1}{2}, \frac{1}{2}, 0,0\right)$,则只需要1位编码即可识别样本。对于离散型随机变量$X$,假设其取值集合大小为$K$,则可以证明:$0 \leq H(X) \leq \log K$。

条件熵

对于随机变量$Y$$X$,条件熵$H(Y|X)$表示:已知随机变量$X$的条件下,随机变量$Y$的不确定性。条件熵的定义为:$X$给定条件下$Y$的条件概率分布的熵对$X$的期望:

$$ H(Y | X)=\mathbb{E}{X \sim P(X)}[H(Y | X=x)]=-\mathbb{E}{(X, Y) \sim P(X, Y)} \log P(Y | X) $$

对于离散型随机变量,存在:

$$ H(Y | X)=\sum_{x} p(x) H(Y | X=x)=-\sum_{x} \sum_{y} p(x, y) \log p(y | x) $$

对于连续型随机变量,则存在:

$$ H(Y | X)=\int p(x) H(Y | X=x) d x=-\iint p(x, y) \log p(y | x) d x d y $$

根据定义可以证明:

$$ H(X, Y)=H(Y | X)+H(X) $$

即:描述$X$$Y$所需要的信息是:描述$X$所需要的信息加上给定$X$条件下描述$Y$所需的额外信息。

Links

上一页