熵
熵
信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之就越高。对于事件
$$ H(X)=\mathbb{E}{X \sim P(X)}[I(x)]=-\mathbb{E}{X \sim P(X)}[\log P(x)] $$
熵一般记作(A,B,C,D)
的样本集中,真实分布
条件熵
对于随机变量
$$ H(Y | X)=\mathbb{E}{X \sim P(X)}[H(Y | X=x)]=-\mathbb{E}{(X, Y) \sim P(X, Y)} \log P(Y | X) $$
对于离散型随机变量,存在:
$$ H(Y | X)=\sum_{x} p(x) H(Y | X=x)=-\sum_{x} \sum_{y} p(x, y) \log p(y | x) $$
对于连续型随机变量,则存在:
$$ H(Y | X)=\int p(x) H(Y | X=x) d x=-\iint p(x, y) \log p(y | x) d x d y $$
根据定义可以证明:
$$ H(X, Y)=H(Y | X)+H(X) $$
即:描述