信息熵是什么

信息熵是什么?记得之前上数据通信这门课时老师好像讲过,但是并没有理解。直到今天,看到论文中说到distribution statistics, entropy, 想起陆铖在MIIP中的报告,用来评估以及提取特征,所以特意查资料看了一下并做此总结。
本文大部分知识来自知乎忆臻

信息量

在搞懂信息熵之前,我们先来明白一下,信息量是什么?其实信息量就是我们平常说的信息量,对于信息的一种度量方式。我们用$h(x)$表示。

像我们平常说的某件事情信息量很小,其实就是那种不需要动脑子就知道的事情,什么事情不用动脑子?是那种我们可以几乎肯定的事情啊,换句话说, 就是事件发生概率很高。而如果一件事发生概率很低,那么就可以说该事件很难确定,那么’这件事发生’本身,其中包含着很大信息量。举我玩’达芬奇密码’的例子,如果13张牌已经亮出来12张,那么我们不需要考虑对方说过的猜牌语就可以知道剩余的那张牌是什么,也就是,’猜对’这个事件概率很大,包含信息量很小; 如果13张牌只亮出来3张,那么我们去猜某张牌时,要考虑自己有哪几张牌,猜牌附近亮出来的牌值是多少,对方说过什么话………也就是,’猜对’这个事件概率很小,包含信息量很大。所以仔细想想,其实,事件发生的概率和其中包含的信息量,不仅相关,而且是成一个负相关的规律,且不存在负值。后面会有说明。

再举个例子,如果现在有两件不相干的事情,数学术语叫,两独立事件;那么凭上面的理解我们就可以知道,两件事不相干,那么两件事都发生的信息量是各自发生的信息量之和,即$h(A,B) = h(A) + h(B)$;若从概率的角度表示都发生的概率就是$p(A,B) = p(A)\cdot p(B)$。很明显,概率角度的乘积形式,从信息量角度表示却是求和。这也就让我们想到了$log$,能够将乘转换成加;且上面说过,概率和信息量是有相关性的,因此,我们尝试定义:

这样将$h(x)$和$p(x)$联系起来,同时满足了由乘变加的过渡;至于为什么加负号,其实是为了让信息量保持正数 ( 概率值不大于1,则$log_2$后一定不大于0)。如此一来,也说明了事件发生的概率和包含的信息量的负相关规律,即,$h(x)$是一个递减函数。
值得注意的是,信息量是’事件发生’的度量;但我们在不知道结果之前就包含的信息量其实是所有可能发生事件的信息量之和

信息熵

这时候,再来告诉你,信息熵,其实就是在结果出来之前对所有可能结果发生所产生的信息量的期望。就很容易理解了。用公式表示:

$p(x_i)$代表随机事件$X$为$x_i$的概率
公式表示,所有可能结果产生的信息量$-log_2\ p(x_i)$的期望,注意公式没有除以$n$,是因为信息量本身乘的是概率值$p(x_i)$。

反推

现在我们来看,信息熵的作用:熵(entropy)是信息不确定性的一个测度。
可根据信息熵和概率的函数关系,某事件发生的概率越低,则包含的信息熵越大;同时,发生概率越低,则该事件的不确定性越高。这也就解释了熵对信息不确定性的度量。

致谢

Thank for Zhihu