互信息,就是衡量两个事件之间相关性的大小。简单来说,就是看一个事件发生能告诉我们另一个事件发生概率的多少。
计算公式是这么个样子的:
[ I(X; Y) = H(X) - H(X|Y) ]
这里头有几个关键词:
- ( H(X) ) 是 ( X ) 的熵,代表 ( X ) 的不确定性。
- ( H(X|Y) ) 是在已知 ( Y ) 发生的条件下 ( X ) 的熵,代表 ( X ) 的不确定性减少了多少。
- ( I(X; Y) ) 是 ( X ) 和 ( Y ) 之间的互信息。
公式说人话就是:先算出 ( X ) 的不确定性,再算出知道 ( Y ) 后 ( X ) 的不确定性,两者一差就是互信息。值越大,说明 ( X ) 和 ( Y ) 越相关。
记得有一次,我在图书馆里翻阅一本关于信息论的旧书,突然翻到了互信息的部分。那时候,我正对着公式发呆,想着这玩意儿到底是个啥。
( I(X;Y) = H(X) - H(X|Y) )
这个公式,简单来说,就是衡量两个随机变量X和Y之间相互依赖程度的一个指标。比如,你掷两个骰子,想知道两个骰子的点数之间有没有关系。
2019年夏天,我在一次统计学的课程上,用这个公式计算了两个骰子点数的互信息。结果发现,两个骰子的互信息接近于0,这说明它们点数之间几乎没有关系。
等等,还有个事,我突然想到,如果两个事件完全独立,那么它们的互信息就是0。那如果两个事件完全相关呢?互信息会变成多少呢?