上周有个客人问我,说:“能给我解释一下互信息这个概念吗?”我当时就想起自己之前在大学学的东西,就跟他聊聊。
互信息这个概念,其实挺有意思的。简单来说,它衡量的是两个随机变量之间相互提供信息的能力。你想啊,如果你有两个事件,比如我扔一个骰子,你扔一个骰子,我们俩的结果是相互独立的,那它们之间的互信息就是0。因为一个事件发生的信息,不能给我们提供关于另一个事件发生的任何信息。
举个例子,比如我在北京,你问我:“北京的天是晴天还是雨天?”如果我知道北京的天气状况,我就能给出准确的答案。那这个问题的互信息就很高,因为我能从这个问题里得到很多信息。但如果我告诉你我在北京,你问我:“北京的天气怎么样?”这个问题就没什么价值了,因为我已经告诉你我在北京了,你还能从这个问题里得到什么信息呢?所以这个问题的互信息就低。
数学上,互信息用I(X;Y)表示,它是两个随机变量X和Y的熵的差,即I(X;Y) = H(X) + H(Y) - H(X,Y)。这里H(X)和H(Y)分别表示X和Y的熵,H(X,Y)表示X和Y的联合熵。
互信息在很多领域都有应用,比如信息论、机器学习、人工智能等。它可以帮助我们理解数据之间的关系,对于数据压缩、模式识别等方面都很重要。反正你看着办,如果你想深入了解,可以自己去查查资料。我还在想这个问题呢。
互信息,这玩意儿简单说就是信息量减法。俩事物之间关系越密切,互信息越大。上周刚处理一个项目,发现俩数据相关性超高,互信息就是大数字。其实就是衡量俩东西相互依赖程度。
互信息高,表示两个变量相关性强。 简单说,两个变量越像,互信息越大。 比如,股票和成交量,互信息高。 我自己在用,效果不错,不确定但经验是这样。