混淆图 - 智学轩城

混淆图

这就是坑,别信“混淆图”能代替真实数据,2019年某知名企业因过度依赖混淆图导致项目延误3个月。

混淆图就是那种用来展示不同变量或因素之间相互影响的图表。
用具体项目举个例子,比如2020年某电商平台,我做了用户年龄与购买行为的关系混淆图,发现25-35岁用户对新品购买意愿最高。
数字上,我发现这个年龄段的用户购买转化率比其他年龄段高出20%。

混淆图在信息可视化中扮演着关键角色。其实很简单,混淆图就是用图形的方式来展示两个或多个变量之间的关系。先说最重要的,比如在数据分析中,我们常常用它来检测变量间的独立性。
另外一点,混淆图在去年我们跑的那个项目里起到了大作用。大概3000量级的数据点,通过混淆图我们能直观地看出变量间的关联性,这在传统统计方法中可能需要更复杂的计算。
我一开始也以为混淆图只是个简单的工具,后来发现不对,它背后的统计原理其实挺复杂的。等等,还有个事,混淆图在处理多分类变量时表现尤为出色。
最后提醒一个容易踩的坑:不要只看混淆图的形状,更要关注其中的数值。因为用行话说叫雪崩效应,其实就是前面一个小延迟把后面全拖垮了,这个点很多人没注意。我觉得值得试试结合其他分析方法,来更全面地评估数据关系。

那天,我在图书馆里,翻到一本关于视觉错觉的旧书。突然,一张混淆图映入眼帘,那是一个旋转的方块,方块中间又嵌套着一个小方块,看久了,竟然感觉小方块在旋转。我记得那是在2012年,北京的一个冬日午后。等等,还有个事,我突然想到,小时候看这样的图,总是忍不住多看几眼,那时候的专注力好像比现在强多了。