相关性其实很简单。它指的是两个或多个变量之间存在某种程度的关联或相互影响。先说最重要的,在数据分析中,相关性通常用来衡量变量之间的线性关系强弱,用数值来表示,这个数值范围从-1到1。数值越接近1或-1,表示相关性越强;越接近0,表示相关性越弱。
另外一点,相关性并不等同于因果关系。比如,你可能会发现某个城市下雨的频率和人们穿雨衣的频率是正相关的,但这并不意味着下雨导致了人们穿雨衣,可能只是因为天气冷的时候,人们既需要穿雨衣也更容易下雨。
还有个细节挺关键的,比如去年我们跑的那个项目,我们分析了大概3000量级的数据,发现用户购买产品与他们在社交媒体上的互动量有很强的相关性。
我一开始也以为相关性只存在于数字领域,后来发现不对,比如在心理学研究中,一个人的情绪状态和他们的行为模式之间也有相关性。
等等,还有个事,这个点很多人没注意,相关性分析时要注意不要误判相关性,比如用行话说叫雪崩效应,其实就是前面一个小延迟把后面全拖垮了。
所以,我觉得值得试试的是,在分析相关性时,不仅要看数值,还要结合实际情况,多角度思考,避免因为相关性而误判因果关系。
相关性啊,这东西在数据分析里头挺重要的。我以前在论坛上看到过一个案例,2015年,有个研究团队在硅谷搞了个调查,发现用户在社交媒体上的互动行为跟他们的消费习惯有相关性。比如说,一个人在Facebook上点赞多,他可能在Amazon上的购物频率也高。
这“相关性”啊,其实就是说两个变量之间有没有关系,关系有多紧密。就像我以前跟一个同事聊天,他说他每天跑步,我就说:“,你跑步这事儿跟你身体好肯定有关系。”这就是相关性。
当时我也就是那么一说,也没想明白这背后的科学原理。后来我查了查,发现相关性分好几种,像正相关、负相关,还有零相关。正相关就是两个变量一起变,负相关就是一个变量增加,另一个变量就减少,零相关就是两个变量之间没任何关系。
就像我之前说的那个例子,Facebook点赞多和Amazon购物频率高,这就是正相关。用现在的话说,就是“用的人多了”。简单来说,相关性就是看两个东西是不是经常一起出现,或者是不是有某种联系。