数据清洗 - 智学轩城

数据清洗

这就是坑,不区分数据类型,直接用同一个规则清洗。
别信,数据清洗要细分类型,不同处理。
别这么干,忽视异常值,直接平均或中位数填充。
实操提醒:先分类,再清洗。
2022年,我接到一个任务,要在一个大城市里对一大堆乱七八糟的数据进行清洗。我当时也懵,看着那堆数据,心想这可怎么下手啊。我打开电脑,点开那个文件,看着那些数字,突然,我反应过来,得先找出重复的记录。于是,我就开始一个一个地筛选,一边筛选,一边心里直发堵,这些数字,这些表格,简直就像一座山压在我身上。
那个城市的数据量可大了,得有几百兆吧,我一边点开,一边心里想,这要是用普通的方法,得做到什么时候去啊。我后来才反应过来,得用那个什么数据清洗工具,一查,还真是好使。我把它打开,输入筛选条件,一下子就出来了重复的记录。
这筛选的过程可真费劲,我看着屏幕上密密麻麻的数据,心里直喊累。筛选完重复的,我又得去检查那些数据有没有错误,有的数据格式不对,有的数字写得乱七八糟,我一个个地修正,心里直骂,这谁写的,也太不细心了吧。
那个项目,我花了好多时间,到最后,我算了一下,总共修了差不多上万条数据,花了近万块钱。我后来回想起来,当时也是有点偏激,觉得这工作太繁琐了,但现在想想,数据清洗这活儿,还是挺有意义的。