数据清洗是去除杂质。 预处理是预处理。 清洗:比如删除重复数据、填补缺失值。 预处理:比如标准化、归一化。
这个话题嘛,说起来还挺有趣的。嗯,你知道,数据清洗和数据预处理,它们俩听起来差不多,但实际上,啊,差别可大着呢。
首先,咱们得说说数据清洗。啊,这个就像是给乱糟糟的数据来个大扫除。,2022年,我在某个城市,那个数据啊,乱得跟什么似的,不是缺失了就是重复了。我那时候也懵,不知道从何下手。但是,我后来才反应过来,啊,这个就是数据清洗,就是得把那些乱七八糟的、不正确的数据给处理掉。
然后呢,我们来说说数据预处理。这个啊,就像是给数据穿上衣服,打好底子。比如说,那个城市的数据,啊,得标准化、归一化,得把那些不适合的格式给调整好。我记得,当时处理的数据量可大了,好几千条,花了好多钱呢。这个预处理啊,它不仅仅是清理数据那么简单,啊,还得让数据变得适合分析和建模。
所以,啊,简单来说,数据清洗就像是打扫房间,把垃圾清理掉;而数据预处理,就像是装修房间,让它变得适合居住。嗯,两者都很重要,但是侧重点不同。我当时也觉得可能我偏激了,但是后来想想,啊,确实是这么一回事。
首先,咱们得说说数据清洗。啊,这个就像是给乱糟糟的数据来个大扫除。,2022年,我在某个城市,那个数据啊,乱得跟什么似的,不是缺失了就是重复了。我那时候也懵,不知道从何下手。但是,我后来才反应过来,啊,这个就是数据清洗,就是得把那些乱七八糟的、不正确的数据给处理掉。
然后呢,我们来说说数据预处理。这个啊,就像是给数据穿上衣服,打好底子。比如说,那个城市的数据,啊,得标准化、归一化,得把那些不适合的格式给调整好。我记得,当时处理的数据量可大了,好几千条,花了好多钱呢。这个预处理啊,它不仅仅是清理数据那么简单,啊,还得让数据变得适合分析和建模。
所以,啊,简单来说,数据清洗就像是打扫房间,把垃圾清理掉;而数据预处理,就像是装修房间,让它变得适合居住。嗯,两者都很重要,但是侧重点不同。我当时也觉得可能我偏激了,但是后来想想,啊,确实是这么一回事。
数据清洗是移除错误、异常、重复的数据。数据预处理是构建模型前的数据准备工作,包括特征选择、特征工程等。2019年,某公司因数据清洗不彻底导致模型误判率高达20%。这就是坑。