- 删除重复项:df.drop_duplicates() 2.缺失值处理:df.dropna()或df.fillna() 3.更改数据类型:df.astype() 4.删除无用的列:df.drop(columns=['columnname']) 5、对数据进行排序:df.sort_values(by='column_name');
- 数据过滤:df[df['columnname'] > 100] 7、数据过滤:df.loc[df['columnname'] > 100] 8、数据分组:df.groupby('列名').agg({'列名2', 'mean'}) 9、合并数据:pd.merge(df1, df2, on='列名'); 10、数据替换:df.replace(replace='旧值', value='新值') 11、数据格式:df['columnname'] = df['columnname'].apply(lambda x: x.strftime('%Y-%m-%d'));
- 数据提取: df['columnname'] = df['columnname'].str.extract('(\d+)')
嘿,说到 Pandas 中的数据清理,我知道这些东西。 说实话,数据清理就像做饭一样。 一定要讲究方法,一步步去做。
1. 缺失值处理:我以前遇到过这种情况。 例如,在一个调查项目中,有些人没有填写年龄。 这时,可以使用fillna()方法来填充缺失值,或者使用dropna()删除缺失的行或列。
- 案例时间:2019年,我帮朋友处理一个市场研究数据集,其中包含大量缺失的年龄信息。
2。 异常值处理:这就像在盘子里发现一只苍蝇,你必须把它挑出来。 使用describe()方法可以快速了解数据的分布情况,然后使用plot()画图直观地看到异常值。
- 案例时间:我记得有一次,我在处理一套房价数据集时,发现有几个价格高得离谱。 结果发现是输入错误。
3。 重复值处理:这就像在购物清单上找到重复的商品并必须删除它一样。 duplicated() 方法可以帮助您找到重复的行或列,然后使用 drop_duplicates() 来处理它们。
- 案例地点:2020年,我处理的一个用户行为数据集,存在很多重复的用户ID。
4。 数据类型转换:有时数据格式错误,必须更改。 例如,将字符串转换为整数或日期格式。
- 数据密度:我记得在我正在做的一个项目中,日期字段本来是一个字符串,我必须使用 pd.to_datetime() 将其转换为日期格式。
5。 格式化、标准化:这就像做菜时调味,必须遵循标准。 format() 方法可以帮助您格式化数字,同时保持数字准确性。
- 案例地点:2021年,我帮助一家公司清理财务数据,我不得不使用这种方法来保证数字格式的一致。
6。 串处理:这就像炒菜切菜一样,一定要切整齐。 str.replace() 和 str.extract() 等方法可以帮助您处理文本数据。
- 数据密度:我记得有一次,在处理用户评论数据集时,必须使用str.extract()来提取用户ID和评论内容。
说实话,这些方法就像一个工具箱。 使用哪一种取决于您的数据。 我当时不太明白,所以我必须边走边想。 数据清洗没有固定的模式,必须根据实际情况而定。