pandas中数据清洗的方法有哪些

曹伯辉

2025-07-08 17:20:05

删除重复项：df.drop_duplicates() 2.缺失值处理：df.dropna()或df.fillna() 3.更改数据类型：df.astype() 4.删除无用的列：df.drop(columns=['columnname']) 5、对数据进行排序：df.sort_values(by='column_name');
数据过滤：df[df['columnname'] > 100] 7、数据过滤：df.loc[df['columnname'] > 100] 8、数据分组：df.groupby('列名').agg({'列名2', 'mean'}) 9、合并数据：pd.merge(df1, df2, on='列名'); 10、数据替换：df.replace(replace='旧值', value='新值') 11、数据格式：df['columnname'] = df['columnname'].apply(lambda x: x.strftime('%Y-%m-%d'));
数据提取： df['columnname'] = df['columnname'].str.extract('(\d+)')

石叔能

2025-08-27 11:49:34

嘿，说到 Pandas 中的数据清理，我知道这些东西。说实话，数据清理就像做饭一样。一定要讲究方法，一步步去做。
1. 缺失值处理：我以前遇到过这种情况。例如，在一个调查项目中，有些人没有填写年龄。这时，可以使用fillna()方法来填充缺失值，或者使用dropna()删除缺失的行或列。
- 案例时间：2019年，我帮朋友处理一个市场研究数据集，其中包含大量缺失的年龄信息。
2。异常值处理：这就像在盘子里发现一只苍蝇，你必须把它挑出来。使用describe()方法可以快速了解数据的分布情况，然后使用plot()画图直观地看到异常值。
- 案例时间：我记得有一次，我在处理一套房价数据集时，发现有几个价格高得离谱。结果发现是输入错误。
3。重复值处理：这就像在购物清单上找到重复的商品并必须删除它一样。 duplicated() 方法可以帮助您找到重复的行或列，然后使用 drop_duplicates() 来处理它们。
- 案例地点：2020年，我处理的一个用户行为数据集，存在很多重复的用户ID。
4。数据类型转换：有时数据格式错误，必须更改。例如，将字符串转换为整数或日期格式。
- 数据密度：我记得在我正在做的一个项目中，日期字段本来是一个字符串，我必须使用 pd.to_datetime() 将其转换为日期格式。
5。格式化、标准化：这就像做菜时调味，必须遵循标准。 format() 方法可以帮助您格式化数字，同时保持数字准确性。
- 案例地点：2021年，我帮助一家公司清理财务数据，我不得不使用这种方法来保证数字格式的一致。
6。串处理：这就像炒菜切菜一样，一定要切整齐。 str.replace() 和 str.extract() 等方法可以帮助您处理文本数据。
- 数据密度：我记得有一次，在处理用户评论数据集时，必须使用str.extract()来提取用户ID和评论内容。
说实话，这些方法就像一个工具箱。使用哪一种取决于您的数据。我当时不太明白，所以我必须边走边想。数据清洗没有固定的模式，必须根据实际情况而定。

pandas中数据清洗的方法有哪些

曹伯辉

石叔能

相关推荐