上周处理数据时,我发现 pandas 中的几个常用函数特别有用:
- dropna():删除包含缺失值的行或列。这是数据清理的重要第一步。
- fillna():填充缺失值,可以使用特定值、上一个值、下一个值或插值方法。
- drop_duplicates():删除重复行,特别是在合并数据之后。这个功能非常有用。
- astype():更改列的数据类型,例如将字符串转换为数字类型。
- sort_values():根据值对数据进行排序,以方便搜索和分析。
- isnull() 和 notnull():检查数据是否为空,用于条件过滤。
- loc[] 和 iloc[]:基于标签或索引的数据选择非常灵活。
朋友在分析2023年的数据时,特别强调了这个功能的重要性。他说,一旦你学会了这些,组织数据就会变得容易得多。总之,pandas的数据清洗功能是数据分析的得力助手。
但是,每个人的情况都不同,因此您可能需要根据您的具体问题选择合适的功能。值得注意的是,有时数据清理过程比选择函数本身更复杂。从本质上讲,数据清洗是一个持续迭代、协调的过程。由你决定。我就在这里分享这么多。我又想到了一个想法。使用此功能之前,请不要忘记备份数据!
dropna():删除包含缺失值的行,例如:df.dropna(inplace=True)
- fillna():填充缺失值,例如:df.fillna(0, inplace=True)
- Replace():替换特定值,例如:df.replace({'A': 'X'}, inplace=True)
- unique():返回唯一值,例如:df['columnname'].unique()
- value_counts():统计每个值出现的次数,例如:df['column_name'].value_counts()
- isnull():检查缺失值,例如:df.isnull().sum()
- notnull():检查非缺失值,例如:df.notnull().sum()
- astype():数据类型转换,例如:df['column_name'] = df['column_name'].astype(int)
- use():使用函数,例如:df['columnname'] = df['columnname'].apply(lambda x: x2)