开头】 pandas进行数据清洗的函数,其实很简单,主要是用dropna(), fillna(), drop_duplicates(), 和 astype()这几个。
【展开】 先说最重要的,dropna()函数可以用来删除含有缺失值的行或列,比如去年我们处理的数据集中,缺失率大概在10%左右,这就需要用dropna()来处理。另外一点,fillna()则用来填充这些缺失值,我们通常会填充为平均值或中位数,去年我们跑的那个项目,就是用这个方法处理了大概3000量级的数据。
【思维痕迹】 我一开始也以为这些函数只能处理数值型数据,后来发现不对,其实文本型数据也能用fillna()来填充空字符串。等等,还有个事,记得在处理日期时间格式时,要小心fillna()可能会影响时间序列数据的逻辑。
【结尾】 这个点很多人没注意,我觉得值得试试,尤其是处理含有大量缺失值的数据集时。
【展开】 先说最重要的,dropna()函数可以用来删除含有缺失值的行或列,比如去年我们处理的数据集中,缺失率大概在10%左右,这就需要用dropna()来处理。另外一点,fillna()则用来填充这些缺失值,我们通常会填充为平均值或中位数,去年我们跑的那个项目,就是用这个方法处理了大概3000量级的数据。
【思维痕迹】 我一开始也以为这些函数只能处理数值型数据,后来发现不对,其实文本型数据也能用fillna()来填充空字符串。等等,还有个事,记得在处理日期时间格式时,要小心fillna()可能会影响时间序列数据的逻辑。
【结尾】 这个点很多人没注意,我觉得值得试试,尤其是处理含有大量缺失值的数据集时。
read_csv()读取数据,dropna()删除缺失值,fillna()填充缺失值,astype()类型转换,drop_duplicates()删除重复行,isnull()检查缺失值。