上周,我的朋友在2023年1月的培训课程中学习了如何使用pandas清理excel数据。他说第一步是导入数据并使用read_excel()函数。然后使用 isnull() 或 isna() 检查数据是否有缺失值。接下来,要处理缺失值,您可以使用 fillna() 填充它们或使用 dropna() 删除它们。然后他会使用astype()来转换数据类型。最后,他将使用describe()来总结数据的统计。
值得注意的是,数据清理是一个迭代过程,需要多次检查以确保数据干净、准确。基本上,pandas 提供了强大的工具来处理各种数据清理任务。简而言之,清理Excel数据就是让数据变得更有用。
每个人的情况都不同。我的朋友建议初学者多练习,多看资料。他只是想到了别的,说有时候数据清理还涉及到删除重复行,可以使用duplicate()函数。请注意,这只是一个建议。
清理Excel数据其实很简单,但复杂之处在于细节。我们先来说说最重要的事情。您需要注意以下三个要点:
1.缺失数据处理:比如我们去年做的项目,有10%的数据缺失,大概有3000级左右。此时您可以选择插入缺失值或删除包含缺失值的行。
2。数据类型转换:还有一个很关键的细节,就是数据类型转换。例如,您可能需要将日期字符串转换为日期类型或将文本转换为数字类型。如果不进行转换,后续的分析可能会不正确。
起初我认为简单地删除或插入缺失值就足够了,但后来我发现这是错误的。我还必须考虑数据的一致性和合理性。等等,还有一件事,那就是异常处理,这也会影响数据分析的准确性。
最后,提醒一个简单的技巧:不要直接修改原始数据,而是使用 pandas 的 .copy() 方法创建副本,这样就可以在不改变原始数据的情况下对其进行清理。我认为值得尝试一下,看看数据清理效率能提高多少。