用loc,iloc,直接取值三种方法;对DataFrame,Series,行和列进行操作 import pandas as pd #读取college数据集 college = pd.read_csv('data/college.csv', index_col='INSTNM') iloc通过行标签取数 索引值的下标 # 选取第61行 pd.options.display.max_rows = 6 college.iloc[60]
干净整洁的数据是后续进行研究和分析的基础。数据科学家们会花费大量的时间来清理数据集,毫不夸张地说,数据清洗会占据他们80%的工作时间,而真正用来分析数据的时间只占到20%左右。 所以,数据清洗到底是在清洗些什么? 通常来说,你所获取到的原始数据不能直接用来分析,因为它们
需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉state这一列的所有NaN 合并各