pandas中数据基础操作

2021-09-13 23:31:11 阅读：185 来源： 互联网

标签：pd read file test 操作 csv 数据 pandas

1.使用pandas库载入表格数据
首先数据路径存在两种情况，一种是相对路径（ps：就是相对当前代码文件的路径位置）；一种是绝对路径（ps：即在整个盘下的位置，绝对路径可以通过os.getcwd（）方法来获取）
路径中使用单/或者双\

相对路径
在这里插入图片描述
绝对路径

C:/Users/Administrator/Documents/kaggle_data/test.csv

而pandas读取文本的方法有两种：pd.read_cv(),pd.read_table()
两者存在的区别就是前者一次是读取文本中的每一个数据，其中读取数据的依据是分隔符，默认逗号，而后者读取的是表格中的每一行数据，即“\t”

参考 Pandas读取文件（read_csv与read_table 的区别）

如果要使得两者输出相同的形式，就将两者的分割符都设置成逗号，或者都换成换行符号

import os
path =  os.getcwd()
file_test = pd.read_csv('C:/Users/Administrator/Documents/kaggle_data/test.csv')#,sep='\t')#,index_col=['Name'])
file_test1 = pd.read_table('../Documents/kaggle_data/test.csv')#,sep=',')
print(path)
print(file_test)
print(file_test1)
#gender_submission
#file_test.head(3)
file_test1.head(3)

参考
pd.read.table()读取数据文件
 Pandas csv读写文件

tsv文件指的是以“\t”进行分隔数据，而csv’文件则是逗号分隔数据，前者的加载可以使用pd.read_csv()方法
TSV文件与CSV文件的不同

2.逐块读取数据

chunker = pd.read_csv(".\\kaggle_data\\train.csv",chunksize=100)
for piece in chunker:
    print(type(piece))
    print(piece)

这里的chunker指的是步长，其中piece的数据类型为DataFrame，而逐块读取就是将数据进行划分，每次处理chunker大小的数据量，可以防止内存太小，没办法完全将整个文本中的存储下去

参考pandas逐块读取文件

3.查看数据的基本类型

file.info() #输出数据的所有信息
file.dtypes#输出每一列的数据类型
file_train.describe()#数据的统计信息

具体可参考
pandas 查看数据的基本信息 DataFrame 篇

4.判断数据是否为空，为空的地方返回True，其余地方返回False

file_train.isnull().head()

如果判断为空，返回False，则使用

file_train.notnull().head()

将修改数据进行保存

file_tr.to_csv('.\\kaggle_data\\train_chinese.csv',encoding='utf-8')

标签：pd,read,file,test,操作,csv,数据,pandas
来源： https://blog.csdn.net/qq_42987423/article/details/120275524

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

pandas中数据基础操作