标签:pd read file test 操作 csv 数据 pandas
具体可参考pandas官方文档
1.使用pandas库载入表格数据
首先数据路径存在两种情况,一种是相对路径(ps:就是相对当前代码文件的路径位置);一种是绝对路径(ps:即在整个盘下的位置,绝对路径可以通过os.getcwd()方法来获取)
路径中使用单/或者双\
相对路径
绝对路径
C:/Users/Administrator/Documents/kaggle_data/test.csv
而pandas读取文本的方法有两种:pd.read_cv(),pd.read_table()
两者存在的区别就是前者一次是读取文本中的每一个数据,其中读取数据的依据是分隔符,默认逗号,而后者读取的是表格中的每一行数据,即“\t”
如果要使得两者输出相同的形式,就将两者的分割符都设置成逗号,或者都换成换行符号
import os
path = os.getcwd()
file_test = pd.read_csv('C:/Users/Administrator/Documents/kaggle_data/test.csv')#,sep='\t')#,index_col=['Name'])
file_test1 = pd.read_table('../Documents/kaggle_data/test.csv')#,sep=',')
print(path)
print(file_test)
print(file_test1)
#gender_submission
#file_test.head(3)
file_test1.head(3)
tsv文件指的是以“\t”进行分隔数据,而csv’文件则是逗号分隔数据,前者的加载可以使用pd.read_csv()方法
TSV文件与CSV文件的不同
2.逐块读取数据
chunker = pd.read_csv(".\\kaggle_data\\train.csv",chunksize=100)
for piece in chunker:
print(type(piece))
print(piece)
这里的chunker指的是步长,其中piece的数据类型为DataFrame,而逐块读取就是将数据进行划分,每次处理chunker大小的数据量,可以防止内存太小,没办法完全将整个文本中的存储下去
3.查看数据的基本类型
file.info() #输出数据的所有信息
file.dtypes#输出每一列的数据类型
file_train.describe()#数据的统计信息
具体可参考
pandas 查看数据的基本信息 DataFrame 篇
4.判断数据是否为空,为空的地方返回True,其余地方返回False
file_train.isnull().head()
如果判断为空,返回False,则使用
file_train.notnull().head()
将修改数据进行保存
file_tr.to_csv('.\\kaggle_data\\train_chinese.csv',encoding='utf-8')
标签:pd,read,file,test,操作,csv,数据,pandas 来源: https://blog.csdn.net/qq_42987423/article/details/120275524
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。