ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

工作,python中对应excel操作

2021-11-11 18:01:36  阅读:137  来源: 互联网

标签:city 数据表 python price excel id df inner 对应


1,


#python中Excel操作
import numpy as np
import pandas as pd
###################################1,写入数据
df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
                   "date":pd.date_range('20130102', periods=6),
                   "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
                    "age":[23,44,54,32,34,32],
                    "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
                    "price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])

###################################2,数据表检查
#数据维度
df.shape
#数据表信息
df.info()
#数据格式
df.dtypes
df['age'].dtype
#查看空值
df.isnull()
df['price'].isnull()
#查看唯一值
df['city'].unique()
#查看数据表中的值
df.values
#查看列名称
df.columns
#查看前10行,后10行
df.head(10)
df.tail()

#################################3,数据表清洗
#删除数据表中含有空值的行
df.dropna(how='any')
#使用数字0填充数据表中空值
df.fillna(value=0)
#使用price均值对NA进行填充
df['price']=df['price'].fillna(df['price'].mean())
#清理空格
#清除city字段中的字符空格
df['city']=df['city'].map(str.strip),
#city列大小写转换
df['city']=df['city'].str.lower()
#更改数据格式
df['price'].astype('int')
#更改列名称
df.rename(columns={'category': 'category-size'})
#删除先出现的重复值
df['city'].drop_duplicates(keep='last')
#数据替换
df['city'].replace('sh', 'shanghai')

###################################4,数据预处理
#建立df1数据表
df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
                      "gender":['male','female','male','female','male','female','male','female'],
                      "pay":['Y','N','Y','Y','N','Y','N','Y',],
                      "m-point":[10,12,20,40,40,40,30,20]})
#数据表匹配合并
df_inner=pd.merge(df,df1,how='inner')
#设置索引列
df_inner.set_index('id')
#按特定列的值排序
df_inner.sort_values(by=['age'])
#按索引列排序
df_inner.sort_index()
#如果price列的值>3000,group列显示high,否则显示low
df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')
#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price']>= 4000), 'sign']=1

#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列名称为category和size/
???????????????????????????
[x.split('-') for x in df_inner['category']]
split=pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size'])

#将完成分列后的数据表与原df_inner数据表进行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)


###################################5,#数据提取
#按索引提取单行的数值
df_inner.loc[3]
#按索引提取区域行数值
df_inner.loc[0:3]
#重设索引
df_inner.reset_index()
#设置日期为索引
df_inner=df_inner.set_index('date')
#提取4日之前的所有数据
df_inner[:'2013-01-04']

#使用iloc按位置区域提取数据
df_inner.iloc[:3,:2]

#使用iloc按位置单独提取数据
df_inner.iloc[[0,2,5],[4,5]]

#使用ix按索引标签和位置混合提取数据
df_inner.ix[:'2013-01-03',:4]

#判断city列的值是否为beijing
df_inner['city'].isin(['beijing'])
#先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。
df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

###################################5,数据筛选
#使用“与”条件进行筛选
df_inner.loc[ (df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','gender']]

#使用“非”条件进行筛选
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','gender']].sort_values(['id'])

#对筛选后的数据按city列进行计数
df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','gender']].sort_values(['id']).city.count()

#使用query函数进行筛选
df_inner.query('city == ["beijing", "shanghai"]')

#对筛选后的结果按price进行求和
df_inner.query('city == ["beijing", "shanghai"]').price.sum()





###################################6,数据汇总
#对所有列进行计数汇总
df_inner.groupby('city').count()
#对特定的ID列进行计数汇总
df_inner.groupby('city')['id'].count()
#对两个字段进行汇总计数
df_inner.groupby(['city','size'])['id'].count()
#对city字段进行汇总并计算price的合计和均值。
df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

#数据透视
#设定city为行字段,size为列字段,price为值字段。
#分别计算price的数量和金额并且按行与列进行汇总。
pd.pivot_table(df_inner,index=["city"],values=["price"],columns=["size"],aggfunc=[len,np.sum],fill_value=0,margins=True)

###################################7,数据统计
#简单的数据采样
df_inner.sample(n=3)
#手动设置采样权重
weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)
#采样后不放回
df_inner.sample(n=6, replace=False)
#采样后放回
df_inner.sample(n=6, replace=True)
#描述统计
#数据表描述性统计
df_inner.describe().round(2).T
df_inner.describe().round(2)

#相关性分析
df_inner['price'].corr(df_inner['m-point'])

#数据表相关性分析
df_inner.corr()
###################################8,数据输出
#输出到Excel格式
df_inner.to_Excel('Excel_to_Python.xlsx', sheet_name='bluewhale_cc')

#输出到CSV格式
df_inner.to_csv('Excel_to_Python.csv')



标签:city,数据表,python,price,excel,id,df,inner,对应
来源: https://blog.csdn.net/u013120862/article/details/121272924

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有