PANDAS确定自动读取EXCEL文件的header(绕过开头的合并单元格，找字段名所在行数作为header)

2022-01-01 20:05:54 阅读：195 来源： 互联网

标签：head name df excel 单元格 EXCEL header list

工作中经常需要处理大量的EXCEL文件入数据库，但很多人做表格第一行都是合并的表格名称，并且合并的行数不确定(即pandas read_excel时，多个文件的header不能确定)，下面的def get_head可以自动判断header的值，下面的代码可以实现删掉一个文件夹里所有excel文件最上方的合并单元格。如下图所示

！！！！！注:下面的代码如果前五行里出现了不在字段名内的数据，可能识别错误。

 1 # -*- coding:utf-8 -*-
 2 # 读取当前目录下所有excel文件,并且输出第一行是excel的表头
 3 import os
 4 import pandas as pd
 5 def get_head(df): # 根据df表第一个出现的非空字符最多的行数最为header的函数
 6     list_temp=[]
 7     for i in range(0,df.shape[0]):
 8         list_temp.append(df.iloc[i].count())
 9     return list_temp.index(max(list_temp))
10 
11 files= os.listdir('./')
12 for f in files:
13     if f.endswith('.xls') or f.endswith('.xlsx'):
14         df_sheetname=pd.read_excel(f,sheet_name=None,nrows = 1) #只读一行确定有多少
15         excel_name=f.replace('.xlsx','').replace('.xls','')    # 去掉文件名后的xlsx或xls
16         for s in list(df_sheetname):
17             df=pd.read_excel(f,sheet_name=s,header=None,dtype='str',nrows = 5) #只取前五行判断
18             head=get_head(df) # 使用函数得到 前五行里非空字符最多的行数（第一次出现的）
19             df=pd.read_excel(f,sheet_name=s,header=head,dtype='str') 
20             df.to_excel(excel_name+'_'+s+'_result.xlsx',index=False)
21             #df.to_csv
22             #df.to_sql 
23             print(excel_name+'_'+s+',OK！')
24 input("已经全部读取成功，请关闭页面")

标签：head,name,df,excel,单元格,EXCEL,header,list
来源： https://www.cnblogs.com/o0o0o9/p/15755962.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

PANDAS确定自动读取EXCEL文件的header(绕过开头的合并单元格，找字段名所在行数作为header)