目录 项目来源一、研究背景二、研究问题三、查看数据四、数据清洗4.1缺失值处理4.2重复值处理4.3数据类型转换4.4异常值处理 五、EDA及可视化分析5.1查看流失用户占比5.2用户个人属性分析5.3服务属性分析5.4行为属性分析5.5小结 六、构建预测模型6.1特征离散化6.2特征编码6
文章目录 DataWhale-Pandas数据分析-Task7【任务一】企业收入的多样性【任务二】【任务三】 DataWhale-Pandas数据分析-Task7 记录DataWhale的Pandas数据分析的学习过程,本次是期中测试,测试前面6章学的怎么样(划水的菜鸡瑟瑟发抖)。本篇文章中的测试题及源数据可以从此链接
学习笔记(五) 聚宽函数学习:在实际聚宽的运用时,用到的函数 环境是以聚宽打开的notebook 1.得到指数的数据 df1 = get_price(‘000300.XSHG’, start_date=‘2017-01-01’,end_date=‘2020-12-01’, frequency=‘daily’, fields=[‘open’, ‘close’]) # XSHG是指数,XSHE就是股
文章目录 写在前面一、关系型连接1. 连接的基本概念2. 值连接【练一练】 3. 索引连接 二、方向连接1. concat2. 序列与表的合并 三、类连接操作1. 比较2. 组合【练一练】【练一练】 四、练习Ex1:美国疫情数据集Ex2:实现join函数 写在前面 本文内容源自Datawhale 组队学
第六章 连接 一、关系型连接 1、连接的基本概念 把两张相关的表按照某一个或某一组键连接起来是一种常见操作,这个键十分重要,往往用on参数表示。 另一个重要的要素是连接的形式,连接函数merge和join中提供了how参数来代表连接方式,分为左连接left、右连接right、内连接inner、外
一、关系型连接 连接中有两个基本的要素:键和连接形式 键表示两张表根据什么来连接,比如企业员工的各类信息表根据员工ID号会汇总,那这时候员工ID号就是键了,键可以是一个也可以是一组 连接形式分为:左连接、右连接、内连接、外连接。左连接表示以调用的表为主,被调用表中存在调用
pandas学习笔记(六) —连接 关系型连接 1.连接的基本概念 连接的两个重要要素: 键:用on参数,将两张相关的表按照某一个或某一组键连接起来是一种操作。 连接的形式:在pandas中的关系型连接函数merge和join中提供了how参数来代表连接的形式,分为: 左连接left 右连接right 内连接inner 外
第六章 pandas连接 小结 原文指路:joyful-pandas jupyter nbconvert --to markdown E:\PycharmProjects\TianChiProject\00_山枫叶纷飞\competitions\008_joyful-pandas\06_pandas连接.ipynb import numpy as np import pandas as pd 1. 连接的基本概念 (说白了就是SQL的join)
最近,小F在知乎上看到一个关于抖音的问题。 里面提到了,目前我国人均每天刷短视频110分钟。 看这数据,看来小F又被平均了。 不过老实说,只要一打开抖音,小F确实是有一种停不下来的感觉~ 所以还是少刷抖音,多看书。要不然时间全流逝了。 本期就给大家用数据分
最近,小F在知乎上看到一个关于抖音的问题。 里面提到了,目前我国人均每天刷短视频110分钟。 看这数据,看来小F又被平均了。 不过老实说,只要一打开抖音,小F确实是有一种停不下来的感觉~ 所以还是少刷抖音,多看书。要不然时间全流逝了。 本期就给大家用数据分
Pandas层次化索引 创建多层索引 隐式构造 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组 df = DataFrame( data=np.random.randint(0,100,size=(6,6)), index=[['一班','一班','一班','二班','二班','二班'],['张三',
我的数据框如下所示: ID Class 0 9 1 8 1 6 2 6 2 2 3 15 3 1 3 8方法一: 将^{}与^{}一起用于新列,按^{}重塑,按^{}重命名列: df = df.set_
import pandas as pd df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B&
1、级联操作concat()函数 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: objs:series,dataframe或者是panel构成的序列lsit axis:需要合并链接的轴,0是行,1是列 ,默认axis=0 join:'outer' / 'inner':表示的是级联的方式,outer会将所有的项
一、关于文件读写的笔记 文件的使用分为3步:打开文件、读写文件、关闭文件。 1. 打开文件 变量名 = open (文件名, 打开模式) 打开模式 说明 r 只读模式 (默认),文件不存在则返回FileNotFoundError异常 w 覆盖写模式,文件不存在则创建,存在则覆盖写 x 创建
一、文件读写笔记 1、文件的类型 文件概述:-文件时存储在辅助存储器上的数据序列 -文件时数据存储的一种形式 -文件的展现形态:文本文件和二进制文件 文本文件:-由单一特定的编码组成的文件,如UTF-8
import pandas as pd df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz','foo'], 'value': [1, 2, 3,5]}) df2 = pd.DataFrame({'rkey': ['foo', 'bar', &
concat concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合 pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False) 1 2 参数说明 objs: series,dataframe或者是p
文章目录1. read_csv2. select_dtypes3. copy4. map5. 用不用apply?10. 基于分位数分组11. to_csv @本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文为你介绍Pandas隐藏的炫酷小技巧,我相信这些会对你有所帮助。 或许本文中的某些命令你早已知晓,只是没意识到它
import matplotlib.pyplot as plt import matplotlib as mpl import pandas as pd mpl.rcParams['font.family'] = 'sans-serif' mpl.rcParams['font.sans-serif'] = ['SimHei'] mpl.rcParams['axes.unicode_minus'] = Fa
1.总计有27个excel表的数据, 将sheet2的前两列的数据写入mysql 2.查看有多少条数据,总计22245条 # -*- coding: utf-8 -*- # @Time : 2020/3/10 11:09 # @Author : 结尾!! # @FileName: 统计原始数据总计有多少.py # @Software: PyCharm import os import pandas as pd
设有两个dataframe:df1,df2 如果df3=df1.join(df2,df1.device_number=df2.device_number,"inner") df3就会出现两个相同列 device_number 此时改成df3=df1.join(df2,“device_number”,"inner") 就只有一个device_number了 如果想多列key则 df.join(df4, ['name', 'age
pandas join知识点总结。 创建两个dataframe df1 = pd.DataFrame({'A': [3, 4, 8, 9], 'B': [1.2, 2.4, 4.5, 7.3], 'C': ["aa", "bb", "cc", "dd"]}) df2 = pd.DataFrame({'D': [1, 2]}) 结果如下:
1、excel中做数据透视表 1)步骤如下 ① 选中整个数据源; ② 依次点击“插入”—“数据透视表” ③ 选择在Excel中的哪个位置,插入数据透视表 ④ 然后根据实际需求,从不同维度展示结果 ⑤ 结果如下 2、pandas中使用pivot_table()做数据透视表 1)语法格式 pd.pivot_table(data,inde
学习pandas两天了,关于这个增加行的问题一直困扰着我,测试了几个代码,终于搞通了一点(昨天是因为代码敲错了。。。) 直接上代码: 1 dates = pd.date_range('20170101',periods=6) 2 df1 = pd.DataFrame(np.arange(24).reshape((6,4)),index = dates,columns=['A','B','C','D'])