df

Python_pandas处理数据格式和统计频次2022-05-09 18:34:43

Pandas 数据处理 Pandas 数据预处理--格式问题知识点说明读入和写出结构化数据--处理-清洗-变换 enumerate zip sorted reversed import numpy as np Numpy -- ndarray --数组计算框架 np.array -- 向量化运算数组的切片、数组子集-视图--对视图的修改会影响到
7.Spark SQL2022-05-09 18:04:44

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用
K-means图像聚类2022-05-09 16:04:29

图像聚类，将一堆各种各样原始图像文件中，通过算法模型进行图片特征提取，然后采用聚类算法对特征进行聚类，将相似的图片进行分组归为一类。这里介绍K-means算法对特征进行聚类，可应用于测试数据的清洗、数据的搜索。特征提取首先介绍下用到的算法模型：Vgg16卷积网络模型，CNN模型的一种
7. Spark SQL2022-05-08 13:03:34

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因　　hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序复杂性。同时也由
利用csv文件信息，将图片名信息保存到csv文件当中2022-05-07 20:32:08

我们可以利用train.csv文件信息，再结合给定的文件路径（path）信息，可以将给定字目录下的图片名信息整合到scv文件当中。 train.csv文件格式：图片名信息：代码如下: from glob import glob import pandas as pd import os def enrich_data(df, sdir="train"): imgs = glob(os.p
7. Spark SQL2022-05-07 12:36:33

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因: SparkSQL的前身Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。 SparkS
pandas子集选取的三种方法：[]、.loc[]、.iloc[]2022-05-03 20:34:46

pandas读取Excel、csv文件中的数据时，得到的大多是表格型的二维数据，在pandas中对应的即为DataFrame数据结构。在处理这类数据时，往往要根据据需求先获取数据中的子集，如某些列、某些行、行列交叉的部分等。可以说子集选取是一个非常基础、频繁使用的操作，而DataFrame的子集选取看似简
Pandas 对数值进行分箱操作的4种方法总结对比2022-05-03 11:00:49

分箱是一种常见的数据预处理技术有时也被称为分桶或离散化，他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中，我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。我们创建以下合成数据用于演示 import pandas as pd # version 1.3.5 import numpy as np def
python：pandas中dataframe的基本用法汇总2022-05-03 00:05:03

更加详细的内容可以查看：https://blog.csdn.net/hhtnan/article/details/80080240 （基本函数整理）一. DataFrame的创建创建一个空的dataframe df=pd.DataFrame(columns={"a":"","b":"","c":""},index=[0]) out: a c b 0
python 删除 DataFrame表的最后一行的正确方法2022-05-03 00:02:49

import pandas as pd import numpy as np df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D']) print("df",df) # df.drop([-1],inplace=True) df.drop([len(df)-1],inplace=True) print(&quo
7.Spark SQL2022-05-01 15:35:06

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用
Pandas：添加修改、高级过滤2022-04-30 16:00:44

1、添加修改数据 Pandas 的数据修改是进行赋值，先把要修改的数据筛选出来，然后将同结构或者可解包的数据赋值给它：修改数值 df.Q1 = [1, 3, 5, 7, 9] * 20 # 就会把值进行修改 df.loc[1:3, 'Q1':'Q2'] = 99 # 这个范围的数据会全变成 99 df.loc[df.name=='Arry', 'Q1':'Q4'] =
排查linux服务器磁盘占用大的方法2022-04-29 11:35:20

日常生活中会出现服务器的磁盘爆满，服务器负载过大的情况，有一种情况就是因为磁盘容量不够导致的。 du : disk usage,是通过搜索文件来计算每个文件的大小然后累加； du搜索到的文件只是一些当前存在的，没有被删除的，他计算的大小就是当前他认为存在的所有文件大小的累加和
Python将数据库的数据导出为Excel2022-04-29 10:33:59

本文使用pandas来获取数据库的数据并生成Excel表格，以下用PostgreSQL数据库为例安装第三方库 pip3 install sqlalchemy psycopg2 pandas openpyxl 数据库中有student数据表，如下 id name age sex 1 Tony 18 male 2 Jane 16 female 3 Jack 15 male 导出excel表的代码
期货：高频日内交易2022-04-28 18:05:06

高频交易基于低手续费，且交易判断成功的概率远大于失败的基础上的。朴素的思路是判断拐点，在拐点处产生快速交易。首先导入某一期货品种(分钟K线). df = pd.read_csv("JqData/RB2205.csv", index_col='date',parse_dates=['date'])[['open','close','low','high']]
7.Spark SQL2022-04-26 21:00:57

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为，Sark仅
7.Spark SQL2022-04-25 21:33:12

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据
centos7查看磁盘空间2022-04-25 10:33:19

1. df（disk free 的缩写）命令 df 命令可以让你查看所有已挂载磁盘的使用情况：预览输出的列依次表示：设备的设备文件位置；能容纳多少个 1024 字节大小的块；已用了多少个 1024 字节大小的块；还有多少个 1024 字节大小的块可用；已用空间所占的比例；设备挂载到了哪个挂载
Python学习笔记：natsort实现自然排序2022-04-24 00:01:50

一、介绍自然排序顺序（Natural sort order）不同于默认排序，针对字符串逐个比较对应位置字符的 ASCII 码方式，更关注字符串实际相对大小意义的排序。例如：需要根据年增长率（50%）对数据列进行排序，此时无法直接排序。可以借助第三方库（natsort）进行排序。二、natsort库 1.安装 pip install
Pandas复杂查询、数据类型转换、数据排序2022-04-23 21:00:16

Pandas高级操作 1、复杂查询（1）逻辑运算以DataFrame其中一列进行逻辑计算，会产生一个对应的bool值组成的Series 于是我们可以利用返回的bool列表进行一系列的数据查询（2）逻辑筛选数据 df[df['Q1'] == 8] # Q1 等于8 df[~(df['Q1'] == 8)] # 不等于8
可视化 networkx2022-04-21 16:31:49

前言：参考资料：https://zhuanlan.zhihu.com/p/433680105 代码： g = nx.Graph() df_count = df['ID1'].value_counts().reset_index() df_count.columns = ['ID', 'count'] dict_count = dict() for index, row in df_count.iterrows(): dict_cou
docker垃圾处理2022-04-19 14:00:36

1 查找docker文件夹 find / -name docker 2 列举文件夹大小 du -h --time --max-depth=1 . df -h df -TH 3 Docker占用磁盘空间查看 docker system df 4 删除所有未运行的容器（也可以使用docker-gc） docker rm $(docker ps -a|grep Exited |awk '{print $1}') docker rm
按照A列进行分组并计算出B列每个分组的平均值，然后对B列内的每个元素减去分组平均值2022-04-17 21:01:53

大家好，我是皮皮。一、前言前几天在Python星耀交流群有个叫【在下不才】的粉丝问了一个Pandas的问题，按照A列进行分组并计算出B列每个分组的平均值，然后对B列内的每个元素减去分组平均值，这里拿出来给大家分享下，一起学习。二、解决过程这个看上去倒是不太难，但是实现的时候，总是一
python-因子分析2022-04-17 14:32:44

目录1、起源2、基本思想3、因子分析特点4、算法用途5、分析步骤6、应用实例6.1 数据处理6.2 可靠性检验6.3 提取公因子6.4 因子旋转6.5 计算因子得分 1、起源因子分析最早由英国心理学家C.Spearman发表了第一篇有关因子分析的文章《对智力测验得分进行统计分析》，从中提出的：他发
java中日期的加减,比较,以及与String的互相转换2022-04-16 09:32:12

java中日期加减: add(int field, int amount) 第一个参数为作用域，可以是年，月，日，天，周，小时等，第二个参数为增加的值（注意，可以为负数）。 GregorianCalendar.add(Calendar.YEAR, -1); 表示年份减一. GregorianCalendar.add(Calendar.MONTH, -1); 表示月份减一. GregorianCalendar.add(C

首页 < 4 5 6 7 8 > 尾页

ICode9

Python_pandas处理数据格式和统计频次2022-05-09 18:34:43

7.Spark SQL2022-05-09 18:04:44

K-means图像聚类2022-05-09 16:04:29

7. Spark SQL2022-05-08 13:03:34

利用csv文件信息，将图片名信息保存到csv文件当中2022-05-07 20:32:08

7. Spark SQL2022-05-07 12:36:33

pandas子集选取的三种方法：[]、.loc[]、.iloc[]2022-05-03 20:34:46

Pandas 对数值进行分箱操作的4种方法总结对比2022-05-03 11:00:49

python：pandas中dataframe的基本用法汇总2022-05-03 00:05:03

python 删除 DataFrame表的最后一行的正确方法2022-05-03 00:02:49

7.Spark SQL2022-05-01 15:35:06

Pandas：添加修改、高级过滤2022-04-30 16:00:44

排查linux服务器磁盘占用大的方法2022-04-29 11:35:20

Python将数据库的数据导出为Excel2022-04-29 10:33:59

期货：高频日内交易2022-04-28 18:05:06

7.Spark SQL2022-04-26 21:00:57

7.Spark SQL2022-04-25 21:33:12

centos7查看磁盘空间2022-04-25 10:33:19

Python学习笔记：natsort实现自然排序2022-04-24 00:01:50

Pandas复杂查询、数据类型转换、数据排序2022-04-23 21:00:16

可视化 networkx2022-04-21 16:31:49

docker垃圾处理2022-04-19 14:00:36

按照A列进行分组并计算出B列每个分组的平均值，然后对B列内的每个元素减去分组平均值2022-04-17 21:01:53

python-因子分析2022-04-17 14:32:44

java中日期的加减,比较,以及与String的互相转换2022-04-16 09:32:12