ICode9

精准搜索请尝试: 精确搜索
  • Python_pandas处理数据格式和统计频次2022-05-09 18:34:43

    Pandas 数据处理 Pandas 数据预处理--格式问题 知识点说明 读入和写出 结构化数据--处理-清洗-变换 enumerate zip sorted reversed import numpy as np Numpy -- ndarray --数组计算框架 np.array -- 向量化运算 数组的切片、数组子集-视图--对视图的修改会影响到

  • 7.Spark SQL2022-05-09 18:04:44

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用

  • K-means图像聚类2022-05-09 16:04:29

    图像聚类,将一堆各种各样原始图像文件中,通过算法模型进行图片特征提取,然后采用聚类算法对特征进行聚类,将相似的图片进行分组归为一类。这里介绍K-means算法对特征进行聚类,可应用于测试数据的清洗、数据的搜索。 特征提取 首先介绍下用到的算法模型:Vgg16卷积网络模型,CNN模型的一种

  • 7. Spark SQL2022-05-08 13:03:34

    1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因   hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的根本原因是其完全脱离了hive的限制,hive是hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序复杂性。同时也由

  • 利用csv文件信息,将图片名信息保存到csv文件当中2022-05-07 20:32:08

    我们可以利用train.csv文件信息, 再结合给定的文件路径(path)信息,可以将给定字目录下的图片名信息整合到scv文件当中。 train.csv文件格式: 图片名信息: 代码如下: from glob import glob import pandas as pd import os def enrich_data(df, sdir="train"): imgs = glob(os.p

  • 7. Spark SQL2022-05-07 12:36:33

    1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因:    SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。 SparkS

  • pandas子集选取的三种方法:[]、.loc[]、.iloc[]2022-05-03 20:34:46

    pandas读取Excel、csv文件中的数据时,得到的大多是表格型的二维数据,在pandas中对应的即为DataFrame数据结构。在处理这类数据时,往往要根据据需求先获取数据中的子集,如某些列、某些行、行列交叉的部分等。可以说子集选取是一个非常基础、频繁使用的操作,而DataFrame的子集选取看似简

  • Pandas 对数值进行分箱操作的4种方法总结对比2022-05-03 11:00:49

    分箱是一种常见的数据预处理技术有时也被称为分桶或离散化,他可用于将连续数据的间隔分组到“箱”或“桶”中。在本文中,我们将讨论使用 python Pandas 库对数值进行分箱的 4 种方法。 我们创建以下合成数据用于演示 import pandas as pd # version 1.3.5 import numpy as np def

  • python:pandas中dataframe的基本用法汇总2022-05-03 00:05:03

    更加详细的内容可以查看:https://blog.csdn.net/hhtnan/article/details/80080240 (基本函数整理) 一.  DataFrame的创建 创建一个空的dataframe  df=pd.DataFrame(columns={"a":"","b":"","c":""},index=[0]) out: a c b 0

  • python 删除 DataFrame表的最后一行的正确方法2022-05-03 00:02:49

    import pandas as pd import numpy as np df = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D']) print("df",df) # df.drop([-1],inplace=True) df.drop([len(df)-1],inplace=True) print(&quo

  • 7.Spark SQL2022-05-01 15:35:06

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用

  • Pandas:添加修改、高级过滤2022-04-30 16:00:44

    1、添加修改数据 Pandas 的数据修改是进行赋值,先把要修改的数据筛选出来,然后将同结构或者可解包的数据赋值给它: 修改数值 df.Q1 = [1, 3, 5, 7, 9] * 20 # 就会把值进行修改 df.loc[1:3, 'Q1':'Q2'] = 99 # 这个范围的数据会全变成 99 df.loc[df.name=='Arry', 'Q1':'Q4'] =

  • 排查linux服务器磁盘占用大的方法2022-04-29 11:35:20

    日常生活中会出现服务器的磁盘爆满,服务器负载过大的情况,有一种情况就是因为磁盘容量不够导致的。 du : disk usage,是通过搜索文件来计算每个文件的大小然后累加; du搜索到的文件只是一些当前存在的,没有被删除的,他计算的大小就是当前他认为存在的所有文件大小的累加和

  • Python将数据库的数据导出为Excel2022-04-29 10:33:59

    本文使用pandas来获取数据库的数据并生成Excel表格,以下用PostgreSQL数据库为例 安装第三方库 pip3 install sqlalchemy psycopg2 pandas openpyxl 数据库中有student数据表,如下 id name age sex 1 Tony 18 male 2 Jane 16 female 3 Jack 15 male 导出excel表的代码

  • 期货:高频日内交易2022-04-28 18:05:06

    高频交易基于低手续费,且交易判断成功的概率远大于失败的基础上的。 朴素的思路是判断拐点,在拐点处产生快速交易。 首先导入某一期货品种(分钟K线).  df = pd.read_csv("JqData/RB2205.csv", index_col='date',parse_dates=['date'])[['open','close','low','high']]

  • 7.Spark SQL2022-04-26 21:00:57

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MAPreduce作业。为了实现Hive的兼容,Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为,Sark仅

  • 7.Spark SQL2022-04-25 21:33:12

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据

  • centos7查看磁盘空间2022-04-25 10:33:19

    1. df(disk free 的缩写)命令 df 命令可以让你查看所有已挂载磁盘的使用情况:   预览   输出的列依次表示: 设备的设备文件位置; 能容纳多少个 1024 字节大小的块; 已用了多少个 1024 字节大小的块; 还有多少个 1024 字节大小的块可用; 已用空间所占的比例; 设备挂载到了哪个挂载

  • Python学习笔记:natsort实现自然排序2022-04-24 00:01:50

    一、介绍 自然排序顺序(Natural sort order)不同于默认排序,针对字符串逐个比较对应位置字符的 ASCII 码方式,更关注字符串实际相对大小意义的排序。 例如:需要根据年增长率(50%)对数据列进行排序,此时无法直接排序。 可以借助第三方库(natsort)进行排序。 二、natsort库 1.安装 pip install

  • Pandas复杂查询、数据类型转换、数据排序2022-04-23 21:00:16

    Pandas高级操作 1、复杂查询 (1)逻辑运算 以DataFrame其中一列进行逻辑计算,会产生一个对应的bool值组成的Series 于是我们可以利用返回的bool列表进行一系列的数据查询 (2)逻辑筛选数据 df[df['Q1'] == 8] # Q1 等于8 df[~(df['Q1'] == 8)] # 不等于8

  • 可视化 networkx2022-04-21 16:31:49

    前言: 参考资料:https://zhuanlan.zhihu.com/p/433680105 代码: g = nx.Graph() df_count = df['ID1'].value_counts().reset_index() df_count.columns = ['ID', 'count'] dict_count = dict() for index, row in df_count.iterrows(): dict_cou

  • docker垃圾处理2022-04-19 14:00:36

    1 查找docker文件夹 find / -name docker 2 列举文件夹大小 du -h --time --max-depth=1 . df -h df -TH 3 Docker占用磁盘空间查看 docker system df 4 删除所有未运行的容器(也可以使用docker-gc) docker rm $(docker ps -a|grep Exited |awk '{print $1}') docker rm

  • 按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值2022-04-17 21:01:53

    大家好,我是皮皮。 一、前言 前几天在Python星耀交流群有个叫【在下不才】的粉丝问了一个Pandas的问题,按照A列进行分组并计算出B列每个分组的平均值,然后对B列内的每个元素减去分组平均值,这里拿出来给大家分享下,一起学习。 二、解决过程 这个看上去倒是不太难,但是实现的时候,总是一

  • python-因子分析2022-04-17 14:32:44

    目录1、起源2、基本思想3、因子分析特点4、算法用途5、分析步骤6、应用实例6.1 数据处理6.2 可靠性检验6.3 提取公因子6.4 因子旋转6.5 计算因子得分 1、起源 因子分析最早由英国心理学家C.Spearman发表了第一篇有关因子分析的文章《对智力测验得分进行统计分析》,从中提出的:他发

  • java中日期的加减,比较,以及与String的互相转换2022-04-16 09:32:12

    java中日期加减:   add(int field, int amount) 第一个参数为作用域,可以是年,月,日,天,周,小时等,第二个参数为增加的值(注意,可以为负数)。 GregorianCalendar.add(Calendar.YEAR, -1); 表示年份减一. GregorianCalendar.add(Calendar.MONTH, -1); 表示月份减一. GregorianCalendar.add(C

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有