ICode9

精准搜索请尝试: 精确搜索
  • Pandas2022-08-07 15:33:22

    一、数据结构 Series Pandas Series 类似表格中的一个列(column),类似于一维数组,可以保存任何数据类型 Series 由索引(index)和列组成,函数如下: pandas.Series( data, index, dtype, name, copy) 参数说明: data:一组数据(ndarray 类型) index:数据索引标签,如果不指定,默认从 0 开始

  • 1.Pandas是什么2022-08-04 13:34:24

    Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。 图1:Pandas Logo Pa

  • 关于shape和axis的使用2022-08-01 09:32:25

    ​ 我自己对shape和axis的理解: shape表示的是维度,表示顺序是从外到内,比如一个Dataframe的形状是(4,5)那么shape[0]=4即Dataframe有4行,shape[1]=5即Dataframe有5列 <<Python数据科学手册>>P53,指出axis指定的是数组将会被折叠的维度,而不是将要返回的维度 如图所示: ​编辑   axis是跨

  • DataFrame 打印输出,避免换行2022-07-31 11:01:46

    DataFrame 控制台打印不换行 import pandas as pd pd.set_option('display.width', 1000) # 控制,可以不换行 是否换行效果对不: 【自动换行】:          取消【自动换行】后:  

  • Python: panda2022-07-30 20:00:26

      import pandas as pd df = pd.DataFrame(data={'id': [1, 2, 3], 'name': ['a', 'b', 'c']}) print(df) df.to_excel('z.xlsx')     import pandas as pd df = pd.DataFrame(data={'id':

  • spark sql 概述2022-07-26 11:03:47

    目录sparkspark sqlDataFrame使用方法 spark 基于内存的计算引擎,计算速度非常快,但是只涉及数据的计算,没有涉及数据的存储。 spark sql Spark sql不仅仅支持sql操作,还提供了例如外部数据源,以及各种优化 spark sql不仅提供了sql的api,还提供了DataFrame和Dataset的api ** spark sq

  • 大数据综合项目设计.考试复习题2022-07-22 17:32:02

    一、选择题 1. 对文件进行归档的命令为 D  。 A. dd B. cpio C. gzip D. tar 2. 改变文件所有者的命令为 C 。 A. chmod B. touch C. chown D. cat 3. 在给定文件中查找与设定条件相符字符串的命令为 A 。 A. grep B. gzip C. find D. sort 4. 建立一个新文件可以使用的命令为

  • 广播变量2022-07-17 17:08:37

    广播变量(BrocadCast)是Spark的一大特性,通过将小数据广播分发到每个执行任务的节点(Executor),从而避免了计算过程中的频繁拉去数据的网络带宽等开销。 Spark批处理和Spark Streaming流处理均支持广播变量。广播变量支持各种类型数据,包括数据、列表、Map、RDD、DataFrame等。     ob

  • python dataframe 一行变多行2022-07-06 12:03:06

    python代码报错: 'DataFrame' object has no attribute 'explode' 原因是pandas版本低于0.25,在0.25以上才有explode函数,所一不想升级的可以自己拆分 没有explode 原始数据: import pandas as pd df = pd.DataFrame({'country': ['China,US,Japan', 'Japan,EU,Austra

  • DataFrame 提取部分再转存为DataFrame2022-07-04 10:03:07

    DataFrame 提取一行后 就变成Series,DF的列(columns) 就变成Series的索引(index ),再保存到csv文件,格式就乱了 处理办法:将Series的value提取出来,变成list格式,用append()将所有提起的数据放在一起,再转成DataFrame格式,再添加原来的columns df = pd.read_csv('filename.csv') df1 = [

  • DataFrame数据处理--删除列2022-07-03 17:34:49

    原数据中第2,4,6。。。列没有用,需要删除 filename = 'Pnt_210101000000_page27' df = pd.read_csv(name+'.csv') # 删除第一行 单位符号 #df.drop(index=0, inplace = True) # 区power 列 #print(df.loc[:,'Power']) # 取第2列 #print(df.iloc[:,1]) lie = df.columns df.d

  • 20220703 爬虫&数据处理2022-07-03 13:32:40

    1、 昨天已经获取到数据,今天发现dataframe数据单列数据存储在一行中,分列不太好分,我上网查了下。从列表转换为dataframe,正常是存储为一行,需要转置下发现确实变成逗号分开的形式了。代码如下: data = get_data() df = pd.DataFrame(data=[data],index=['a']).T print(df.head()) 如

  • Pandas:数据分类2022-07-03 09:34:22

    1、分类数据 1.1创建分类数据 1.2 pd.Categorical() pandas.Categorical 可以创建一个类型数据序列到 DataFrame 中: 1.3CategoricalDtype对象 CategoricalDtype 是 pandas 的类型数据对象,它可以传入以下参数: categories: 没有缺失值的不重复序列 ordered: 布尔值,顺序的控制,默认

  • pandas数据结构2022-07-01 15:33:53

    1.Series是一种类似于一维数组的对象,它由一组数据和索引组成 1.1 仅有数据列表即可产生最简单的Series import pandas as pd s1 = pd.Series([1,'a',5.2,7]) print(s1) - 操作 s1.index##获取索引 #RangeIndex(start=0, stop=4, step=1) s1.values #array([1, 'a', 5.2, 7], d

  • DataFrame上次符合条件的行索引2022-06-29 19:34:43

    大佬1 import pandas as pd import numpy as np df = pd.DataFrame(np.random.random((10,3)), columns = ['A', 'B', 'C']) def _get_last_index(arr): res = arr[arr>0.5].index # get all index if len(res) == 0: # if there's

  • DataFrame计算上次符合条件到现在的位置2022-06-26 09:00:15

    想实现类似通达信BARSLAST 上次条件成立到现在的位置 得到大佬帮助,帮我写了以下代码 import pandas as pd import numpy as np df = pd.DataFrame(np.random.random((10,4)), columns = ['A', 'B', 'cond', 'D']) # 让 cond 列变成 True/False df.cond

  • python数据处理:获取Dataframe中的一列或一行2022-06-22 14:03:24

    解决方案 df['w'] #选择表格中的'w'列,使用类字典属性,返回的是Series类型 df.w #选择表格中的'w'列,使用点属性,返回的是Series类型 df[['w']] #选择表格中的'w'列,返回的是DataFrame属性 data[0:2] #返回第1行到第2行的所有行,前闭后开,包括前不包括后 data[1:2] #返回第

  • 转自蚂蚁学python :pandas 使用方2022-06-20 22:31:20

    Pandas数据读取 数据查看 查看数据的形状,返回(行数、 列数) data.shape 查看列名列表 data.columns 查看索引列 data.index 查香每列的数据类型 data.dtypes 数据结构 Series Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即

  • DataFrame转换为字典2022-06-20 09:31:45

    该to_dict()方法将列名设置为字典键将“ID”列设置为索引然后转置DataFrame是实现此目的的一种方法。to_dict()还接受一个’orient’参数,您需要该参数才能输出每列的值列表。否则,{index: value}将为每列返回表单的字典。 可以使用以下行完成这些步骤: >>> df.set_index('ID').T.to

  • Dataframe转换json时删除空值2022-06-09 14:03:32

    问题: 使用df.to_json(orcient='records')时得到这样的结果: [{"A":1,"B":4,"C":7},{"A":null,"B":5,"C":null},{"A":3,"B":null,"C":null}] 想要的到以下的结果: [{"A":1,"B

  • 7.Spark SQL2022-06-06 12:03:32

    未交原因:忘记交了   1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce,解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;hive 是把类 sql 的语句转换成 mapred

  • Python数据科学手册-Pandas:累计与分组2022-06-03 18:03:33

    简单累计功能 Series sum() 返回一个 统计值 DataFrame sum。默认对每列进行统计 设置axis参数,对每一行 进行统计 describe()可以计算每一列的若干常用统计值。 获取seaborn planets数据 github: https://github.com/mwaskom/seaborn-data.git windows: 放在用户目录下(在线下

  • 实验一 Pandas操作实验2022-06-02 18:00:55

    一、实验要求 按要求完成题目,在实验报告中应有代码和运行截图以及心得体会 二、实验题目 读取群文件“数据分析实验一”中的”us-state.csv”,加载为dataframe,要求读取state列作为行索引 选择出所有面积大于100000的州的数据 获取Arkansas,Texas,California三个州的数据 获取[5,10

  • Pandas中的DataFrame和pyspark中的DataFrame互相转换2022-06-02 14:01:33

    一、Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换: # pandas转spark values = pandas_df.values.tolist() columns = pandas_df.columns.tolist() spark_df = spark.createDataFrame(values, columns) # spark转pandas pandas_df = spark_df.toPandas() 二、Spark和

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有