pyspark-sql

表之间的PySpark正则表达式匹配2019-12-11 04:56:44

我正在尝试使用PySpark从列中提取正则表达式模式.我有一个包含正则表达式模式的数据框,然后有一个包含我要匹配的字符串的表. columns = ['id', 'text'] vals = [ (1, 'here is a Match1'), (2, 'Do not match'), (3, 'Match2 is another example'), (4, 'Do not match
如何将动态命名的列连接到字典中？2019-12-11 01:56:31

给定这些数据帧： IncomingCount ------------------------- Venue|Date | 08 | 10 | ------------------------- Hotel|20190101| 15 | 03 | Beach|20190101| 93 | 45 | OutgoingCount ------------------------- Venue|Date | 07 | 10 | ------------------------- Beach|
Python Spark DataFrame：用SparseVector替换null2019-11-11 22:58:15

在Spark中,我有以下名为“ df”的数据框,其中包含一些空条目： +-------+--------------------+--------------------+ | id| features1| features2| +-------+--------------------+--------------------+ | 185|(5,[0,1,4],[0.1,
python-如何使用“] | [”分隔符读取pyspark中的文件2019-11-11 21:58:46

数据如下所示： pageId] | [page] | [Position] | [sysId] | [carId 0005] | [宝马] | [南部] | [AD6] | [OP4 至少有50列和数百万行. 我确实尝试使用下面的代码来阅读： dff = sqlContext.read.format(“ com.databricks.spark.csv”).option(“ header”,“ true”).option(“ infe
python-PySpark数字窗口分组依据2019-11-10 15:06:14

我希望能够按步长设置Spark组,而不是单个值.有什么火花类似于PySpark 2.x的用于数字(非日期)值的窗口函数？类似于以下内容： sqlContext = SQLContext(sc) df = sqlContext.createDataFrame([10, 11, 12, 13], "integer").toDF("foo") res = df.groupBy(window("foo", step=2, start
python-PySpark：如何判断数据框的列类型2019-11-10 15:05:55

假设我们有一个称为df的数据框.我知道有使用df.dtypes的方法.但是我喜欢类似的东西 type(123)== int#注意int不是字符串我想知道是否有类似的东西： type(df.select(< column_name>).collect()[0] [1])== IntegerType 基本上,我想知道从数据帧直接获取IntegerType,StringType之类的
pyspark dataframe,groupby和计算列的方差2019-10-28 01:58:44

我想对pyspark数据框进行分组并计算特定列的方差.一般而言,这很容易,可以像这样完成 from pyspark.sql import functions as func AVERAGES=df.groupby('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 但是对于方差,在功能子模块中似乎没有任何聚合函数(我也
python-PySpark groupby和最大值选择2019-10-26 12:55:55

我有一个PySpark数据框 name city date satya Mumbai 13/10/2016 satya Pune 02/11/2016 satya Mumbai 22/11/2016 satya Pune 29/11/2016 satya Delhi 30/11/2016 panda Delhi 29/11/2016 brata BBSR 28/11/2016 brata Goa 30/10/2016
pyspark将数据框中的所有值替换为另一个值2019-10-25 00:58:10

我的pyspark数据框中有500列…有些是字符串类型,有些是int值,有些是布尔型(100个布尔型列). 现在,所有布尔值列都有两个不同的级别-是和否,我想将其转换为1/0 对于字符串,我有三个值：passed,failed和null.如何将这些空值替换为0？fillna(0)仅适用于整数 c1| c2 | c3 |c4|c5.....
python-读取pySpark中的文件范围2019-10-11 09:56:45

我需要在pySpark中读取连续文件.以下对我有用. from pyspark.sql import SQLContext file = "events.parquet/exportDay=2015090[1-7]" df = sqlContext.read.load(file) 我如何读取文件8-14？解决方法:使用花括号. file =“ events.parquet / exportDay = 201509 {08,09,10,11
python-用同一列的平均值填充Pyspark数据框列的空值2019-10-10 17:56:14

有了这样的数据框 rdd_2 = sc.parallelize([(0,10,223,"201601"), (0,10,83,"2016032"),(1,20,None,"201602"),(1,20,3003,"201601"), (1,20,None,"201603"), (2,40, 2321,"201601"), (2,30, 10,"201602"),(2
如何使用matplotlib绘制pyspark sql结果2019-10-06 02:55:58

我是pyspark的新手.我想使用matplotlib绘制结果,但不确定使用哪个函数.我搜索了一种将sql结果转换为pandas然后使用plot的方法.解决方法:嗨团队我找到了解决方案.我将sql数据帧转换为pandas数据帧,然后我能够绘制图形.下面是示例代码.from pyspark.sql import Row from pyspark.sq
python – PySpark：使用过滤函数后取一列的平均值2019-10-05 19:56:31

我使用以下代码来获得薪水大于某个阈值的人的平均年龄. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"}) 列的年龄是数字(浮点数),但我仍然收到此错误. py4j.protocol.Py4JJavaError: An error occurred while calling o86.agg. : scala.MatchError: age (of cla
如何在Spark SQL中的多个列上进行数据透视？2019-10-04 12:58:12

我需要在pyspark数据帧中转动多个列.示例数据框, >>> d = [(100,1,23,10),(100,2,45,11),(100,3,67,12),(100,4,78,13),(101,1,23,10),(101,2,45,13),(101,3,67,14),(101,4,78,15),(102,1,23,10),(102,2,45,11),(102,3,67,16),(102,4,78,18)] >>> mydf = spark.createDataFr
mysql – 使用for循环数组时使用INSERT INTO表ON DUPLICATE KEY时出错2019-10-02 08:16:28

我正在使用pyspark框架更新mysql数据库,并在AWS Glue服务上运行. 我有一个数据帧如下： df2= sqlContext.createDataFrame([("xxx1","81A01","TERR NAME 55","NY"),("xxx2","81A01","TERR NAME 55","NY"),("x103&qu
mysql – 如何在jdbc数据源中使用子查询来获取dbtable选项？2019-09-30 22:20:10

我想使用Spark来处理来自JDBC源的一些数据.但首先,我想在JDBC端运行一些查询来过滤列和连接表,而不是从JDBC读取原始表,而是将查询结果作为表加载到Spark SQL中. 加载原始JDBC表的以下语法适用于我： df_table1 = sqlContext.read.format('jdbc').options( url="jdbc:mysql://fo
在Python和PySpark中等效的R data.table滚动连接2019-07-27 12:57:42

有谁知道如何在PySpark中进行R data.table滚动连接？借用Ben here的滚动连接的例子和很好的解释; sales<-data.table(saleID=c("S1","S2","S3","S4","S5"), saleDate=as.Date(c("2014-2-20","2014-5-1","201
从PySpark DataFrame中的Python列表中删除元素2019-07-17 09:54:48

我试图从Python列表中删除一个元素： +---------------+ | sources| +---------------+ | [62]| | [7, 32]| | [62]| | [18, 36, 62]| |[7, 31, 36, 62]| | [7, 32, 62]| 我希望能够从上面列表中的每个列表中删除元素rm.我写了一个函数,可
python – Pyspark SQL Pandas UDF：返回一个数组2019-07-10 14:05:03

我正在尝试制作一个带有整数值的两列的pandas UDF,并根据这些值之间的差异返回一个小数组,其长度等于上述差异. 这是我到目前为止的尝试,我一直在尝试使用这种方法来实现这一点,但这里是一般的想法 import pandas as pd @pandas_udf(ArrayType(DecimalType()), PandasUDFType.SCA
python – 使用窗口函数时出现pyspark错误(Spark 2.1.0报告问题列未找到)？2019-07-05 23:58:54

更新：我创建了以下JIRA问题：https://issues.apache.org/jira/browse/SPARK-20086 状态：已修复！ (周末！这太快了！) UPDATE2：对于版本2.1.1,2.2.0,此问题在https://github.com/apache/spark/pull/17432中得到修复.所以我在http://people.apache.org/~pwendell
python – 如何使用Spark SQL在group by之后添加稀疏向量？2019-07-01 17:46:29

我正在做一个新闻推荐系统,我需要为用户和他们阅读的新闻建立一个表格.我的原始数据如下： 001436800277225 ["9161492","9161787","9378531"] 009092130698762 ["9394697"] 010003000431538 ["9394697","9426473","9428530"] 010156461231357
python – 访问PySpark中的count列2019-06-23 06:45:37

code: mydf = testDF.groupBy(testDF.word).count() mydf.show() output: +-----------+-----+ | word|count| +-----------+-----+ | she| 2208| | mothers| 93| | poet| 59| | moving| 18| | active| 6| | foot| 169| 我想
python – 上周一在Spark2019-06-08 15:42:42

我在Python API中使用Spark 2.0. 我有一个数据框,其列为DateType()类型.我想在包含最新星期一的数据框中添加一列. 我可以这样做： reg_schema = pyspark.sql.types.StructType([ pyspark.sql.types.StructField('AccountCreationDate', pyspark.sql.types.DateType(), True),

ICode9

表之间的PySpark正则表达式匹配2019-12-11 04:56:44

如何将动态命名的列连接到字典中？2019-12-11 01:56:31

Python Spark DataFrame：用SparseVector替换null2019-11-11 22:58:15

python-如何使用“] | [”分隔符读取pyspark中的文件2019-11-11 21:58:46

python-PySpark数字窗口分组依据2019-11-10 15:06:14

python-PySpark：如何判断数据框的列类型2019-11-10 15:05:55

pyspark dataframe,groupby和计算列的方差2019-10-28 01:58:44

python-PySpark groupby和最大值选择2019-10-26 12:55:55

pyspark将数据框中的所有值替换为另一个值2019-10-25 00:58:10

python-读取pySpark中的文件范围2019-10-11 09:56:45

python-用同一列的平均值填充Pyspark数据框列的空值2019-10-10 17:56:14

如何使用matplotlib绘制pyspark sql结果2019-10-06 02:55:58

python – PySpark：使用过滤函数后取一列的平均值2019-10-05 19:56:31

如何在Spark SQL中的多个列上进行数据透视？2019-10-04 12:58:12

mysql – 使用for循环数组时使用INSERT INTO表ON DUPLICATE KEY时出错2019-10-02 08:16:28

mysql – 如何在jdbc数据源中使用子查询来获取dbtable选项？2019-09-30 22:20:10

在Python和PySpark中等效的R data.table滚动连接2019-07-27 12:57:42

从PySpark DataFrame中的Python列表中删除元素2019-07-17 09:54:48

python – Pyspark SQL Pandas UDF：返回一个数组2019-07-10 14:05:03

python – 使用窗口函数时出现pyspark错误(Spark 2.1.0报告问题列未找到)？2019-07-05 23:58:54

python – 如何使用Spark SQL在group by之后添加稀疏向量？2019-07-01 17:46:29

python – 访问PySpark中的count列2019-06-23 06:45:37

python – 上周一在Spark2019-06-08 15:42:42