SparkSql

oracleSQL 转 SPARKSQL（hiveSql）及常用优化2020-05-25 18:54:58

背景数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。转换 exist 转换为 left sime join，lef
SparkSQL总结2020-05-05 20:06:33

RDD、DataFrame、Dataset的区别在RDD中，可以知道每个元素的具体类型，可以说将每一个用户数据封装为Person类型，RDD每个元素都是Person类型 DataFrame spark2.0已弃用，DF中每一行数据的包装类型是不允许被自定义的，统一为ROW类型 Dataset是强类型数据，在数据插入之前就可以越低存入的对
Spark 集成 Hive2020-04-15 15:40:39

Hive查询流程及原理执行HQL时，先到MySQL元数据库中查找描述信息，然后解析HQL并根据描述信息生成MR任务 Hive将SQL转成MapReduce执行速度慢使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库，然后通过SparkSQL执行引擎去操作Hive表内的数据所以首先需要开启Hi
大数据之sparksql常用函数2020-04-04 14:53:51

1、桥接+子查询+交叉连接 select p.project_name as project_name from ods_pms_t_project_work_1217 w left join ods_pms_t_project_user_1217 u on w.user_id = u.id and w.work_hour > 0 left join ( select t1.project_id as projec
记一次--------sparkSQL程序local模式运行不起来，增加参数配置spark.locality.wait2020-03-25 22:52:14

问题：跑本地模式一直卡在下图最下面日志部分30分钟不动查看运行日志一直卡在箭头处不动，没有任何报错。因为处理逻辑只是简单的sparksql两个表left join， union， having等简单的函数操作。测试环境数据仅有3w条。虽然将程序打包到集群，但还是跑的local模式，下面
SparkSQL(一)——概述2020-03-05 16:00:31

什么是sparksql 它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口，而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点，专门用于访问结构化的数据。sql语句在底层转换成RDD，类似于hql语句在底层转换成mr程序，但是s
idea开发SparkSQL程序2020-03-01 15:00:51

首先导入maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dep
SparkSQL | 窗口函数2020-03-01 13:41:02

窗口函数的定义引用一个大佬的定义： a window function calculates a return value for every input row of a table based on a group of rows。窗口函数与与其他函数的区别: 普通函数: 作用于每一条记录，计算出一个新列(记录数不变); 聚合函数: 作用于一组记录(全部数据按
如何查看SparkSQL 生成的抽象语法树？2020-02-22 13:52:17

前言在《Spark SQL内核剖析》书中4.3章节，谈到Catalyst体系中生成的抽象语法树的节点都是以Context来结尾，在ANLTR4以及生成的SqlBaseParser解析SQL生成，其源码部分就是语法解析，其生成的抽象语法树的节点都是ParserRuleContext的子类。提出问题 ANLTR4解析SQL生成抽象
SparkSQL 如何自定义函数2020-02-04 22:52:56

1. SparkSql如何自定义函数 2. 示例：Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数？　　spark中我们定义一个函数，需要继承 UserDefinedAggregateFunction这个抽象类，实现这个抽象类中所定义的方法，这是一个模板设计模式？我只要实现抽象类的中方法，具体的所有的计算步
31.电视采集项目流程spark篇通过sparksql处理业务逻辑2020-02-03 17:00:16

新建包 package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class Acce
Sparksql的介绍以及常见操作2020-01-28 21:55:36

撰写本文的目的：对于sparksql，网上有大量的详细文档，本人针对常用的操作进行一个整理，当然有大多数都是从其他地方搬过来的，包括官方文档以及其他网友的一些分享，一来是通过此次整理加强自己的记忆，二来如果有幸帮到某位网友，那是本人莫大的荣幸，先感谢您的阅读，废话不多说，进入正文：　　　　
如何用SparkSQL 创建kudu的关联表2020-01-17 12:41:17

从kudu的官方文档中可以看到spark 如何集成kudu的。从文档中的demo可以看到，kudu表的创建只能调用NOSQL API 来实现，无法通过spark sql直接创建一张kudu表。spark sql查询kudu表也是先注册一张临时表后，才能用sql 语句查询的。那么有没有方法在spark sql上直接提交一个Create
sparksql_删除行_去除行2020-01-12 14:39:36

#income列缺失太多，基本无用了，现在要去掉这一列数据 #thresh=3 表示一行中非NONE的数据少于3个则去除该行 #income列缺失太多，基本无用了，现在要去掉这一列数据 df_miss_no_income = df_miss.select([c for c in df_miss.columns if c != 'income']) df_miss_no_income.show()
sparksql_分析航线数据_DataFrame场景2020-01-11 21:39:32

sparksql_分析航线数据_DataFrame场景 # Set File Paths # 设置文件路径读取csv文件 flightPerfFilePath = "/databricks-datasets/flights/departuredelays.csv" airportsFilePath = "/databricks-datasets/flights/airport-codes-na.txt" # 获得起飞延时数据集加载数
sparksql sql 对应关系2019-11-29 21:02:02

json 数据源 {"name":"Michael","sex":"female"}{"name":"Andy", "age":30,"sex":"male"}{"name":"Justin", "age":19,"sex":"male&q
Hive环境搭建和SparkSql整合2019-11-21 17:01:56

一、搭建准备环境在搭建Hive和SparkSql进行整合之前，首先需要搭建完成HDFS和Spark相关环境这里使用Hive和Spark进行整合的目的主要是： 1、使用Hive对SparkSql中产生的表或者库的元数据进行管理（因为SparkSql没有提供相关的功能，官方提供的是和Hive的整合方案，官方之所以不在独立去开
sparksql系列(五) SparkSql异常处理，优化，及查看执行计划2019-10-20 23:00:31

有了上面四篇文章，再加上一些异常处理、优化，开发基本就没什么问题了。下面我们开始：一：SparkSql异常处理读JSON文件异常处理　　　　val sparkSession= SparkSession.builder().master("local").getOrCreate() 　　　　var df2 = sparkSession.emptyDataFrame 　　　　
spark教程(九)-sparkSQL 和 RDD-DF-DS 关系2019-10-18 15:04:22

sparkSQL 的由来我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive； hive 是把类 sql 的语句转换成 mapreduce，解决了开发难的问题，但是 hive 的底层还是 mapreduce，仍然是慢； spark 也看到了 hive 的优势，以 hive 为中心的一套框架 shark
sparksql系列(一)环境搭建2019-10-13 20:03:58

以前公司用的是spark-core，但是换工作后用的多是spark-sql。最近学习了很多spark-sql，在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本：https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g SCALA安装包：https://pan.baidu.com/s/17f8AiS2n_g5kiQhxf7XIlAhadoo
Spark2.2（五）SparkSQL读写Hive2019-09-20 18:06:03

IDEA中使用SparkSQL读写Hive 添加依赖 libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "2.2.0", "org.apache.spark" %% "spark-sql" % "2.2.0",
SparkSQL(一)2019-09-19 18:50:23

一、概述组件运行机制转 SparkSQL – 从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器（原创翻译）更高效查询优化优化：把filter提前
SparkSQL连接查询中的谓词下推处理（2）2019-09-13 17:06:27

本文主要介绍的是外连接查询中的谓词下推规则，这相比内连接中的规则要复杂一些，不过使用简单的表格来进行分析也是可以分析清楚的。以左外连接查询为例，先总结规矩如下：接下来对这个表格中的规则进行详细的分析。 1、左表join后条件下推 select a.id, a.value,
Spark系列——从零学习SparkSQL编程（下）2019-08-16 15:57:10

5. 导入Java依赖要使用SparkSQL的API，首先要导入Scala，Spark，SparkSQL的依赖：<properties><scala.version>2.11.8</scala.version><hadoop.version>2.7.4</hadoop.version><spark.version>2.0.2</spark.version></properties><dependencie
第2章执行SparkSQL查询2019-08-12 20:54:46

第2章执行SparkSQL查询 2.1 命令行查询流程打开Spark shell 例子：查询大于30岁的用户创建如下JSON文件，注意JSON的格式： {"name":"Michael"} {"name":"Andy", "age":30}{"name":"Justin", "age":19} 2.2 IDEA创建SparkSQL程序 I

首页 < 2 3 4 5 > 尾页

ICode9

oracleSQL 转 SPARKSQL（hiveSql） 及常用优化2020-05-25 18:54:58

SparkSQL总结2020-05-05 20:06:33

Spark 集成 Hive2020-04-15 15:40:39

大数据之sparksql常用函数2020-04-04 14:53:51

记一次--------sparkSQL程序local模式运行不起来，增加参数配置spark.locality.wait2020-03-25 22:52:14

SparkSQL(一)——概述2020-03-05 16:00:31

idea开发SparkSQL程序2020-03-01 15:00:51

SparkSQL | 窗口函数2020-03-01 13:41:02

如何查看SparkSQL 生成的抽象语法树？2020-02-22 13:52:17

SparkSQL 如何自定义函数2020-02-04 22:52:56

31.电视采集项目流程spark篇通过sparksql处理业务逻辑2020-02-03 17:00:16

Sparksql的介绍以及常见操作2020-01-28 21:55:36

如何用SparkSQL 创建kudu的关联表2020-01-17 12:41:17

sparksql_删除行_去除行2020-01-12 14:39:36

sparksql_分析航线数据_DataFrame场景2020-01-11 21:39:32

sparksql sql 对应关系2019-11-29 21:02:02

Hive环境搭建和SparkSql整合2019-11-21 17:01:56

sparksql系列(五) SparkSql异常处理，优化，及查看执行计划2019-10-20 23:00:31

spark教程(九)-sparkSQL 和 RDD-DF-DS 关系2019-10-18 15:04:22

sparksql系列(一)环境搭建2019-10-13 20:03:58

Spark2.2（五）SparkSQL读写Hive2019-09-20 18:06:03

SparkSQL(一)2019-09-19 18:50:23

SparkSQL连接查询中的谓词下推处理（2）2019-09-13 17:06:27

Spark系列——从零学习SparkSQL编程（下）2019-08-16 15:57:10

第2章 执行SparkSQL查询2019-08-12 20:54:46

oracleSQL 转 SPARKSQL（hiveSql）及常用优化2020-05-25 18:54:58

第2章执行SparkSQL查询2019-08-12 20:54:46