ICode9

精准搜索请尝试: 精确搜索
  • oracleSQL 转 SPARKSQL(hiveSql) 及常用优化2020-05-25 18:54:58

    背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 exist 转换 为 left sime join,lef

  • SparkSQL总结2020-05-05 20:06:33

    RDD、DataFrame、Dataset的区别 在RDD中,可以知道每个元素的具体类型,可以说将每一个用户数据封装为Person类型,RDD每个元素都是Person类型 DataFrame spark2.0已弃用,DF中每一行数据的包装类型是不允许被自定义的,统一为ROW类型 Dataset是强类型数据,在数据插入之前就可以越低存入的对

  • Spark 集成 Hive2020-04-15 15:40:39

     Hive查询流程及原理 执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务 Hive将SQL转成MapReduce执行速度慢   使用SparkSQL整合Hive其实就是让SparkSQL去加载Hive 的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据 所以首先需要开启Hi

  • 大数据之sparksql常用函数2020-04-04 14:53:51

    1、桥接+子查询+交叉连接 select   p.project_name as project_name from   ods_pms_t_project_work_1217 w   left join ods_pms_t_project_user_1217 u on w.user_id = u.id   and w.work_hour > 0   left join (     select       t1.project_id as projec

  • 记一次--------sparkSQL程序local模式运行不起来,增加参数配置spark.locality.wait2020-03-25 22:52:14

    问题:      跑本地模式 一直卡在下图最下面日志部分30分钟不动 查看运行日志一直卡在 箭头处不动,没有任何报错。 因为处理逻辑只是简单的sparksql两个表left join,  union, having等简单的函数操作。 测试环境 数据仅有3w条。   虽然将程序打包到集群,但还是跑的local模式, 下面

  • SparkSQL(一)——概述2020-03-05 16:00:31

    什么是sparksql 它是RDD与sql语句的结构体。RDD在底层提供了分布式的数据访问接口,而sql语句在上层提供了编写程序的方式。它兼具了RDD访问速度快、访问数据量大和sql语句易于开发的双重特点,专门用于访问结构化的数据。sql语句在底层转换成RDD,类似于hql语句在底层转换成mr程序,但是s

  • idea开发SparkSQL程序2020-03-01 15:00:51

    首先导入maven依赖 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dep

  • SparkSQL | 窗口函数2020-03-01 13:41:02

    窗口函数的定义引用一个大佬的定义: a window function calculates a return value for every input row of a table based on a group of rows。窗口函数与与其他函数的区别: 普通函数: 作用于每一条记录,计算出一个新列(记录数不变); 聚合函数: 作用于一组记录(全部数据按

  • 如何查看SparkSQL 生成的抽象语法树?2020-02-22 13:52:17

    前言     在《Spark SQL内核剖析》书中4.3章节,谈到Catalyst体系中生成的抽象语法树的节点都是以Context来结尾,在ANLTR4以及生成的SqlBaseParser解析SQL生成,其源码部分就是语法解析,其生成的抽象语法树的节点都是ParserRuleContext的子类。 提出问题     ANLTR4解析SQL生成抽象

  • SparkSQL 如何自定义函数2020-02-04 22:52:56

      1. SparkSql如何自定义函数 2. 示例:Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数?   spark中我们定义一个函数,需要继承 UserDefinedAggregateFunction这个抽象类,实现这个抽象类中所定义的方法,这是一个模板设计模式? 我只要实现抽象类的中方法,具体的所有的计算步

  • 31.电视采集项目流程spark篇通过sparksql处理业务逻辑2020-02-03 17:00:16

    新建包     package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class Acce

  • Sparksql的介绍以及常见操作2020-01-28 21:55:36

    撰写本文的目的:对于sparksql,网上有大量的详细文档,本人针对常用的操作进行一个整理,当然有大多数都是从其他地方搬过来的,包括官方文档以及其他网友的一些分享,一来是通过此次整理加强自己的记忆,二来如果有幸帮到某位网友,那是本人莫大的荣幸,先感谢您的阅读,废话不多说,进入正文:     

  • 如何用SparkSQL 创建kudu的关联表2020-01-17 12:41:17

    从kudu的官方文档中可以看到spark 如何集成kudu的。从文档中的demo可以看到,kudu表的创建只能调用NOSQL API 来实现,无法通过spark sql直接创建一张kudu表。spark sql查询kudu表也是先注册一张临时表后,才能用sql 语句查询的。 那么有没有方法在spark sql上直接提交一个Create

  • sparksql_删除行_去除行2020-01-12 14:39:36

    #income列缺失太多,基本无用了,现在要去掉这一列数据 #thresh=3 表示一行中非NONE的数据少于3个则去除该行 #income列缺失太多,基本无用了,现在要去掉这一列数据 df_miss_no_income = df_miss.select([c for c in df_miss.columns if c != 'income']) df_miss_no_income.show()

  • sparksql_分析航线数据_DataFrame场景2020-01-11 21:39:32

    sparksql_分析航线数据_DataFrame场景 # Set File Paths # 设置文件路径 读取csv文件 flightPerfFilePath = "/databricks-datasets/flights/departuredelays.csv" airportsFilePath = "/databricks-datasets/flights/airport-codes-na.txt" # 获得起飞延时数据集 加载数

  • sparksql sql 对应关系2019-11-29 21:02:02

    json 数据源 {"name":"Michael","sex":"female"}{"name":"Andy", "age":30,"sex":"male"}{"name":"Justin", "age":19,"sex":"male&q

  • Hive环境搭建和SparkSql整合2019-11-21 17:01:56

    一、搭建准备环境 在搭建Hive和SparkSql进行整合之前,首先需要搭建完成HDFS和Spark相关环境 这里使用Hive和Spark进行整合的目的主要是: 1、使用Hive对SparkSql中产生的表或者库的元数据进行管理(因为SparkSql没有提供相关的功能,官方提供的是和Hive的整合方案,官方之所以不在独立去开

  • sparksql系列(五) SparkSql异常处理,优化,及查看执行计划2019-10-20 23:00:31

    有了上面四篇文章,再加上一些异常处理、优化,开发基本就没什么问题了。下面我们开始: 一:SparkSql异常处理 读JSON文件异常处理     val sparkSession= SparkSession.builder().master("local").getOrCreate()     var df2 = sparkSession.emptyDataFrame     

  • spark教程(九)-sparkSQL 和 RDD-DF-DS 关系2019-10-18 15:04:22

    sparkSQL 的由来 我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive; hive 是把类 sql 的语句转换成 mapreduce,解决了开发难的问题,但是 hive 的底层还是 mapreduce,仍然是慢; spark 也看到了 hive 的优势,以 hive 为中心的一套框架 shark

  • sparksql系列(一)环境搭建2019-10-13 20:03:58

    以前公司用的是spark-core,但是换工作后用的多是spark-sql。最近学习了很多spark-sql,在此做一个有spark经验的sparksql快速入门的教程。 JDK安装包 1.8版本:https://pan.baidu.com/s/1pLW3jyKv3N_FhQ7vvE4U2g    SCALA安装包:https://pan.baidu.com/s/17f8AiS2n_g5kiQhxf7XIlAhadoo

  • Spark2.2(五)SparkSQL读写Hive2019-09-20 18:06:03

    IDEA中使用SparkSQL读写Hive 添加依赖 libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "2.2.0", "org.apache.spark" %% "spark-sql" % "2.2.0",

  • SparkSQL(一)2019-09-19 18:50:23

    一、概述   组件           运行机制     转 SparkSQL – 从0到1认识Catalyst  https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器(原创翻译)     更高效           查询优化      优化:把filter提前  

  • SparkSQL连接查询中的谓词下推处理(2)2019-09-13 17:06:27

    本文主要介绍的是外连接查询中的谓词下推规则,这相比内连接中的规则要复杂一些,不过使用简单的表格来进行分析也是可以分析清楚的。 以左外连接查询为例,先总结规矩如下: 接下来对这个表格中的规则进行详细的分析。 1、左表join后条件下推 select a.id, a.value,

  • Spark系列——从零学习SparkSQL编程(下)2019-08-16 15:57:10

    5. 导入Java依赖要使用SparkSQL的API,首先要导入Scala,Spark,SparkSQL的依赖:<properties><scala.version>2.11.8</scala.version><hadoop.version>2.7.4</hadoop.version><spark.version>2.0.2</spark.version></properties><dependencie

  • 第2章 执行SparkSQL查询2019-08-12 20:54:46

    第2章 执行SparkSQL查询 2.1 命令行查询流程 打开Spark shell 例子:查询大于30岁的用户 创建如下JSON文件,注意JSON的格式: {"name":"Michael"} {"name":"Andy", "age":30}{"name":"Justin", "age":19} 2.2 IDEA创建SparkSQL程序 I

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有