ICode9

精准搜索请尝试: 精确搜索
  • 1-sparkSQL2022-09-13 15:00:09

    Mongo Spark Connector Spark SQL The following code snippets can be found in SparkSQL.scala. Prerequisites Have MongoDB up and running and Spark 2.2.x downloaded. This tutorial will use the Spark Shell allowing for instant feedback. See the introduction fo

  • 广播变量2022-07-17 17:08:37

    广播变量(BrocadCast)是Spark的一大特性,通过将小数据广播分发到每个执行任务的节点(Executor),从而避免了计算过程中的频繁拉去数据的网络带宽等开销。 Spark批处理和Spark Streaming流处理均支持广播变量。广播变量支持各种类型数据,包括数据、列表、Map、RDD、DataFrame等。     ob

  • SparkSQL 的创建 DataFrame2022-02-02 12:01:58

    1.1   创建 DataFrame With a SparkSession, applications can create DataFrames from an existing RDD, from a Hive table, or from Spark data sources. 有了 SparkSession 之后, 通过 SparkSession有 3 种方式来创建DataFrame: 2          通过 Spark 的数据源创

  • Spark3学习【基于Java】2. Spark-Sql核心概念2021-12-03 12:33:00

    SparkSession  从Spark2开始,Spark-SQL引入了SparkSession这个核心类,它是处理DataSet等结构数据的入口。在2.0之前,使用的是spark-core里的SparkContext。从前面的例子里也可以看到,程序一上来就要先创建SparkSession对象: SparkSession spark = SparkSession.builder().appName("Sim

  • spark sql 总结2021-11-21 23:33:25

    一.概述 1.前世今生 大量数据需要处理 ➡️ MapReduce出现sql on mr ➡️ Hivemr效率太低 ➡️ TezTez效率低 ➡️ Sparksql on spark ➡️ Shark(太多的的借鉴了Hive制约了它,然后被推翻了,现在已经被弃用)sql on spark ➡️ SparkSql 2.简介 Spark SQL是Spark处理数据的一个模块专门用

  • idea 查看scala源代码2021-08-31 12:03:01

    使用idea编写spark程序,想要查看源代码,点进去是compiled code   ` private[sql] def this(sc : org.apache.spark.SparkContext) = { /* compiled code */ } def version : scala.Predef.String = { /* compiled code */ }` 网上很多方法都是下载java 反编译工具,如java bytecod

  • SparkOnHive2021-07-21 17:01:23

    package com.shujia.spark.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo6SparkOnHive { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName("submit&quo

  • spark sql 读取kudu表向sqlserver数据库中插入70万条数据2021-07-16 10:00:21

    spark sql 读取kudu表向sqlserver数据库中插入70万条数据 1.废话不多说。直接上代码。 import java.util.Properties import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object KuduToSqlserver { val kuduMasters = "cdh-5:xx,cdh-6:xx"

  • spark中 reduceByKey() 和 groupByKey() 的 区别2021-03-30 17:02:04

    1.groupByKey: 它是将RDD中相同的key值得数据(value)合并成为一序列,只能输出相同key值得序列。 2.reduceByKey: 因为内部调用的combineByKey函数,会先进行局部聚合, 再进行全局聚合,(类似于mapreduce里的combine操作)这样会大大减少网络IO, 起到优化作用。 相同点: 都作用于 RDD[K,V]

  • Spark Conf配置用法2021-01-15 23:31:29

    Spark 2.0.0 在Spark2.0之后,Spark Session也是Spark 的一个入口, 为了引入dataframe和dataset的API,同时保留了原来SparkContext的functionality, 如果想要使用 HIVE,SQL,Streaming的API, 就需要Spark Session作为入口。 SparkSession spark = SparkSession.builder().appName( "de

  • idea下spark连接hive2020-12-30 11:36:44

    spark连接hive步骤 将core-site.xml、hdfs-site.xml 、hive-site.xml放到配置文件夹下 设置hadoop用户名 System.setProperty("HADOOP_USER_NAME","hadoop"); 开启spark对hive的支持 val spark: SparkSession = SparkSession.builder() .appName(s"${this.getCl

  • 错误总结2020-12-12 16:01:49

    20/12/12 15:49:47 ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark confi

  • 算子内部调用sparkSession或者sparkContext报NullPointException2020-11-13 17:33:02

    这个问题是在服务器上报的,本地还是行的通的。 本地和服务器都是广播过变量的,服务器就是不行,解决方案是将结果数据返回成一个array,在外部调用session进行存储 ---------今天的第二个问题--------- dataframe也可以直接调用算子,但是无结果,需要df.collect。收集一下之后再进行

  • Spark Stuctured Streaming 读取文件夹数据2020-11-10 14:02:35

    package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} object filesource { def

  • 通过集合构建RDD或者DataFrame2020-06-30 14:01:35

    利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.driver.host", "localhost").config("spark.debug.maxToStringFields"

  • spark之Executor与初始化SparkSession2020-06-27 12:03:56

    关于Executor: 一个executor同时只能执行一个计算任务 但一个worker(物理节点)上可以同时运行多个executor executor的数量决定了同时处理任务的数量 一般来说,分区数远大于executor的数量才是合理的 同一个作业,在计算逻辑不变的情况下,分区数和executor的数量很大程度上决定了作业运

  • Spark 自定义UDF2020-04-15 15:40:15

    ●需求 有udf.txt数据格式如下: Hello abc study small   通过自定义UDF函数将每一行数据转换成大写 select value,smallToBig(value) from t_word   package cn.itcast.sql import org.apache.spark.SparkContext import org.apache.spark.sql.{Dataset, SparkSession}

  • import spark.implicits._ 报红,无法导入2020-02-02 16:03:57

    先给出错误的代码 def main(args: Array[String]): Unit = { //Create SparkConf() And Set AppName SparkSession.builder() .appName("Spark Sql basic example") .config("spark.some.config.option", "so

  • 【Spark】Spark常用方法总结1-创建编程入口(Python版本)2020-01-29 19:09:00

    前言 今天有时间,将自己的笔记分享出来,方便同僚查阅。不断详细与更新中。为了方便,例子都是以Python写的,后续也会有其他语言的版本。 创建编程入口 SparkContext入口 from pyspark import SparkConf, SparkContext if __name__ == '__main__': conf = SparkConf().setApp

  • spark临时表导入hive出现null2020-01-03 17:03:19

    Dataset<Row> json = sparkSession.read().json(lines); //创建临时表 json.createOrReplaceTempView("temp"); sparkSession.sql("select * from temp").show() //将临时表数据写入hive sparkSession.sql("create table fs as select * from temp"

  • HIVE存储格式ORC、PARQUET对比2019-11-06 22:52:15

      hive有三种默认的存储格式,TEXT、ORC、PARQUET。TEXT是默认的格式,ORC、PARQUET是列存储格式,占用空间和查询效率是不同的,专门测试过后记录一下。 一:建表语句差别 create table if not exists text(a bigint) partitioned by (dt string)row format delimited fields

  • sparksql系列(五) SparkSql异常处理,优化,及查看执行计划2019-10-20 23:00:31

    有了上面四篇文章,再加上一些异常处理、优化,开发基本就没什么问题了。下面我们开始: 一:SparkSql异常处理 读JSON文件异常处理     val sparkSession= SparkSession.builder().master("local").getOrCreate()     var df2 = sparkSession.emptyDataFrame     

  • Spark大数据学习(1)--Spark连接HIVE进行SQL查询2019-09-13 22:39:50

    1.Spark可以连接Hive进行SQL查询,目前我了解的有如下两种 (1)构建SparkContext ,创建HiveContext对象,连接hive进行查询 (2)直接采用SparkSession方式,enableHive 2.使用第二种方式,直接使用SparkSession.sql()方法进行sql查询,返回一个DataFrame对象。 3.maven的使用: (1)maven compil

  • spark笔记之编写Spark SQL程序操作HiveContext2019-09-08 16:55:14

    HiveContext是对应spark-hive这个项目,与hive有部分耦合, 支持hql,是SqlContext的子类,在Spark2.0之后,HiveContext和SqlContext在SparkSession进行了统一,可以通过操作SparkSession来操作HiveContext和SqlContext。 1.1. 添加pom依赖[mw_shl_code=applescript,true]1.2. 代码实现

  • scala 使用case 关键字定义类不需要创建对象直接调用2019-06-06 22:40:56

    1、必须是使用case 定义object类 package configimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}case object conf { val confs: SparkConf = new SparkConf().setMaster("local").setAppName("job") val sc = n

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有