ICode9

精准搜索请尝试: 精确搜索
  • spark中各个技术点中的依赖2022-08-30 08:30:27

    1. sparkcore <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.1</version> 2. sparksql 需要引入jdbc连接和sparksql连接(sparksql中包含了sparkcore,所以不需要单独引入sparkcore)

  • sparkcore案例四:统计每个省份的用户访问量2022-08-27 12:34:36

    题目: /** * 统计每个省份的用户访问量,最终要求将不同省份用户访问量存放到不同的分区中 分区存放规则如下 * 省份是以包含 山 0 * 如果省份包含 海 1 * 其他省份 2 */ 代码: package sparkcorerddexample import org.apache.spark.rdd.RDD import org

  • sparkcore案例三:获取每一种状态码对应的访问量2022-08-27 11:32:37

    题目描述: /** * 清洗完成的数据中包含一个用户的响应状态码,获取每一种状态码对应的访问量 * 1、读取清洗完成的数据成为RDD[String] * 2、可以把上一步得到的RDD通过map算子转换成一个键值对类型的RDD,以状态码为key 以不同用户的访问日志为value的数据 * 3、键值对类

  • |NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.2022-04-18 13:31:38

    [BigDataHadoop:Hadoop&OLAP数据库管理系统.V16]                           [Deployment.OLAP数据库管理系统][|Kylin:sparkcore高可用配置|]一、高可用配置:spark standalone集群配置### --- 修改 spark-env.sh 文件,并分发到集群中 [root@hadoop01 ~]# vim $SP

  • |NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa2022-04-12 13:34:27

    [BigDataHadoop:Hadoop&Spark.V11]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&shuffle原理|]一、Shuffle原理### --- shuffle原理 ~~~ Shuffle的本意是

  • |NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar2022-04-11 20:34:40

    [BigDataHadoop:Hadoop&Spark.V06]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:Spark-Standalone集群模式&standalone配置&core&mamory|]一、集群模式--Standalone模式### --- 集群模式-

  • spark学习路线2022-04-04 12:31:25

    尚硅谷大数据Spark教程从入门到精通 001.尚硅谷_Spark框架 - 简介 002.尚硅谷_Spark框架 - Vs Hadoop 003.尚硅谷_Spark框架 - 核心模块 - 介绍 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备 005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析 006.尚硅谷_Spark框架 -

  • SparkCore 对共享变量也提供了两种支持:1. 累加器 2. 广播变量2022-02-02 11:36:04

    正常情况下, 传递给 Spark 算子(比如: map, reduce 等)的函数都是在远程的集群节点上执行, 函数中用到的所有变量都是独立的拷贝. 这些变量被拷贝到集群上的每个节点上, 都这些变量的更改不会传递回驱动程序. 支持跨 task 之间共享变量通常是低效的, 但是 Spark 对共享变量也提供

  • SparkCore中的Key-Value 类型 RDD 的数据分区器2022-02-01 23:02:41

    1.1 HashPartitioner HashPartitioner分区的原理:对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于 0,则用余数+分区的个数(否则加0),最后返回的值就是这个key所属的分区ID。 1.2 RangePartitioner HashPartitioner 分区弊端: 可能导致每个分区中数据量的不均匀,极端情况下

  • SparkCore中RDD开发API边缘_广播变量【broadCast】的使用案例2021-12-19 09:31:52

    SparkCore中RDD开发API边缘_广播变量【broadCast】的使用案例 广播变量主要应用于“需要进行map端join”的场合 就是把一份小体量的数据,直接让每个executor持有一份拷贝,在task的计算逻辑中直接可用 而不用通过两个rdd去join import cn.doitedu.spark.util.SparkContextUtil i

  • SparkCore-常用转换算子总结2021-11-27 13:33:13

    主要是分为三个类型:Value 类型、双 Value 类型和 Key-Value 类型。 1.Value类型 1.1map  传递一个对象,返回一个对象 源码中给的解释机翻如下: 通过对这个RDD的所有元素应用一个函数,返回一个新的RDD。 说人话就是: 将处理的数据逐条进行映射转换,可以是类型的转换,也可以是值的转换

  • 大数据开发之SparkCore中RDD特点2021-07-07 10:05:55

    什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。  RDD的属性 (1)一组分区(Partition),即数据集的基本组成单位; (2)一个计算每个分区的函数; (3)RDD之间的

  • Spark2.x SparkCore WordCount Demo2021-05-30 11:04:16

    版本 scala : 2.11 spark : 2.20 1、pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" x

  • SparkCore之数据的读取与保存2021-05-18 09:31:40

    Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件 文件系统分为:本地文件系统、HDFS以及数据库 一、文件类数据读取与保存 1.1 Text文件 数据读取:textFile(String)数据保存:save

  • SparkCore2021-03-09 10:29:59

    文章目录 第1章 Spark概述1.1 Spark是什么1.1 Spark and Hadoop1.2 Spark or Hadoop1.3 Spark 核心模块 第1章 Spark快速上手2.1 创建Maven项目2.1.1 增加Scala插件2.1.2 增加依赖关系2.1.3 WordCount2.1.4 异常处理 第2章 Spark运行环境3.1 Local模式3.1.1 解压缩文件3.1

  • Spark学习之路 (十六)SparkCore的源码解读(二)spark-submit提交脚本2021-02-12 21:33:04

    《2021年最新版大数据面试题全面开启更新》 欢迎关注github《大数据成神之路》 目录 一、概述 二、源码解读 2.2 find-spark-home 2.3 spark-class 2.4 SparkSubmit    正文 一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理

  • Spark学习之路 (十四)SparkCore的调优之资源调优JVM的GC垃圾收集器2021-02-12 21:03:58

    《2021年最新版大数据面试题全面开启更新》 欢迎关注github《大数据成神之路》 目录 一、概述 二、垃圾收集器(garbage collector (GC)) 是什么? 三、为什么需要GC? 四、为什么需要多种GC? 五、对象存活的判断 六、垃圾回收算法 6.1 标记 -清除算法 6.2 复制算法 6.3 标记-整理

  • Spark学习之路 (十五)SparkCore的源码解读(一)启动脚本2021-02-12 21:01:26

    《2021年最新版大数据面试题全面开启更新》 欢迎关注github《大数据成神之路》 目录 一、启动脚本分析 1.1 start-all.sh  1.2 start-master.sh 1.3 spark-config.sh(1.2的第5步) 1.4 load-spark-env.sh(1.2的第6步) 1.5 spark-env.sh 1.6 spark-daemon.sh 1.7 spark-cl

  • Spark学习之路 (十)SparkCore的调优之Shuffle调优2021-02-12 21:01:03

    《2021年最新版大数据面试题全面开启更新》 欢迎关注github《大数据成神之路》 目录 一、概述 二、shuffle的定义 三、ShuffleManager发展概述 四、HashShuffleManager的运行原理 4.1 未经优化的HashShuffleManager 4.2 优化后的HashShuffleManager 五、SortShuffleManager运

  • Spark学习之路 (十一)SparkCore的调优之Spark内存模型2021-02-12 20:58:28

    《2021年最新版大数据面试题全面开启更新》 欢迎关注github《大数据成神之路》 目录 一、概述 二、堆内和堆外内存规划 2.1 堆内内存 2.2 堆外内存 2.3 内存管理接口 三、内存空间分配 3.1 静态内存管理 3.2 统一内存管理 四、存储内存管理 4.1 RDD 的持久化机制 4.2 RDD

  • SparkCore分布式计算模拟2021-01-20 17:01:30

    一、基础的架子      假设Executor是服务端,Driver是客户端 代码: package test import java.io.InputStream import java.net.{ServerSocket, Socket} object Executor { def main(args: Array[String]): Unit = { //启动服务器,接收数据 val server = new Server

  • spark学习进度25(SparkCore实战案例)2021-01-17 11:35:19

    词频统计: 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例:    代码及结果: @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("wordCount") val sc=new SparkContext(conf) val result=sc.t

  • 大数据技术之SparkCore2020-11-09 12:03:34

    第1章RDD概述1.1RDD引入之IO流 1.2什么是RDD 1.3RDD特性 A list of partitions多个分区,分区可以看成是数据集的基本组成单位对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默

  • Spark深入解析(十八):扩展之RDD相关概念关系(SparkCore终)2020-05-08 11:38:32

    目录RDD相关概念关系 RDD相关概念关系   输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能

  • Spark深入解析(六):SparkCore之Spark代码编写WordCount2020-04-26 21:37:56

    学习目标WordCount思路WordCount代码实现 WordCount思路 准备数据 将数据放在以下目录中 1.txt Hello World Hello Scala 2.txt Hello Spark 图解分析 说明: 1、本地读取两个文件 2、两个文件内的数据 3、将文件内的数据进行扁平化 4、将相同单词进行分组 5、

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有