ICode9

精准搜索请尝试: 精确搜索
  • 1_Spark Streaming 概述2022-08-08 20:02:47

    1. Spark Streaming 是什么 ? Spark Streaming 是 Spark Core 的扩展API 用来支持 高吞吐、高容错的 处理 流式数据 数据源可以是 : Kafka、TCP sockets、Flume、Twitter等流式数据源 处理数据: 可以用 Spark Core的算子 map、reduce、join、window

  • spark-调优(代码层面)2022-07-21 21:34:54

    spark-调优(代码) 在编写代码时可以进行优化 避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性能的库fastutil 1.对多

  • 分布式计算过程2022-07-21 21:31:47

    # 定义一个列表 list1 = [1,2,3,4,5,6,7,8,9,10] # 将列表通过SparkContext将数据转换为一个分布式集合RDD inputRdd = sc.parallelize(list1)#如果有n个结点 那么数据就会分成n分 存在各个结点 # 将RDD中每个分区的数据进行处理rsRdd = inputRdd.map(lambda x : x**2) #会在n个

  • 初识Spark2022-07-20 21:34:28

    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点:   运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内

  • spark streaming-DS,DF,RDD相互转换,submit,数据落盘2022-07-20 10:05:26

    spark streaming DS转成DF写代码 package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.streaming.dstream.ReceiverInputDStream import

  • rdd2022-07-19 10:00:23

    rdd五大特性 (35条消息) RDD:五大特性_花和尚也有春天的博客-CSDN博客_rdd的五大特性 Spark之RDD的定义及五大特性 - |旧市拾荒| - 博客园 (cnblogs.com)

  • 广播变量2022-07-17 17:08:37

    广播变量(BrocadCast)是Spark的一大特性,通过将小数据广播分发到每个执行任务的节点(Executor),从而避免了计算过程中的频繁拉去数据的网络带宽等开销。 Spark批处理和Spark Streaming流处理均支持广播变量。广播变量支持各种类型数据,包括数据、列表、Map、RDD、DataFrame等。     ob

  • 0基础就可以上手的Spark脚本开发-for Java2022-07-16 12:05:52

    前言 最近由于工作需要,要分析大几百G的Nginx日志数据。之前也有过类似的需求,但那个时候数据量不多。一次只有几百兆,或者几个G。因为数据都在Hive里面,当时的做法是:把数据从Hive导到MySQL,然后写代码查询MySQL并处理。如果你的处理逻辑比较简单,或只是查询统计,不会设计上游的服务调用,

  • Spark WordCount2022-07-13 20:36:34

    WordCount基本流程和spark实现 基本流程 1.创建spark环境 2.创建创建spark上下文对象,也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开,让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新的文件中 代码实现 object Demo1W

  • Spark 算子2022-07-13 20:01:52

    Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会

  • Spark—算子—spark缓存策略2022-07-12 23:00:06

    Spark—算子—spark缓存策略 转换算子和操作算子 转换算子 转换算子:将一个RDD转换成另一个RDD,转换算子是懒执行,需要action算子来触发执行 操作算子 触发任务执行,一个action算子会触发一次任务执行,同时每一个action算子都会触发前面的代码执行 package com.core.day2 import org.a

  • Spark_常用算子2022-07-12 22:34:48

    Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序,默认是升序, ascending = false: 降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo13Sort { def main(args: Array[String]): Unit = { val

  • Spark-RDD,算子2022-07-12 09:04:15

    Spark内核 RDD ResilientDistributedDataset (弹性分布式数据集 ) 五大特性: A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDDs Optionally, a list of preferred locations to comp

  • spark-算子2022-07-12 09:03:08

    spark-算子 groupBy -分组 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo7GroupBy { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("map")

  • Spark初识2022-07-12 08:33:41

    Spark初识 回顾一下前面的MapReduce流程,可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} ob

  • Spark快速上手(6)Spark核心编程-RDD行动算子Action2022-07-07 17:03:41

    RDD(3) RDD行动算子 所谓行动算子,就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 e.g. code: def main(args: Array[String]): Unit = { val source: RDD[Int] = sc.makeRDD(List(1, 2,

  • Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)2022-07-04 17:31:08

    @Spark分区器(Partitioner) HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为null值是返回0。 源码在org.apache.spark包下: origin code: class

  • Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

    RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1 val source = spa

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • pyspark 中的rdd api 编码练习2022-06-17 12:34:04

    1,使用pyspark 的rdd api 进行了数据文件的处理,包括构建RDD, 统计分析RDD ,从文件中读取数据RDD,从文件中构建 rdd的模式shema.  然后通过模式,从rdd中生成dataframe。   2,代码 ''' 构建sparkSession 和练习数据(RDD 和 KV rdd) ''' spark = SparkSession.builder.appName("rdd_api_te

  • RDD数据读取与保存2022-06-11 10:35:03

    1、文件读取与保存 1.1、Text 文件 1)数据读取:textFile(String) 2)数据保存:saveAsTextFile(String) def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("

  • RDD 持久化2022-06-08 19:02:25

    1、RDD缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 代码实现 /** * RDD 缓存 */ object Spa

  • 大数据处理期末复习2022-06-08 13:02:02

    目录1. 分析题(1)常见大数据计算模式及其解决的主要问题。(2)spark streaming的运行原理。(3)spark能不能取代Hadoop,理由是什么。(4)spark中的宽依赖和窄依赖分别是什么,它们的区别是什么。(5)划分stage的方法,在图中划分stage。(6)函数式编程的特点,其与命令式编程的区别。2. 程序填空(1)创建RDD的

  • sparkRDD所有算子操作,建议全部手敲一遍2022-06-08 08:34:10

    说明: 1、以下方法全部来自这个RDD.scala,可以自己看源码 2、使用$SPARK_HOME/bin/spark-shell运行代码 3、注释部分是运行结果   //org.apache.spark.rdd//RDD.scala // Transformations (return a new RDD) 1.1 mapReturn a new RDD by applying a function to all elements of t

  • spark大佬总结2022-06-07 21:05:01

    Spark概述 Hadoop小剧场 Hadoop1.x版本的问题 Hadoop2.x版本 Spark小剧场 为什么使用函数式编程 什么是Spark Spark是基于内存的快速、通用。可扩展的大数据分析引擎 Spark内置模块 模块分区 Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有