ICode9

精准搜索请尝试: 精确搜索
  • Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)2022-07-04 17:31:08

    @Spark分区器(Partitioner) HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为null值是返回0。 源码在org.apache.spark包下: origin code: class

  • Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

    RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1 val source = spa

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • 一个Golang的REPL工具2022-06-28 19:02:10

      REPL为Read-Eval-Print Loop的简写,为一种简易的,可交互式的编程环境,使用者可以方便的调试相关代码:   Read: 读取用户输入;   Eval: 计算输入的数据;   Print: 输出所计算的数据;   Loop: 循环执行上述流程;   目前多种编程语言也都官方自带了REPL工具,如nodeJS、Scala、Python

  • Spark SQL 数据源 hive表2022-06-24 17:05:28

    Spark SQL 数据源(json文件、hive表、parquet文件) -- json 详见 524 hive表   scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one deprecation (since 2.0.0); for details, enable `:setting -deprecation' or `:replay -deprecation'

  • Spark SQL 数据源 parquet文件2022-06-24 17:04:57

    scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, age: string ... 2 more fields] scala> employee.write.parquet("employee.parquet"

  • 【Spark Streaming Kafka】Spark流处理消费Kafka数据示例代码2022-06-22 12:05:20

    代码 package test import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord} import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.{SparkConf, TaskContext} import org.apache.spark.streaming.dstream.{DStream

  • 总结淘宝双十一数据可视化遇到的问题和对应的解决方案2022-06-21 13:04:32

    1,运行hive时,出现包错误   原因:spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为之前安装spark的jar包路径即可。 解决方

  • 实时计算框架对比-Flink/Spark Streaming/Storm2022-06-19 14:33:55

    欢迎关注公众号:实时计算     引言 随着互联网和大数据技术的发展,实时计算框架也在推陈出新,向着高吞吐、高可用、低延迟准实时的方向发展。本文从几个方面全面对比业界流行的实时计算框架,总结了各框架的优缺点,希望对读者进行架构设计和技术选型提供帮助。   各框架对比概览  

  • spark处理过程2022-06-17 11:04:10

    (1)构建Spark Application的运行环境,启动SparkContext (2)SparkContext向资源管理器注册并向资源管理器申请运行Executor (3)资源管理器分配Executor并启动Executor (4)Executor发送心跳至资源管理器 (5)SparkContext构建DAG图 (6)将DAG分解成Stage,把Stage发送给taskScheduler (7

  • pyspark运行原理2022-06-14 20:00:18

    必须了解的PySpark 的背后原理   文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了

  • 在java里向spark请求处理2022-06-14 18:33:04

    打印spark处理失败的日志SparkLauncher launcher = sparkJobUtil.buildSparkLauncher(feedConfig, appName, params);SparkAppHandle handler = launcher.startApplication();int exitCode = -1;while (handler.getState() == null || !handler.getState().isFinal()) { if (ha

  • RDD数据读取与保存2022-06-11 10:35:03

    1、文件读取与保存 1.1、Text 文件 1)数据读取:textFile(String) 2)数据保存:saveAsTextFile(String) def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("

  • 大数据处理期末复习2022-06-08 13:02:02

    目录1. 分析题(1)常见大数据计算模式及其解决的主要问题。(2)spark streaming的运行原理。(3)spark能不能取代Hadoop,理由是什么。(4)spark中的宽依赖和窄依赖分别是什么,它们的区别是什么。(5)划分stage的方法,在图中划分stage。(6)函数式编程的特点,其与命令式编程的区别。2. 程序填空(1)创建RDD的

  • spark大佬总结2022-06-07 21:05:01

    Spark概述 Hadoop小剧场 Hadoop1.x版本的问题 Hadoop2.x版本 Spark小剧场 为什么使用函数式编程 什么是Spark Spark是基于内存的快速、通用。可扩展的大数据分析引擎 Spark内置模块 模块分区 Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器

  • 5.RDD操作综合实例2022-06-07 18:34:09

    A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话实现:文件入

  • 第五章_Spark核心编程_SparkConf&SparkContext2022-06-06 13:35:08

    /* * TODO 关于 SparkConf 的作用 * 1. spark的配置对象 用来初始化 Spark application 的配置信息 * 2. 用 SparkConf.set("key","value") 的方式来注入配置信息 * 3. 用 SparkConf对象 指定的配置信息,优先级是最高的(该对象的任何设置都会覆盖默认配置和系统属性) *

  • 7.Spark SQL2022-06-06 12:03:32

    未交原因:忘记交了   1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce,解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;hive 是把类 sql 的语句转换成 mapred

  • Pandas中的DataFrame和pyspark中的DataFrame互相转换2022-06-02 14:01:33

    一、Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换: # pandas转spark values = pandas_df.values.tolist() columns = pandas_df.columns.tolist() spark_df = spark.createDataFrame(values, columns) # spark转pandas pandas_df = spark_df.toPandas() 二、Spark和

  • 3:spark设计与运行原理2022-06-01 10:04:19

    1.请用图文阐述Spark生态系统的组成及各组件的功能     2.请详细阐述Spark的几个主要概念及相互关系:   Master, Worker;  RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager   DAGScheduler, TaskScheduler.   Master, Worker:   RDD,DAG:    Ap

  • Hadoop MR 和 Spark 的相同点和不同点?2022-05-31 17:05:08

    Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型,主要分成转化操作和行动操作

  • 初识spark 之 读写MySql数据2022-05-31 17:01:59

    需求 1、使用spark读取MySql库数据; 2、使用spark读取MySql库数据,并写入另一张表。 实现代码 1 package com.lzh.sql.数据加载保存 2 3 import org.apache.spark.SparkConf 4 import org.apache.spark.sql.{SaveMode, SparkSession} 5 6 object conMySql { 7 def main(

  • RDD 依赖关系2022-05-30 06:00:40

    1、血缘关系&依赖关系 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 血缘关系

  • Spark 源码系列 - DAGScheduler -> runJob2022-05-29 11:03:29

    目录结论DAGScheduler -> runJobDAGScheduler -> submitJob 结论 DAGScheduler -> runJob def runJob[T, U]( val waiter = submitJob(rdd, func, partitions, callSite, resultHandler, properties) DAGScheduler -> submitJob 将this, 新生成的jobid, 分区数 生成对象 JobWa

  • Spark 程序打包在集群运行2022-05-27 22:33:08

    环境准备 1、pom 文件引入相关依赖&插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version>

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有