ICode9

精准搜索请尝试: 精确搜索
  • Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

    RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1 val source = spa

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • pyspark 中的rdd api 编码练习2022-06-17 12:34:04

    1,使用pyspark 的rdd api 进行了数据文件的处理,包括构建RDD, 统计分析RDD ,从文件中读取数据RDD,从文件中构建 rdd的模式shema.  然后通过模式,从rdd中生成dataframe。   2,代码 ''' 构建sparkSession 和练习数据(RDD 和 KV rdd) ''' spark = SparkSession.builder.appName("rdd_api_te

  • RDD数据读取与保存2022-06-11 10:35:03

    1、文件读取与保存 1.1、Text 文件 1)数据读取:textFile(String) 2)数据保存:saveAsTextFile(String) def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("

  • RDD 持久化2022-06-08 19:02:25

    1、RDD缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 代码实现 /** * RDD 缓存 */ object Spa

  • 大数据处理期末复习2022-06-08 13:02:02

    目录1. 分析题(1)常见大数据计算模式及其解决的主要问题。(2)spark streaming的运行原理。(3)spark能不能取代Hadoop,理由是什么。(4)spark中的宽依赖和窄依赖分别是什么,它们的区别是什么。(5)划分stage的方法,在图中划分stage。(6)函数式编程的特点,其与命令式编程的区别。2. 程序填空(1)创建RDD的

  • sparkRDD所有算子操作,建议全部手敲一遍2022-06-08 08:34:10

    说明: 1、以下方法全部来自这个RDD.scala,可以自己看源码 2、使用$SPARK_HOME/bin/spark-shell运行代码 3、注释部分是运行结果   //org.apache.spark.rdd//RDD.scala // Transformations (return a new RDD) 1.1 mapReturn a new RDD by applying a function to all elements of t

  • spark大佬总结2022-06-07 21:05:01

    Spark概述 Hadoop小剧场 Hadoop1.x版本的问题 Hadoop2.x版本 Spark小剧场 为什么使用函数式编程 什么是Spark Spark是基于内存的快速、通用。可扩展的大数据分析引擎 Spark内置模块 模块分区 Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器

  • 5.RDD操作综合实例2022-06-07 18:34:09

    A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话实现:文件入

  • 6. RDD综合练习:更丰富的操作2022-06-06 12:33:47

    一、集合运算练习 union() intersection() subtract() cartesian() 二、内连接与外连接 join() leftOuterJoin() rightOuterJoin() fullOuterJoin() 三、综合练习:学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生?ma

  • 7.Spark SQL2022-06-06 12:03:32

    未交原因:忘记交了   1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce,解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;hive 是把类 sql 的语句转换成 mapred

  • 6. RDD综合练习:更丰富的操作2022-06-05 23:02:34

    集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计  三、综合练习:学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析:    持久化

  • 6. RDD综合练习:更丰富的操作2022-06-03 14:01:37

    集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计  三、综合练习:学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析:    持久化 

  • 3:spark设计与运行原理2022-06-01 10:04:19

    1.请用图文阐述Spark生态系统的组成及各组件的功能     2.请详细阐述Spark的几个主要概念及相互关系:   Master, Worker;  RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager   DAGScheduler, TaskScheduler.   Master, Worker:   RDD,DAG:    Ap

  • 6.RDD综合练习:更丰富的操作(补交)2022-05-31 12:34:41

    集合运算练习 union(), intersection(),subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件,签到日期汇总,出勤次数统计    三、 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程

  • 5.RDD操作综合实例2022-05-31 12:33:12

    一、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿          2.上传到hdf 2.读文件创建RDD    3.分词    4.排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),   长度小于2的词f

  • 4.RDD操作(补交)2022-05-31 12:32:55

    一、 RDD创建    1.从本地文件系统中加载数据创建RDD          2.从HDFS加载数据创建RDD              加载         停止hdfs      3.通过并行集合(列表)创建RDD     输入列表、字符串、生成数组     二、 RDD操作 转换操作 1. filter(func)传入lamb

  • RDD 依赖关系2022-05-30 06:00:40

    1、血缘关系&依赖关系 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 血缘关系

  • RDD 序列化2022-05-26 21:00:17

    问题引入 想看一个需求:定义一个 用户类,有一个name 属性和toSting方法: class User { var name: String = _ override def toString: String = s"User{$name}" } 现在要声明两个对象并给name 属性赋值,然后将两个实例放在一个rdd里,进行采集打印: def main(args: Array[String

  • 【转】大数据开发之 Spark 面试八股文2022-05-24 14:32:47

    【转】大数据开发之 Spark 面试八股文     1. Spark 的运行流程?     具体运行流程如下: SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 资源管理器分配 Executor,然后资源管理器启动 Executor Executor 发送心跳至资源管理器 SparkContext

  • 你的第一个大数据 helloword2022-05-20 21:04:19

    环境准备 目标环境是ubuntu 20,其实是windows下的子系统wsl里安装的。需要安装 pyspark 3.2.1 openjdk 15 注意pyspark 3.2.1 对应的最高版本jdk为openjdk15。安装也比较简单。 pyspark通过pip安装 pip3 install pyspark openjdk: sudo add-apt-repository ppa:openjdk-r/ppa sud

  • Spark性能优化指南——高级篇2022-05-18 00:33:03

      前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。   数据倾斜调优   调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数

  • spark数据清洗2022-05-12 10:32:32

    spark数据清洗 1.Scala常用语法 运用maven创建项目,需要导入如下依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency> main方法: def main(a

  • 7.Spark SQL2022-05-11 23:02:00

    ------------恢复内容开始------------ 1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MAPreduce作业。为了实现Hive的兼容,Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执

  • 7. Spark SQL2022-05-11 22:03:54

    1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因   hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的根本原因是其完全脱离了hive的限制,hive是hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序复杂性。同时也由

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有