RDD

Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换 e.g.1 val source = spa
基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

Hadoop 什么是Hadoop？ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发，现在则隶属于Apache基金会 Hadoop的核心组成 Hadoop框架主要包括三大部分：分布式文件系统、分布式计算系统、资
pyspark 中的rdd api 编码练习2022-06-17 12:34:04

1，使用pyspark 的rdd api 进行了数据文件的处理，包括构建RDD，统计分析RDD ，从文件中读取数据RDD，从文件中构建 rdd的模式shema. 然后通过模式，从rdd中生成dataframe。 2，代码 ''' 构建sparkSession 和练习数据（RDD 和 KV rdd） ''' spark = SparkSession.builder.appName("rdd_api_te
RDD数据读取与保存2022-06-11 10:35:03

1、文件读取与保存 1.1、Text 文件 1）数据读取：textFile(String) 2）数据保存：saveAsTextFile(String) def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App名称 val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("
RDD 持久化2022-06-08 19:02:25

1、RDD缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存，默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。代码实现 /** * RDD 缓存 */ object Spa
大数据处理期末复习2022-06-08 13:02:02

目录1. 分析题（1）常见大数据计算模式及其解决的主要问题。（2）spark streaming的运行原理。（3）spark能不能取代Hadoop，理由是什么。（4）spark中的宽依赖和窄依赖分别是什么，它们的区别是什么。（5）划分stage的方法，在图中划分stage。（6）函数式编程的特点，其与命令式编程的区别。2. 程序填空（1）创建RDD的
sparkRDD所有算子操作，建议全部手敲一遍2022-06-08 08:34:10

说明： 1、以下方法全部来自这个RDD.scala，可以自己看源码 2、使用$SPARK_HOME/bin/spark-shell运行代码 3、注释部分是运行结果 //org.apache.spark.rdd//RDD.scala // Transformations (return a new RDD) 1.1 mapReturn a new RDD by applying a function to all elements of t
spark大佬总结2022-06-07 21:05:01

Spark概述 Hadoop小剧场 Hadoop1.x版本的问题 Hadoop2.x版本 Spark小剧场为什么使用函数式编程什么是Spark Spark是基于内存的快速、通用。可扩展的大数据分析引擎 Spark内置模块模块分区 Spark SQL 结构化数据 | Spark Streaming 实时计算 Spark Core 独立调度器
5.RDD操作综合实例2022-06-07 18:34:09

A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上分词排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 统计词频按词频排序输出到文件查看结果 B. 一句话实现：文件入
6. RDD综合练习：更丰富的操作2022-06-06 12:33:47

一、集合运算练习 union() intersection() subtract() cartesian() 二、内连接与外连接 join() leftOuterJoin() rightOuterJoin() fullOuterJoin() 三、综合练习：学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 持久化 scm.cache() 总共有多少学生？ma
7.Spark SQL2022-06-06 12:03:32

未交原因：忘记交了 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 spark出现的目的是为了替代Mapreduce，解决Mapreduce计算短板。我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive；hive 是把类 sql 的语句转换成 mapred
6. RDD综合练习：更丰富的操作2022-06-05 23:02:34

集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综合练习：学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 　持久化
6. RDD综合练习：更丰富的操作2022-06-03 14:01:37

集合运算练习 union()， intersection()，subtract(), cartesian() 内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、综合练习：学生课程分数网盘下载sc.txt文件，通过RDD操作实现以下数据分析: 　持久化
3：spark设计与运行原理2022-06-01 10:04:19

1.请用图文阐述Spark生态系统的组成及各组件的功能 2.请详细阐述Spark的几个主要概念及相互关系： Master, Worker; RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager DAGScheduler, TaskScheduler. Master, Worker： RDD,DAG： Ap
6.RDD综合练习：更丰富的操作（补交）2022-05-31 12:34:41

集合运算练习 union()， intersection()，subtract(), cartesian(）内连接与外连接 join(), leftOuterJoin(), rightOuterJoin(), fullOuterJoin() 多个考勤文件，签到日期汇总，出勤次数统计三、持久化 scm.cache() 总共有多少学生？map(), distinct(), count() 开设了多少门课程
5.RDD操作综合实例2022-05-31 12:33:12

一、词频统计 A. 分步骤实现 1.准备文件下载小说或长篇新闻稿 2.上传到hdf 2.读文件创建RDD 3.分词 4.排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词f
4.RDD操作（补交）2022-05-31 12:32:55

一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 加载停止hdfs 3.通过并行集合（列表）创建RDD 输入列表、字符串、生成数组二、 RDD操作转换操作 1. filter(func)传入lamb
RDD 依赖关系2022-05-30 06:00:40

1、血缘关系&依赖关系 RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。血缘关系
RDD 序列化2022-05-26 21:00:17

问题引入想看一个需求：定义一个用户类，有一个name 属性和toSting方法： class User { var name: String = _ override def toString: String = s"User{$name}" } 现在要声明两个对象并给name 属性赋值，然后将两个实例放在一个rdd里，进行采集打印： def main(args: Array[String
【转】大数据开发之 Spark 面试八股文2022-05-24 14:32:47

【转】大数据开发之 Spark 面试八股文 1. Spark 的运行流程？具体运行流程如下： SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 资源管理器分配 Executor，然后资源管理器启动 Executor Executor 发送心跳至资源管理器 SparkContext
你的第一个大数据 helloword2022-05-20 21:04:19

环境准备目标环境是ubuntu 20，其实是windows下的子系统wsl里安装的。需要安装 pyspark 3.2.1 openjdk 15 注意pyspark 3.2.1 对应的最高版本jdk为openjdk15。安装也比较简单。 pyspark通过pip安装 pip3 install pyspark openjdk: sudo add-apt-repository ppa:openjdk-r/ppa sud
Spark性能优化指南——高级篇2022-05-18 00:33:03

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数
spark数据清洗2022-05-12 10:32:32

spark数据清洗 1.Scala常用语法运用maven创建项目，需要导入如下依赖： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</version> </dependency> main方法： def main(a
7.Spark SQL2022-05-11 23:02:00

------------恢复内容开始------------ 1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执
7. Spark SQL2022-05-11 22:03:54

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因　　hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序复杂性。同时也由

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

pyspark 中的rdd api 编码练习2022-06-17 12:34:04

RDD数据读取与保存2022-06-11 10:35:03

RDD 持久化2022-06-08 19:02:25

大数据处理期末复习2022-06-08 13:02:02

sparkRDD所有算子操作，建议全部手敲一遍2022-06-08 08:34:10

spark大佬总结2022-06-07 21:05:01

5.RDD操作综合实例2022-06-07 18:34:09

6. RDD综合练习：更丰富的操作2022-06-06 12:33:47

7.Spark SQL2022-06-06 12:03:32

6. RDD综合练习：更丰富的操作2022-06-05 23:02:34

6. RDD综合练习：更丰富的操作2022-06-03 14:01:37

3：spark设计与运行原理2022-06-01 10:04:19

6.RDD综合练习：更丰富的操作（补交）2022-05-31 12:34:41

5.RDD操作综合实例2022-05-31 12:33:12

4.RDD操作（补交）2022-05-31 12:32:55

RDD 依赖关系2022-05-30 06:00:40

RDD 序列化2022-05-26 21:00:17

【转】大数据开发之 Spark 面试八股文2022-05-24 14:32:47

你的第一个大数据 helloword2022-05-20 21:04:19

Spark性能优化指南——高级篇2022-05-18 00:33:03

spark数据清洗2022-05-12 10:32:32

7.Spark SQL2022-05-11 23:02:00

7. Spark SQL2022-05-11 22:03:54