RDD

第五章_Spark核心编程_Rdd_行动算子_save oprator2022-03-27 18:02:39

1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: Option[Class[_ <: CompressionCodec]] = None): Unit * 2.功能 *
第五章_Spark核心编程_Rdd_行动算子_take2022-03-27 17:34:48

1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")
4.RDD操作2022-03-27 11:02:05

RDD操作一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合（列表）创建RDD 二、RDD操作转换操作 1.转换操作 1.filter(func) 显式定义函数 lambda函数 2.map(func) 显式定义函数 lambda函数字符串
第五章_Spark核心编程_Rdd_转换算子_keyValue型_cogroup2022-03-27 09:02:32

1. 定义 /* * 1.定义 * def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] * def cogroup[W1, W2](other1: RDD[(K, W1)], other2: RDD[(K, W2)]) * : RDD[(K, (Iterable[V], Iterable[W1], Iterable[W2]))]
第五章_Spark核心编程_Rdd_转换算子_keyValue型_join&leftOuterJoin&rightOuterJoin&fullOuterJoin2022-03-27 08:32:13

1. join /* * 1.定义 * def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] * def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] * 2.功能 * 将两个类型为(K,V)和(K,W)的RDD 进行join，返回一个相同 key 对应的所有元素连接在一
4.RDD操作2022-03-26 19:31:16

一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 加载停止hdfs 3.通过并行集合（列表）创建RDD 输入列表、字符串、生成数组二、 RDD操作转换操作 1. filter(func)传入lambda匿名函数显式
4.RDD操作2022-03-26 19:04:13

4.RDD操作一、 RDD创建从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD 输入列表、字符串、生成数组二、 RDD操作转换操作 filter(func) 传入lambda
Join，leftouterjoin,,rightouterjoin,fullouterjoin算子2022-03-26 16:04:41

join类型算子，是依赖于K,V类型的算子，是俩个RDD的交集操作，底层是cogroup算子+flatmapvalues算子操作。 leftouterjoin类型算子，是依赖于K,V类型的算子，是俩个RDD的交集操作，底层是cogroup算子+flatmapvalues算子操作。类似于mysql的左外连接 rightouterjoin类型算子，是依赖于K,V类型
第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey2022-03-26 09:33:04

1.定义 /* * 1.定义 * def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length) * : RDD[(K, V)] = self.withScope * ascending : true-正序 false-逆序 * numPartitions : 排序完后,对结果数据的分区数 * * 2
4.RDD操作2022-03-25 20:01:23

一、 RDD创建从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD输入列表、字符串、生成数组 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 　　启动hdfs 上传文件
第五章_Spark核心编程_Rdd_转换算子_keyValue型_combineByKey2022-03-25 20:00:40

1. 定义 /* * 1. 定义 * def combineByKey[C](createCombiner: V => C, * mergeValue: (C, V) => C, * mergeCombiners: (C, C) => C, * numPartitions: Int): RDD[(K, C)] * *
第五章_Spark核心编程_Rdd_转换算子_keyValue型_aggregateByKey2022-03-25 12:33:21

1. 定义 /* * 1. 定义 * def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner) * (seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)] * * def aggregateByKey[U: ClassTag](zeroValue: U) * (seqOp: (U, V) =>
4.RDD操作2022-03-21 22:06:41

一、 RDD创建从本地文件系统中加载数据创建RDD将本地文件TextOne.txt中的数据导入RDD中　　　2.从HDFS加载数据创建RDD 　　　启动hdfs 　　　　　　上传文件　　　　　　查看文件　　　加载　　　停止h
spark 调优、spark 代码的优化2022-03-21 17:36:52

spark 调优、spark 代码的优化目录 spark 调优 spark 代码的优化对多次使用的RDD进行持久化使用高性能的算子使用foreachPartitions替代foreach Action算子重分区使用filter之后进行coalesce操作广播大变量使用Kryo优化序列化性能优化数据结构使用高性能的库fastut
4.RDD操作2022-03-20 17:03:58

一、 RDD创建从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD输入列表、字符串、生成数组二、 RDD操作转换操作 filter(func)显式定义函数lambda函数 map(func)显式定义函数lambda函数行动操作
4.RDD操作2022-03-20 12:33:30

一、 RDD创建 1、从本地文件系统中加载数据创建RDD 2、从HDFS加载数据创建RDD 　　启动hdfs 上传文件　查看文件加载停止hdfs 3、通过并行集合（列表）创建RDD 　　输入列表　字符串 numpy生成数组　　若没有装nu
4.RDD操作2022-03-19 13:35:37

一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 3.通过并行集合（列表）创建RDD 输入列表、字符串、numpy生成数组二、 RDD操作转换操作 1.map(func)显式定义函数 lambda函数 2.filter(func)lambd
rdd创建2022-03-18 20:34:25

RDD创建 1.SparkContext的创建 2.传入lambda函数 3.lambda函数显示函数显示定义函数实例2 lambda函数显示定义函数将数据集中的每个元素进行输出将数据集中的每个元素传递到lambda函数中运行以数组的形式返回数据集中的
3.Spark设计与运行原理，基本操作2022-03-10 15:00:13

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。图1 Spark生态系统的组成及各组件各个组件的具体
3.Spark设计与运行原理，基本操作2022-03-10 14:04:13

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能 Spark Core：是整个BDAS生态系统的核心组件，是一个分布式大数据处理框架。其包含Spark最基础和最核心的功能，如内存计算、任务调度、部署模式、故障恢复、存储管理等，
Spark设计与运行原理，基本操作2022-03-10 01:31:49

一、请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。图1 Spark生态系统的组成及各组件各个组件的具体功能如下： Spark Core Spark Core包含Spark最基础和
3.Spark设计与运行原理，基本操作2022-03-09 15:35:09

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 1. Spark Core 　　实现Spark的基本功能，包括任务调度、内存管理、错误恢复、与存储系统交互等，以及RDD（Resilient Distributed Dataset）API的定义。 2. Spark SQL
3.Spark设计与运行原理，基本操作2022-03-09 15:04:42

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 1. Spark CoreSpark Core是整个BDAS的核心组件，是一种大数据分布式处理框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供如filter、join、groupByKey等
3.Spark设计与运行原理，基本操作2022-03-09 15:01:24

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。 Spark Core：Spark的核心组件，包含任务调度、内存管理、错误恢复、与存储系统交互模块。Spark Core中包含对弹性分布式数据集的API定义，RDD是只读的分区记录的集合，只能基于
3.Spark设计与运行原理，基本操作2022-03-09 12:31:41

①Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。组件介绍 1 . Spark Core： Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集），图中在Spark Core上面的四个组件都依赖于Spark Core，可以简单认为Spark Core就是Spark生

首页 < 5 6 7 8 > 尾页

ICode9

第五章_Spark核心编程_Rdd_行动算子_save oprator2022-03-27 18:02:39

第五章_Spark核心编程_Rdd_行动算子_take2022-03-27 17:34:48

4.RDD操作2022-03-27 11:02:05

第五章_Spark核心编程_Rdd_转换算子_keyValue型_cogroup2022-03-27 09:02:32

第五章_Spark核心编程_Rdd_转换算子_keyValue型_join&leftOuterJoin&rightOuterJoin&fullOuterJoin2022-03-27 08:32:13

4.RDD操作2022-03-26 19:31:16

4.RDD操作2022-03-26 19:04:13

Join，leftouterjoin,,rightouterjoin,fullouterjoin算子2022-03-26 16:04:41

第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey2022-03-26 09:33:04

4.RDD操作2022-03-25 20:01:23

第五章_Spark核心编程_Rdd_转换算子_keyValue型_combineByKey2022-03-25 20:00:40

第五章_Spark核心编程_Rdd_转换算子_keyValue型_aggregateByKey2022-03-25 12:33:21

4.RDD操作2022-03-21 22:06:41

spark 调优、spark 代码的优化2022-03-21 17:36:52

4.RDD操作2022-03-20 17:03:58

4.RDD操作2022-03-20 12:33:30

4.RDD操作2022-03-19 13:35:37

rdd创建2022-03-18 20:34:25

3.Spark设计与运行原理，基本操作2022-03-10 15:00:13

3.Spark设计与运行原理，基本操作2022-03-10 14:04:13

Spark设计与运行原理，基本操作2022-03-10 01:31:49

3.Spark设计与运行原理，基本操作2022-03-09 15:35:09

3.Spark设计与运行原理，基本操作2022-03-09 15:04:42

3.Spark设计与运行原理，基本操作2022-03-09 15:01:24

3.Spark设计与运行原理，基本操作2022-03-09 12:31:41