ICode9

精准搜索请尝试: 精确搜索
  • DataFrame与rdd之间的转换(val rdd1 = dataFrame.rdd)2022-08-30 08:32:25

    核心语句val rdd1 = dataFrame.rdd package SparkSQL.DataFreamCreate.dataframetordd import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.types.{DataTypes, StructField, StructType} import org.apache.spark.sql.{DataFrame,

  • spark开发调优2021-12-14 17:34:56

    目录开发调优原则避免创建重复的RDD尽可能复用同一个RDD对多次使用的RDD持久化Spark的持久化级别如何选择一种最合适的持久化策略尽量避免使用Shuffle类算子Broadcast与map进行join代码示例使用Map-Side预聚合的Shuffle操作使用高性能的算子使用reduceByKey/aggregateByKey替代gro

  • 【Spark】【RDD】初次学习RDD 笔记 汇总2021-10-31 08:04:57

    RDD Author:萌狼蓝天 【哔哩哔哩】萌狼蓝天 【博客】https://mllt.cc 【博客园】萌狼蓝天 - 博客园 【微信公众号】mllt9920 【学习交流QQ群】238948804 目录RDD特点创建从内存中创建RDD从外部存储创建RDD1.创建本地文件2.启动spark-shell3.从本地文件系统中读取从HDFS创建RDD1

  • spark之交集并集差集拉链2021-09-22 20:02:46

    spark之交集并集差集拉链   def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator") val sc = new SparkContext(sparkConf) // TODO 算子 - 双Value类型 // 交集,

  • Spark原理及源码解析【第六阶段模块四】2021-09-17 18:35:41

    简答题: 以下代码: import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object JoinDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local

  • 一眼看懂map和flatmap的区别2021-07-07 19:31:06

    一眼看懂map和flatmap的区别 map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。 flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 Spark 中 map函数会对每一条输入进行指定的操作,然后为每

  • Spark-core性能优化——开发调优2021-06-15 19:05:08

    目录 Spark-core性能优化——开发调优 开发调优基本原则 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 原则五:使用map-side预聚合的shuffle操作 原则六:使用高性能的算子 原则七:广播大变量 原则八:使用Kr

  • Spark(RDD)2021-06-02 21:33:18

    RDD 1.所谓的RDD,其实就是一个数据结构,类似于链表中的Node 2.RDD中有适合并行计算的分区操作 3.RDD中封装了最小的计算单元,目的是更适合重复使用 4.Spark的计算主要就是通过组合RDD的操作,完成业务需求 1.从集合(内存)中创建RDD 从集合中创建RDD,Spark主要提供了两个方法:parallelize和m

  • Spark-Shell编程2021-02-03 19:02:18

    Spark-Shell编程 进入Spark-shell模式 bin/spark-shell --master local[6] #本地运行 WordCount案例 读取文件 val rdd1=sc.textFile("file:///export/wordcount.txt") #读取本地文件 val rdd1=sc.textFile("hdfs://node01:8020/wordcount.txt") #读取hdfs文件 分割展平 va

  • Spark ~ RDD总结2021-01-27 16:01:44

    Spark ~ RDD总结 TRANSFORMATION 型 RDDVALUE 类型--1map(func)flatMap(func)map(func) 与 flatMap(func) 区别mapPartitionsWithIndex(func)mapPartitions()map() 和 mapPartition() 的区别glom()groupBy(func)filter(func)sample(withReplacement, fraction, seed)distin

  • Spark算子:RDD基本转换transform操作–union、intersection、subtract2021-01-05 18:29:05

    Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.4.5.online-JD2.4.5.16-202012212053 /_/ Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM

  • spark---- RDD算子之Action算子2020-12-26 23:06:08

    Action算子     调用sc.ranjob方法,根据最后一个RDD从后往前推,触发Action就会生成DAG,切分Stage,生成TaskSet  算子:  aggregate  foreach  foreachPartition  count sum  fold  reduce  max  min  take  first  top  takeOrdered aggregate  聚合   ,设

  • spark之开发调优2020-06-02 19:07:02

        Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的

  • spark优化要点(开发)2020-02-03 11:40:21

    背景 为什么需要调优?? 程序都是能跑的,集群还是那个集群,但是有可能另外一个会调优的人和你写的代码的运行的速度要几倍甚至几十倍 1.开发调优 1.1 原则一:避免创建重复的RDD 我们有一份数据 ,student.txt 第一个需求 :wordCount val stuRDD = sc.textFile(“e://sparkData//stu

  • Spark-Core RDD转换算子-双Value型交互2019-12-15 19:52:46

    1、union(otherDataSet) 作用:求并集. 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD scala> val rdd1 = sc.parallelize(1 to 6) scala> val rdd2 = sc.parallelize(4 to 10) scala> val rdd3 = rdd1.union(rdd2) scala> rdd3.collect res1: Array[Int] = Array(1, 2, 3, 4, 5, 6

  • sparkRDD:第3节 RDD常用的算子操作2019-08-29 22:00:52

    4.      RDD编程API 4.1 RDD的算子分类        Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。 Action(动作):对rdd结果计算后返回一个数值value给驱动程序,或者把结果存储到外部存储系统(例如HDFS)中; 例如:co

  • 好程序员分享大数据的架构体系2019-08-13 17:58:24

    好程序员分享大数据的架构体系:            flume采集数据            MapReduce            HBse (HDFS)            Yarn   资源调度系统  展示平台 数据平台            1,提交任务            2,展

  • 好程序员分享大数据的架构体系2019-08-13 17:03:25

                flume采集数据             MapReduce             HBse (HDFS)             Yarn   资源调度系统   展示平台 数据平台             1,提交任务             2,展示结果数据   spark 分析引擎

  • Spark学习之路 (八)SparkCore的调优之开发调优2019-06-11 11:50:05

    讨论QQ:1586558083 目录 调优概述 原则一:避免创建重复的RDD 一个简单的例子 原则二:尽可能复用同一个RDD 一个简单的例子 原则三:对多次使用的RDD进行持久化 对多次使用的RDD进行持久化的代码示例 Spark的持久化级别 如何选择一种最合适的持久化策略 原则四:尽量避免使用s

  • spark actions 算子2019-04-02 11:38:50

    package action;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function2;import org.apache.

  • spark Transformations算子2019-04-02 10:50:37

    在java中,RDD分为javaRDDs和javaPairRDDs。下面分两大类来进行。 都必须要进行的一步。 SparkConf conf = new SparkConf().setMaster("local").setAppName("test");JavaSparkContext sc = new JavaSparkContext(conf);    一。javaRDDs 1 String[] ayys = {"a"

  • RDD算子2019-03-08 09:48:44

    RDD算子 #常用Transformation(即转换,延迟加载)#通过并行化scala集合创建RDDval rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))#查看该rdd的分区数量rdd1.partitions.lengthval rdd1 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有