ICode9

精准搜索请尝试: 精确搜索
  • spark计算引擎,资源调度,任务调度,累加器,广播变量2022-07-14 22:36:38

    Spark 关键词:spark计算引擎,资源调度(申请资源),任务调度(执行task) 累加器,广播变量。 spark计算引擎,资源调度(申请资源),任务调度(执行task) 注:此此流程使用 yarn-client 模式 1-7 为资源调度(申请资源) 1在本地启动Driver程序 2.向RM申请启动AM 3. AM随机分配一个节点启动AM 4.启动A

  • Spark WordCount2022-07-13 20:36:34

    WordCount基本流程和spark实现 基本流程 1.创建spark环境 2.创建创建spark上下文对象,也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开,让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新的文件中 代码实现 object Demo1W

  • Spark 算子2022-07-13 20:01:52

    Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会

  • Spark集群搭建(不常用,一般使用yarn整合)2022-07-13 00:01:38

    Spark集群搭建(不常用) 1、上传解压,配置环境变量 配置bin目录,解压 重命名 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 配置环境变量 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 环境变量配置完成后记得source一下 2. 修改配置文件 修改配置文件 conf cp spark-env.sh.template sp

  • Spark—算子—spark缓存策略2022-07-12 23:00:06

    Spark—算子—spark缓存策略 转换算子和操作算子 转换算子 转换算子:将一个RDD转换成另一个RDD,转换算子是懒执行,需要action算子来触发执行 操作算子 触发任务执行,一个action算子会触发一次任务执行,同时每一个action算子都会触发前面的代码执行 package com.core.day2 import org.a

  • Spark_常用算子2022-07-12 22:34:48

    Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序,默认是升序, ascending = false: 降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo13Sort { def main(args: Array[String]): Unit = { val

  • Spark解决问题2022-07-12 14:00:53

    Spark解决问题 配置pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=&q

  • Spark-RDD,算子2022-07-12 09:04:15

    Spark内核 RDD ResilientDistributedDataset (弹性分布式数据集 ) 五大特性: A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDDs Optionally, a list of preferred locations to comp

  • spark-算子2022-07-12 09:03:08

    spark-算子 groupBy -分组 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo7GroupBy { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("map")

  • Spark初识2022-07-12 08:33:41

    Spark初识 回顾一下前面的MapReduce流程,可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} ob

  • 【每日操作与学习】2022年7月11日-做长期规划2022-07-12 00:05:08

    〇、规划 1、电脑重装 2、安装需要的软件 3、Git提交代码 4、使用maven配置spark并进行编程 5、搭建虚拟机集群 6、使用Git构建个人主页,使用Nginx构建个人主页 7、远程连接Linux 8、本地安装docker 9、spark读表数据 10、构建Hadoop环境 一、回来的计划 SQL&整理 data保存&下载 操

  • spark与MapReduce的区别2022-07-11 22:04:33

    spark与MapReduce的区别 内存和磁盘的区别 spark最核心的概念是RDD(弹性分布式数据集),它的所有RDD在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr在计算过程中 mapr:一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中,在计算过程中

  • 1 大数据软件性能优化2022-07-10 10:03:57

    在大数据使用、开发过程的性能优化一般可以从以下角度着手进行。 SQL 语句优化。使用关系数据库的时候,SQL 优化是数据库优化的重要手段,因为实现同样功能但是不同的 SQL 写法可能带来的性能差距是数量级的。我们知道在大数据分析时,由于数据量规模巨大,所以 SQL 语句写法引起的性能

  • apache spark conenct 提升spark 能力2022-07-09 20:33:06

    spark 是一个很强大的工具,但是大家可能也会使用比较费事,包含了集群管理,以及多租户管理,所以社区开发了不少基于spark 的扩展,apachekyuubi 就是一个典型提供了多租户以及直接使用sql 进行spark 操作的能力 原有spark 集成模式     新spark 集成模式     说明 apache spark co

  • 【Spark】spark.sql.sources.partitionOverwriteMode2022-07-07 18:34:07

    参考:(80条消息) spark优化之分区插入_大怀特的博客-CSDN博客_spark插入   // 覆盖指定分区table("tv_group").write.option("partitionOverwriteMode", "dynamic").partitionBy("store_id", "group_id"). mode(SaveMode.Overwrite).save("x

  • Spark快速上手(7)Scala使用 JUnit4 单元测试2022-07-07 17:37:12

    备忘 导入依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>compile</scope> </dependen

  • Spark快速上手(6)Spark核心编程-RDD行动算子Action2022-07-07 17:03:41

    RDD(3) RDD行动算子 所谓行动算子,就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 e.g. code: def main(args: Array[String]): Unit = { val source: RDD[Int] = sc.makeRDD(List(1, 2,

  • spark基础-scala2022-07-06 11:04:33

    scala特点 面向对象的,函数式编程的,静态类型的,可扩展的,可以交互操作的 idea中下载安装scala插件 打开idea-->plugins-->搜索scala-->点击installed安装 创建scala程序 进入New Project:      选着对应的jdk和scala-sdk进行创建:      创建成功后可以看到一下目录:      

  • Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)2022-07-04 17:31:08

    @Spark分区器(Partitioner) HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为null值是返回0。 源码在org.apache.spark包下: origin code: class

  • Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

    RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1 val source = spa

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • 一个Golang的REPL工具2022-06-28 19:02:10

      REPL为Read-Eval-Print Loop的简写,为一种简易的,可交互式的编程环境,使用者可以方便的调试相关代码:   Read: 读取用户输入;   Eval: 计算输入的数据;   Print: 输出所计算的数据;   Loop: 循环执行上述流程;   目前多种编程语言也都官方自带了REPL工具,如nodeJS、Scala、Python

  • Spark SQL 数据源 hive表2022-06-24 17:05:28

    Spark SQL 数据源(json文件、hive表、parquet文件) -- json 详见 524 hive表   scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one deprecation (since 2.0.0); for details, enable `:setting -deprecation' or `:replay -deprecation'

  • Spark SQL 数据源 parquet文件2022-06-24 17:04:57

    scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, age: string ... 2 more fields] scala> employee.write.parquet("employee.parquet"

  • 【Spark Streaming Kafka】Spark流处理消费Kafka数据示例代码2022-06-22 12:05:20

    代码 package test import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord} import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.{SparkConf, TaskContext} import org.apache.spark.streaming.dstream.{DStream

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有