Spark

spark计算引擎，资源调度，任务调度，累加器，广播变量2022-07-14 22:36:38

Spark 关键词：spark计算引擎，资源调度（申请资源），任务调度（执行task）累加器，广播变量。 spark计算引擎，资源调度（申请资源），任务调度（执行task）注：此此流程使用 yarn-client 模式 1-7 为资源调度（申请资源） 1在本地启动Driver程序 2.向RM申请启动AM 3. AM随机分配一个节点启动AM 4.启动A
Spark WordCount2022-07-13 20:36:34

WordCount基本流程和spark实现基本流程 1.创建spark环境 2.创建创建spark上下文对象，也就是spark写代码的入口 3.读取文件中的数据 4.首先将每一行数据展开，让每一个word单独一行 5.将word进行分组 6.对word出现的次数分别统计 7.将结果保存在新的文件中代码实现 object Demo1W
Spark 算子2022-07-13 20:01:52

Spark的算子的分类从大方向来说，Spark 算子大致可以分为以下两类: Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会
Spark集群搭建（不常用,一般使用yarn整合）2022-07-13 00:01:38

Spark集群搭建（不常用） 1、上传解压，配置环境变量配置bin目录,解压重命名 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 配置环境变量 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 环境变量配置完成后记得source一下 2. 修改配置文件修改配置文件 conf cp spark-env.sh.template sp
Spark—算子—spark缓存策略2022-07-12 23:00:06

Spark—算子—spark缓存策略转换算子和操作算子转换算子转换算子：将一个RDD转换成另一个RDD，转换算子是懒执行，需要action算子来触发执行操作算子触发任务执行，一个action算子会触发一次任务执行，同时每一个action算子都会触发前面的代码执行 package com.core.day2 import org.a
Spark_常用算子2022-07-12 22:34:48

Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序，默认是升序, ascending = false：降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo13Sort { def main(args: Array[String]): Unit = { val
Spark解决问题2022-07-12 14:00:53

Spark解决问题配置pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=&q
Spark-RDD，算子2022-07-12 09:04:15

Spark内核 RDD ResilientDistributedDataset （弹性分布式数据集）五大特性: A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDDs Optionally, a list of preferred locations to comp
spark-算子2022-07-12 09:03:08

spark-算子 groupBy -分组 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Demo7GroupBy { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("map")
Spark初识2022-07-12 08:33:41

Spark初识回顾一下前面的MapReduce流程，可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} ob
【每日操作与学习】2022年7月11日-做长期规划2022-07-12 00:05:08

〇、规划 1、电脑重装 2、安装需要的软件 3、Git提交代码 4、使用maven配置spark并进行编程 5、搭建虚拟机集群 6、使用Git构建个人主页，使用Nginx构建个人主页 7、远程连接Linux 8、本地安装docker 9、spark读表数据 10、构建Hadoop环境一、回来的计划 SQL&整理 data保存&下载操
spark与MapReduce的区别2022-07-11 22:04:33

spark与MapReduce的区别内存和磁盘的区别 spark最核心的概念是RDD（弹性分布式数据集），它的所有RDD在并行运算过程程中，可以做到数据共享，也就是可以重复使用mr在计算过程中 mapr：一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中，在计算过程中
1 大数据软件性能优化2022-07-10 10:03:57

在大数据使用、开发过程的性能优化一般可以从以下角度着手进行。 SQL 语句优化。使用关系数据库的时候，SQL 优化是数据库优化的重要手段，因为实现同样功能但是不同的 SQL 写法可能带来的性能差距是数量级的。我们知道在大数据分析时，由于数据量规模巨大，所以 SQL 语句写法引起的性能
apache spark conenct 提升spark 能力2022-07-09 20:33:06

spark 是一个很强大的工具，但是大家可能也会使用比较费事，包含了集群管理，以及多租户管理，所以社区开发了不少基于spark 的扩展，apachekyuubi 就是一个典型提供了多租户以及直接使用sql 进行spark 操作的能力原有spark 集成模式新spark 集成模式说明 apache spark co
【Spark】spark.sql.sources.partitionOverwriteMode2022-07-07 18:34:07

参考：(80条消息) spark优化之分区插入_大怀特的博客-CSDN博客_spark插入 // 覆盖指定分区table("tv_group").write.option("partitionOverwriteMode", "dynamic").partitionBy("store_id", "group_id"). mode(SaveMode.Overwrite).save("x
Spark快速上手(7)Scala使用 JUnit4 单元测试2022-07-07 17:37:12

备忘导入依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>compile</scope> </dependen
Spark快速上手(6)Spark核心编程-RDD行动算子Action2022-07-07 17:03:41

RDD(3) RDD行动算子所谓行动算子，就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据 e.g. code: def main(args: Array[String]): Unit = { val source: RDD[Int] = sc.makeRDD(List(1, 2,
spark基础-scala2022-07-06 11:04:33

scala特点面向对象的，函数式编程的，静态类型的，可扩展的，可以交互操作的 idea中下载安装scala插件打开idea-->plugins-->搜索scala-->点击installed安装创建scala程序进入New Project: 选着对应的jdk和scala-sdk进行创建：创建成功后可以看到一下目录：
Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)2022-07-04 17:31:08

@Spark分区器(Partitioner) HashPartitioner（默认的分区器） HashPartitioner分区原理是对于给定的key，计算其hashCode，并除以分区的个数取余，如果余数小于0，则余数+分区的个数，最后返回的值就是这个key所属的分区ID，当key为null值是返回0。源码在org.apache.spark包下： origin code: class
Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换 e.g.1 val source = spa
基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

Hadoop 什么是Hadoop？ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发，现在则隶属于Apache基金会 Hadoop的核心组成 Hadoop框架主要包括三大部分：分布式文件系统、分布式计算系统、资
一个Golang的REPL工具2022-06-28 19:02:10

REPL为Read-Eval-Print Loop的简写，为一种简易的，可交互式的编程环境，使用者可以方便的调试相关代码： Read：读取用户输入； Eval：计算输入的数据； Print：输出所计算的数据； Loop：循环执行上述流程；目前多种编程语言也都官方自带了REPL工具，如nodeJS、Scala、Python
Spark SQL 数据源 hive表2022-06-24 17:05:28

Spark SQL 数据源（json文件、hive表、parquet文件） -- json 详见 524 hive表 scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one deprecation (since 2.0.0); for details, enable `:setting -deprecation' or `:replay -deprecation'
Spark SQL 数据源 parquet文件2022-06-24 17:04:57

scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, age: string ... 2 more fields] scala> employee.write.parquet("employee.parquet"
【Spark Streaming Kafka】Spark流处理消费Kafka数据示例代码2022-06-22 12:05:20

代码 package test import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord} import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.{SparkConf, TaskContext} import org.apache.spark.streaming.dstream.{DStream

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

spark计算引擎，资源调度，任务调度，累加器，广播变量2022-07-14 22:36:38

Spark WordCount2022-07-13 20:36:34

Spark 算子2022-07-13 20:01:52

Spark集群搭建（不常用,一般使用yarn整合）2022-07-13 00:01:38

Spark—算子—spark缓存策略2022-07-12 23:00:06

Spark_常用算子2022-07-12 22:34:48

Spark解决问题2022-07-12 14:00:53

Spark-RDD，算子2022-07-12 09:04:15

spark-算子2022-07-12 09:03:08

Spark初识2022-07-12 08:33:41

【每日操作与学习】2022年7月11日-做长期规划2022-07-12 00:05:08

spark与MapReduce的区别2022-07-11 22:04:33

1 大数据软件性能优化2022-07-10 10:03:57

apache spark conenct 提升spark 能力2022-07-09 20:33:06

【Spark】spark.sql.sources.partitionOverwriteMode2022-07-07 18:34:07

Spark快速上手(7)Scala使用 JUnit4 单元测试2022-07-07 17:37:12

Spark快速上手(6)Spark核心编程-RDD行动算子Action2022-07-07 17:03:41

spark基础-scala2022-07-06 11:04:33

Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)2022-07-04 17:31:08

Spark快速上手(3)Spark核心编程-RDD转换算子2022-07-01 19:36:12

基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

一个Golang的REPL工具2022-06-28 19:02:10

Spark SQL 数据源 hive表2022-06-24 17:05:28

Spark SQL 数据源 parquet文件2022-06-24 17:04:57

【Spark Streaming Kafka】Spark流处理消费Kafka数据示例代码2022-06-22 12:05:20