文章目录 Spark学习笔记第一章、基本认识与快速上手1.1、认识Spark1.2、对比Hadoop1.3、Spark组成基本介绍1.4、快速上手之WorldCount实现1.4.1、方式一(Scala类似集合操作实现)1.4.2、方式二(MR思维实现)1.4.3、方式三(Spark实现) 第二章、环境搭建2.1、Local模式2.1.1、Sp
1. 概述 在2.x中,spark有两个用来与kafka整合的代码,版本代号为0.8和0.10,由于在0.8,kafka有两套消费者api,根据高级api得到了Receiver-based Approach,根据低级api得到了Direct Approach,而在0.10由于kafka只有一套消费者api了,所以也只有Direct Approach 2. Direct Approach 由于0.8与
第1章RDD概述1.1RDD引入之IO流 1.2什么是RDD 1.3RDD特性 A list of partitions多个分区,分区可以看成是数据集的基本组成单位对于 RDD 来说, 每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默
import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} //map(func) object sampleRDD { def main(args: Array[String]): Unit = { //本地模式 val conf: SparkConf = new SparkConf().setAppName("My scala word count&quo
Spark 中最基本的数据抽象是 RDD。 RDD:弹性分布式数据集 (Resilient Distributed DataSet)。 不可变,分区,并行 1.转换算子 value(Map) 2.行动算子--操作数据(collect) .创建 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object rdd0
1 package com.zhoukao2 2 3 import org.apache.spark.{SparkConf, SparkContext} 4 5 6 object Demo3 { 7 def main(args: Array[String]): Unit = { 8 //创建sparkConf对象 9 val sparkConf = new SparkConf().setAppName("Demo3").setMaster(&
一、依赖包配置 scala与spark的相关依赖包,spark包后尾下划线的版本数字要跟scala的版本第一二位要一致,即2.11 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i
1、必须是使用case 定义object类 package configimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}case object conf { val confs: SparkConf = new SparkConf().setMaster("local").setAppName("job") val sc = n
1.map算子 private static void map() { //创建SparkConf SparkConf conf = new SparkConf() .setAppName("map") .setMaster("local"); //创建JavasparkContext JavaSparkContext sc =
SQLContext的使用 SQLContext在Spark1.6中使用,在spark2.x中已经标记为过时,不推荐使用。 示例代码 package com.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext /* SQLContext的使用 */ object SQLContextAPP { def mai