[BigDataHadoop:Hadoop&Spark.V09] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&TopN优化|一、TopN编程代码### --- TopN编程代码优化 package cn.yanqi.sparkcore import
[BigDataHadoop:Hadoop&Spark.V11] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&shuffle原理|]一、Shuffle原理### --- shuffle原理 ~~~ Shuffle的本意是
[BigDataHadoop:Hadoop&Spark.V12] [BigDataHadoop.Spark内存级快速计算引擎][|章节二|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&RDD编程优化|]一、RDD编程优化### --- RDD复用 ~~~ 避免创建重复的RDD。
[BigDataHadoop:Hadoop&Spark.V05] [BigDataHadoop.Spark内存级快速计算引擎][|章节四|Hadoop|spark|spark sql:spark sql编程&Transformation操作|]一、Transformation 操作### --- select * from tab where ... group
[BigDataHadoop:Hadoop&Spark.V05] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:spark伪分布式模式|]一、伪分布式### --- 伪分布式 ~~~ # 伪分布式模式:在一台机器中模拟集群运行,相
[BigDataHadoop:Hadoop&Spark.V06] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:Spark-Standalone集群模式&standalone配置&core&mamory|]一、集群模式--Standalone模式### --- 集群模式-
Spark 为了达到高并发,高吞吐数据处理能力封装RDD外,也封装了另外两个数据对象 广播变量:分布式共享只读变量 累加器:分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义 如果我们需要在分布式计算里面芬达大对象,例如:集合,字典或者黑白名单等,这个都会有 Driver 端进行分发,一
目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)Cluster Manager:资源管理器4)Executor:执行器5)Worker:计算节点6)RDD:弹性分布式数据集7)窄依赖8)宽依赖9)DAG:有向无环图10)DAGScheduler:有向无环图调度器11)TaskSched
执行数据入hive的spark任务时报错: org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view 'test' not found in database 'test_1'; 解决问题: 原因:部署环境的spark目录下conf里hive-site.xml文件没有更新,导致找不到数据库。 办法:将hive的conf目录中的hive-
一、词频统计 A. 分步骤实现 1、准备文件 1、下载小说或长篇新闻稿 2、上传到hdfs上 2、读文件创建RDD 3、分词 4、 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 长度小于2的词filter() 5、统计词频 6、按词频排序 7、输出到文件
一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()
5.RDD操作综合实例 一、词频统计 A. 分步骤实现 1.上传到hdfs上 2,读文件创建RDD 3.分词 4.排除大小写lower(),map() 5.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(),长度
一、词频统计 A. 分步骤实现 1.准备文件,下载小说或长篇新闻稿 2.上传到hdfs上 3.读文件创建RDD 4.分词 5.排除大小写lower(),map() 6.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载
一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter()
spark-streaming-kafka-0-10源码分析 https://cloud.tencent.com/developer/article/1594316 spark闭包 https://mp.weixin.qq.com/s/l_tfjPMEBjx-63aYyez5Qg
一、词频统计 A. 分步骤实现 1. 准备文件,下载小说或长篇新闻稿 2. 上传到hdfs上 3. 读文件创建RDD 4. 分词 5. 排除大小写lower(),map() 6. 标点符号re.split(pattern,str),flatMap() 识别标点符号并替换成空白值 清除空白值 7. 停用词,可网盘下载stopwords.txt
尚硅谷大数据Spark教程从入门到精通 001.尚硅谷_Spark框架 - 简介 002.尚硅谷_Spark框架 - Vs Hadoop 003.尚硅谷_Spark框架 - 核心模块 - 介绍 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备 005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析 006.尚硅谷_Spark框架 -
1.说明 * 1.Rdd文件读取和保存 可以从两个角度来区分 * 文件格式 : text、json、csv、sequence文件、Object序列化文件 * 文件系统 : 本地文件系统、hdfs、hbase、各类型数据库 2.Spark中怎样读取&保存text文件? 1.读取 * 1.SparkContext.textFile *
一、安装依赖信息 spark版本:spark-3.1.3-bin-hadoop3.2 hadoop版本:hadoop-3.2.1 scala版本:scala-2.11.12 建议3.12版本 下载地址:https://spark.apache.org/downloads.html 二、安装 2.1 单机配置环境 vim ~/.bash_profile #Spark3 SPARK_HOME=/Users/Robots2/softWare/spark-3
1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系? * 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的 元数据信息和转换行为 *
转在doublexi: https://www.cnblogs.com/doublexi/p/15624795.html 在前面我们已经准备了三台服务器,并做好初始化,配置好jdk与免密登录等。并且已经安装好了hadoop集群。如果还没有配置好的,参考我前面两篇博客:Spark集群环境搭建——服务器环境初始化:https://www.cnblogs.com/doubl
1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: Option[Class[_ <: CompressionCodec]] = None): Unit * 2.功能 *
1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")
1.定义 /* * 1.定义 * def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length) * : RDD[(K, V)] = self.withScope * ascending : true-正序 false-逆序 * numPartitions : 排序完后,对结果数据的分区数 * * 2
目前,公司里数据质量检测是通过配置规则报警来实现的,对于有些表需要用shell脚本来封装hivesql来进行检测,在时效性和准确上不能很好的满足,故尝试使用Deequ来做质量检测工具。 一、官网示例 package org.shydow.deequ import com.amazon.deequ.checks.CheckStatus import com.amazo