Spark

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Spark.V09|------------------------------------------|Spa2022-04-12 13:35:02

[BigDataHadoop：Hadoop&Spark.V09] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore：RDD编程高阶&TopN优化|一、TopN编程代码### --- TopN编程代码优化 package cn.yanqi.sparkcore import
|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa2022-04-12 13:34:27

[BigDataHadoop：Hadoop&Spark.V11] [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore：RDD编程高阶&spark原理初探&shuffle原理|]一、Shuffle原理### --- shuffle原理 ~~~ Shuffle的本意是
|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Spark.V12|------------------------------------------|Spa2022-04-12 13:33:40

[BigDataHadoop：Hadoop&Spark.V12] [BigDataHadoop.Spark内存级快速计算引擎][|章节二|Hadoop|spark|sparkcore：RDD编程高阶&spark原理初探&RDD编程优化|]一、RDD编程优化### --- RDD复用 ~~~ 避免创建重复的RDD。
|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Spark.V05|------------------------------------------|Spa2022-04-12 13:32:51

[BigDataHadoop：Hadoop&Spark.V05] [BigDataHadoop.Spark内存级快速计算引擎][|章节四|Hadoop|spark|spark sql：spark sql编程&Transformation操作|]一、Transformation 操作### --- select * from tab where ... group
|NO.Z.00005|——————————|^^ 配置 ^^|——|Hadoop&Spark.V05|------------------------------------------|Spar2022-04-11 20:35:44

[BigDataHadoop：Hadoop&Spark.V05] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore：spark伪分布式模式|]一、伪分布式### --- 伪分布式 ~~~ # 伪分布式模式：在一台机器中模拟集群运行，相
|NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar2022-04-11 20:34:40

[BigDataHadoop：Hadoop&Spark.V06] [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore：Spark-Standalone集群模式&standalone配置&core&mamory|]一、集群模式--Standalone模式### --- 集群模式-
Spark 广播变量&累加器2022-04-11 07:31:22

Spark 为了达到高并发，高吞吐数据处理能力封装RDD外，也封装了另外两个数据对象广播变量：分布式共享只读变量累加器：分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义如果我们需要在分布式计算里面芬达大对象，例如：集合，字典或者黑白名单等，这个都会有 Driver 端进行分发，一
大数据Hadoop之——计算引擎Spark2022-04-09 18:00:18

目录一、概述1）Spark特点2）Spark适用场景二、Spark核心组件三、Spark专业术语详解1）Application：Spark应用程序2）Driver：驱动程序3）Cluster Manager：资源管理器4）Executor：执行器5）Worker：计算节点6）RDD：弹性分布式数据集7）窄依赖8）宽依赖9）DAG：有向无环图10）DAGScheduler：有向无环图调度器11）TaskSched
执行spark任务时报错Table or view 'test' not found in database 'test_1'2022-04-08 11:34:12

执行数据入hive的spark任务时报错： org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view 'test' not found in database 'test_1'; 解决问题：原因：部署环境的spark目录下conf里hive-site.xml文件没有更新，导致找不到数据库。办法：将hive的conf目录中的hive-
5.RDD操作综合实例2022-04-08 02:01:10

一、词频统计 A. 分步骤实现 1、准备文件　　1、下载小说或长篇新闻稿　　2、上传到hdfs上 2、读文件创建RDD 3、分词 4、排除大小写lower()，map() 　　标点符号re.split(pattern,str)，flatMap(), 　　长度小于2的词filter() 5、统计词频 6、按词频排序 7、输出到文件
5.RDD操作综合实例2022-04-07 22:02:27

一、词频统计 A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD 分词排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 　　　
5.RDD操作综合实例2022-04-07 20:36:01

5.RDD操作综合实例一、词频统计 A. 分步骤实现　　1.上传到hdfs上　　　　　　2，读文件创建RDD 　　　　3.分词　　　　4.排除大小写lower()，map() 　　　　5.标点符号re.split(pattern,str)，flatMap(),停用词,可网盘下载stopwords.txt,filter()，长度
5.RDD操作综合实例2022-04-07 15:32:16

一、词频统计 A. 分步骤实现　　1.准备文件，下载小说或长篇新闻稿　　　　2.上传到hdfs上　　　　　　3.读文件创建RDD 　　　　4.分词　　　　5.排除大小写lower()，map() 　　　　6.标点符号re.split(pattern,str)，flatMap(),停用词,可网盘下载
5.RDD操作综合实例2022-04-07 15:00:29

一、词频统计 A. 分步骤实现准备文件下载小说或长篇新闻稿上传到hdfs上读文件创建RDD 分词排除大小写lower()，map() 标点符号re.split(pattern,str)，flatMap(), 停用词,可网盘下载stopwords.txt,filter()，长度小于2的词filter() 　　　
spark-streaming-kafka-0-10源码分析和spark闭包的链接整理2022-04-07 13:02:17

spark-streaming-kafka-0-10源码分析 https://cloud.tencent.com/developer/article/1594316 spark闭包 https://mp.weixin.qq.com/s/l_tfjPMEBjx-63aYyez5Qg
5.RDD操作综合实例2022-04-06 15:34:55

一、词频统计 A. 分步骤实现 1. 准备文件，下载小说或长篇新闻稿 2. 上传到hdfs上 3. 读文件创建RDD 4. 分词 5. 排除大小写lower()，map() 6. 标点符号re.split(pattern,str)，flatMap() 识别标点符号并替换成空白值清除空白值 7. 停用词,可网盘下载stopwords.txt
spark学习路线2022-04-04 12:31:25

尚硅谷大数据Spark教程从入门到精通 001.尚硅谷_Spark框架 - 简介 002.尚硅谷_Spark框架 - Vs Hadoop 003.尚硅谷_Spark框架 - 核心模块 - 介绍 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备 005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析 006.尚硅谷_Spark框架 -
第五章_Spark核心编程_Rdd_读取&保存2022-04-03 08:32:26

1.说明 * 1.Rdd文件读取和保存可以从两个角度来区分 * 文件格式 : text、json、csv、sequence文件、Object序列化文件 * 文件系统 : 本地文件系统、hdfs、hbase、各类型数据库 2.Spark中怎样读取&保存text文件？ 1.读取 * 1.SparkContext.textFile *
linux安装spark2022-04-02 18:36:05

一、安装依赖信息 spark版本：spark-3.1.3-bin-hadoop3.2 hadoop版本：hadoop-3.2.1 scala版本：scala-2.11.12 建议3.12版本下载地址：https://spark.apache.org/downloads.html 二、安装 2.1 单机配置环境 vim ~/.bash_profile #Spark3 SPARK_HOME=/Users/Robots2/softWare/spark-3
第五章_Spark核心编程_Rdd_血缘关系2022-04-01 12:32:17

1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系？ * 1.RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的元数据信息和转换行为 *
【转载】Spark集群环境搭建——部署Spark集群2022-03-28 23:03:35

转在doublexi: https://www.cnblogs.com/doublexi/p/15624795.html 在前面我们已经准备了三台服务器，并做好初始化，配置好jdk与免密登录等。并且已经安装好了hadoop集群。如果还没有配置好的，参考我前面两篇博客：Spark集群环境搭建——服务器环境初始化：https://www.cnblogs.com/doubl
第五章_Spark核心编程_Rdd_行动算子_save oprator2022-03-27 18:02:39

1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: Option[Class[_ <: CompressionCodec]] = None): Unit * 2.功能 *
第五章_Spark核心编程_Rdd_行动算子_take2022-03-27 17:34:48

1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")
第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey2022-03-26 09:33:04

1.定义 /* * 1.定义 * def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length) * : RDD[(K, V)] = self.withScope * ascending : true-正序 false-逆序 * numPartitions : 排序完后,对结果数据的分区数 * * 2
数据质量 — 使用amazon deequ作为spark etl数据质量检测2022-03-25 17:34:04

目前，公司里数据质量检测是通过配置规则报警来实现的，对于有些表需要用shell脚本来封装hivesql来进行检测，在时效性和准确上不能很好的满足，故尝试使用Deequ来做质量检测工具。一、官网示例 package org.shydow.deequ import com.amazon.deequ.checks.CheckStatus import com.amazo

首页 < 5 6 7 8 > 尾页

ICode9

|NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Spark.V09|------------------------------------------|Spa2022-04-12 13:35:02

|NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa2022-04-12 13:34:27

|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Spark.V12|------------------------------------------|Spa2022-04-12 13:33:40

|NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Spark.V05|------------------------------------------|Spa2022-04-12 13:32:51

|NO.Z.00005|——————————|^^ 配置 ^^|——|Hadoop&Spark.V05|------------------------------------------|Spar2022-04-11 20:35:44

|NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar2022-04-11 20:34:40

Spark 广播变量&累加器2022-04-11 07:31:22

大数据Hadoop之——计算引擎Spark2022-04-09 18:00:18

执行spark任务时报错Table or view 'test' not found in database 'test_1'2022-04-08 11:34:12

5.RDD操作综合实例2022-04-08 02:01:10

5.RDD操作综合实例2022-04-07 22:02:27

5.RDD操作综合实例2022-04-07 20:36:01

5.RDD操作综合实例2022-04-07 15:32:16

5.RDD操作综合实例2022-04-07 15:00:29

spark-streaming-kafka-0-10源码分析和spark闭包的链接整理2022-04-07 13:02:17

5.RDD操作综合实例2022-04-06 15:34:55

spark学习路线2022-04-04 12:31:25

第五章_Spark核心编程_Rdd_读取&保存2022-04-03 08:32:26

linux安装spark2022-04-02 18:36:05

第五章_Spark核心编程_Rdd_血缘关系2022-04-01 12:32:17

【转载】Spark集群环境搭建——部署Spark集群2022-03-28 23:03:35

第五章_Spark核心编程_Rdd_行动算子_save oprator2022-03-27 18:02:39

第五章_Spark核心编程_Rdd_行动算子_take2022-03-27 17:34:48

第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey2022-03-26 09:33:04

数据质量 — 使用amazon deequ作为spark etl数据质量检测2022-03-25 17:34:04