ICode9

精准搜索请尝试: 精确搜索
  • |NO.Z.00035|——————————|BigDataEnd|——|Hadoop&Spark.V09|------------------------------------------|Spa2022-04-12 13:35:02

    [BigDataHadoop:Hadoop&Spark.V09]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&TopN优化|一、TopN编程代码### --- TopN编程代码优化 package cn.yanqi.sparkcore import

  • |NO.Z.00037|——————————|BigDataEnd|——|Hadoop&Spark.V11|------------------------------------------|Spa2022-04-12 13:34:27

    [BigDataHadoop:Hadoop&Spark.V11]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节三|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&shuffle原理|]一、Shuffle原理### --- shuffle原理 ~~~ Shuffle的本意是

  • |NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Spark.V12|------------------------------------------|Spa2022-04-12 13:33:40

    [BigDataHadoop:Hadoop&Spark.V12]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节二|Hadoop|spark|sparkcore:RDD编程高阶&spark原理初探&RDD编程优化|]一、RDD编程优化### --- RDD复用 ~~~ 避免创建重复的RDD。

  • |NO.Z.00044|——————————|BigDataEnd|——|Hadoop&Spark.V05|------------------------------------------|Spa2022-04-12 13:32:51

    [BigDataHadoop:Hadoop&Spark.V05]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节四|Hadoop|spark|spark sql:spark sql编程&Transformation操作|]一、Transformation 操作### --- select * from tab where ... group

  • |NO.Z.00005|——————————|^^ 配置 ^^|——|Hadoop&Spark.V05|------------------------------------------|Spar2022-04-11 20:35:44

    [BigDataHadoop:Hadoop&Spark.V05]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:spark伪分布式模式|]一、伪分布式### --- 伪分布式 ~~~ # 伪分布式模式:在一台机器中模拟集群运行,相

  • |NO.Z.00006|——————————|^^ 配置 ^^|——|Hadoop&Spark.V06|------------------------------------------|Spar2022-04-11 20:34:40

    [BigDataHadoop:Hadoop&Spark.V06]                                        [BigDataHadoop.Spark内存级快速计算引擎][|章节一|Hadoop|spark|sparkcore:Spark-Standalone集群模式&standalone配置&core&mamory|]一、集群模式--Standalone模式### --- 集群模式-

  • Spark 广播变量&累加器2022-04-11 07:31:22

    Spark 为了达到高并发,高吞吐数据处理能力封装RDD外,也封装了另外两个数据对象 广播变量:分布式共享只读变量 累加器:分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义 如果我们需要在分布式计算里面芬达大对象,例如:集合,字典或者黑白名单等,这个都会有 Driver 端进行分发,一

  • 大数据Hadoop之——计算引擎Spark2022-04-09 18:00:18

    目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)Cluster Manager:资源管理器4)Executor:执行器5)Worker:计算节点6)RDD:弹性分布式数据集7)窄依赖8)宽依赖9)DAG:有向无环图10)DAGScheduler:有向无环图调度器11)TaskSched

  • 执行spark任务时报错Table or view 'test' not found in database 'test_1'2022-04-08 11:34:12

    执行数据入hive的spark任务时报错: org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view 'test' not found in database 'test_1'; 解决问题: 原因:部署环境的spark目录下conf里hive-site.xml文件没有更新,导致找不到数据库。 办法:将hive的conf目录中的hive-

  • 5.RDD操作综合实例2022-04-08 02:01:10

    一、词频统计 A. 分步骤实现 1、准备文件   1、下载小说或长篇新闻稿   2、上传到hdfs上 2、读文件创建RDD 3、分词 4、  排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap(),   长度小于2的词filter() 5、统计词频 6、按词频排序 7、输出到文件

  • 5.RDD操作综合实例2022-04-07 22:02:27

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()    

  • 5.RDD操作综合实例2022-04-07 20:36:01

    5.RDD操作综合实例 一、词频统计 A. 分步骤实现     1.上传到hdfs上                2,读文件创建RDD      3.分词       4.排除大小写lower(),map()       5.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(),长度

  • 5.RDD操作综合实例2022-04-07 15:32:16

    一、词频统计 A. 分步骤实现    1.准备文件,下载小说或长篇新闻稿           2.上传到hdfs上                3.读文件创建RDD      4.分词       5.排除大小写lower(),map()       6.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载

  • 5.RDD操作综合实例2022-04-07 15:00:29

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()    

  • spark-streaming-kafka-0-10源码分析和spark闭包的链接整理2022-04-07 13:02:17

    spark-streaming-kafka-0-10源码分析 https://cloud.tencent.com/developer/article/1594316 spark闭包 https://mp.weixin.qq.com/s/l_tfjPMEBjx-63aYyez5Qg

  • 5.RDD操作综合实例2022-04-06 15:34:55

    一、词频统计 A. 分步骤实现  1. 准备文件,下载小说或长篇新闻稿 2. 上传到hdfs上 3. 读文件创建RDD 4. 分词 5. 排除大小写lower(),map() 6. 标点符号re.split(pattern,str),flatMap() 识别标点符号并替换成空白值      清除空白值   7. 停用词,可网盘下载stopwords.txt

  • spark学习路线2022-04-04 12:31:25

    尚硅谷大数据Spark教程从入门到精通 001.尚硅谷_Spark框架 - 简介 002.尚硅谷_Spark框架 - Vs Hadoop 003.尚硅谷_Spark框架 - 核心模块 - 介绍 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备 005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析 006.尚硅谷_Spark框架 -

  • 第五章_Spark核心编程_Rdd_读取&保存2022-04-03 08:32:26

    1.说明 * 1.Rdd文件读取和保存 可以从两个角度来区分 * 文件格式 : text、json、csv、sequence文件、Object序列化文件 * 文件系统 : 本地文件系统、hdfs、hbase、各类型数据库 2.Spark中怎样读取&保存text文件? 1.读取 * 1.SparkContext.textFile *

  • linux安装spark2022-04-02 18:36:05

    一、安装依赖信息 spark版本:spark-3.1.3-bin-hadoop3.2 hadoop版本:hadoop-3.2.1 scala版本:scala-2.11.12  建议3.12版本 下载地址:https://spark.apache.org/downloads.html 二、安装 2.1 单机配置环境 vim ~/.bash_profile  #Spark3 SPARK_HOME=/Users/Robots2/softWare/spark-3

  • 第五章_Spark核心编程_Rdd_血缘关系2022-04-01 12:32:17

    1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系? * 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的 元数据信息和转换行为 *

  • 【转载】Spark集群环境搭建——部署Spark集群2022-03-28 23:03:35

    转在doublexi: https://www.cnblogs.com/doublexi/p/15624795.html 在前面我们已经准备了三台服务器,并做好初始化,配置好jdk与免密登录等。并且已经安装好了hadoop集群。如果还没有配置好的,参考我前面两篇博客:Spark集群环境搭建——服务器环境初始化:https://www.cnblogs.com/doubl

  • 第五章_Spark核心编程_Rdd_行动算子_save oprator2022-03-27 18:02:39

    1.定义 /* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: Option[Class[_ <: CompressionCodec]] = None): Unit * 2.功能 *

  • 第五章_Spark核心编程_Rdd_行动算子_take2022-03-27 17:34:48

    1.定义 /* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */ 2.示例 object takeTest extends App { val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest")

  • 第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey2022-03-26 09:33:04

    1.定义 /* * 1.定义 * def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length) * : RDD[(K, V)] = self.withScope * ascending : true-正序 false-逆序 * numPartitions : 排序完后,对结果数据的分区数 * * 2

  • 数据质量 — 使用amazon deequ作为spark etl数据质量检测2022-03-25 17:34:04

    目前,公司里数据质量检测是通过配置规则报警来实现的,对于有些表需要用shell脚本来封装hivesql来进行检测,在时效性和准确上不能很好的满足,故尝试使用Deequ来做质量检测工具。 一、官网示例 package org.shydow.deequ import com.amazon.deequ.checks.CheckStatus import com.amazo

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有