ICode9

精准搜索请尝试: 精确搜索
  • 1_Spark Streaming 概述2022-08-08 20:02:47

    1. Spark Streaming 是什么 ? Spark Streaming 是 Spark Core 的扩展API 用来支持 高吞吐、高容错的 处理 流式数据 数据源可以是 : Kafka、TCP sockets、Flume、Twitter等流式数据源 处理数据: 可以用 Spark Core的算子 map、reduce、join、window

  • 6. 从ods(贴源层)到 dwd(数据明细层)的两种处理方式(spark)-dsl2022-08-08 01:01:59

    6. 从ods(贴源层)到 dwd(数据明细层)的两种处理方式(spark) 6.1 使用spark dsl 方式处理 6.1.1 注意事项 # 开启hive元数据支持,开启之后在spark中可以直接读取hive中的表,但是开启之后就不能再本地云心的了 .enableHiveSupport() # 这下脚本都是作用在dwd层,所以必须在dwd的用户下执行,

  • Spark部署文档(黑马程序员资料)2022-08-04 20:02:24

    Spark Local环境部署 下载地址 https://dlcdn.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz 条件 PYTHON 推荐3.8 JDK 1.8 Anaconda On Linux 安装 本次课程的Python环境需要安装到Linux(虚拟机)和Windows(本机)上 参见最下方, 附: Anaconda On Linux 安装 解压

  • Kafka与Spark案例实践2022-07-31 17:35:32

    1.概述 Kafka系统的灵活多变,让它拥有丰富的拓展性,可以与第三方套件很方便的对接。例如,实时计算引擎Spark。接下来通过一个完整案例,运用Kafka和Spark来合理完成。 2.内容 2.1 初始Spark 在大数据应用场景中,面对实时计算、处理流数据、降低计算耗时等问题时,Apache Spark提供的计算引

  • HDFS配置HA下spark-sql写入hive报错Wrong FS2022-07-28 17:02:20

    背景:   CDH集群的HDFS HA已配置完毕,Hive也相应进行了Update Hive Metastore NameNode,Hive的业务sql脚本都正常运行。   在使用spark-sql 写入hive时报错: Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp/.

  • spark sql 概述2022-07-26 11:03:47

    目录sparkspark sqlDataFrame使用方法 spark 基于内存的计算引擎,计算速度非常快,但是只涉及数据的计算,没有涉及数据的存储。 spark sql Spark sql不仅仅支持sql操作,还提供了例如外部数据源,以及各种优化 spark sql不仅提供了sql的api,还提供了DataFrame和Dataset的api ** spark sq

  • CVE-2022-33891 Apache spark shell 命令注入漏洞复现2022-07-25 18:03:44

    简介 Spark 是用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Spark 上的 Pandas API、用于机器

  • 一文了解 NebulaGraph 上的 Spark 项目2022-07-23 16:06:40

    本文首发于 Nebula Graph Community 公众号 最近我试着搭建了方便大家一键试玩的 Nebula Graph 中的 Spark 相关的项目,今天就把它们整理成文分享给大家。而且,我趟出来了 PySpark 下的 Nebula Spark Connector 的使用方式,后边也会一并贡献到文档里。 NebulaGraph 的三个 Spark 子

  • spark standalone 部署2022-07-23 02:00:36

    上传 spark-3.1.2-bin-hadoop3.2.tgz 到 /export/software/ # 解压安装cd /export/software/tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /export/server # 重命名cd /export/servermv spark-3.1.2-bin-hadoop3.2 spark-standalone# 重新构建软连接rm -rf sparkln -s spark-stan

  • spark 启动standalone2022-07-23 00:34:06

      cd /export/server/spark   sbin/start-master.sh   sbin/start-workers.sh   sbin/start-history-server.sh 监控:启动以后才能访问 http://node1:8080/  Master监控服务:相当于YARN中的8088 http://node1:18080/ HistoryServer历史监控服务:相当于MR中的19888   - Master

  • 大数据综合项目设计.考试复习题2022-07-22 17:32:02

    一、选择题 1. 对文件进行归档的命令为 D  。 A. dd B. cpio C. gzip D. tar 2. 改变文件所有者的命令为 C 。 A. chmod B. touch C. chown D. cat 3. 在给定文件中查找与设定条件相符字符串的命令为 A 。 A. grep B. gzip C. find D. sort 4. 建立一个新文件可以使用的命令为

  • spark-数据倾斜2022-07-21 23:40:24

    spark-数据倾斜 1.解决方案 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容RDD进行join

  • spark-数据倾斜2022-07-21 23:40:23

    spark-数据倾斜 1.解决方案 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容RDD进行join

  • spark-调优(配置层面)2022-07-21 23:12:05

    spark-调优(配置层面) 1.executor的配置(重点) --num-executors executor的数量 --executor-memory 每一个executor的内存 --executor-cores 每一个executor的核心数 --driver-memory Driver的内存1G-2G(保存广播变量) --spark.storage.memoryFraction 用于缓存的内存占比默认时0.6,

  • spark-调优(代码层面)2022-07-21 21:34:54

    spark-调优(代码) 在编写代码时可以进行优化 避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化 尽量避免使用shuffle类算子 使用map-side预聚合的shuffle操作 使用高性能的算子 广播大变量 使用Kryo优化序列化性能 优化数据结构 使用高性能的库fastutil 1.对多

  • 初识Spark2022-07-20 21:34:28

    Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点:   运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内

  • spark streaming 小案例2022-07-20 10:35:08

    spark streaming 实时计算的案例 数据 {"car":"皖A9A7N2","city_code":"340500","county_code":"340522","card":117988031603010,"camera_id":"00001","orientation":"西南&q

  • spark streaming-DS,DF,RDD相互转换,submit,数据落盘2022-07-20 10:05:26

    spark streaming DS转成DF写代码 package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.streaming.dstream.ReceiverInputDStream import

  • spark_subject合集2022-07-17 23:09:46

    spark subject subject_1:lag函数的使用场景(灵活) 公司代码,年度,1月-------------------------12月的收入金额 burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12 853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,1

  • spark sql整合hive-重要2022-07-17 21:34:21

    spark sql整合hive 在spark sql中使用hive的元数据 spark sql是使用spark进行计算的,hive使用MR进行计算的 1、在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务 cd /usr/local/soft/hive-1.2.1/conf/ <property> <name>hive.met

  • Spark Streaming实时写入Hive当日分区2022-07-17 17:13:09

    背景 由于需要查看原始数据,而原始数据实时产生,数据量较大,大约1万/分钟,写入MDB占用MDB的流量带宽,故考虑将原始数据写入Hive   逻辑 Spark Streaming作业中将消费的RDD整体处理为一个临时表,然后insert into到Hive表当日分区,即追加到当日分区   现状 写入少部分数据后就没有新数据

  • pyspark2022-07-17 13:04:46

    1:PySpark类库和标准Spark框架的简单对比      2: 安装 将/spark/python/pyspark  复制到    python 的安装包中  或者 pip install pyspark   (注意版本对应关系) 3:spark on hive 本质: 将hive的执行引擎替换为spark 的执行引擎!     配置: 校验hive的是否正常运行

  • 0基础就可以上手的Spark脚本开发-for Java2022-07-16 12:05:52

    前言 最近由于工作需要,要分析大几百G的Nginx日志数据。之前也有过类似的需求,但那个时候数据量不多。一次只有几百兆,或者几个G。因为数据都在Hive里面,当时的做法是:把数据从Hive导到MySQL,然后写代码查询MySQL并处理。如果你的处理逻辑比较简单,或只是查询统计,不会设计上游的服务调用,

  • 开源数据质量解决方案——Apache Griffin入门宝典2022-07-15 13:31:39

    提到格里芬—Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥。先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧。 ​ 在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治

  • spark计算引擎,资源调度,任务调度,累加器,广播变量2022-07-14 22:36:38

    Spark 关键词:spark计算引擎,资源调度(申请资源),任务调度(执行task) 累加器,广播变量。 spark计算引擎,资源调度(申请资源),任务调度(执行task) 注:此此流程使用 yarn-client 模式 1-7 为资源调度(申请资源) 1在本地启动Driver程序 2.向RM申请启动AM 3. AM随机分配一个节点启动AM 4.启动A

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有