ICode9

精准搜索请尝试: 精确搜索
  • Spark 源码系列 - SparkConf本质2022-05-03 18:35:16

    目录结论代码SparkConf -> setAppNameSparkConf -> set 重载方法(两个参数)SparkConf 结论 SparkConf设置的key / value 保存在SparkConf名为settings的变量中,该变量类型为ConcurrentHashMap SparkConf的setXX方法, 封装了特定的属性名和值存储到map中 SparkConf的set方法,直接将

  • Spark 源码系列 - SparkContext启动 - 运行模式2022-05-03 18:33:10

    目录结论SparkContext第三方集群模式 结论 SparkContext启动,根据setMaster设置的Url匹配运行模式。 SparkContext // 根据设置的master字符串的内容进行匹配 master match { // local模式 case "local" => ... ... // local[n] 和 local[*] 模式 n为threa

  • Spark 源码系列 - 获取分区数2022-05-03 18:03:34

    目录版本结论代码入口SparkContext -> textFileSparkContext -> defaultMinPartitionsSparkContext -> defaultParallelismTaskSchedulerImplLocalSchedulerBackend 版本 本分析基于Spark version 3.1.2 结论 local模式下,默认最小分区数不会超过2 如果对spark.default.parallelis

  • Spark在shell中调试2022-05-03 11:35:24

    将要调试的程序打包,上传到服务器目录,/home/hadoop/test/test.jar 然后在脚本中指定--jars参数为该目录。 spark-shell --master yarn \ --queue prod \ --driver-memory 10G --executor-memory 10G --num-executors 50 --executor-cores 2 \ --jars /home/hadoop/test/test.jar

  • [报错] spark开发环境 操作hdfs 报错2022-05-03 06:31:14

    报错1  22/05/0305:48:53 WARN DFSClient: Failed to connect to /10.0.24.10:9866 for block, add to deadNodes and continue. org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.cha

  • 【数仓项目记录3】业务数据采集2022-05-02 12:32:09

    电商常识 业务表,与用户的操作相关,如添加收藏夹、购物车,下单,支付,退单、退款、评价、领优惠券等 后台管理系统面向公司内部开发者,维护商品信息、优惠信息等 业务数据的生成 使用项目提供的jar包生成某一日期下的数据,数据存储到hadoop102中的数据库中 Sqoop Sqoop是Hadoop和关系

  • 7.Spark SQL2022-05-01 15:35:06

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据应用

  • Spark排序之SortBy2022-04-29 17:32:25

    1、例子1:按照value进行降序排序 def sortBy[K]( f: (T) => K, ascending: Boolean = true, // 默认为正序排列,从小到大,false:倒序 numPartitions: Int = this.partitions.length) (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] 返回值是T,数字

  • 7.Spark SQL2022-04-27 09:31:06

     1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。 ->SparkSQL抛弃原有Shark的代

  • 7.Spark SQL2022-04-26 21:00:57

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MAPreduce作业。为了实现Hive的兼容,Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为,Sark仅

  • Spark ==》 发送接收json数据并分析2022-04-26 15:31:27

    题目一:以下为学生期末考试的部分数据,请按要求完成统计,格式如下{"name":"zhangsan","sex":"m",”kemu”:”yuwen”,"score":66} 1) 创建kafka主题ods_score_topic,要求一个备份,一个分区 2) 创建生产者,往主题里添加15条以上数据 3) 创建maven项目 4) 导入sparkstreaming依赖 5)

  • 记一次hive提交spark任务报错2022-04-26 11:36:29

    hive提交spark报错 报错内容 Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed

  • 7.Spark SQL2022-04-25 21:33:12

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   因为关系数据库已经很流行,而且关系数据库在大数据时代已经不能满足要求。首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据。其次,用户需要执行高级分析,比如机器学习和图像处理。在实际大数据

  • Spark运行架构2022-04-24 21:01:26

    一 Spark与hadoop 三 Spark的架构详解 四 Spark运行基本流程 五 Spark运行模式 5.1 standalone独立集群运行模式 5.1.1 Standalone的client模式 5.1.2 Standalone的cluster模式 5.1.3 YARN框架原理 5.1.4 YARN的client运行模式 5.1.5 YARN的cluster运行模式 5.1.6 YARN-Cl

  • hadoop集群+spark集群部署2022-04-24 21:00:58

    一、准备 1.1 软件版本 1.2 网络规划 1.3 软件包拷贝 1.4 SSH设置 1.5 绑定IP和修改计算机名 1.5.1 修改/etc/hosts,添加IP绑定,并注释127.0.1.1(不注释会影响hadoop集群) 1.5.2 修改/etc/hostname,为绑定计算机名。(计算机名和上面hosts绑定名必须一致) 1.6 SSH无密码登陆(需提前安

  • Zeppelin中给spark添加第三方jar包2022-04-24 19:34:06

    方法一:永久导入jar包 在zeppelin的环境配置文件 "zeppelin-env.sh" 中添加以下内容: export SPARK_SUBMIT_OPTIONS="--jars /moudle/zeppelin-0.9.0/plugins/mysql-connector-java-8.0.21.jar" 也可以将jar包放在HDFS上面 export SPARK_SUBMIT_OPTIONS="--jars hdfs:///spark/j

  • 7.Spark SQL2022-04-24 15:04:37

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   SparkSQL的出现,解决了对不同数据源和不同数据的操作,例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。   SparkSQL的前身是Shark,Shark中提供了类似于Hive的功能。但是Shark设计中导致了两个问题

  • spark在windows环境下执行spark-shell失败 提示找不到路径2022-04-22 21:34:54

    找不到路径一定是环境变量出现了问题,细心检查自己的java、scala以及spark的环境变量是否编辑正确 我的问题是因为,java_home 的环境变量后面多了一个分号";",所以不起作用,因为有一个自带的环境变量起作用了(下图)所以java -version是没问题的,在cmd命令下执行  javac看是否可以运行!!!!

  • Spark Streaming DStream 转换操作2022-04-22 05:31:05

    DStream 操作和RDD的操作很类似,分为 Transformations 转换和 Output Operations 输出两种,此外转换操作中还有一些比较复杂的算子,如:updateStateByKey(),transform()以及各种 Window 相关算子。 1、无状态转换操作  无状态转换操作就是把简单的RDD转换操作应用到每个批次上,也就是转

  • 前端生成md5指纹2022-04-20 16:04:11

    需注意this指向变化问题 import SparkMD5 from 'spark-md5' handleChangePackage (file, fileList) { this.packageList = [] this.packageList = fileList const _this = this const fileReader = new FileReader() const dataFile =

  • |NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.2022-04-18 13:31:38

    [BigDataHadoop:Hadoop&OLAP数据库管理系统.V16]                           [Deployment.OLAP数据库管理系统][|Kylin:sparkcore高可用配置|]一、高可用配置:spark standalone集群配置### --- 修改 spark-env.sh 文件,并分发到集群中 [root@hadoop01 ~]# vim $SP

  • 2022.4.17学习成果2022-04-17 23:32:21

    spark 1)解压spark安装包到/usr/local/src/目录,并改名为spark master机器: [root@master ~]# tar -zxvf /opt/software/spark-2.0.0-bin-hadoop2.6.tgz -C /usr/local/src [root@master ~]# mv /usr/local/src/spark-2.0.0-bin-hadoop2.6 /usr/local/src/spark   2)将spark目录权限

  • Spark打包与Kerberos相关命令2022-04-16 14:00:33

    发布的问题 mvn clean package project -am -Pcdp -DskipTests=true 之后将打包好的包上传到相关路径 提交任务与Kerberos文件配置 spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 4g --num-executors 4 --executor-memory 8g --executor-cores 4

  • 从零开始学Spark(二)--了解Spark2022-04-14 14:32:16

    点击关注强哥,还有100多G的面试资料等你来拿 哈喽,大家好,我是强哥。 不知道大家Scala学得怎么样了?不过不管你们学得怎么样,反正我是简单的过过一遍了。诶~就是这么牛逼。 今天我们就开始正式学Spark了。 Spark是什么? 既然要学Spark,首先就要弄懂Spark是什么?或者说Spark能为我们做什么?

  • 5.RDD操作综合实例2022-04-13 11:31:39

    一、词频统计 A. 分步骤实现  1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 start-all.sh hdfs dfs -put 666.txt hdfs dfs -ls 2、读文件创建RDD >>> lines = sc.textFile("/home/hadoop/666.txt") >>> lines.foreach(print) 3、分词 >>> words =lines.flatMap(lambda li

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有