Spark

Spark 源码系列 - SparkConf本质2022-05-03 18:35:16

目录结论代码SparkConf -> setAppNameSparkConf -> set 重载方法(两个参数)SparkConf 结论 SparkConf设置的key / value 保存在SparkConf名为settings的变量中，该变量类型为ConcurrentHashMap SparkConf的setXX方法, 封装了特定的属性名和值存储到map中 SparkConf的set方法，直接将
Spark 源码系列 - SparkContext启动 - 运行模式2022-05-03 18:33:10

目录结论SparkContext第三方集群模式结论 SparkContext启动，根据setMaster设置的Url匹配运行模式。 SparkContext // 根据设置的master字符串的内容进行匹配 master match { // local模式 case "local" => ... ... // local[n] 和 local[*] 模式 n为threa
Spark 源码系列 - 获取分区数2022-05-03 18:03:34

目录版本结论代码入口SparkContext -> textFileSparkContext -> defaultMinPartitionsSparkContext -> defaultParallelismTaskSchedulerImplLocalSchedulerBackend 版本本分析基于Spark version 3.1.2 结论 local模式下，默认最小分区数不会超过2 如果对spark.default.parallelis
Spark在shell中调试2022-05-03 11:35:24

将要调试的程序打包，上传到服务器目录，/home/hadoop/test/test.jar 然后在脚本中指定--jars参数为该目录。 spark-shell --master yarn \ --queue prod \ --driver-memory 10G --executor-memory 10G --num-executors 50 --executor-cores 2 \ --jars /home/hadoop/test/test.jar
[报错] spark开发环境操作hdfs 报错2022-05-03 06:31:14

报错1 22/05/0305:48:53 WARN DFSClient: Failed to connect to /10.0.24.10:9866 for block, add to deadNodes and continue. org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.cha
【数仓项目记录3】业务数据采集2022-05-02 12:32:09

电商常识业务表，与用户的操作相关，如添加收藏夹、购物车，下单，支付，退单、退款、评价、领优惠券等后台管理系统面向公司内部开发者，维护商品信息、优惠信息等业务数据的生成使用项目提供的jar包生成某一日期下的数据，数据存储到hadoop102中的数据库中 Sqoop Sqoop是Hadoop和关系
7.Spark SQL2022-05-01 15:35:06

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据应用
Spark排序之SortBy2022-04-29 17:32:25

1、例子1：按照value进行降序排序 def sortBy[K]( f: (T) => K, ascending: Boolean = true, // 默认为正序排列，从小到大,false:倒序 numPartitions: Int = this.partitions.length) (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] 返回值是T，数字
7.Spark SQL2022-04-27 09:31:06

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 ->SparkSQL的前身Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。 ->SparkSQL抛弃原有Shark的代
7.Spark SQL2022-04-26 21:00:57

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为，Sark仅
Spark ==》发送接收json数据并分析2022-04-26 15:31:27

题目一：以下为学生期末考试的部分数据，请按要求完成统计，格式如下{"name":"zhangsan","sex":"m",”kemu”:”yuwen”,"score":66} 1) 创建kafka主题ods_score_topic,要求一个备份，一个分区 2) 创建生产者，往主题里添加15条以上数据 3) 创建maven项目 4) 导入sparkstreaming依赖 5)
记一次hive提交spark任务报错2022-04-26 11:36:29

hive提交spark报错报错内容 Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed
7.Spark SQL2022-04-25 21:33:12

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　因为关系数据库已经很流行，而且关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理。在实际大数据
Spark运行架构2022-04-24 21:01:26

一 Spark与hadoop 三 Spark的架构详解四 Spark运行基本流程五 Spark运行模式 5.1 standalone独立集群运行模式 5.1.1 Standalone的client模式 5.1.2 Standalone的cluster模式 5.1.3 YARN框架原理 5.1.4 YARN的client运行模式 5.1.5 YARN的cluster运行模式 5.1.6 YARN-Cl
hadoop集群+spark集群部署2022-04-24 21:00:58

一、准备 1.1 软件版本 1.2 网络规划 1.3 软件包拷贝 1.4 SSH设置 1.5 绑定IP和修改计算机名 1.5.1 修改/etc/hosts,添加IP绑定，并注释127.0.1.1（不注释会影响hadoop集群） 1.5.2 修改/etc/hostname,为绑定计算机名。（计算机名和上面hosts绑定名必须一致） 1.6 SSH无密码登陆(需提前安
Zeppelin中给spark添加第三方jar包2022-04-24 19:34:06

方法一：永久导入jar包在zeppelin的环境配置文件 "zeppelin-env.sh" 中添加以下内容： export SPARK_SUBMIT_OPTIONS="--jars /moudle/zeppelin-0.9.0/plugins/mysql-connector-java-8.0.21.jar" 也可以将jar包放在HDFS上面 export SPARK_SUBMIT_OPTIONS="--jars hdfs:///spark/j
7.Spark SQL2022-04-24 15:04:37

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　SparkSQL的出现，解决了对不同数据源和不同数据的操作，例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。　　SparkSQL的前身是Shark，Shark中提供了类似于Hive的功能。但是Shark设计中导致了两个问题
spark在windows环境下执行spark-shell失败提示找不到路径2022-04-22 21:34:54

找不到路径一定是环境变量出现了问题，细心检查自己的java、scala以及spark的环境变量是否编辑正确我的问题是因为，java_home 的环境变量后面多了一个分号";"，所以不起作用，因为有一个自带的环境变量起作用了（下图）所以java -version是没问题的，在cmd命令下执行 javac看是否可以运行！！！！
Spark Streaming DStream 转换操作2022-04-22 05:31:05

DStream 操作和RDD的操作很类似，分为 Transformations 转换和 Output Operations 输出两种，此外转换操作中还有一些比较复杂的算子，如：updateStateByKey(),transform()以及各种 Window 相关算子。 1、无状态转换操作无状态转换操作就是把简单的RDD转换操作应用到每个批次上，也就是转
前端生成md5指纹2022-04-20 16:04:11

需注意this指向变化问题 import SparkMD5 from 'spark-md5' handleChangePackage (file, fileList) { this.packageList = [] this.packageList = fileList const _this = this const fileReader = new FileReader() const dataFile =
|NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.2022-04-18 13:31:38

[BigDataHadoop：Hadoop&OLAP数据库管理系统.V16] [Deployment.OLAP数据库管理系统][|Kylin：sparkcore高可用配置|]一、高可用配置：spark standalone集群配置### --- 修改 spark-env.sh 文件，并分发到集群中 [root@hadoop01 ~]# vim $SP
2022.4.17学习成果2022-04-17 23:32:21

spark 1）解压spark安装包到/usr/local/src/目录，并改名为spark master机器： [root@master ~]# tar -zxvf /opt/software/spark-2.0.0-bin-hadoop2.6.tgz -C /usr/local/src [root@master ~]# mv /usr/local/src/spark-2.0.0-bin-hadoop2.6 /usr/local/src/spark 2）将spark目录权限
Spark打包与Kerberos相关命令2022-04-16 14:00:33

发布的问题 mvn clean package project -am -Pcdp -DskipTests=true 之后将打包好的包上传到相关路径提交任务与Kerberos文件配置 spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 4g --num-executors 4 --executor-memory 8g --executor-cores 4
从零开始学Spark（二）--了解Spark2022-04-14 14:32:16

点击关注强哥，还有100多G的面试资料等你来拿哈喽，大家好，我是强哥。不知道大家Scala学得怎么样了？不过不管你们学得怎么样，反正我是简单的过过一遍了。诶~就是这么牛逼。今天我们就开始正式学Spark了。 Spark是什么？既然要学Spark，首先就要弄懂Spark是什么？或者说Spark能为我们做什么？
5.RDD操作综合实例2022-04-13 11:31:39

一、词频统计 A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上 start-all.sh hdfs dfs -put 666.txt hdfs dfs -ls 2、读文件创建RDD >>> lines = sc.textFile("/home/hadoop/666.txt") >>> lines.foreach(print) 3、分词 >>> words =lines.flatMap(lambda li

首页 < 4 5 6 7 8 > 尾页

ICode9

Spark 源码系列 - SparkConf本质2022-05-03 18:35:16

Spark 源码系列 - SparkContext启动 - 运行模式2022-05-03 18:33:10

Spark 源码系列 - 获取分区数2022-05-03 18:03:34

Spark在shell中调试2022-05-03 11:35:24

[报错] spark开发环境 操作hdfs 报错2022-05-03 06:31:14

【数仓项目记录3】业务数据采集2022-05-02 12:32:09

7.Spark SQL2022-05-01 15:35:06

Spark排序之SortBy2022-04-29 17:32:25

7.Spark SQL2022-04-27 09:31:06

7.Spark SQL2022-04-26 21:00:57

Spark ==》 发送接收json数据并分析2022-04-26 15:31:27

记一次hive提交spark任务报错2022-04-26 11:36:29

7.Spark SQL2022-04-25 21:33:12

Spark运行架构2022-04-24 21:01:26

hadoop集群+spark集群部署2022-04-24 21:00:58

Zeppelin中给spark添加第三方jar包2022-04-24 19:34:06

7.Spark SQL2022-04-24 15:04:37

spark在windows环境下执行spark-shell失败 提示找不到路径2022-04-22 21:34:54

Spark Streaming DStream 转换操作2022-04-22 05:31:05

前端生成md5指纹2022-04-20 16:04:11

|NO.Z.00016|——————————|Deployment|——|Hadoop&OLAP数据库管理系统.v16|---------------------------------|Kylin.2022-04-18 13:31:38

2022.4.17学习成果2022-04-17 23:32:21

Spark打包与Kerberos相关命令2022-04-16 14:00:33

从零开始学Spark（二）--了解Spark2022-04-14 14:32:16

5.RDD操作综合实例2022-04-13 11:31:39

[报错] spark开发环境操作hdfs 报错2022-05-03 06:31:14

Spark ==》发送接收json数据并分析2022-04-26 15:31:27

spark在windows环境下执行spark-shell失败提示找不到路径2022-04-22 21:34:54