spark学习路线

2022-04-04 12:31:25 阅读：300 来源： 互联网

标签：学习编程核心 SparkCore 路线 RDD spark 硅谷 Spark

尚硅谷大数据Spark教程从入门到精通

001.尚硅谷_Spark框架 - 简介
002.尚硅谷_Spark框架 - Vs Hadoop
003.尚硅谷_Spark框架 - 核心模块 - 介绍
004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备

005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析
006.尚硅谷_Spark框架 - 快速上手 - WordCount - Spark环境
007.尚硅谷_Spark框架 - 快速上手 - WordCount - 功能实现
008.尚硅谷_Spark框架 - 快速上手 - WordCount - 不同的实现
009.尚硅谷_Spark框架 - 快速上手 - WordCount - Spark的实现
010.尚硅谷_Spark框架 - 快速上手 - WordCount - 日志和错误

011.尚硅谷_Spark框架 - 运行环境 - 本地环境 - 基本配置和操作
012.尚硅谷_Spark框架 - 运行环境 - 本地环境 - 提交应用程序
013.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作
014.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析
015.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务
016.尚硅谷_Spark框架 - 运行环境 - 独立部署环境 - 配置高可用
017.尚硅谷_Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务
018.尚硅谷_Spark框架 - 运行环境 - Windows环境 & 总结

019.尚硅谷_Spark框架 - 核心组件 - 介绍
020.尚硅谷_Spark框架 - 核心概念 - Executor & Core & 并行度
021.尚硅谷_Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式
022.尚硅谷_SparkCore - 分布式计算模拟 - 搭建基础的架子
023.尚硅谷_SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务
024.尚硅谷_SparkCore - 分布式计算模拟 - 数据结构和分布式计算

025.尚硅谷_SparkCore - 核心编程 - RDD - 概念介绍
026.尚硅谷_SparkCore - 核心编程 - RDD - IO基本实现原理 - 1
027.尚硅谷_SparkCore - 核心编程 - RDD - IO基本实现原理 - 2
028.尚硅谷_SparkCore - 核心编程 - RDD - RDD和IO之间的关系
029.尚硅谷_SparkCore - 核心编程 - RDD - 特点
030.尚硅谷_SparkCore - 核心编程 - RDD - 五大主要配置
031.尚硅谷_SparkCore - 核心编程 - RDD - 执行原理
032.尚硅谷_SparkCore - 核心编程 - RDD - 创建 - 内存
033.尚硅谷_SparkCore - 核心编程 - RDD - 创建 - 文件
034.尚硅谷_SparkCore - 核心编程 - RDD - 创建 - 文件1
035.尚硅谷_SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定
036.尚硅谷_SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配
037.尚硅谷_SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定
038.尚硅谷_SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配
039.尚硅谷_SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析
040.尚硅谷_SparkCore - 核心编程 - RDD - 算子介绍
041.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - map
042.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能
043.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示
044.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions
045.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习
046.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要
047.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex
048.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - flatMap
049.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习
050.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - glom
051.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义
052.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupBy
053.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭
054.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习
055.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜
056.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽
057.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - distinct
058.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - coalesce
059.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - repartition
060.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - sortBy
061.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链
062.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项
063.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）
064.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题
065.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey
066.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupByKey
067.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别
068.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey
069.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解
070.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - foldByKey
071.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习
072.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解
073.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - combineByKey
074.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别
075.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - join
076.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin
077.尚硅谷_SparkCore - 核心编程 - RDD - 转换算子 - cogroup
078.尚硅谷_SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析
079.尚硅谷_SparkCore - 核心编程 - RDD - 案例实操 - 需求设计
080.尚硅谷_SparkCore - 核心编程 - RDD - 案例实操 - 功能实现
081.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - 介绍
082.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - 算子演示
083.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - aggregate
084.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue
085.尚硅谷_SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)
086.尚硅谷_SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)
087.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - save的方法
088.尚硅谷_SparkCore - 核心编程 - RDD - 行动算子 - foreach
089.尚硅谷_SparkCore - 核心编程 - RDD - 序列化 - 闭包检测
090.尚硅谷_SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题
091.尚硅谷_SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍
092.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍
093.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示
094.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖
095.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了
096.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读
097.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读
098.尚硅谷_SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类
099.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示
100.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - 作用
101.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - 检查点
102.尚硅谷_SparkCore - 核心编程 - RDD - 持久化 - 区别
103.尚硅谷_SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则
104.尚硅谷_SparkCore - 核心编程 - RDD - 文件读取与保存

105.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示
106.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 问题
107.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现
108.尚硅谷_SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1
109.尚硅谷_SparkCore - 核心编程 - 数据结构 - 广播变量
110.尚硅谷_SparkCore - 案例实操 - 数据准备 & 数据说明

111.尚硅谷_SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理
112.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量
113.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量
114.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式
115.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式
116.尚硅谷_SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式
117.尚硅谷_SparkCore - 案例实操 - 需求二 - 功能实现
118.尚硅谷_SparkCore - 案例实操 - 需求三 - 需求介绍
119.尚硅谷_SparkCore - 案例实操 - 需求三 - 需求分析 - 图解
120.尚硅谷_SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算
121.尚硅谷_SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率
122.尚硅谷_SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

123.尚硅谷_SparkCore - 工程化代码 - 架构模式 - 三层架构介绍
124.尚硅谷_SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现
125.尚硅谷_SparkCore - 工程化代码 - 架构模式 - 架构代码优化
126.尚硅谷_SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释
127.尚硅谷_SparkCore - 总结 - 课件梳理

128.尚硅谷_Spark内核 & 源码 - 总体介绍
129.尚硅谷_Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点
130.尚硅谷_Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用
131.尚硅谷_Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster
132.尚硅谷_Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程
133.尚硅谷_Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程
134.尚硅谷_Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象
135.尚硅谷_Spark内核 & 源码 - 环境准备 - 流程梳理
136.尚硅谷_Spark内核 & 源码 - 通信环境 - 通信原理
137.尚硅谷_Spark内核 & 源码 - 通信环境 - 通信组件
138.尚硅谷_Spark内核 & 源码 - 通信环境 - 课件梳理
139.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext
140.尚硅谷_Spark内核 & 源码 - 应用程序执行 - RDD依赖关系
141.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 阶段的划分
142.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 任务的切分
143.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 任务的调度
144.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 任务的执行
145.尚硅谷_Spark内核 & 源码 - 应用程序执行 - 课件梳理
146.尚硅谷_Spark内核 & 源码 - shuffle - 原理回顾
147.尚硅谷_Spark内核 & 源码 - shuffle - 图解
148.尚硅谷_Spark内核 & 源码 - shuffle - 实现过程
149.尚硅谷_Spark内核 & 源码 - shuffle - 写流程源码解读
150.尚硅谷_Spark内核 & 源码 - shuffle - 归并排序和读流程
151.尚硅谷_Spark内核 & 源码 - shuffle - 课件梳理
152.尚硅谷_Spark内核 & 源码 - 内存管理

153.尚硅谷_SparkSQL - 介绍
154.尚硅谷_SparkSQL - 特点
155.尚硅谷_SparkSQL - 数据模型 - DataFrame & DataSet
156.尚硅谷_SparkSQL - 核心编程 - DataFrame - 简单演示
157.尚硅谷_SparkSQL - 核心编程 - DataFrame - SQL的基本使用
158.尚硅谷_SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用
159.尚硅谷_SparkSQL - 核心编程 - DataFrame - RDD之间的转换
160.尚硅谷_SparkSQL - 核心编程 - DataSet - 介绍
161.尚硅谷_SparkSQL - 核心编程 - DataSet - DataFrame的转换
162.尚硅谷_SparkSQL - 核心编程 - DataSet - RDD的转换
163.尚硅谷_SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系
164.尚硅谷_SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象
165.尚硅谷_SparkSQL - 核心编程 - IDEA - DataFrame基本操作
166.尚硅谷_SparkSQL - 核心编程 - IDEA - DataSet基本操作
167.尚硅谷_SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换
168.尚硅谷_SparkSQL - 核心编程 - IDEA - UDF函数
169.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理
170.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现
171.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现
172.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现
173.尚硅谷_SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理
174.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 通用方法
175.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV
176.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL
177.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive
178.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive
179.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive
180.尚硅谷_SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive
181.尚硅谷_SparkSQL - 案例实操 - 数据准备
182.尚硅谷_SparkSQL - 案例实操 - 需求部分实现
183.尚硅谷_SparkSQL - 案例实操 - 需求完整实现
184.尚硅谷_SparkSQL - 总结 - 课件梳理

185.尚硅谷_SparkStreaming - 概念 - 介绍
186.尚硅谷_SparkStreaming - 概念 - 原理 & 特点
187.尚硅谷_SparkStreaming - 入门 - WordCount - 实现
188.尚硅谷_SparkStreaming - 入门 - WordCount - 解析
189.尚硅谷_SparkStreaming - DStream创建 - Queue
190.尚硅谷_SparkStreaming - DStream创建 - 自定义数据采集器
191.尚硅谷_SparkStreaming - DStream创建 - Socket数据采集器源码解读
192.尚硅谷_SparkStreaming - DStream创建 - Kafka数据源
193.尚硅谷_SparkStreaming - DStream转换 - 状态操作
194.尚硅谷_SparkStreaming - DStream转换 - 无状态操作 - transform
195.尚硅谷_SparkStreaming - DStream转换 - 无状态操作 - join
196.尚硅谷_SparkStreaming - DStream转换 - 有状态操作 - window
197.尚硅谷_SparkStreaming - DStream转换 - 有状态操作 - window - 补充
198.尚硅谷_SparkStreaming - DStream输出
199.尚硅谷_SparkStreaming - 优雅地关闭
200.尚硅谷_SparkStreaming - 优雅地关闭 - 恢复数据
201.尚硅谷_SparkStreaming - 案例实操 - 环境和数据准备
202.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 分析
203.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断
204.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新
205.尚硅谷_SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化
206.尚硅谷_SparkStreaming - 案例实操 - 需求二 - 功能实现
207.尚硅谷_SparkStreaming - 案例实操 - 需求二 - 乱码问题
208.尚硅谷_SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现
209.尚硅谷_SparkStreaming - 案例实操 - 需求三 - 效果演示
210.尚硅谷_SparkStreaming - 总结 - 课件梳理

大数据Spark3.0调优，Spark3.x性能优化

包括资源配置调优、SparkSQL语法调优、执行计划解读、数据倾斜问题解决、Job优化、Spark3.0新特性详解。

01-课程简介
02_执行计划_准备测试数据和表
03_执行计划_执行流程&案例实操解读
04-资源规划-资源设定上限估算
05-资源规划-精确内存估算
06-资源规划-精确调整内存各比例
07-缓存调优-RDD-进行cache
08-缓存调优-RDD-cache结合kryo序列化
09-缓存调优-DS-cache和序列化
10-CPU调优-合理利用CPU资源
11-语法优化-RBO-inner join的谓词下推
12-语法优化-RBO-外关联的谓词下推
13-语法优化-RBO-列裁剪&常量替换
14-语法优化-CBO-Statics统计&CBO使用效果
15-语法优化-广播Join
16-语法优化-Join-SMB Join原理
17-语法优化-Join-SMB Join效果演示
18-数据倾斜-现象&原因&抽样定位大key
19-数据倾斜-单表数据倾斜处理
20-数据倾斜-Join-使用广播Join
21-数据倾斜-Join-拆分key 打散大表 扩容小表
22-Map端优化-使用Map端预聚合
23-Map端优化-读取小文件优化
24-Map端优化-调大ShuffleWrite溢写时的输出流缓冲&源码分析
25-Reduce端优化-输出产生小文件优化-调整并行度&缩小分区
26-Reduce端优化-动态分区插入小文件优化
27-Reduce端优化-提高Reduce端缓冲区&重试次数&重试等待间隔
28-Reduce端优化-合理使用bypass
29-Job优化-调节数据本地化等待时间
30-Job优化-堆外内存的版本区别
31-Job优化-使用堆外缓存
32-Job优化-调整连接等待时长
33-Spark3.0-AQE-动态合并分区&动态申请资源
34-Spark3.0-AQE-动态切换Join策略
35-Spark3.0-AQE-自动优化join倾斜
36-Spark3.0-DPP-动态分区裁剪
37-Spark3.0-Hint增强
38-常见故障思路简析

标签：学习,编程,核心,SparkCore,路线,RDD,spark,硅谷,Spark
来源： https://www.cnblogs.com/lsyhahaha/p/16098833.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

spark学习路线

尚硅谷大数据Spark教程从入门到精通

大数据Spark3.0调优，Spark3.x性能优化