培训机构python大纲

2021-12-05 21:03:18 阅读：195 来源： 互联网

标签：培训大纲 python 技术 Storm 数据挖掘 Spark 数据工具

一、大数据处理技术-基于Hadoop/Yarn的实战(含Spark、Storm和Docker应用介绍 )

本课程从大数据技术以及Hadoop/Yarn实战的角度，结合理论和实践，全方位地介绍Hadoop/Yarn这一高性能处理大数据工具的开发技巧。本课程涉及的主题包括：Hadoop/Yarn分布式文件系统DFS；MapReduce的的工作机制、类型和格式；如何构建和管理Hadoop/Yarn集群；Pig Latin语言的使用技巧；Hive数据仓库工具介绍；HBase和Zookeeper工具的使用和管理；开源数据采集工具sqoop。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Hadoop/Yarn系列工具来解决具体的问题，并介绍了从大数据中挖掘出有价值的信息的关键。

第一讲云计算及大数据处理技术介绍

第二讲 Google的关键技术

第三讲 Hadoop系统及HDFS

第四讲 MapReduce计算模型设计

第五讲 Pig 数据流处理工具

第六讲云数据仓库Hive

第七讲 HBase和NoSQL

第八讲数据抽取工具Sqoop

第九讲 Hadoop与其他云数据处理技术的融合

二、大数据实时处理–基于Spark的大数据实时处理及应用技术

课程中结合实例，介绍图工具GraphX如何发现社交网络中的人际关系，大数据挖掘工具MLlib如何进行商品聚类和电影推荐，以及Streaming流挖掘工具,并探讨了Spark与Docker等云环境下新技术的结合，分析了其应用前景。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Spark实时大数据工具来解决业界的问题，并介绍了Spark生产环境搭建的相关知识。

第一讲 Spark大数据实时处理技术

第二讲 Spark安装配置及监控

第三讲 Scala编程语言使用概述

第四讲 Spark分布式计算框架

第五讲 Spark内部工作机制详解

第六讲 Spark数据读取与存储

第七讲 Spark通信模块和容错机制

第八讲 SQL On Spark

第九讲 Spark流数据处理工具Streaming

第十讲 Spark中的大数据挖掘工具MLlib

第十一讲 Spark大规模图处理工具GraphX

第十二讲 Spark与其他大数据技术的融合与应用

三、Storm大数据流式处理技术

本课程从大数据流式处理技术以及Storm实战的角度，理论和实践相结合，全方位地介绍Storm大数据流式处理工具的原理和内核。以案例分析的方式来帮助学员了解如何用BDAS系列工具来解决具体的问题，并介绍了从大数据中挖掘出有价值的信息的关键。

第一讲 Storm大数据处理介绍

第二讲 Storm配置和容错机制

第三讲 Storm可靠性及消息传输

第四讲 Storm拓扑及流分组

第五讲 Spout和Bolt详解

第六讲分布式DPRC

第七讲 Storm事务拓扑

第八讲 Storm中的Trident

第九讲 Trident的状态

第十讲 Storm企业应用

四、大数据分布式存储系统

在大数据时代，很多企业的数据都是逐步积累的，这就要求存储系统有很好的横向扩展能力；而要对传统存储设备进行横向扩展，会带来很高的成本，但是分布式存储却能够比较好的解决这样的问题。

第一讲分布式存储系统概述

第二讲大数据集（超大文件）存储

第三讲海量小文件存储

第四讲分布式存储技术发展新动向和趋势

五、大数据前沿技术分析与应用

大数据相关技术最近几年出现了井喷的趋势，众多技术纷纷出现，典型的系统包括Hadoop、Spark、Flume、Scribe、Kafka、Storm、Mahout、MLlib、Docker等，涵盖网络数据爬取、日志采集、分布式消息订阅、大数据分析挖掘等方面，涉及离线批处理、实时处理、流式处理等多种处理方式。这些技术解决不同的应用需求，涉及面广，技术要求高，交叉知识范围广，知识内容更新频繁，要理清其中的关系，从中发现最适合本机构的技术，成为了目前各机构技术专家的一个难点。

第一讲大数据技术基础

第二讲批处理大数据平台Hadoop

第三讲实时大数据平台Spark

第四讲流式大数据平台Storm

第五讲 Python网络爬虫

第六讲大数据日志采集工具Flume

第七讲分布式消息订阅工具Kafka

第八讲 NoSQL云数据处理工具

第九讲大数据中的SQL工具

第十讲大数据分析挖掘工具

第十一讲资源虚拟化工具Docker

第十二讲大数据技术展望

六、数据仓库与数据挖掘（结合SPSS和WEKA）

本课程重在突出数据仓库与数据挖掘决策支持的本质，介绍数据挖掘的各种方法、技术实现手段，通过对实例的深入剖析解释它们的原理。

第一讲数据仓库原理及联机分析技术介绍

第二讲数据仓库设计与开发

第三讲基于数据仓库的决策支持系统

第四讲数据仓库案例剖析

第五讲数据挖掘与知识发现

第六讲关联分析算法及其案例

第七讲聚类分析算法及其案例

第八讲其它数据挖掘算法介绍

七、Python和R数据挖掘技术-基于Python和R语言的数据挖掘和统计分析技术

本课程将对基于Python和R语言进行数据处理、数据探索的基本方法，利用R语言实现模型选择、Logistic回归及决策树算法，以及贝叶斯算法及支持向量机、神经网络等算法原理及实现进行讲解。

第一讲数据挖掘，Python和R简介

第二讲数据的导入与导出

第三讲数据可视化展现

第四讲决策树与随机森林

第五讲回归分析

第六讲聚类分析

第七讲离群点检测

第八讲时间序列分析

第九讲关联规则

第十讲社交网络分析

八、大数据分析挖掘-基于Hadoop/Mahout/MLlib的大数据挖掘(含Spark、Storm和Docker应用介绍 )

本课程从大数据挖掘分析技术实战的角度，结合理论和实践，全方位地介绍Mahout和 MLlib等大数据挖掘工具的开发技巧。本课程涉及的主题包括：大数据挖掘及其背景，Mahout和 MLlib大数据挖掘工具，推荐系统及电影推荐案例，分类技术及聚类分析，以及与流挖掘和Docker技术的结合，分析了大数据挖掘前景分析。

本课程教学过程中还提供了案例分析来帮助学员了解如何用Mahout和 MLlib挖掘工具来解决具体的问题，并介绍了从大数据中挖掘出有价值的信息的关键。

第一讲大数据挖掘及其背景

第二讲 MapReduce/DAG计算模式

第三讲云挖掘工具Mahout/MLib

第四讲推荐系统及其应用开发

第五讲分类技术及其应用

第六讲聚类技术及其应用

第七讲关联规则和相似项发现

第八讲流数据挖掘相关技术

第九讲云环境下大数据挖掘应用

九、Spark大数据挖掘工具MLlib实战(机器学习)

本课程主要讲解Spark MLlib，Spark MLlib是一种高效、快速、可扩展的分布式计算框架，实现了常用的机器学习，如：聚类、分类、回归等算法。讲解各个算法的理论、详细展示Spark源码实现，最后均会通过实例进行解析实战，帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习和大数据挖掘方法。

第一讲 Spark大数据实时处理技术

标签：培训,大纲,python,技术,Storm,数据挖掘,Spark,数据,工具
来源： https://blog.csdn.net/weixin_63757190/article/details/121735276

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

培训机构python大纲