大数据系列—从为什么学，到平台搭建，到组件学习，到企业应用的全方位的分享（stage2）

2021-09-05 18:02:21 阅读：194 来源： 互联网

Boys，Grils，Friends！ My name is Jinsuo.Shi. 一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。
个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…
个人在学习领域：Python，Pandas数据分析，PowerBI数据可视化,机器学习，算法等…
个人兴趣爱好：广泛阅读，旅游远行，运动健身，王者农药…

【今日重点：大数据学习第二阶段stage2：企业如何搭建大数据平台？个人学习如何在虚拟机上搭建整个大数据的环境？】

开场白

1. 企业搭建大数据平台

1.1 大数据平台分层

在这里插入图片描述

1. 装备设备层:又可以称之为数据采集层,数据接入层,这一层主要是从不同的数据源采集数据,常用的数据源:软件系统:CRM,CDP,DMP,web日志文件,传感器数据,网站埋点数据,车载数据等各种可以发射数据的装置都可以采集,常用的采集工具有:

Sqoop:做数据的迁移,可以从RDBMS(关系型数据库)<->大数据集群的数据互相迁移,用的比较少
DataX:大部分公司都在用,个人感觉不狗智能,实际用起来还是有很多限制的,比如,mysql->hive 表里数据为空时,会发生错位,目标表也不能自动生成
Flume 日志采集的工具

2. 数据存储层:字面含义,存储数据的地方,常用的有:

MySQL 少量结构化数据存储,注意这里的少,是相对于大数据而言,
HDFS 分布式文件系统,存储容量受到集群规模限制,只要有节点,理论便可无限扩展,
HABSE 大数据的数据库,针对大级别数据而存在,使用起来非常快,是一个基于列式存储的非关系数据库,意味着不能写SQL,但是可以借助phoenix,在phoenix上写SQL
Kafka 针对实时更新,流式数据存储,是一个消息缓冲组件
Hive 严格来说,不是一个数据存储的组件,只是把HDFS上的结构化的文件映射成表,来进行数据分析

3. 分析应用层:字面意思,进行数据的分析与实际的应用,常用的大数据分析组件有

HIVE 数仓工具,大部分公司的数据统计分析都在HIve上完成
Spark 计算框架,啥都可以做,包括数据迁移,数据ETL,数据分析,可以连接Hive,在spark里写SparkSQL来操作Hive
Flink 流式计算框架,主要针对实时的数据,主要通过连接Kafka来分析数据

1.2 建立平台的步骤

在这里插入图片描述

1. 痛点

在这里插入图片描述

痛点,也可以说难点,数据的整合.由于集团下各个子公司使用的系统都不一样,如ERP,CRM.,数据的打通非常关键,如何解决数据壁垒,形成数据湖,各个数据开发部门会有自己的一套方法,本公司的就不在这里论述了,属于公司机密,你懂的!

2. 目标

在这里插入图片描述

大多数公司是以客户为中心,这样做确实快,但会被客户牵着走,没有自己公司的标准产品,前期还可以,后期想做大做强,没有标准产品那是不行的!

3. 战略

在这里插入图片描述

三大平台我所在的公司都有,公司前期是做广告投放的,现在在做一站式的解决方案!

4. 应用范围

在这里插入图片描述

5. 实施

在这里插入图片描述

图有点小,从左到右四层:源数据层->数据仓库层(ODS,DWD,DWS,每个公司不一样)->服务&访问层(报表,数据挖掘,应用服务)->应用&用户层(营销决策,广告投放,会员管理)

1.3 数据仓的设计理念

在这里插入图片描述

轻前台,快中台,大后台

2. 个人搭建大数据环境

在搭建之前,你也许看过别人写的搭建几台服务器形成一个大数据集群,靠诉你,没必要,你是能更快呢,还是能更稳定呢,都不能,你在虚拟机里搭载多的节点,还是依赖与自己一个电脑的性能,所以说学习搭建一个节点就够了!

2.1 组件安装包准备

centos7 系统安装(在虚拟机里)
安装JDK8,mysql5
数据迁移组件:DataX,Sqoop,Flume(三个后续安装)
数据存储组件:Hadoop(HDFS) 2.7.1,Hbase 1.3.1,Hive 1.2.1,Kafka 2.11(后续安装)
数据计算分析组件:Spark 2.0.2,Flink(后续安装)
任务调度组件:Azkaban 2.5.0,Airflow(后续安装)

2.2 手把手从0开始搭建

1. 安装centos7

1.安装vmware软件并开启电脑的虚拟化技术(BIOS)
2. 安装centos7(这里安装DVD版,mini无界面就不装了)

2. 安装JDK8和MySQL8.0

注意mysql8的密码有规范,可以改成Root#123,大小写字母+特殊字符+数字
修改密码: ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘Root#123’;

1.jdk的安装非常简单: 上传jdk压缩包,解压,配置环境变量!

2.mysql8安装可以看我的另一篇博文安装:技术篇-MySQL8+Hive3.1.2安装分享

3.设置远程连接之后,既可以使用navicat连接!

下面的组件都是三步走:上传压缩包,解压,配置

3. 安装 Hadoop2.7.1

配置个datanode就可以了,也可以参考我的另一篇文章配置: 技术篇-Hadoop3.2.1简化安装分享

4. 安装Hive1.2.1

单节点可以不用配置,也可以参考我的另一篇文章配置: 技术篇-MySQL8+Hive3.1.2安装分享

5. 安装Hbase1.3.1

单节点不需要其他配置,让它能启起来就行!

6. 安装Spark2.0.2

解压即用,先不配环境变量,以免和Hadoop的环境变量起冲突

全部组件启动查看: jps

3. 下期更精彩

这期到这里就结束了,如果在安装过程中出现问题,可以随时交流!把组件安装好,下期就可以进入组件的学习,订阅关注不迷路,咱们下期见!

标签：安装,可以,平台,企业应用,组件,stage2,数据,搭建
来源： https://blog.csdn.net/qq_41200768/article/details/120110168

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

大数据系列—从为什么学，到平台搭建，到组件学习，到企业应用的全方位的分享（stage2）

目录

开场白

1. 企业搭建大数据平台

1.1 大数据平台分层

1.2 建立平台的步骤

1. 痛点

2. 目标

3. 战略

4. 应用范围

5. 实施

1.3 数据仓的设计理念

2. 个人搭建大数据环境

2.1 组件安装包准备

2.2 手把手从0开始搭建

1. 安装centos7

2. 安装JDK8和MySQL8.0

3. 安装 Hadoop2.7.1

4. 安装Hive1.2.1

5. 安装Hbase1.3.1

6. 安装Spark2.0.2

3. 下期更精彩