标签:opt 数仓 module azkaban 数据管理 Atlas hadoop102 root
文章目录
Atlas的简介
Solr的安装
Atlas的安装和配置
Kerberos相关配置
若Hadoop集群开启了Kerberos认证,Atlas与Hadoop集群交互之前就需要先进行Kerberos认证。若Hadoop集群未开启Kerberos认证,则本节可跳过。
1,为Atlas创建Kerberos主体,并生成keytab文件
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"addprinc -randkey atlas/hadoop102"
[root@hadoop102 ~]# kadmin -padmin/admin -wadmin -q"xst -k /etc/security/keytab/atlas.service.keytab atlas/hadoop102"
2,修改/opt/module/atlas/conf/atlas-application.properties配置文件,增加以下参数
atlas.authentication.method=kerberos
atlas.authentication.principal=atlas/hadoop102@EXAMPLE.COM
atlas.authentication.keytab=/etc/security/keytab/atlas.service.keytab
Atlas的登录和启动
Atlas 的使用(案例)
Atlas的项目实战
Hive元数据增量同步
Hive元数据的增量同步,无需人为干预,只要Hive中的元数据发生变化(执行DDL语句),Hive Hook就会将元数据的变动通知Atlas。除此之外,Atlas还会根据DML语句获取数据之间的血缘关系。
全流程调度
为查看血缘关系效果,此处使用Azkaban将数仓的全流程调度一次。
1,新数据准备
1)用户行为日志
(1)启动日志采集通道,包括Zookeeper,Kafka,Flume等
(2)修改hadoop102,hadoop103两台节点的/opt/module/applog/application.yml文件,将模拟日期改为2020-06-17如下
#业务日期
mock.date: "2020-06-17"
(3)执行生成日志的脚本
lg.sh
(4)等待片刻,观察HDFS是否出现2020-06-17的日志文件
2)业务数据
(1)修改/opt/module/db_log/application.properties,将模拟日期修改为2020-06-17,如下
#业务日期
mock.date=2020-06-17
(2)进入到/opt/module/db_log路径,执行模拟生成业务数据的命令,如下
java -jar gmall2020-mock-db-2021-01-22.jar
(3)观察mysql的gmall数据中是否出现2020-06-17的数据
2,启动Azkaban
在个节点创建hadoop组
[root@hadoop102 ~]# groupadd hadoop
[root@hadoop103 ~]# groupadd hadoop
[root@hadoop104 ~]# groupadd hadoop
在各节点创建azkaban用户
[root@hadoop102 ~]# useradd azkaban -g hadoop
[root@hadoop102 ~]# echo azkaban | passwd --stdin azkaban
[root@hadoop103 ~]# useradd azkaban -g hadoop
[root@hadoop103 ~]# echo azkaban | passwd --stdin azkaban
[root@hadoop104 ~]# useradd azkaban -g hadoop
[root@hadoop104 ~]# echo azkaban | passwd --stdin azkaban
将各节点Azkaban安装路径所有者改为azkaban用户
[root@hadoop102 ~]# chown -R azkaban:hadoop /opt/module/azkaban
[root@hadoop103 ~]# chown -R azkaban:hadoop /opt/module/azkaban
[root@hadoop104 ~]# chown -R azkaban:hadoop /opt/module/azkaban
注意需使用azkaban用户启动Azkaban
1)启动Executor Server
在各节点执行以下命令,启动Executor
[root@hadoop102 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"
[root@hadoop103 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"
[root@hadoop104 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-exec;bin/start-exec.sh"
2)激活Executor Server,任选一台节点执行以下激活命令即可
[root@hadoop102 ~]# curl http://hadoop102:12321/executor?action=activate
[root@hadoop102 ~]# curl http://hadoop103:12321/executor?action=activate
[root@hadoop102 ~]# curl http://hadoop104:12321/executor?action=activate
3)启动Web Server
[root@hadoop102 ~]# sudo -i -u azkaban bash -c "cd /opt/module/azkaban/azkaban-web;bin/start-web.sh"
1)工作流参数
查看血缘依赖
此时在通过Atlas查看Hive元数据,即可发现血缘依赖
扩展内容
标签:opt,数仓,module,azkaban,数据管理,Atlas,hadoop102,root 来源: https://blog.csdn.net/weixin_45417821/article/details/122795879
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。