首页 > 其他分享> 文章详细

大数据课程-------hadoop部分

2021-10-27 15:04:00 阅读：160 来源： 互联网

标签：flume blog 拦截器 hadoop hive ------- 课程 details https

1.namenode元数据管理：

2.linux shell脚本日志采集上传到hdfs脚本

https://www.cnblogs.com/biehongli/p/9010933.html

3.yarn 资源调度器

FIFO(先进先出)调度器

容量调度器（浪费资源）

公平调度器（动态分配）（最优）

4.hive 的桶表不能通过load加载数据，否则达不到桶的效果。

5.hive中的join(exists性能比较低，可以使用left semi join 替代)

6.hive中使用transform实现使用脚本对数据进行处理

https://www.jianshu.com/p/4b7baa050738

7.https://blog.csdn.net/Post_Yuan/article/details/78845273

8.flume采集目录中的文件

【注意点】使用source spooldir采集目录中文件时，不能有同名的文件，否则报错

flume采集文件中的日志

拦截器：使用在source 和channel之间

时间戳拦截器，主机拦截器，静态拦截器，正则过滤拦截器，自定义拦截器

flume的故障转移failover (https://www.cnblogs.com/shay-zhangjin/p/7946282.html)

flume 负载均衡：load_balance（https://blog.csdn.net/weixin_42641909/article/details/88812785）

9.hbase列族越多，在取一行数据时所要参与IO,搜寻的文件就越多，所以，如果没有必要，不要设置太多的列族。

10.habase的读写过程：

布隆过滤器：

hbase的预分区：

hbase协处理器：【https://blog.csdn.net/moshang_3377/article/details/90723983】

标签：flume,blog,拦截器,hadoop,hive,-------,课程,details,https
来源： https://www.cnblogs.com/18800105616a/p/15181481.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

大数据课程-------hadoop部分