HDFS

HDFS简化版Maintenance state实现2022-02-08 20:33:50

文章目录前言Maintenance stateMaintenance state的场景匹配Maintenance state的差别改造参考链接前言在HDFS集群运维过程中，我们经常会遇到机器送修的情况，尤其在集群机器数量比较多的情况下，每天因为坏盘或是其它硬件问题导致的机器维修是很常见的。对于集群维护者来
HDFS的写数据流程图2022-02-08 20:01:15

（1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3）客户端请求第一个 Block上传到哪几个DataNode服务器上。（4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。（5）客户端通过FSDataOut
在hdfs的web页面中下载到windows不成功2022-02-08 11:57:59

在hdfs的web页面中下载到windows不成功本人在学习的时候跟着操作一模一样，反复看了无数遍都没有不一样的地方，但就是下载不了一点就变成无法访问，在web页面中想要将上传的文件下载下来找了很多文章发现在windows中没有这个虚拟主机名和ip的映射就解析不出来我在这里使用的火
分布式文件存储介绍、选型比较、架构设计2022-02-07 12:02:47

数据正成为世界上最有价值的资源，分布式文件存储是应对数据爆炸的最好解决方案，那就会涉及到分布式文件存储方案、选型、架构设计等。分布式文件存储的来源在这个数据爆炸的时代，产生的数据量不断地在攀升，从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要
HDFS元数据管理(checkpoint机制)2022-02-06 19:03:12

NameNode的主要职责是记录用户存储数据的数据元信息元数据:文件块,文件存储位置,块大小,副本的个数,文件的权限...... 记录元数据的形式由两种元数据存储在内存上:内存对象元数据存储在磁盘上:内存对象的序列化文件当客户端对HDFS上的数据进行操作以后,数据的元数据
大数据-Hadoop（HDFS-2）2022-02-03 16:01:12

1.HDFS的数据流 HDFS写数据流程剖析文件写入（1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3）客户端请求第一个 Block上传到哪几个DataNode服务器上。（4）NameNode返回3个DataNode
Flink StreamingFileSink 文件到hdfs 文件一直处于inprogress状态无法生成正式文件2022-01-30 10:59:31

一、问题描述：任务逻辑是通过实时读取Kafka数据，一分钟计算一次数据，并利用Flink StreamingFileSink将数据落地到HDFS文件中。为了应对大促剧增的数据量，对当前运行稳定的集群进行了扩容处理，任务重启后发现写入的hdfs文件一直处于inprogress状态无法滚动生成正式文件。任
centos7下安装hadoop（单机版）2022-01-27 10:07:21

出处（官方文档） https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Download 下载（官方） https://dlcdn.apache.org/hadoop/common/hadoop-3.3.1/ hadoop-3.3.1.tar.gz 配置环境（重要）查看jdk安装目录 cat /etc/profile export JAVA
Hadoop 介绍笔记2022-01-26 12:03:25

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File System）。HDFS有高
Hadoop常用操作2022-01-25 17:34:09

启动，关闭 D:\hadoop-2.8.3\hadoop-2.8.3\sbin>start-all.cmd D:\hadoop-2.8.3\hadoop-2.8.3\sbin>stop-all.cmd start-all.sh等价于start-dfs.sh + start-yarn.sh 单进程启动。 sbin/start-dfs.sh --------------- sbin/hadoop-daemons.sh --config .. --hostname .. sta
CDH集群impala报错：角色无法启动，Invalid short-circuit reads configuration:2022-01-25 17:02:10

博主最近在安装CDH的时候，发现每次安装都跟逛海南之家一样，每次都有新问题。这次的impala又出问题了，重装了agent还是有问题，发现这个办法可以，分析一下。感谢原文大佬的分享：原文链接：https://cloud.tencent.com/developer/article/1079075?from=15425 1.安装cdh集群时候，有一台
hdfs无法访问namenode无法启动2022-01-25 15:02:03

问题描述：通过50070发现无法访问hdfs，因为服务器被重启过， hdfs没有启动。启动hdfs，但是jps发现没有namenode，查看hadoop/logs/xxxx.log发现： Storage directory /tmp/hadoop-abc/dfs/name does not exist 原因是重启后服务器删掉了/tmp下的数据。解决方法： hdfs namenode -form
Flume的四个入门案例（官方）2022-01-25 00:03:25

文章目录 Flume入门案例一：监控端口数据1）案例需求2）需求分析3）实现步骤 Flume入门案例二：实时监控单个追加文件1）案例需求：2）需求分析3）实现步骤 Flume入门案例三：实时监控目录下多个新文件1）案例需求2）需求分析3）实现步骤 Flume入门案例四：实时监控目录下的多个追加文件1）案例需求2）需求
Spark-Sql Hint 解决小文件导致查询慢的问题2022-01-23 16:34:45

对一个大表进行了30个天分区的查询, spark客户端显示了所有excutor均已执行完毕. 查看hdfs分区也显示已有数据, desc表名显示表还没作成. 于是用 hadoop fs -ls 看了下hdfs文件数发现有上万个小文件. 导致合并查询结果时间巨长小文件过多会导致文件系统效率低下.我们可以在写spar
统计HDFS中文件数量、大小、以及在某范围大小的文件数量2022-01-20 16:33:47

说明：统计HDFS文件数量大小，小于20M文件数量 1、HDFS 相关命令 # 统计文件大小 hdfs dfs -du -h / # 统计文件数量，返回的数据是目录个数，文件个数，文件总计大小，输入路径 hdfs dfs -count / #统计所有文件的信息，过滤文件夹, 只统计文件，因为使用-ls -R 之后,可以看到文件是”-“
HDFS常用文件操作命令汇总2022-01-20 13:03:38

https://blog.csdn.net/zhangcongyi420/article/details/122152090 ——————————————————————————————————————————————————————————— 版权声明：本文为CSDN博主「小码农叔叔」的原创文章，遵循CC 4.0 BY-SA版权协议原文链
HDFS2022-01-19 17:04:49

简介定义： HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。优
【精】HDFS的HA系列（四）--- becomeActive和becomeStandby函数简要介绍2022-01-18 11:03:30

上一篇文章中，我们讲到了在异步创建锁节点的回调函数中，会去根据状态码调用becomeActive或becomeStandby。如下图所示：这两个函数的功能分别是让NameNode变为Active状态和Standby状态，本文我们就来看看这两个函数。一、becomeActive private boolean becomeActive() {
Hadoop生态圈（八）- HDFS动态节点管理2022-01-17 12:59:34

目录前言1. 背景2. 动态扩容、节点上线2.1 新机器基础环境准备2.1.1 主机名、IP2.1.2 Hosts映射2.1.3 防火墙2.1.4 SSH免密登录2.1.5 JDK环境配置 2.2 Hadoop配置2.2.1 DataNode负载均衡服务 3. 动态缩容、节点下线3.1 添加退役节点3.2 刷新集群3.3 手动关闭DataNode进程
Hive总结2022-01-16 23:03:31

文章目录 1. 概念2. Hive与Hadoop的关系3. Hive中的命令3.1 创建数据库并指定hdfs存储位置3.2 修改数据库3.3 查看数据库信息3.4 创建表并指定字段之间的分隔符 4. Hive中的四种表结构4.1 内部表4.2 外部表4.3 分区表4.4 分桶表 1. 概念 Hive是基于Hadoop的一个数据仓库
Hadoop HA 高可用2022-01-16 12:03:44

第一章 HA 概述（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HDFS 集群 NameNode 机器发生意外，如宕机，集群将无法使用，
win下远程链接hadoop2022-01-15 19:04:18

win下访问linux系统的hadoop，访问拒绝， 1.防火墙阻止问题 centos7关闭防火墙：systemctl stop firewalld.service 2.关闭防火墙后还访问不了，需要考虑hadoop是否有开放权限连接。 Win下Eclipse提交hadoop程序会出错：org.apache.hadoop.security.AccessControlException: Permission deni
hadoop笔记2022-01-13 12:34:18

一、Hadoop入门 1、常用端口号 hadoop3.x HDFS NameNode 内部通常端口：8020/9000/9820 HDFS NameNode 对用户的查询端口：9870 Yarn查看任务运行情况的：8088 历史服务器：19888 hadoop2.x HDFS NameNode 内部通常端口：8020/9000 HDFS NameNode 对用户的查询端口：50070 Yarn查看任务运
Hadoop笔记二：HDFS2022-01-12 21:31:49

HDFS是Hadoop为了储存海量数据而使用的一种分布式文件系统。这种文件系统是运作于多个机器之上的。 HDFS为了保证数据储存的可靠和读取性能，会把保存的数据进行切块后进行复制并且储存在集群的多个节点中。 HDFS存在名字节点NameNode和数据节点DataNode： NameNode：储存元数据信息，也
HDFS的API操作2022-01-11 22:31:40

文章目录 1）准备好hadoop相关的资料包2）配置环境变量![在这里插入图片描述](https://img-blog.csdnimg.cn/ff471f8afd8f4d679de0b9562c880bbd.png)4）在IDEA创建一个Maven工程HDFSClient（注：若不会初始配置Maven，可参照：https://www.bilibili.com/video/BV1Kr4y1T7zB?spm_id_from=3

首页 < 5 6 7 8 > 尾页

ICode9

HDFS简化版Maintenance state实现2022-02-08 20:33:50

HDFS的写数据流程图2022-02-08 20:01:15

在hdfs的web页面中下载到windows不成功2022-02-08 11:57:59

分布式文件存储介绍、选型比较、架构设计2022-02-07 12:02:47

HDFS元数据管理(checkpoint机制)2022-02-06 19:03:12

大数据-Hadoop（HDFS-2）2022-02-03 16:01:12

Flink StreamingFileSink 文件到hdfs 文件一直处于inprogress状态无法生成正式文件2022-01-30 10:59:31

centos7下安装hadoop（单机版）2022-01-27 10:07:21

Hadoop 介绍笔记2022-01-26 12:03:25

Hadoop常用操作2022-01-25 17:34:09

CDH集群impala报错：角色无法启动，Invalid short-circuit reads configuration:2022-01-25 17:02:10

hdfs无法访问namenode无法启动2022-01-25 15:02:03

Flume的四个入门案例（官方）2022-01-25 00:03:25

Spark-Sql Hint 解决小文件导致查询慢的问题2022-01-23 16:34:45

统计HDFS中文件数量、大小、以及在某范围大小的文件数量2022-01-20 16:33:47

HDFS常用文件操作命令汇总2022-01-20 13:03:38

HDFS2022-01-19 17:04:49

【精】HDFS的HA系列（四）--- becomeActive和becomeStandby函数简要介绍2022-01-18 11:03:30

Hadoop生态圈（八）- HDFS动态节点管理2022-01-17 12:59:34

Hive总结2022-01-16 23:03:31

Hadoop HA 高可用2022-01-16 12:03:44

win下远程链接hadoop2022-01-15 19:04:18

hadoop笔记2022-01-13 12:34:18

Hadoop笔记二：HDFS2022-01-12 21:31:49

HDFS的API操作2022-01-11 22:31:40