HDFS

HDFS文件写入过程2022-01-11 14:02:17

详细步骤解析： List itemclient发起文件上传请求，通过RPC与NameNode建立通讯，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传； client请求第一个block该传输到哪些DataNode服务器上； NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的Da
Hadoop HDFS-HA2022-01-11 12:05:26

目录Hadoop HDFS-HAHA(High Availablity)HDFS-HA 集群搭建HDFS-HA 核心问题HDFS-HA手动配置1 环境准备2 规划集群3 配置HDFS-HA集群4 启动HDFS-HA集群HDFS-HA自动模式HDFS-HA 自动故障转移工作机制HDFS-HA 自动故障转移的集群规划配置HDFS-HA 自动故障转移YARN-HA配置YARN-HA 工作
hive系列(三) Hive Server22022-01-09 11:59:36

1.hive server2 允许客户端远程连接 GettingStarted - Apache Hive - Apache Software Foundation $HIVE_HOME/bin/hiveserver2 node:10020 webUI页面 2.启动后使用beeline连接 $HIVE_HOME/bin/beeline #hive需要使用非root用户连接修改hadoop集群配置core-site.xml <!--
flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件2022-01-09 11:03:19

主要记录下streaming模式下动态分区怎么写文件，sql模式直接写就是了，streaming模式需要自己写下分区方法。大致的数据流程是消费kafka，拆解json，数据写到hdfs(sequenceFile)路径。 1、分区需要自定义，这里是读取流数据，获取分区字段 package partitionassigner; import
（三）hadoop---HDFS架构、读写过程、高可用方案，hdfs命令2022-01-07 14:31:20

文章目录 Hadoop架构Hadoop如何工作HDFS体系结构HDFS 写文件过程HDFS 读文件过程HDFS 可靠性 HDFS高可用方案在 Hadoop 1.0 时代Hadoop2.0 方法一：HDFS联盟1.1 问题缘由1.2 解决方法方法二：HDFS HAHDFS 常用操作命令新建目录列出内容上传文件下载文件复制文件查看文件内容
HBase元数据及损坏文件的修复2022-01-07 12:34:04

HBase 先登录hbase用户： su hbase 修复HBase： #显示问题的详细信息 hbase hbck -details #尝试修复region级别的不一致情况 hbase hbck -fix #尝试自动修复，但实际上只是把不一致的数值加1 hbase hbck -repair #修复元数据表(meta表) hbase hbck -fixMeta #将meta表上记录的re
启动HBase报错master.HMaster: Failed to become active master的解决方法2022-01-07 03:00:21

情况：已启动ZooKeeper和HDFS，再启动HBase，虽然启动成功，但过了几秒后HBase自动关闭了，并报错。完整的报错信息： master.HMaster: Failed to become active master org.apache.hadoop.hbase.util.FileSystemVersionException: HBase file layout needs to be upgraded. You have ve
初识Hadoop，Hadoop知识小结2022-01-06 14:32:12

初识Hadoop，Hadoop知识小结文章名称：初识Hadoop，Hadoop知识小结文章内容：将简单描述Hadoop的知识点，和一些概念的东西文章作者：爱划水的潇洒哥提示：以下内容为个人学习的总结，更多详细资料需您自行查阅。前言：Hadoop采用Java语言开发，是对Goolgle的 MapReduce、GFS 和 BigData等核心
HDFS学习五：HDFS2.x新特性2022-01-05 21:35:13

1.集群间数据拷贝方法一：scp命令，这个在hadoop完全分布式运行模式一文中有介绍。方法二：采用distcp命令实现两个Hadoop集群之间的递归数据复制举例如下，将hello.txt文件从102集群拷贝到103，二者都是namenode所在节点主机名 bin/hadoop distcp hdfs://hadoop102:9000/user/hello.tx
hdfs普通文本文件合并lzo压缩2022-01-05 11:59:29

环境准备安装lzop sudo apt-get install lzop shell 主脚本 #! /bin/bash localpath=/home/impdatahd/testData/hdfs_test outpath=/home/impdatahd/testData/merged hdfspath=/user/hive/warehouse/test/origin/behavior_log_andr_test dt='2022-01-04' function checkFi
spark 实现HDFS小文件合并2022-01-04 22:37:00

一、首先使用sparksql读取需要合并的数据。当然有两种情况，　　一种是读取全部数据，即需要合并所有小文件。　　第二种是合并部分数据，比如只查询某一天的数据，只合并某一个天分区下的小文件。 val df: DataFrame = spark.sql("sql") 二、将读取到的数据写入临时文件中。此处需注
HDFS（first）2022-01-04 22:01:47

基础知识 HDFS 被设计成用来使用低廉的服务器来进行海量数据的存储，那是怎么做到的呢？大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理每个小文件做冗余备份，并且分散存到不同的服务器，做到高可靠不丢失类似于之前博客中写到的磁盘阵列适合场
解决HDFS无法启动namenode，报错Premature EOF from inputStream；Failed to load FSImage file, see error(s) above2022-01-04 01:34:44

一.情况描述启动hadoop后发现无法打开hdfs web界面，50070打不开，于是jps发现少了一个namenode：查看日志信息，发现如下报错： 2022-01-03 23:54:10,993 INFO org.apache.hadoop.hdfs.server.namenode.FSImage: Planning to load image: FSImageFile(file=/export/servers/hadoop-3.
Zookeeper实现Hadoop的高可用集群搭建2022-01-03 18:03:21

1、Hadoop HA 高可用 1.1、HDFS-HA 核心问题 1.1.1、怎么保证三台 namenode 的数据一致 Fsimage:让一台 nn 生成数据,让其他机器 nn 同步Edits:需要引进新的模块 JournalNode 来保证 edtis 的文件的数据一致性 1.1.2、怎么让同时只有一台 nn 是 active，其他所有是 standby
FusionInsight MRS透明加密方案2022-01-03 14:04:41

本文分享自　　本文分享自华为云社区《FusionInsight MRS透明加密方案》　　【摘要】概述传统大数据集群中，用户数据明文保存在HDFS中，集群的维护人员或者恶意攻击者可在OS层面绕过HDFS的权限控制机制或者窃取磁盘直接访问用户数据。FusionInsight MRS引入了Hadoop KMS服务并进行
hdfs delegation token 过期问题分析2021-12-31 14:58:56

什么是delegation token delegation token其实就是hadoop里一种轻量级认证方法，作为kerberos认证的一种补充。理论上只使用kerberos来认证是足够了，为什么hadoop还要自己开发一套使用delegation token的认证方式呢？这是因为如果在一个很大的分布式系统当中，如果每个节点访问某个
Hive-库的常见操作2021-12-31 08:34:25

1.建库： CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] // 库的注释说明 [LOCATION hdfs_path] // 库在hdfs上的路径 [WITH DBPROPERTIES (property_name=property_value, ...)]; // 库的属性例子： create database
简单认识HDFS2021-12-28 16:33:57

1. HDFS是什么 HDFS是Hadoop里的分布式文件系统，为HBase、Hive提供底层存储。 2. HDFS架构 2.1架构图 2.2解释 NameNode功能负责客户端（用户Client）的请求响应。负责元数据（文件名称、副本系数、block存放的位置（DataNode））的管理。 DataNode功能存储用户文件相应的数据块。定时
Hadoop初学习笔记2021-12-28 09:58:00

hadoop 大型框架定义: 开源的分布式系统基础架构分布式: 多台服务器共同完成某一项任务用途: 海量数据的存储，分析计算特性: 高效性(可并行工作)，高扩展性(可动态增加/删除节点) 高可靠性(底层维护多个数据副本) 高容错性(自动将失败的任务重新分配) HDFS架构概述Hadoop Di
Flink常用API之HDFS文件Source2021-12-25 14:58:01

package source import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment /** * @Author yqq * @Date 2021/12/25 13:17 * @Version 1.0 */ object HDFSFileSource { def main(args: Array[String]): Unit = { val ev = StreamExecutionEnviron
大数据与MapReduce2021-12-25 09:37:40

实际生活中的数据量是非常庞大的，采用单机运行的方式可能需要若干天才能出结果，这显然不符合我们的预期，为了尽快的获得结果，我们将采用分布式的方式，将计算分布到不同的机器上。Mapreduce就是一个典型的分布式框架，Hadoop则是用java编写的一个Mapreduce实现。分布式和并行的区别在于分
HDFS常用操作2021-12-24 23:35:10

1.启动与关闭Hadoop服务 $cd /usr/local/java/hadoop/hadoop-3.3.1 //进入hadoop安装路径 $./sbin/start-dfs.sh //启动 hdfs 服务 $./stop-all.sh //停止Hadoop
补交02 03 04 052021-12-24 12:05:55

02 环境搭建 1、安装Linux操作系统 2、安装关系型数据库MySQL 3、安装大数据处理框架Hadoop，查看IP 03 Linux与Hadoop操作实验 cd命令：切换目录切换到目录 /usr/local 去到目前的上层目录回到自己的主文件夹 ls命令：查看文件与目录查看目录/u
Idea 的Big Data Tools连接Hdfs Unable to load native-hadoop library问题解决 (Windows下)2021-12-23 20:58:01

一、安装hadoop并配置环境变量二、替换文件下载对应版本的winutils bin文件目录替换hadoop文件夹下的bin目录，特别是要放入hadoop.dll和winutils.exe文件，并复制一份hadoop.dll放到C:\Windows\System32下。链接: https://gitee.com/sujemson/winutils.
JAVA HDFS API编程二2021-12-23 18:04:08

java里面的设计模式：模板模式把骨架（这个骨架就用通用算法进行抽象出来）定义好，具体实现交给子类去实现。意思是说在模板里面只要把过程给定义好，具体怎么实现，这个模板方法是不关注的，具体的实现是又子类来完成的，可以有多个子类，每个子类实现的功能可以都不一样。定义一个模板类：

首页 < 6 7 8

ICode9

HDFS文件写入过程2022-01-11 14:02:17

Hadoop HDFS-HA2022-01-11 12:05:26

hive系列(三) Hive Server22022-01-09 11:59:36

flink-streaming消费kafka动态分区写入HDFS(SequenceFile)文件2022-01-09 11:03:19

（三）hadoop---HDFS架构、读写过程、高可用方案，hdfs命令2022-01-07 14:31:20

HBase元数据及损坏文件的修复2022-01-07 12:34:04

启动HBase报错master.HMaster: Failed to become active master的解决方法2022-01-07 03:00:21

初识Hadoop，Hadoop知识小结2022-01-06 14:32:12

HDFS学习五：HDFS2.x新特性2022-01-05 21:35:13

hdfs普通文本文件合并lzo压缩2022-01-05 11:59:29

spark 实现HDFS小文件合并2022-01-04 22:37:00

HDFS（first）2022-01-04 22:01:47

解决HDFS无法启动namenode，报错Premature EOF from inputStream；Failed to load FSImage file, see error(s) above2022-01-04 01:34:44

Zookeeper实现Hadoop的高可用集群搭建2022-01-03 18:03:21

FusionInsight MRS透明加密方案2022-01-03 14:04:41

hdfs delegation token 过期问题分析2021-12-31 14:58:56

Hive-库的常见操作2021-12-31 08:34:25

简单认识HDFS2021-12-28 16:33:57

Hadoop初学习笔记2021-12-28 09:58:00

Flink常用API之HDFS文件Source2021-12-25 14:58:01

大数据与MapReduce2021-12-25 09:37:40

HDFS常用操作2021-12-24 23:35:10

补交02 03 04 052021-12-24 12:05:55

Idea 的Big Data Tools连接Hdfs Unable to load native-hadoop library问题解决 (Windows下)2021-12-23 20:58:01

JAVA HDFS API编程二2021-12-23 18:04:08