HDFS

HDFS基本操作实践2022-03-19 19:05:33

实验内容：在HDFS的shell客户端和Java API客户端操作HDFS的节点，对文件进行操作实验数据记录：在HDFS的shell端操作：主要使用了 hadoop fs 的一些简单指令在HDFS的Java API端操作：打开安装好的IDEA，新建maven项目，点击右上角setting，配置maven: 在pom.xml文件中添加如下内容： <d
HDFS基础篇（中）2022-03-19 19:03:00

#博学谷IT学习技术支持# HDFS的NameSpace 什么事实NameSpace呢？命名空间也就是HDFS会给每一个存储文件提供一个统一的访问路径 #格式 hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。 #使用绝对前缀方式 hdfs://node1:8020/dir/1.txt hadoop fs
HDFS工作流程和机制2022-03-19 16:02:05

各角色职责： Namenode： 1、是hadoop分布式文件系统的核心，架构中的主角色。 2、维护和管理文件系统元数据，包括名称空间目录树结构，文件和块的位置信息、访问权限等信息。 3、内部通过内存和磁盘文件两种方式管理元数据。 4、其中磁盘上的元数据文件包含Fsimage内存元数据镜像文件和
4.RDD操作2022-03-19 13:35:37

一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件查看文件加载停止hdfs 3.通过并行集合（列表）创建RDD 输入列表、字符串、numpy生成数组二、 RDD操作转换操作 1.map(func)显式定义函数 lambda函数 2.filter(func)lambd
hadoop入门(12)：hdfs的读写流程2022-03-08 18:33:08

hdfs的写入流程文件具体上传流程如下：创建文件： HDFS client向HDFS写数据先调用DistributedFileSystem.create() RPC调用namenode的create()方法，会在HDFS目录树中指定路径，添加新文件；并将操作记录在edits.log中。namenode的create()方法执行完后，返回一个FSDataOutPutStream，他是
1.大数据概述2022-03-08 10:03:33

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。（1）.HDFS 分布式文件系统Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统（Google File System,GFS）的开源实现，它是Hadoop两大核心组成部分之一，提供了在廉价服务器集群中进行
Hadoop框架高可用配置---HA2022-03-07 14:04:04

1.高可用集群搭建 2.准备安装环境 tar -zxvf hadoop-3.1.2.tar.gz mv hadoop-3.1.2 /opt/ cd /opt/hadoop-3.1.2/etc/hadoop/ 3.修改集群环境 vim hadoop-env.sh # 直接在文件的最后添加 export JAVA_HOME=/usr/local/java/jdk1.8.0_261 export HDFS_NAMENODE_USE
HBase-是什么2022-03-07 10:04:05

HBase 是一个开源的、分布式的、版本化的非关系型数据库，它利用 Hadoop 分布式文件系统（Hadoop Distributed File System，HDFS）提供分布式数据存储。HBase 是一个可以进行随机访问的存取和检索数据的存储平台，存储结构化和半结构化的数据，因此一般的网站可以将网页内容和日志信息都存在
练习： Flink Sink 将数据保存到 HDFS MySQL2022-03-04 22:03:58

1 import lombok.AllArgsConstructor; 2 import lombok.Data; 3 import lombok.NoArgsConstructor; 4 5 @Data 6 @NoArgsConstructor 7 @AllArgsConstructor 8 public class Sensor { 9 private String sensor_id; 10 private Long sensor_timeStamp; 11
hdfs面试资料结合学习笔记2022-03-04 20:03:23

1. 写数据读数据写数据流程读数据流程 2. 为什么HDFS不支持存储小文件？原因占用NameNode大量的内存和磁盘来存储文件目录和块信息读取小文件的寻址时间大于读取小文件内容的时间解决方案从根源上解决小文件的产生，如从每小时抽取一次修改为每天抽取一次来积累数据量
Java kerberos hdfs2022-03-03 14:33:53

hadoop: hdfs: host: hdfs://192.168.0.161:8020 path: /app-logs user: hdfs batch-size: 105267200 #1024*1024*1024 1G batch-rollover-interval: 60000 #1000*60*2 2miniutes kerberos: keytab: C:\ProgramData\MIT\Kerberos5\hdf
1.大数据概述2022-03-01 19:34:30

一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述 1. HDFS（Hadoop分布式文件系统） Hadoop分布式文件系统是Hadoop项目的两大核心之一，是针对谷歌文件系统（GoogleFileSystem,GFS)的开源实现。 HDFS具有处理超大数据、流式处理、可以运行在廉
1.大数据概述2022-02-27 13:01:49

一，列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 1 、HDFSHadoop分布式文件系统(Hadoop Distributed File System，HDFS)是Hadoop项目的两大核心之一，是针对谷歌文件系统(Google File SystemGFS)的开源实现。HDFS具有处理超大数
大数据概述2022-02-27 11:32:25

一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 1.Hadoop Common是Hadoop体系最底层的一个模块，为Hadoop各个子模块提供各种工具，比如系统配置工具Configuration、远程调用RPC、序列化机制和日志操作等等，是其他模块的基础。 2.HDFS是Ha
大数据概述2022-02-27 01:00:29

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 1)HDFS（分布式文件系统）负责数据的存储与管理。HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。 2)
hadoop入门(6)：HDFS命令2022-02-26 11:02:41

常用命令 HDFS文件操作命令风格有两种两种命令效果一样 hdfs dfs 开头 hadoop fs 开头查看帮助信息 hdfs dfs -help [cmd] hadoop fs -help [cmd] # 两个命令等价查看指定目录文件列表 -ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...] -C # 只
hadoop入门(5)：了解hadoop2022-02-26 11:02:21

hadoop的起源阶段一 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。阶段二 2003年、2004年谷歌发表的两篇论文为该问题提供
hadoop入门(9)：hdfs的java编程-创建目录2022-02-26 11:01:25

前言 api文档为了方便，我先在test下新建文件编写创建文件编写文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.Test; import java.io.IOException; public class HdfsOper
hadoop入门(8)：hdfs的java编程-配置2022-02-26 11:01:05

准备环境：hadoop、jdk、maven 软件：IDEA 创建maven工程新建项目选择maven项目，下一步取名：HadoopProject 设置IDEA中的maven 点击Preferences 选择Build、Execution、Deployment->Build tools->maven 修改这三项修改成你自己的maven路径、以及你自己的配置文件添加pom.
HDFS免重启挂载新磁盘2022-02-25 23:04:11

背景在生产环境中，集群节点磁盘大小不同，其使用率也会不同，HDFS虽有均衡策略，但也会有数据不平衡的情况，有些节点磁盘就会被打满，然后这个节点就不健康了（Unhealthy Nodes），Yarn的磁盘阈值检查（yarn.nodemanager.disk-health-checker.min-healthy-disks），默认是90%，超过这个值就会不健康，集群有
使用Flume http进行数据采集2022-02-25 23:00:07

1. 编写Flume http配置文件 [root@sam01 scripts]# vim collect-app-http.conf # filename: collect-app-http.conf # 定义一个名字为 b1001 的agent # 定义channel b1001.channels = ch-1 # 定义source b1001.sources = src-1 # 定义sink b1001.sinks = k1 # sink 接到 channel
大数据概述2022-02-24 16:33:07

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业，例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie将要调度的作业作为一个单一的
大数据概述2022-02-23 23:00:27

1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 1，HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。 client：切分文件，访问HDFS，与namenode交互，获取文件位置信息，与DataNod
1.大数据概述2022-02-23 21:34:11

1. 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述。 hadoop生态系统，hadoop是批处理模型，storm是流式处理模型，spark介于二者之间，不过现在storm和spark互相在涉及对方的领域，spark出streaming用于流式计算，storm出trident用于批处
hadoop原理分析2022-02-23 18:00:18

hadoop hadoop集群 nameNode概述 (1):nameNode是hdfs的核心. (2):nameNode也称为Master (3):nameNode存储hdfs的数据,文件系统中所有的文件目录树,并跟踪整个集群中的文件 (4):nameNode不存储实际数据或数据

首页 < 3 4 5 6 7 8 > 尾页

ICode9

HDFS基本操作实践2022-03-19 19:05:33

HDFS基础篇（中）2022-03-19 19:03:00

HDFS工作流程和机制2022-03-19 16:02:05

4.RDD操作2022-03-19 13:35:37

hadoop入门(12)：hdfs的读写流程2022-03-08 18:33:08

1.大数据概述2022-03-08 10:03:33

Hadoop框架高可用配置---HA2022-03-07 14:04:04

HBase-是什么2022-03-07 10:04:05

练习： Flink Sink 将数据 保存 到 HDFS MySQL2022-03-04 22:03:58

hdfs面试资料结合学习笔记2022-03-04 20:03:23

Java kerberos hdfs2022-03-03 14:33:53

1.大数据概述2022-03-01 19:34:30

1.大数据概述2022-02-27 13:01:49

大数据概述2022-02-27 11:32:25

大数据概述2022-02-27 01:00:29

hadoop入门(6)：HDFS命令2022-02-26 11:02:41

hadoop入门(5)：了解hadoop2022-02-26 11:02:21

hadoop入门(9)：hdfs的java编程-创建目录2022-02-26 11:01:25

hadoop入门(8)：hdfs的java编程-配置2022-02-26 11:01:05

HDFS免重启挂载新磁盘2022-02-25 23:04:11

使用Flume http进行数据采集2022-02-25 23:00:07

大数据概述2022-02-24 16:33:07

大数据概述2022-02-23 23:00:27

1.大数据概述2022-02-23 21:34:11

hadoop原理分析2022-02-23 18:00:18

练习： Flink Sink 将数据保存到 HDFS MySQL2022-03-04 22:03:58