HDFS

SQL与Database2022-05-31 17:33:16

SQL-Structured Query Language 语言简洁，易学易用 DDL：Create、Drop、Alter DML：ISUD（Insert、Select、Update、Delete）权限 Grant、Revoke 场景 olap（Analysis） oltp（Transaction） Database BigData Hadoop生态查询引擎组件定位架构开发语言存储元数据查询安装
HDFS NameNode Hadoop怎么分片2022-05-31 16:31:42

HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表，这里遵循机架感应原则(把副本分别放在不同的机架，甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块(Hadoop2.X 版本每一个 block
Hadoop分布式文件系统---HDFS2022-05-30 23:04:14

1.HDFS的产生背景数据量的增多，需要有一种系统管理多台机器的文件，于是产生DFS(Distributed File System) 2.HDFS简介 Hadoop项目的核心之一，用于数据存储，HDFS基于GFS开源实现。 3.HDFS优点 ·处理超大文件--MB到TB级（相对应的它不适用于存储很多小文件） ·运行于廉价机器上，廉价
为什么hdfs不适合存储小文件？2022-05-29 19:34:32

1.小文件数量过多（例如图片）会占用批量占用namenode的内存，浪费block因为每个储存在HDFS中的文件的元数据（包括目录树，位置信息，命名空间镜像，文件编辑信息）都会在namenode中占用150b的内存，如果namenode存储空间满了，就不能继续存储新文件了。2.如果有多小文件，会造成寻道时间>=读取文件时
Hadoop-动态刷新hdfs/yarn配置2022-05-28 12:31:33

在很多时候，修改了hadoop的配置后，希望立即生效，但是线上还有任务在执行，不能重启，可以执行以下命令让修改后的hdfs/yarn配置生效； 0、刷新yarn集群的队列执行命令： ${HADOOP_HOME}/bin/yarn rmadmin -refreshQueues 或 yarn rmadmin -refreshQueues 　　 1、动态刷新hdfs配置如果是
HDFS2022-05-28 10:02:13

HDFS 分布式文件系统，Hadoop Distributed File System。HDFS是一种允许文件通过网络再多台主机上共享的文件系统，可以让多台机器上的多个用户分享文件和存储空间。注意：HDFS不适合存储小文件。 HDFS shell 操作格式 hdfs dfs -<hdfs命令> hdfs://ip:port/path，dfs是指操作dfs文件，系统
启动HDFS, Zookeeper，Kafka，hbase2022-05-26 15:32:54

启动HDFS，start-all.sh 启动Zookeeper，myzk.sh start /opt/zookeeper-3.4.10/bin/zkServer.sh $1 启动Kafka，mykafka.sh start /opt/kafka_2.11-2.4.1/bin/kafka-server-start.sh -daemon /opt/kafka_2.11-2.4.1/config/server.properties
1-HDFS+MapReduce2022-05-26 01:34:03

Hadoop的框架最核心的设计就是：HDFS，MapReduce（mr） HDFS1.0 hdfs: 分布式文件系统，主要用于存储海量数据 MapReduce: 用户海量数据的计算 hdfs 本身是一个master slave 架构 namenode（nn）是主 datanode(dn) 是从 SecondaryNameNode(snn) 并不是nn的一个备份 namenode 是一个进
hadoop2.7.6(一)2022-05-22 22:33:15

一、hadoop的发展二、hadoop框架 Hadoop Common：基础型功能 Hadoop Distributed File System (HDFS™)：一种分布式文件系统，可提供对应用程序数据的高吞吐量访问。负责存放数据 Hadoop YARN：作业调度和集群资源管理的框架。负责资源的调配 Hadoop MapReduce：基于 YARN 的系统，用于并行
hdfs的块大小以及hdfs的读写流程2022-05-21 21:02:44

hdfs上的文件是以块为单位进行存储的大小一般设置为128m，不能太小，也不能太大。详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程（1）客户端向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。（2）NameNode 返回是否可以上传（3）客户端请求第一
HDFS2022-05-17 22:02:10

HDFS的简介：HDFS的产生背景：随着数据量的越来越大，一个操作系统存储不下所有的数据。需要分配到更多的操作系统管理的磁盘上存储。但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统，HDFS只是分布式文件管路系统的一种。 HDFS的简介：HDFS是一个分布
HDFS High Availability（HA）高可用配置2022-05-15 16:33:31

高可用性（英语：high availability，缩写为 HA） IT术语，指系统无中断地执行其功能的能力，代表系统的可用性程度。是进行系统设计时的准则之一。高可用性系统意味着系统服务可以更长时间运行，通常通过提高系统的容错能力来实现。高可用性或者高可靠度的系统不会希望有单点故障造成整体故障
多个NameNode的HDFS集群切换HA后，Spark应用变得很慢的处理办法2022-05-15 10:00:07

Spark客户端需要依次轮询到Active NameNode才能正确执行。查看hdfs-site.xml配置，配置在hdfs-site.xml中的FailoverProxyProvider接口为ConfiguredFailoverProxyProvider。源码实现为：从hdfs-site.xml中查找所有的dfs.namenode.rpc-address键，依次遍历尝试，直到找到ActiveNameNode。
pyspark读取hdfs 二进制文件 pickle 模型文件 model2022-05-09 13:31:17

pyspark读取hdfs 二进制文件 pickle 模型文件 model 我们在python环境训练的机器学习、深度学习模型二进制文件，比如pickle 如果需要提交到spark-submit上，需要先把文件上传到hdfs目录下，然后读取 hadoop fs -put 模型文件 hdfs目录如 hadoop fs -put /opt/tmp/model_phone.
【Hadoop】10、Flume组件2022-05-08 23:01:15

目录Flume组件安装配置1、下载和解压 Flume2、Flume 组件部署3、使用 Flume 发送和接受信息 Flume组件安装配置 1、下载和解压 Flume # 传Flume安装包 [root@master ~]# cd /opt/software/ [root@master software]# ls apache-flume-1.6.0-bin.tar.gz hadoop-2.7.1.tar.gz jd
hadoop的基本情况2022-05-08 12:33:50

一、什么是hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（Hadoop Distributed File
使用 HDFS 协议访问对象存储服务2022-05-06 17:32:41

背景介绍原生对象存储服务的索引是扁平化的组织形式，在传统文件语义下的 List 和 Rename 操作性能表现上存在短板。腾讯云对象存储服务 COS 通过元数据加速功能，为上层计算业务提供了等效于 HDFS 协议的操作接口和操作性能。（一）什么是元数据加速器？元数据加速功能是由腾讯云对象存
Flume 组件安装配置2022-05-06 17:02:13

1. 实验一：Flume 组件安装配置 1.4.1. 实验任务一：下载和解压 Flume 使用 root 用户解压 Flume 安装包到“/usr/local/src”路径，并修改解压后文件夹名为 flume。 [root@master ~]#tar zxvf /opt/software/apache-flume-1.6.0-bin.tar.gz -C /usr/local/src [root@master ~]#cd /
Hadoop Kerberos配置2022-05-04 00:01:32

创建Hadoop系统用户为Hadoop开启Kerberos，需为不同服务准备不同的用户。启动服务时需要使用相应的用户。须在所有节点创建以下用户和用户组。用户划分： User:　　 Group Daemons hdfs:　　 hadoop NameNode, Secondary NameNode, JournalN
日志数据采集-Flume2022-05-03 15:03:53

1. 前言在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示： 2. Flume基本介绍 1. 概述 Flume是一个分布式、可靠、
[报错] spark开发环境操作hdfs 报错2022-05-03 06:31:14

报错1 22/05/0305:48:53 WARN DFSClient: Failed to connect to /10.0.24.10:9866 for block, add to deadNodes and continue. org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.cha
Flume自定义拦截器2022-05-02 23:03:28

需求：一个topic包含很多个表信息，需要自动根据json字符串中的字段来写入到hive不同的表对应的路径中。发送到Kafka中的数据原本最外层原本没有pkDay和project，只有data和name。因为担心data里面会空值，所以根同事商量，让他们在最外层添加了project和pkDay字段。 pkDay字段用于表的自动
hadoop无法退出安全模式2022-05-02 00:34:28

hadoop无法退出安全模式，报"name node is in safe mode"错误提示。集群安全模式集群处于安全模式，不能执行重要操作（写操作）。集群启动完成后，自动退出安全模式。基本语法：（1）bin/hdfs dfsadmin -safemode get （功能描述：查看安全模式状态）（2）bin/hdfs dfsadmin -safemode enter （功能
w3cschool-HBase官方文档2022-05-01 13:32:27

https://www.w3cschool.cn/hbase_doc/ HBase 概述 HBase是Hadoop的生态系统，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候，请考虑使用HBase！ HBase作为Google Bigtable的
Flume 组件安装配置2022-04-29 18:33:24

下载和解压 Flume 实验环境可能需要回至第四，五，六章(hadoop和hive)，否则后面传输数据可能报错（猜测）！可以从官网下载 Flume 组件安装包，下载地址如下 URL 链接所示：https://archive.apache.org/dist/flume/1.6.0/ 使用 root用户解压 Flume安装包到“/usr/local/sr

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

SQL与Database2022-05-31 17:33:16

HDFS NameNode Hadoop怎么分片2022-05-31 16:31:42

Hadoop分布式文件系统---HDFS2022-05-30 23:04:14

为什么hdfs不适合存储小文件？2022-05-29 19:34:32

Hadoop-动态刷新hdfs/yarn配置2022-05-28 12:31:33

HDFS2022-05-28 10:02:13

启动HDFS, Zookeeper，Kafka，hbase2022-05-26 15:32:54

1-HDFS+MapReduce2022-05-26 01:34:03

hadoop2.7.6(一)2022-05-22 22:33:15

hdfs的块大小以及hdfs的读写流程2022-05-21 21:02:44

HDFS2022-05-17 22:02:10

HDFS High Availability（HA）高可用配置2022-05-15 16:33:31

多个NameNode的HDFS集群切换HA后，Spark应用变得很慢的处理办法2022-05-15 10:00:07

pyspark读取hdfs 二进制文件 pickle 模型文件 model2022-05-09 13:31:17

【Hadoop】10、Flume组件2022-05-08 23:01:15

hadoop的基本情况2022-05-08 12:33:50

使用 HDFS 协议访问对象存储服务2022-05-06 17:32:41

Flume 组件安装配置2022-05-06 17:02:13

Hadoop Kerberos配置2022-05-04 00:01:32

日志数据采集-Flume2022-05-03 15:03:53

[报错] spark开发环境 操作hdfs 报错2022-05-03 06:31:14

Flume自定义拦截器2022-05-02 23:03:28

hadoop无法退出安全模式2022-05-02 00:34:28

w3cschool-HBase官方文档2022-05-01 13:32:27

Flume 组件安装配置2022-04-29 18:33:24

[报错] spark开发环境操作hdfs 报错2022-05-03 06:31:14