hdfs

被误删的HDFS文件如何有效恢复2022-04-28 17:32:11

1.回收站机制恢复 HDFS的回收站机制默认是关闭的，需要我们在配置文件core-site.xml中配置一些参数 2.快照机制恢复 HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上创建快照。一个快照是一个全部文件系统、或者某个目录在某一时刻的镜像。为目录/bigda
Java操作HDFS2022-04-24 13:03:59

Java操作HDFS 准备工作: Hadoop环境变量配置 jdk环境变量配置不详细演讲下面直接演示代码:(如下) 点击查看代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import ja
Hadoop生态系统2022-04-22 21:02:50

一、hadoop开源生态介绍 1、云计算与大数据 Iaas:基础设施即服务,通过互联网获得服务，例如亚马逊AWS,openStack Paas:平台即服务,把服务器平台作为一种服务，例如虚拟开发平台，默认安装开发环境,hadoop Saas:软件即服务，例如office365,大量app 2、大数据应用 hadoop提供存储和计算
HDFS API操作2022-04-22 21:00:29

一、导入依赖包在File->Project Structure->Modules->Dependencies下导入Hadoop->share文件下的相应jar包，包括： common下的：hadoop-common-3.2.1.jar、 hadoop-nfs-3.2.1.jar以及所有lib下的jar包 hdfs下以及hdfs/lib下的所有jar包二、api操作 package hdfs; import
Hadoop_JAVA操作HDFS2022-04-19 21:31:05

之前已经在虚拟机上安装好了hadoop,下面纪录下用java操作hdfs和中间遇到的一些问题,使用的是伪分布式模式一本地配置hadoop环境变量此处默认已经具备jdk环境.将hadoop的压缩包解压到任意目录在环境变量中配置HADOOP_HOME变量,值为hadoop所在的目录二、编写测试类 import org
HDFS编程实践2022-04-19 10:32:20

HDFS编程实践 1、利用Shell命令与HDFS进行交互 Hadoop支持很多Shell命令，其中fs是HDFS最常用的命令，利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。注意，实际上有三种shell命令方式。 hadoop fs适用于任何不同的文件系统，比如本地文件系统和HDFS文件系统 had
HDFS概述2022-04-16 21:31:35

HDFS采用master/slave架构，是分布式文件存储系统，适应一次写入，多次读出的场景，但是不支持文件的修改。一个HDFS集群是由一个Namenode和一定数目的Datanode组成。Namenode是HDFS集群主节点，Datanode是HDFS集群从节点 HDFS中文件在物理上是分块存储的，块的大小是按照参数来规定，默认是128
Spark打包与Kerberos相关命令2022-04-16 14:00:33

发布的问题 mvn clean package project -am -Pcdp -DskipTests=true 之后将打包好的包上传到相关路径提交任务与Kerberos文件配置 spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 4g --num-executors 4 --executor-memory 8g --executor-cores 4
Hadoop伪分布式部署2022-04-16 13:00:23

1.解压Hadoop安装包 cd ......　　进入软件包所在文件夹 ls　　　查看文件夹下所有文件 tar -zxvf hadoop......　　解压Hadoop的jar包 2.配置hadoop文件 cd /......(Hadoop安装所在目录）/etc/hadoop　　进入配置文件所在目录下 vim hadoop-env.sh　　设置Hadoop的JAVA_HOME expor
hdfs删除过期文件2022-04-15 16:02:42

hdfs删除过期文件方法注意arr[11]随目录变化，看日期那一栏在目录 split($8,arr,"/") 的哪一列 #remove old model old_version=$(hdfs dfs -ls hdfs://bj04-region09/region09/11127/app/develop/11102998/browser-web-related-search-v1/model | awk 'BEGIN{ five_days_ago=s
HDFS-HA自动故障转移工作机制2022-04-15 11:03:29

学习了使用命令hdfs haadmin -failover手动进行故障转移，在该模式下，即使现役NameNode已经失效，系统也不会自动从现役NameNode转移到待机NameNode，下面学习如何配置部署HA自动进行故障转移。自动故障转移为HDFS部署增加了两个新组件：ZooKeeper和ZKFailoverController（ZKFC）进程，如图3-20所
5.RDD操作综合实例2022-04-13 11:31:39

一、词频统计 A. 分步骤实现 1、准备文件下载小说或长篇新闻稿上传到hdfs上 start-all.sh hdfs dfs -put 666.txt hdfs dfs -ls 2、读文件创建RDD >>> lines = sc.textFile("/home/hadoop/666.txt") >>> lines.foreach(print) 3、分词 >>> words =lines.flatMap(lambda li
hadoop2022-04-11 17:01:40

hadoop介绍 Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。主要包括三部分内容：Hdfs，MapReduce，Yarn hadoop版本 Hadoop2.0即为克服Hadoop1.0中的不足，提出了以下关键特性： Yarn：它是Hadoop2.0引入的一个全新的通用资源管理系统，
|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|---------------------------------------|PB数仓.v2022-04-10 14:35:26

[BigDataHadoop：Hadoop&PB级数仓.V03] [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析：日志数据采集&hdfs sink|]一、日志采集配置：hdfs sink配置### --- 日志采集配置：hdfs sink配置 a1.sinks.k1.ty
|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|---------------------------------------|PB数仓.v2022-04-10 14:33:58

[BigDataHadoop：Hadoop&PB级数仓.V04] [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析：日志数据采集&agent配置&Flume配置|]一、Agent的配置### --- 配置Flume.agent配置 [root@hadoop02 ~]# vim /
|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|---------------------------------------|PB数仓.v2022-04-10 14:32:52

[BigDataHadoop：Hadoop&PB级数仓.V06] [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析：日志数据采集&启动自定义拦截器采集日志|]一、采集启动日志(使用自定义拦截器)### --- 定义配置文件 [roo
5.RDD操作综合实例2022-04-06 01:34:08

准备文件,上传到hdfs上读文件创建RDD 分词排除大小写，标点符号统计词频排序输出到文件查看结果 B.一句话实现
大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）2022-04-05 01:34:29

目录一、Hadoop概述二、HDFS详解1）HDFS概述HDFS的设计特点2）HDFS组成1、Client2、NameNode（NN）3、DataNode（DN）4、Secondary NameNode（2NN）3）HDFS具体工作原理1、两个核心的数据结构: Fslmage和EditLog2、工作流程3、HDFS读文件流程4、HDFS文件写入流程三、Yarn详解1）Yarn概述2）YARN架构组件1
RDD操作2022-03-29 19:32:44

一、RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 　　启动hdfs　　上传文件　　查看文件　　加载　　停止hdfs 3.通过并行集合（列表）创建RDD 　　输入列表　　字符串　　numpy生成数组二、RDD操作转换操作　　1
华为云FusionInsight MRS HDFS组件数据存储策略配置指导2022-03-29 11:01:55

操作场景默认情况下，HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中，可能存在以下场景： DataNode上可能存在不同的存储设备，数据需要选择一个合适的存储设备分级存储数据。 DataNode不同目录中的数据重要程度不同，数据需要根据目录标签选择一个合适的DataNode节点保存。
5.RDD操作综合实例2022-03-29 09:33:09

一、词频统计 A.分步骤实现 1.准备文件　　1.下载小说或长篇新闻稿 2.上传到hdfs上
HDFS机架感知2022-03-26 15:02:56

Hadoop版本：2.9.2 什么是机架感知通常大型 Hadoop 集群是以机架的形式来组织的，同一个机架上的不同节点间的网络状况比不同机架之间的更为理想，NameNode 设法将数据块副本保存在不同的机架上以提高容错性。 HDFS 不能够自动判断集群中各个 DataNode 的网络状况情况，Hadoop 允许集群
4.RDD操作2022-03-25 20:01:23

一、 RDD创建从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合（列表）创建RDD输入列表、字符串、生成数组 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 　　启动hdfs 上传文件
hdfs fsck / 检查整个hdfs目录2022-03-25 08:31:45

hdfs fsck / 检查整个hdfs目录 Corrupt blocks，表示损坏的数据块的数量，这里是0 最后一行信息说明/目录文件系统是健康的参考文章 https://www.cnblogs.com/tesla-turing/p/11487899.html
HDFS读写流程2022-03-21 15:32:02

一、HDFS写流程流程图如下：过程： 1、HDFS Client调用Filesystem.creat(filePath)方法，通过RPC（远程过程调用，简单的理解是一个节点请求另一个节点提供的服务）与NameNode建立通讯。 2、NN会检查这个文件是否存在？是否可以创建?如果可以，NN会触发副本放置策略，计算出上传的块和相应的DN

首页 < 2 3 4 5 6 7 8 > 尾页

ICode9

被误删的HDFS文件如何有效恢复2022-04-28 17:32:11

Java操作HDFS2022-04-24 13:03:59

Hadoop生态系统2022-04-22 21:02:50

HDFS API操作2022-04-22 21:00:29

Hadoop_JAVA操作HDFS2022-04-19 21:31:05

HDFS编程实践2022-04-19 10:32:20

HDFS概述2022-04-16 21:31:35

Spark打包与Kerberos相关命令2022-04-16 14:00:33

Hadoop伪分布式部署2022-04-16 13:00:23

hdfs删除过期文件2022-04-15 16:02:42

HDFS-HA自动故障转移工作机制2022-04-15 11:03:29

5.RDD操作综合实例2022-04-13 11:31:39

hadoop2022-04-11 17:01:40

|NO.Z.00011|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|---------------------------------------|PB数仓.v2022-04-10 14:35:26

|NO.Z.00012|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|---------------------------------------|PB数仓.v2022-04-10 14:33:58

|NO.Z.00014|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|---------------------------------------|PB数仓.v2022-04-10 14:32:52

5.RDD操作综合实例2022-04-06 01:34:08

大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）2022-04-05 01:34:29

RDD操作2022-03-29 19:32:44

华为云FusionInsight MRS HDFS组件数据存储策略配置指导2022-03-29 11:01:55

5.RDD操作综合实例2022-03-29 09:33:09

HDFS机架感知2022-03-26 15:02:56

4.RDD操作2022-03-25 20:01:23

hdfs fsck / 检查整个hdfs目录2022-03-25 08:31:45

HDFS读写流程2022-03-21 15:32:02