ICode9

精准搜索请尝试: 精确搜索
  • 被误删的HDFS文件如何有效恢复2022-04-28 17:32:11

    1.回收站机制恢复 HDFS的回收站机制默认是关闭的,需要我们在配置文件core-site.xml中配置一些参数 2.快照机制恢复 HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上创建快照。一个快照是一个全部文件系统、或者某个目录在某一时刻的镜像。 为目录/bigda

  • Java操作HDFS2022-04-24 13:03:59

    Java操作HDFS 准备工作: Hadoop环境变量配置 jdk环境变量配置 不详细演讲 下面直接演示代码:(如下) 点击查看代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import ja

  • Hadoop生态系统2022-04-22 21:02:50

    一、hadoop开源生态介绍 1、云计算与大数据 Iaas:基础设施即服务,通过互联网获得服务,例如亚马逊AWS,openStack Paas:平台即服务,把服务器平台作为一种服务,例如虚拟开发平台,默认安装开发环境,hadoop Saas:软件即服务,例如office365,大量app   2、大数据应用 hadoop提供存储和计算

  • HDFS API操作2022-04-22 21:00:29

    一、导入依赖包 在File->Project Structure->Modules->Dependencies下导入Hadoop->share文件下的相应jar包,包括: common下的:hadoop-common-3.2.1.jar、 hadoop-nfs-3.2.1.jar以及所有lib下的jar包 hdfs下以及hdfs/lib下的所有jar包       二、api操作   package hdfs; import

  • Hadoop_JAVA操作HDFS2022-04-19 21:31:05

    之前已经在虚拟机上安装好了hadoop,下面纪录下用java操作hdfs和中间遇到的一些问题,使用的是伪分布式模式 一 本地配置hadoop环境变量 此处默认已经具备jdk环境.将hadoop的压缩包解压到任意目录 在环境变量中配置HADOOP_HOME变量,值为hadoop所在的目录 二、编写测试类 import org

  • HDFS编程实践2022-04-19 10:32:20

    HDFS编程实践 1、利用Shell命令与HDFS进行交互 Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。 注意,实际上有三种shell命令方式。 hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统 had

  • HDFS概述2022-04-16 21:31:35

    HDFS采用master/slave架构,是分布式文件存储系统,适应一次写入,多次读出的场景,但是不支持文件的修改。 一个HDFS集群是由一个Namenode和一定数目的Datanode组成。Namenode是HDFS集群主节点,Datanode是HDFS集群从节点 HDFS中文件在物理上是分块存储的,块的大小是按照参数来规定,默认是128

  • Spark打包与Kerberos相关命令2022-04-16 14:00:33

    发布的问题 mvn clean package project -am -Pcdp -DskipTests=true 之后将打包好的包上传到相关路径 提交任务与Kerberos文件配置 spark-submit \ --master yarn \ --deploy-mode cluster \ --driver-memory 4g --num-executors 4 --executor-memory 8g --executor-cores 4

  • Hadoop伪分布式部署2022-04-16 13:00:23

    1.解压Hadoop安装包 cd ......  进入软件包所在文件夹 ls   查看文件夹下所有文件 tar -zxvf hadoop......  解压Hadoop的jar包 2.配置hadoop文件 cd /......(Hadoop安装所在目录)/etc/hadoop  进入配置文件所在目录下 vim hadoop-env.sh  设置Hadoop的JAVA_HOME expor

  • hdfs删除过期文件2022-04-15 16:02:42

    hdfs删除过期文件方法 注意arr[11]随目录变化,看日期那一栏在目录 split($8,arr,"/") 的哪一列 #remove old model old_version=$(hdfs dfs -ls hdfs://bj04-region09/region09/11127/app/develop/11102998/browser-web-related-search-v1/model | awk 'BEGIN{ five_days_ago=s

  • HDFS-HA自动故障转移工作机制2022-04-15 11:03:29

    学习了使用命令hdfs haadmin -failover手动进行故障转移,在该模式下,即使现役NameNode已经失效,系统也不会自动从现役NameNode转移到待机NameNode,下面学习如何配置部署HA自动进行故障转移。自动故障转移为HDFS部署增加了两个新组件:ZooKeeper和ZKFailoverController(ZKFC)进程,如图3-20所

  • 5.RDD操作综合实例2022-04-13 11:31:39

    一、词频统计 A. 分步骤实现  1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 start-all.sh hdfs dfs -put 666.txt hdfs dfs -ls 2、读文件创建RDD >>> lines = sc.textFile("/home/hadoop/666.txt") >>> lines.foreach(print) 3、分词 >>> words =lines.flatMap(lambda li

  • hadoop2022-04-11 17:01:40

    hadoop介绍 Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。主要包括三部分内容:Hdfs,MapReduce,Yarn hadoop版本 Hadoop2.0即为克服Hadoop1.0中的不足,提出了以下关键特性: Yarn:它是Hadoop2.0引入的一个全新的通用资源管理系统,

  • |NO.Z.00011|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|---------------------------------------|PB数仓.v2022-04-10 14:35:26

    [BigDataHadoop:Hadoop&PB级数仓.V03]                                      [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析:日志数据采集&hdfs sink|]一、日志采集配置:hdfs sink配置### --- 日志采集配置:hdfs sink配置 a1.sinks.k1.ty

  • |NO.Z.00012|——————————|BigDataEnd|——|Hadoop&PB级数仓.V04|---------------------------------------|PB数仓.v2022-04-10 14:33:58

    [BigDataHadoop:Hadoop&PB级数仓.V04]                                      [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析:日志数据采集&agent配置&Flume配置|]一、Agent的配置### --- 配置Flume.agent配置 [root@hadoop02 ~]# vim /

  • |NO.Z.00014|——————————|BigDataEnd|——|Hadoop&PB级数仓.V06|---------------------------------------|PB数仓.v2022-04-10 14:32:52

    [BigDataHadoop:Hadoop&PB级数仓.V06]                                      [BigDataHadoop.PB级企业电商离线数仓][|章节二|Hadoop|会员活跃度分析:日志数据采集&启动自定义拦截器采集日志|]一、采集启动日志(使用自定义拦截器)### --- 定义配置文件 [roo

  • 5.RDD操作综合实例2022-04-06 01:34:08

    准备文件,上传到hdfs上     读文件创建RDD     分词     排除大小写,标点符号     统计词频     排序   输出到文件   查看结果     B.一句话实现        

  • 大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+MapReduce)2022-04-05 01:34:29

    目录一、Hadoop概述二、HDFS详解1)HDFS概述HDFS的设计特点2)HDFS组成1、Client2、NameNode(NN)3、DataNode(DN)4、Secondary NameNode(2NN)3)HDFS具体工作原理1、两个核心的数据结构: Fslmage和EditLog2、工作流程3、HDFS读文件流程4、HDFS文件写入流程三、Yarn详解1)Yarn概述2)YARN架构组件1

  • RDD操作2022-03-29 19:32:44

    一、RDD创建 1.从本地文件系统中加载数据创建RDD        2.从HDFS加载数据创建RDD   启动hdfs  上传文件  查看文件  加载  停止hdfs         3.通过并行集合(列表)创建RDD   输入列表  字符串  numpy生成数组      二、RDD操作 转换操作   1

  • 华为云FusionInsight MRS HDFS组件数据存储策略配置指导2022-03-29 11:01:55

    操作场景 默认情况下,HDFS NameNode自动选择DataNode保存数据的副本。在实际业务中,可能存在以下场景: DataNode上可能存在不同的存储设备,数据需要选择一个合适的存储设备分级存储数据。 DataNode不同目录中的数据重要程度不同,数据需要根据目录标签选择一个合适的DataNode节点保存。

  • 5.RDD操作综合实例2022-03-29 09:33:09

    一、词频统计 A.分步骤实现 1.准备文件   1.下载小说或长篇新闻稿     2.上传到hdfs上

  • HDFS机架感知2022-03-26 15:02:56

    Hadoop版本:2.9.2 什么是机架感知 通常大型 Hadoop 集群是以机架的形式来组织的,同一个机架上的不同节点间的网络状况比不同机架之间的更为理想,NameNode 设法将数据块副本保存在不同的机架上以提高容错性。 HDFS 不能够自动判断集群中各个 DataNode 的网络状况情况,Hadoop 允许集群

  • 4.RDD操作2022-03-25 20:01:23

    一、 RDD创建 从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合(列表)创建RDD输入列表、字符串、生成数组 1.从本地文件系统中加载数据创建RDD           2.从HDFS加载数据创建RDD   启动hdfs      上传文件

  • hdfs fsck / 检查整个hdfs目录2022-03-25 08:31:45

    hdfs fsck / 检查整个hdfs目录    Corrupt blocks,表示损坏的数据块的数量,这里是0 最后一行信息说明/目录文件系统是健康的   参考文章 https://www.cnblogs.com/tesla-turing/p/11487899.html

  • HDFS读写流程2022-03-21 15:32:02

    一、HDFS写流程 流程图如下: 过程: 1、HDFS Client调用Filesystem.creat(filePath)方法,通过RPC(远程过程调用,简单的理解是一个节点请求另一个节点提供的服务)与NameNode建立通讯。 2、NN会检查这个文件是否存在?是否可以创建?如果可以,NN会触发副本放置策略,计算出上传的块和相应的DN

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有