ICode9

精准搜索请尝试: 精确搜索
  • HDFS基本操作实践2022-03-19 19:05:33

    实验内容: 在HDFS的shell客户端和Java API客户端操作HDFS的节点,对文件进行操作 实验数据记录: 在HDFS的shell端操作: 主要使用了 hadoop fs 的一些简单指令 在HDFS的Java API端操作: 打开安装好的IDEA,新建maven项目,点击右上角setting,配置maven: 在pom.xml文件中添加如下内容: <d

  • HDFS基础篇(中)2022-03-19 19:03:00

    #博学谷IT学习技术支持# HDFS的NameSpace 什么事实NameSpace呢?              命名空间也就是HDFS会给每一个存储文件提供一个统一的访问路径 #格式 hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。 #使用绝对前缀方式 hdfs://node1:8020/dir/1.txt hadoop fs

  • HDFS工作流程和机制2022-03-19 16:02:05

    各角色职责:   Namenode: 1、是hadoop分布式文件系统的核心,架构中的主角色。 2、维护和管理文件系统元数据,包括名称空间目录树结构,文件和块的位置信息、访问权限等信息。 3、内部通过内存和磁盘文件两种方式管理元数据。 4、其中磁盘上的元数据文件包含Fsimage内存元数据镜像文件和

  • 4.RDD操作2022-03-19 13:35:37

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs   3.通过并行集合(列表)创建RDD 输入列表、字符串、numpy生成数组 二、 RDD操作 转换操作 1.map(func)显式定义函数 lambda函数 2.filter(func)lambd

  • hadoop入门(12):hdfs的读写流程2022-03-08 18:33:08

    hdfs的写入流程 文件具体上传流程如下: 创建文件: HDFS client向HDFS写数据先调用DistributedFileSystem.create() RPC调用namenode的create()方法,会在HDFS目录树中指定路径,添加新文件;并将操作记录在edits.log中。namenode的create()方法执行完后,返回一个FSDataOutPutStream,他是

  • 1.大数据概述2022-03-08 10:03:33

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。         (1).HDFS 分布式文件系统Hadoop分布式文件系统HDFS是针对谷歌分布式文件系统(Google File System,GFS)的开源实现,它是Hadoop两大核心组成部分之一,提供了在廉价服务器集群中进行

  • Hadoop框架高可用配置---HA2022-03-07 14:04:04

    1.高可用集群搭建 2.准备安装环境 tar -zxvf hadoop-3.1.2.tar.gz mv hadoop-3.1.2 /opt/ cd /opt/hadoop-3.1.2/etc/hadoop/ 3.修改集群环境 vim hadoop-env.sh # 直接在文件的最后添加 export JAVA_HOME=/usr/local/java/jdk1.8.0_261 export HDFS_NAMENODE_USE

  • HBase-是什么2022-03-07 10:04:05

    HBase 是一个开源的、分布式的、版本化的非关系型数据库,它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。HBase 是一个可以进行随机访问的存取和检索数据的存储平台,存储结构化和半结构化的数据,因此一般的网站可以将网页内容和日志信息都存在

  • 练习: Flink Sink 将数据 保存 到 HDFS MySQL2022-03-04 22:03:58

    1 import lombok.AllArgsConstructor; 2 import lombok.Data; 3 import lombok.NoArgsConstructor; 4 5 @Data 6 @NoArgsConstructor 7 @AllArgsConstructor 8 public class Sensor { 9 private String sensor_id; 10 private Long sensor_timeStamp; 11

  • hdfs面试资料结合学习笔记2022-03-04 20:03:23

    1. 写数据读数据 写数据流程 读数据流程 2. 为什么HDFS不支持存储小文件? 原因 占用NameNode大量的内存和磁盘来存储文件目录和块信息 读取小文件的寻址时间大于读取小文件内容的时间 解决方案 从根源上解决小文件的产生,如从每小时抽取一次修改为每天抽取一次来积累数据量

  • Java kerberos hdfs2022-03-03 14:33:53

    hadoop: hdfs: host: hdfs://192.168.0.161:8020 path: /app-logs user: hdfs batch-size: 105267200 #1024*1024*1024 1G batch-rollover-interval: 60000 #1000*60*2 2miniutes kerberos: keytab: C:\ProgramData\MIT\Kerberos5\hdf

  • 1.大数据概述2022-03-01 19:34:30

    一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述 1. HDFS(Hadoop分布式文件系统) Hadoop分布式文件系统是Hadoop项目的两大核心之一,是针对谷歌文件系统(GoogleFileSystem,GFS)的开源实现。 HDFS具有处理超大数据、流式处理、可以运行在廉

  • 1.大数据概述2022-02-27 13:01:49

    一,列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。       1 、HDFSHadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop项目的两大核心之一,是针对谷歌文件系统(Google File SystemGFS)的开源实现。HDFS具有处理超大数

  • 大数据概述2022-02-27 11:32:25

    一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1.Hadoop Common是Hadoop体系最底层的一个模块,为Hadoop各个子模块提供各种工具,比如系统配置工具Configuration、远程调用RPC、序列化机制和日志操作等等,是其他模块的基础。 2.HDFS是Ha

  • 大数据概述2022-02-27 01:00:29

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1)HDFS(分布式文件系统) 负责数据的存储与管理。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。 2)

  • hadoop入门(6):HDFS命令2022-02-26 11:02:41

    常用命令 HDFS文件操作命令风格有两种 两种命令效果一样 hdfs dfs 开头 hadoop fs 开头 查看帮助信息 hdfs dfs -help [cmd] hadoop fs -help [cmd] # 两个命令等价 查看指定目录文件列表 -ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...] -C # 只

  • hadoop入门(5):了解hadoop2022-02-26 11:02:21

    hadoop的起源 阶段一 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 阶段二 2003年、2004年谷歌发表的两篇论文为该问题提供

  • hadoop入门(9):hdfs的java编程-创建目录2022-02-26 11:01:25

    前言 api文档 为了方便,我先在test下新建 文件编写 创建文件 编写文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.junit.Test; import java.io.IOException; public class HdfsOper

  • hadoop入门(8):hdfs的java编程-配置2022-02-26 11:01:05

    准备 环境:hadoop、jdk、maven 软件:IDEA 创建maven工程 新建项目 选择maven项目,下一步 取名:HadoopProject 设置IDEA中的maven 点击Preferences 选择Build、Execution、Deployment->Build tools->maven 修改这三项 修改成你自己的maven路径、以及你自己的配置文件 添加pom.

  • HDFS免重启挂载新磁盘2022-02-25 23:04:11

    背景 在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),Yarn的磁盘阈值检查(yarn.nodemanager.disk-health-checker.min-healthy-disks),默认是90%,超过这个值就会不健康,集群有

  • 使用Flume http进行数据采集2022-02-25 23:00:07

    1. 编写Flume http配置文件 [root@sam01 scripts]# vim collect-app-http.conf # filename: collect-app-http.conf # 定义一个名字为 b1001 的agent # 定义channel b1001.channels = ch-1 # 定义source b1001.sources = src-1 # 定义sink b1001.sinks = k1 # sink 接到 channel

  • 大数据概述2022-02-24 16:33:07

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。OozieOozie是可扩展可伸缩的工作流协调管理器。Oozie协调的作业属于一次性的非循环作业,例如MapReduce, Streaming, Pipes, Pig, Hive, Sqoop等等都是。Oozie将要调度的作业作为一个单一的

  • 大数据概述2022-02-23 23:00:27

    1.列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。 1,HDFS(hadoop分布式文件系统)   是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。   client:切分文件,访问HDFS,与namenode交互,获取文件位置信息,与DataNod

  • 1.大数据概述2022-02-23 21:34:11

    1. 列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。         hadoop生态系统,hadoop是批处理模型,storm是流式处理模型,spark介于二者之间,不过现在storm和spark互相在涉及对方的领域,spark出streaming用于流式计算,storm出trident用于批处

  • hadoop原理分析2022-02-23 18:00:18

    hadoop    hadoop集群    nameNode概述        (1):nameNode是hdfs的核心.        (2):nameNode也称为Master        (3):nameNode存储hdfs的数据,文件系统中所有的文件目录树,并跟踪整个集群中的文件        (4):nameNode不存储实际数据或数据

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有