ICode9

精准搜索请尝试: 精确搜索
  • SQL与Database2022-05-31 17:33:16

    SQL-Structured Query Language 语言简洁,易学易用 DDL:Create、Drop、Alter DML:ISUD(Insert、Select、Update、Delete) 权限 Grant、Revoke 场景 olap(Analysis) oltp(Transaction) Database BigData Hadoop生态查询引擎 组件 定位 架构 开发语言 存储 元数据 查询 安装

  • HDFS NameNode Hadoop怎么分片2022-05-31 16:31:42

    HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块(Hadoop2.X 版本每一个 block

  • Hadoop分布式文件系统---HDFS2022-05-30 23:04:14

    1.HDFS的产生背景 数据量的增多,需要有一种系统管理多台机器的文件,于是产生DFS(Distributed File System)   2.HDFS简介 Hadoop项目的核心之一,用于数据存储,HDFS基于GFS开源实现。   3.HDFS优点 ·处理超大文件--MB到TB级(相对应的它不适用于存储很多小文件) ·运行于廉价机器上,廉价

  • 为什么hdfs不适合存储小文件?2022-05-29 19:34:32

    1.小文件数量过多(例如图片)会占用批量占用namenode的内存,浪费block因为每个储存在HDFS中的文件的元数据(包括目录树,位置信息,命名空间镜像,文件编辑信息) 都会在namenode中占用150b的内存,如果namenode存储空间满了,就不能继续存储新文件了。2.如果有多小文件,会造成寻道时间>=读取文件时

  • Hadoop-动态刷新hdfs/yarn配置2022-05-28 12:31:33

    在很多时候,修改了hadoop的配置后,希望立即生效,但是线上还有任务在执行,不能重启,可以执行以下命令让修改后的hdfs/yarn配置生效; 0、刷新yarn集群的队列 执行命令: ${HADOOP_HOME}/bin/yarn rmadmin -refreshQueues 或 yarn rmadmin -refreshQueues    1、动态刷新hdfs配置 如果是

  • HDFS2022-05-28 10:02:13

    HDFS 分布式文件系统,Hadoop Distributed File System。HDFS是一种允许文件通过网络再多台主机上共享的文件系统,可以让多台机器上的多个用户分享文件和存储空间。注意:HDFS不适合存储小文件。 HDFS shell 操作格式 hdfs dfs -<hdfs命令> hdfs://ip:port/path,dfs是指操作dfs文件,系统

  • 启动HDFS, Zookeeper,Kafka,hbase2022-05-26 15:32:54

    启动HDFS,start-all.sh           启动Zookeeper,myzk.sh start /opt/zookeeper-3.4.10/bin/zkServer.sh $1         启动Kafka,mykafka.sh start /opt/kafka_2.11-2.4.1/bin/kafka-server-start.sh -daemon /opt/kafka_2.11-2.4.1/config/server.properties    

  • 1-HDFS+MapReduce2022-05-26 01:34:03

    Hadoop的框架最核心的设计就是:HDFS,MapReduce(mr) HDFS1.0 hdfs: 分布式文件系统,主要用于存储海量数据 MapReduce: 用户海量数据的计算 hdfs 本身是一个master slave 架构 namenode(nn) 是主 datanode(dn) 是从 SecondaryNameNode(snn) 并不是nn的一个备份 namenode 是一个进

  • hadoop2.7.6(一)2022-05-22 22:33:15

    一、hadoop的发展 二、hadoop框架 Hadoop Common:基础型功能 Hadoop Distributed File System (HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。负责存放数据 Hadoop YARN:作业调度和集群资源管理的框架。负责资源的调配 Hadoop MapReduce:基于 YARN 的系统,用于并行

  • hdfs的块大小以及hdfs的读写流程2022-05-21 21:02:44

    hdfs上的文件是以块为单位进行存储的 大小一般设置为128m,不能太小,也不能太大。 详细情况看以下链接 hdfs块大小设置原因 hdfs的写数据流程 (1)客户端向 NameNode 请求上传文件,NameNode 检查目标文件是否已存在,父目录是否存在。 (2)NameNode 返回是否可以上传 (3)客户端请求第一

  • HDFS2022-05-17 22:02:10

    HDFS的简介:HDFS的产生背景:随着数据量的越来越大,一个操作系统存储不下所有的数据。需要分配到更多的操作系统管理的磁盘上存储。但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,HDFS只是分布式文件管路系统的一种。 HDFS的简介:HDFS是一个分布

  • HDFS High Availability(HA)高可用配置2022-05-15 16:33:31

    高可用性(英语:high availability,缩写为 HA) IT术语,指系统无中断地执行其功能的能力,代表系统的可用性程度。是进行系统设计时的准则之一。 高可用性系统意味着系统服务可以更长时间运行,通常通过提高系统的容错能力来实现。高可用性或者高可靠度的系统不会希望有单点故障造成整体故障

  • 多个NameNode的HDFS集群切换HA后,Spark应用变得很慢的处理办法2022-05-15 10:00:07

    Spark客户端需要依次轮询到Active NameNode才能正确执行。 查看hdfs-site.xml配置,配置在hdfs-site.xml中的FailoverProxyProvider接口为ConfiguredFailoverProxyProvider。源码实现为:从hdfs-site.xml中查找所有的dfs.namenode.rpc-address键,依次遍历尝试,直到找到ActiveNameNode。

  • pyspark读取hdfs 二进制文件 pickle 模型文件 model2022-05-09 13:31:17

    pyspark读取hdfs 二进制文件 pickle 模型文件 model   我们在python环境训练的机器学习、深度学习模型二进制文件,比如pickle 如果需要提交到spark-submit上,需要先把文件上传到hdfs目录下,然后读取   hadoop fs -put 模型文件  hdfs目录 如 hadoop fs -put /opt/tmp/model_phone.

  • 【Hadoop】10、Flume组件2022-05-08 23:01:15

    目录Flume组件安装配置1、下载和解压 Flume2、Flume 组件部署3、使用 Flume 发送和接受信息 Flume组件安装配置 1、下载和解压 Flume # 传Flume安装包 [root@master ~]# cd /opt/software/ [root@master software]# ls apache-flume-1.6.0-bin.tar.gz hadoop-2.7.1.tar.gz jd

  • hadoop的基本情况2022-05-08 12:33:50

    一、什么是hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File

  • 使用 HDFS 协议访问对象存储服务2022-05-06 17:32:41

    背景介绍 原生对象存储服务的索引是扁平化的组织形式,在传统文件语义下的 List 和 Rename 操作性能表现上存在短板。腾讯云对象存储服务 COS 通过元数据加速功能,为上层计算业务提供了等效于 HDFS 协议的操作接口和操作性能。 (一)什么是元数据加速器? 元数据加速功能是由腾讯云对象存

  • Flume 组件安装配置2022-05-06 17:02:13

    1. 实验一:Flume 组件安装配置 1.4.1. 实验任务一:下载和解压 Flume 使用 root 用户解压 Flume 安装包到“/usr/local/src”路径,并修改解压后文件夹名 为 flume。 [root@master ~]#tar zxvf /opt/software/apache-flume-1.6.0-bin.tar.gz -C /usr/local/src [root@master ~]#cd /

  • Hadoop Kerberos配置2022-05-04 00:01:32

        创建Hadoop系统用户 为Hadoop开启Kerberos, 需为不同服务准备不同的用户。 启动服务时需要使用相应的用户。 须在所有节点创建以下用户和用户组。   用户划分: User:       Group Daemons hdfs:       hadoop NameNode, Secondary NameNode, JournalN

  • 日志数据采集-Flume2022-05-03 15:03:53

    1. 前言 在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示: 2. Flume基本介绍 1. 概述 Flume是一个分布式、可靠、

  • [报错] spark开发环境 操作hdfs 报错2022-05-03 06:31:14

    报错1  22/05/0305:48:53 WARN DFSClient: Failed to connect to /10.0.24.10:9866 for block, add to deadNodes and continue. org.apache.hadoop.net.ConnectTimeoutException: 60000 millis timeout while waiting for channel to be ready for connect. ch : java.nio.cha

  • Flume自定义拦截器2022-05-02 23:03:28

    需求:一个topic包含很多个表信息,需要自动根据json字符串中的字段来写入到hive不同的表对应的路径中。 发送到Kafka中的数据原本最外层原本没有pkDay和project,只有data和name。因为担心data里面会空值,所以根同事商量,让他们在最外层添加了project和pkDay字段。 pkDay字段用于表的自动

  • hadoop无法退出安全模式2022-05-02 00:34:28

    hadoop无法退出安全模式,报"name node is in safe mode"错误提示。 集群安全模式 集群处于安全模式,不能执行重要操作(写操作)。集群启动完成后,自动退出安全模式。 基本语法: (1)bin/hdfs dfsadmin -safemode get (功能描述:查看安全模式状态) (2)bin/hdfs dfsadmin -safemode enter   (功能

  • w3cschool-HBase官方文档2022-05-01 13:32:27

    https://www.w3cschool.cn/hbase_doc/ HBase 概述 HBase是Hadoop的生态系统,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候,请考虑使用HBase! HBase作为Google Bigtable的

  • Flume 组件安装配置2022-04-29 18:33:24

    下载和解压 Flume 实验环境可能需要回至第四,五,六章(hadoop和hive),否则后面传输数据可能报错(猜测)! 可 以 从 官 网 下 载 Flume 组 件 安 装 包 , 下 载 地 址 如 下 URL 链 接 所 示:https://archive.apache.org/dist/flume/1.6.0/ 使用 root用户解压 Flume安装包到“/usr/local/sr

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有