ICode9

精准搜索请尝试: 精确搜索
  • HDFS 相关2022-09-16 12:01:48

    1.基础命令 查看 hdfs dfs -ls / 上传 hdfs dfs -put 下载 hdfs dfs -get 删除 hdfs dfs -mv  2.hdfs生产数据块损坏/丢失修复方法 手动修复 hdfs fsck / #首先检查哪些数据块丢失了 hdfs debug recoverLease -path 文件位置 -retries 重试次数 # 修复指定路径的hdfs文件,尝试多

  • HBase-day1-day2内容理解2022-09-15 19:30:45

    HBase图 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、面向列的数据库,通过利用Hadoop的文件系统提供容

  • org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use2022-09-15 13:34:09

    做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。 然后flink出现以下异常, org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file: hdfs://ns1/user/hive/warehouse/iceberg_ods.db/ods_xxx/metadata/17120-4

  • HDFS分布式文件系统知识点梳理(一)2022-09-11 18:02:42

    HDFS分布式文件系统 一、HDFS简介 ​ HDFS是Hadoop Distribute File System,翻译成中文就是Hadoop 分布式文件系统,它是Hadoop的核心组成部分,是一个分布式存储服务。 ​ HDFS实现了横跨多台计算机进行文件管理的功能,这就为存储和处理超大规模的数据提供所需要的扩展能力。 ​ HDFS是

  • HDFS 伪分布式环境搭建2022-09-05 22:03:15

    HDFS 伪分布式环境搭建 作者:Grey 原文地址: 博客园:HDFS 伪分布式环境搭建 CSDN:HDFS 伪分布式环境搭建 相关软件版本 Hadoop 2.6.5 CentOS 7 Oracle JDK 1.8 安装步骤 在CentOS 下安装 Oracle JDK 1.8 下载地址 将下载好的 JDK 的安装包 jdk-8u202-linux-x64.tar.gz 上传到

  • 大数据分析常用组件、框架、架构介绍(Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase)2022-09-01 00:04:49

    首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Java编写,是谷歌的GFS(Google File S ystem)的一

  • DataFrame中的行动算子操作22022-08-30 13:30:08

    ## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of default database for the warehouse</description> </p

  • 暑假学习6 hdfs shell命令2022-08-29 23:32:47

    命令行操作:cli Hadoop的命令shell : Hadoop fs -ls file:                   操作 本地的文件系统 hadoop fs -ls hdfs://node1:8020                   操作hdfs分布式文件系统 hadoop fs -ls                    直接根目录,加载环境变量中fs.defa

  • 暑假学习五 8.28日 hdfs2022-08-28 21:33:01

    文件系统 文件系统:存储和组织数据的方式,实现了数据的存储,分级组织,访问和获取,使用树状结构 数据:数据本身。文件系统元数据:文件大小,最后修改时间....描述性的数据  分布式文件系统 核心属性: 分布式存储,无限扩展 元数据记录,方便寻找 分块存储,针对并行操作提供效率 副本机制,冗余存

  • 常用sink2022-08-26 23:05:45

    HDFS Sink # sink1 a3.sinks.k1.type = hdfs a3.sinks.k1.hdfs.path = /origin_data/gmall/db/business_db/inc/%{tableName}_inc/%Y-%m-%d a3.sinks.k1.hdfs.filePrefix = db a3.sinks.k1.hdfs.useLocalTimeStamp=false a3.sinks.k1.hdfs.round = false # 解决hdfs中小文件问题

  • 暑假学习三 8.25 继续配置环境2022-08-25 04:30:10

    1.初始化,只能一次,只在第一台机器初始化即可  hdfs namenode -format 需要注意在之前确认没错的情况下执行 成功后又以下提示:   2.Hadoop集群的启停止命令 shell脚本一键启停 hdfs start-dfs.sh stop-dfs.sh yarn start-yarn.sh stop-yarn.sh hadoop start-all.sh

  • 记一次使用“msck repair table 表名”这个命令2022-08-23 15:02:05

    背景: 数据导入到hive后,查询不到数据   原因: MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。 我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如

  • HDFS的读写流程——宏观与微观2022-08-23 10:34:13

    HDFS的读写流程——宏观与微观 HDFS:分布式文件系统,负责存放数据 分布式文件系统:就是将我们的数据放到多台电脑上存储。 写数据:就是将客户端上的数据上传到HDFS 宏观过程 客户端向HDFS发送读写数据请求 hdfs dfs -put student.txt /shujia/ 客户端发送命令将student.txt文件上传

  • Java操作HDFS2022-08-22 23:31:42

    Java操作HDFS ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.permission.FsPermission; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Arrays; import java.util.D

  • haddoob分布式文件系统架构2022-08-22 20:04:19

    一、apache Apache基金会 是专门为支持开源软件项目而办的一个非盈利性组织 二、分布式文件系统 1、FS File System 文件系统时极域硬盘之上的文件管理的工具 我们用户操作文件系统可以和硬盘进行解耦 2、DFS Distributed File System 分布式文件系统 将我们的数据存放在多台

  • hadoop day2-搭建2022-08-21 21:35:11

    hadoop搭建 准备工作 三台虚拟机:master、node1、node2 检查时间是否同步:date 检查java的jdk是否被安装好:java-version 修改主机名 三台分别执行 vim /etc/hostname 并将内容指定为对应的主机名   关闭防火墙:systemctl stop firewalld       a.查看防火墙状态:systemctl statu

  • 大数据Hadoop之——HDFS小文件问题与处理实战操作2022-08-21 19:02:48

    目录一、背景1)小文件是如何产生的?2)文件块大小设置3)HDFS分块目的二、HDFS小文件问题处理方案1)Hadoop Archive(HAR)2)Sequence file3)CombineFileInputFormat4)开启JVM重用5)合并本地的小文件,上传到 HDFS(appendToFile )6)合并 HDFS 的小文件,下载到本地(getmerge)三、HDFS小文件问题处理实战操

  • 大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作2022-08-21 09:03:04

    目录一、概述二、Hadoop DataNode多目录磁盘配置1)配置hdfs-site.xml2)配置详解1、 dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction4、dfs.datanode.available

  • Harley浅谈Hadoop(HDFS)2022-08-19 02:00:26

      一、HDFS概述   1.1、HDFS产出背景及定义   1.1.1、HDFS产生背景     随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式

  • hdfs fsck 命令2022-08-08 18:34:16

    查看文件目录的健康信息 执行如下的命令: hdfs fsck /user/hadoop-twq/cmd 可以查看 /user/hadoop-twq/cmd 目录的健康信息: 其中有一个比较重要的信息,就是Corrupt blocks,表示损坏的数据块的数量 查看文件中损坏的块 (-list-corruptfileblocks) [hadoop-twq@master ~]

  • hdfs2022-08-08 09:34:16

    hadoop 删除文件流程 当通过cli执行删除文件操作时,具体namenode与datanode工作详解如下: namenode端: 1.cli提交 删除文件 command; 2.FileSystem会调用具体delete操作; 3.delete操作会由DFSClient通过RPC将delete请求发送给NameNode; 4.nameNode接收请求后,会该操作交由namesystem(名字

  • Hive了解2022-08-02 14:31:44

    转自:https://aws.amazon.com/cn/big-data/what-is-hive/ https://www.jianshu.com/p/e9ec6e14fe52,https://blog.csdn.net/qq_26442553/article/details/80300714 1.简介 Facebook为了解决海量日志数据的分析而开发了Hive,Hive是一种用类SQL语句来协助读写、管理存储在分布式存储系

  • HDFS-存储优化2022-07-31 15:31:53

    1.纠缠码 原理:HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。     (1)纠删码操作相关的命令:hdfs ec Usage: bin/hdfs ec [COMMAND]           [-listPolicies]  

  • 《HDFS源码剖析》--初品ing2022-07-31 13:31:18

    HDFS HDFS概述 ​ HDFS是Hadoop 分布式文件系统,可以运行在通用硬件上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征。 ​ HDFS是一个主/从体系结构的分布式系统,拥有1个Namenode和多个Datanodes,用户可以通过HDFS客

  • HDFS配置HA下spark-sql写入hive报错Wrong FS2022-07-28 17:02:20

    背景:   CDH集群的HDFS HA已配置完毕,Hive也相应进行了Update Hive Metastore NameNode,Hive的业务sql脚本都正常运行。   在使用spark-sql 写入hive时报错: Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp/.

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有