HDFS

第四周总结2022-07-23 22:03:22

　 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错
借助maven项目开发HDFS2022-07-21 13:05:07

pom.xml文件 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <!-- 引入Hadoop的编程依赖 hadoop-common hadoop-client 版本是统一的都是2.8.5版本而且必须要适配的没必要每个依赖都去把2.8.5版本写一遍
hdfs-javaAPI操作2022-07-21 10:04:22

创建一个普通的java项目导入jar包附：jar包如何来的代码阶段上传下载文件 package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; imp
hdfs连接、上传文件、下载文件的操作2022-07-21 08:00:30

package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; import java.net.URI; // 是net包下的URI import java.net.URISyntaxException; /* 操作HDFS */
hadoop对hdfs上文件中的字符进行替换2022-07-15 19:33:08

1、书写MapReduce 代码进行替换 2、通过shell脚本进行提换（比如sed进行替换）参考： hadoop对文本中字符替换替换HDFS中的control-m字符
HDFS Shell 操作2022-07-14 19:35:09

HDFS Shell 命令行格式格式一：hadoop fs –命令名参数格式二：hdfs dfs –命令名参数 HDFS 常用命令及参数 ls：查看 hdfs 中的目录信息 [root@node-01 ~]# hadoop fs -ls / put或copyFromLocal：将本地文件上传到 hdfs 中 [root@node-01 ~]# hadoop fs -put hdp.test01 / #或者 [
hdfs2022-07-06 16:37:38

hdfs是hadoop负责存储的模块。分布式存储。比如你有200T的资料。但是你只有200台1T的服务器。那么就可以用hdfs来做分布式存储。用来管理数据具体存在哪的组件叫namenode。所以namenode就需要高可用，不然你不知道某1T的资料具体存在哪里。这就需要2NN，用来辅助namenode。（具体
Hive API2022-07-04 11:02:12

配置MySQL 只需要在master节点上启动MySQL即可注意需要创建hive用户，并设置MySQL远程可以访问 • mysql -hlocalhost -uroot -p123456 • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%' IDENTIFIED BY '123456' • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localh
大数据生态圈组件2022-07-03 14:01:42

目录HadoopZookeeperHiveFlumeKafkaHBaseSqoopAzkabanOozieMaxwellCanalSparkFlinkHUECDHKettle大数据学习路线 Hadoop 　　由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。它实现了一
第一周总结2022-07-02 20:35:15

经过一周的数据库实训，感触很深，收获也很大，对自己的缺点也有了很多的认识，回首本学期JAVA学习，重点还是在学习概念等一些常识性的东西，关于类型、变量、接口、输入输出流、分析异常、抛出异常，后期主要是增删改查，界面套用，jsp界面设计。另外学习了一点 hadoop的知识点 Hadoop介绍Hado
2022/7/2每周总结2022-07-02 20:03:31

Hadoop介绍Hadoop是一个由Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。 HDFS有高容错性的特点，并且设计用来
hdfs常用shell命令2022-07-01 17:01:38

1、创建文件夹 hadoop fs -mkdir [-p] ... path 为待创建的目录 -p选项的行为与Unix mkdir -p非常相似，它会沿着路径创建父目录。 hdfs dfs -mkdir /temp 2、查看指定目录下内容 hadoop fs -ls [-h] [-R] [ ...] path 指定目录路径 -h 人性化显示文件size -R 递归查看指定目
Hadoop-day07 HDFS的读写流程2022-06-26 16:31:07

HDFS的读写流程（重点！）写数据写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程每一个block块都需要进行机架感知，得到block块以及副本的存储DN的节点，然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然后进行传输,先传输到pipeline第
Hadoop-day03 hadoop基本命令2022-06-24 21:06:21

一、Hadoop环境变量的配置首先进入linux环境配置的文件 vim /etc/profile 这样就进入配置文件的界面然后按下英文字母i就可以进入文件的编辑模式，后面输入环境变量的配置： HADOOP_HOME= （hadoop文件的根目录） PATH=.:$HADOOP/bin（Hadoop文件中的bin目录）输入：HADOOP_HOME=/usr/l
fastdfs对比HDFS2022-06-24 14:36:08

FastDFS FastDFS是一个开放源代码的轻量级分布式文件系统，用c语言编写。它的主要功能包括：文件存储，文件同步和文件访问，以及高容量和负载平衡。非常适合相册网站、视频网站等以文件为载体的在线服务（建议范围：4KB < file_size <500MB）。商品追加的实现包括商品的类别选择，也就是商品
查看hdfs上某个表目录下文件的大小2022-06-21 20:01:35

hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=2021-12-30 如果需要截取前面的文件大小413.0G,还需要添加截取功能。 hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=
sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException2022-06-18 00:32:39

sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException 具体报错如下： Error: java.lang.NullPointerException at com.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:63) at org.apache.hadoop.mapred.MapTask$NewTrac
大数据之Hadoop集群的HDFS压力测试2022-06-17 21:01:23

测试HDFS写性能 1）写测试的原理 2）测试内容：向HDFS集群写10个128MB的文件（3个机器每个4核，2 * 4 = 8 < 10 < 3 * 4 =12） [hadoop@hadoop103 ~]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrF
分布式数据仓库Hive2022-06-16 09:34:05

Hive系统介绍 Hive是基于Hadoop的数据仓库 Hive方便使用SQL来执行读取、写入、管理基于分布式存储的大型数据集可以基于存储数据来构建数据结构，提供命令行和JDBC两种开发方式 Hive的设计思想 Hive不是数据库，是数据仓库，它的设计是围绕数据分析，而不是数据存储，或者说Hive是基于数据
Hadoop2022-06-13 19:03:48

一、简介 Hadoop是目前最流行的大数据软件框架之一，它能利用简单的高级程序对大型数据集进行分布式存储和处理。 Hadoop是阿帕奇（Apache）软件基金会发布的一个开源项目，它可以安装在服务器集群上，通过服务器之间的通信和协同工作来存储和处理大型数据集。因为能够高效地处理大数据，Had
Hbase-day01_了解hbase2022-06-09 20:04:21

HBase学习（一）一、了解HBase 官方文档：https://hbase.apache.org/book.html 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据 HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、
Flume 相关学习2022-06-09 17:04:21

Flume 定义　　Flume 是Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS 基础框架 1 Agent Agent 是一个 JVM 进程，它以事件的
6-8(1)2022-06-08 12:05:45

【选择】 1、在HDFS中，用于保存数据的节点是（b）。 A、namenode B、datanode C、secondaryNode D、yarn 2、在MapReduce程序中，map()函数接收的数据格式是（d）。 A、字符串 B、整型 C、Long D、键值对 3、每个Map任务都有一个内存缓冲区，默认大小是（c）。 A、128M B、64M C、100M D、32M 4、下
大数据技术之Flume 第2章 Flume入门2022-06-07 03:31:07

第2章 Flume入门 2.1 Flume安装部署 2.1.1 安装地址 Flume官网地址：http://flume.apache.org/ 文档查看地址：http://flume.apache.org/FlumeUserGuide.html 下载地址：http://archive.apache.org/dist/flume/ 2.1.2 安装部署将apache-flume-1.9.0-bin.tar.gz上传到linux的/
hdfs节点退役如何加快副本迁移速度2022-06-01 09:02:49

一、场景当hdfs更换机器需要退役当前节点数据时候，通过查看namenode节点50070web服务问题：发现正在迁移的节点数据blocks太大，一千多万个block，大约在5T左右，速度太慢了，基本上得跑3周，20天左右才能把数据迁移完要注意在decommisstion in progress状态的时候来做。方法：界面添

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

第四周总结2022-07-23 22:03:22

借助maven项目开发HDFS2022-07-21 13:05:07

hdfs-javaAPI操作2022-07-21 10:04:22

hdfs连接、上传文件、下载文件的操作2022-07-21 08:00:30

hadoop对hdfs上文件中的字符进行替换2022-07-15 19:33:08

HDFS Shell 操作2022-07-14 19:35:09

hdfs2022-07-06 16:37:38

Hive API2022-07-04 11:02:12

大数据生态圈组件2022-07-03 14:01:42

第一周总结2022-07-02 20:35:15

2022/7/2每周总结2022-07-02 20:03:31

hdfs常用shell命令2022-07-01 17:01:38

Hadoop-day07 HDFS的读写流程2022-06-26 16:31:07

Hadoop-day03 hadoop基本命令2022-06-24 21:06:21

fastdfs对比HDFS2022-06-24 14:36:08

查看hdfs上某个表目录下文件的大小2022-06-21 20:01:35

sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException2022-06-18 00:32:39

大数据之Hadoop集群的HDFS压力测试2022-06-17 21:01:23

分布式数据仓库Hive2022-06-16 09:34:05

Hadoop2022-06-13 19:03:48

Hbase-day01_了解hbase2022-06-09 20:04:21

Flume 相关学习2022-06-09 17:04:21

6-8(1)2022-06-08 12:05:45

大数据技术之Flume 第2章 Flume入门2022-06-07 03:31:07

hdfs节点退役如何加快副本迁移速度2022-06-01 09:02:49