ICode9

精准搜索请尝试: 精确搜索
  • 第四周总结2022-07-23 22:03:22

        Hadoop是一个由Apache基金会所开发的分布式系统基础架构。       用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。       Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错

  • 借助maven项目开发HDFS2022-07-21 13:05:07

    pom.xml文件 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <!-- 引入Hadoop的编程依赖 hadoop-common hadoop-client 版本是统一的 都是2.8.5版本 而且必须要适配的 没必要每个依赖都去把2.8.5版本写一遍

  • hdfs-javaAPI操作2022-07-21 10:04:22

    创建一个普通的java项目 导入jar包 附:jar包如何来的 代码阶段 上传下载文件 package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; imp

  • hdfs连接、上传文件、下载文件的操作2022-07-21 08:00:30

    package com.sxuek; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; import java.net.URI; // 是net包下的URI import java.net.URISyntaxException; /* 操作HDFS */

  • hadoop对hdfs上文件中的字符进行替换2022-07-15 19:33:08

    1、书写MapReduce 代码进行替换 2、通过shell脚本进行提换(比如sed进行替换) 参考: hadoop对文本中字符替换 替换HDFS中的control-m字符       

  • HDFS Shell 操作2022-07-14 19:35:09

    HDFS Shell 命令行格式 格式一:hadoop fs –命令名 参数 格式二:hdfs dfs –命令名 参数 HDFS 常用命令及参数 ls:查看 hdfs 中的目录信息 [root@node-01 ~]# hadoop fs -ls / put或copyFromLocal:将本地文件上传到 hdfs 中 [root@node-01 ~]# hadoop fs -put hdp.test01 / #或者 [

  • hdfs2022-07-06 16:37:38

    hdfs是hadoop负责存储的模块。 分布式存储。   比如你有200T的资料。但是你只有200台1T的服务器。那么就可以用hdfs来做分布式存储。 用来管理数据具体存在哪的组件叫namenode。所以namenode就需要高可用,不然你不知道某1T的资料具体存在哪里。这就需要2NN,用来辅助namenode。(具体

  • Hive API2022-07-04 11:02:12

    配置MySQL 只需要在master节点上启动MySQL即可 注意需要创建hive用户,并设置MySQL远程可以访问 • mysql -hlocalhost -uroot -p123456 • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%' IDENTIFIED BY '123456' • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localh

  • 大数据生态圈组件2022-07-03 14:01:42

    目录HadoopZookeeperHiveFlumeKafkaHBaseSqoopAzkabanOozieMaxwellCanalSparkFlinkHUECDHKettle大数据学习路线 Hadoop   由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它实现了一

  • 第一周总结2022-07-02 20:35:15

    经过一周的数据库实训,感触很深,收获也很大,对自己的缺点也有了很多的认识,回首本学期JAVA学习,重点还是在学习概念等一些常识性的东西,关于类型、变量、接口、输入输出流、分析异常、抛出异常,后期主要是增删改查,界面套用,jsp界面设计。 另外学习了一点 hadoop的知识点  Hadoop介绍Hado

  • 2022/7/2每周总结2022-07-02 20:03:31

    Hadoop介绍Hadoop是一个由Apache基金会开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 HDFS有高容错性的特点,并且设计用来

  • hdfs常用shell命令2022-07-01 17:01:38

      1、创建文件夹 hadoop fs -mkdir [-p] ... path 为待创建的目录 -p选项的行为与Unix mkdir -p非常相似,它会沿着路径创建父目录。 hdfs dfs -mkdir /temp   2、查看指定目录下内容 hadoop fs -ls [-h] [-R] [ ...] path 指定目录路径 -h 人性化显示文件size -R 递归查看指定目

  • Hadoop-day07 HDFS的读写流程2022-06-26 16:31:07

    HDFS的读写流程(重点!) 写数据 写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程 每一个block块都需要进行机架感知,得到block块以及副本的存储DN的节点,然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然后进行传输,先传输到pipeline第

  • Hadoop-day03 hadoop基本命令2022-06-24 21:06:21

    一、Hadoop环境变量的配置 首先进入linux环境配置的文件 vim /etc/profile 这样就进入配置文件的界面 然后按下英文字母i就可以进入文件的编辑模式,后面输入环境变量的配置: HADOOP_HOME= (hadoop文件的根目录) PATH=.:$HADOOP/bin(Hadoop文件中的bin目录) 输入:HADOOP_HOME=/usr/l

  • fastdfs对比HDFS2022-06-24 14:36:08

    FastDFS FastDFS是一个开放源代码的轻量级分布式文件系统,用c语言编写。 它的主要功能包括:文件存储,文件同步和文件访问,以及高容量和负载平衡。 非常适合相册网站、视频网站等以文件为载体的在线服务(建议范围:4KB < file_size <500MB)。 商品追加的实现包括商品的类别选择,也就是商品

  • 查看hdfs上某个表目录下文件的大小2022-06-21 20:01:35

    hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=2021-12-30 如果需要截取前面的文件大小413.0G,还需要添加截取功能。 hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=

  • sqoop从mysql导数据到hdfs使用lzop压缩格式,报:NullPointerException2022-06-18 00:32:39

    sqoop从mysql导数据到hdfs使用lzop压缩格式,报:NullPointerException 具体报错如下: Error: java.lang.NullPointerException at com.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:63) at org.apache.hadoop.mapred.MapTask$NewTrac

  • 大数据之Hadoop集群的HDFS压力测试2022-06-17 21:01:23

    测试HDFS写性能 1)写测试的原理 2)测试内容:向HDFS集群写10个128MB的文件(3个机器每个4核,2 * 4 = 8 < 10 < 3 * 4 =12) [hadoop@hadoop103 ~]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrF

  • 分布式数据仓库Hive2022-06-16 09:34:05

    Hive系统介绍 Hive是基于Hadoop的数据仓库 Hive方便使用SQL来执行读取、写入、管理基于分布式存储的大型数据集 可以基于存储数据来构建数据结构,提供命令行和JDBC两种开发方式 Hive的设计思想 Hive不是数据库,是数据仓库,它的设计是围绕数据分析,而不是数据存储,或者说Hive是基于数据

  • Hadoop2022-06-13 19:03:48

    一、简介 Hadoop是目前最流行的大数据软件框架之一,它能利用简单的高级程序对大型数据集进行分布式存储和处理。 Hadoop是阿帕奇(Apache)软件基金会发布的一个开源项目,它可以安装在服务器集群上,通过服务器之间的通信和协同工作来存储和处理大型数据集。因为能够高效地处理大数据,Had

  • Hbase-day01_了解hbase2022-06-09 20:04:21

    HBase学习(一) 一、了解HBase 官方文档:https://hbase.apache.org/book.html 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据 HBase是Hadoop的生态系统之一,是建立在Hadoop文件系统(HDFS)之上的分布式、

  • Flume 相关学习2022-06-09 17:04:21

    Flume 定义         Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS   基础框架       1 Agent Agent 是一个 JVM 进程,它以事件的

  • 6-8(1)2022-06-08 12:05:45

    【选择】 1、在HDFS中,用于保存数据的节点是(b)。 A、namenode B、datanode C、secondaryNode D、yarn 2、在MapReduce程序中,map()函数接收的数据格式是(d)。 A、字符串 B、整型 C、Long D、键值对 3、每个Map任务都有一个内存缓冲区,默认大小是(c)。 A、128M B、64M C、100M D、32M 4、下

  • 大数据技术之Flume 第2章 Flume入门2022-06-07 03:31:07

    第2章 Flume入门 2.1 Flume安装部署 2.1.1 安装地址 Flume官网地址:http://flume.apache.org/ 文档查看地址:http://flume.apache.org/FlumeUserGuide.html 下载地址:http://archive.apache.org/dist/flume/ 2.1.2 安装部署 将apache-flume-1.9.0-bin.tar.gz上传到linux的/

  • hdfs节点退役如何加快副本迁移速度2022-06-01 09:02:49

    一、场景 当hdfs更换机器需要退役当前节点数据时候,通过查看namenode节点50070web服务   问题:发现正在迁移的节点数据blocks太大,一千多万个block,大约在5T左右,速度太慢了,基本上得跑3周,20天左右才能把数据迁移完 要注意在decommisstion in progress状态的时候来做。 方法:   界面添

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有