ICode9

精准搜索请尝试: 精确搜索
  • spark项目java与scala相互调用打包2020-08-14 17:03:22

    <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.scala-lang<

  • mapReduce入门程序2020-08-12 16:04:03

    一个简单排序的实现:知乎第一个MapReduce程序,里面最后的两个脚本map.py reduce.py 在单机上用如下命令测试: cat filename.txt | python map.py | sort | python reduce.py > outfile.txt  单机测试通过后就可以上hadoop环境跑了,需要写一个配置文件,执行结束后会显示"Output dire

  • Hadoop2020-08-11 10:35:40

    一、Hadoop集群安装 1. 环境准备 (1) 准备三台机器:hadoop0(192.168.11.10)、hadoop1(192.168.11.11)、hadoop2(192.168.11.12)  (2)每台机器安装好JAVA环境以及SSH打通(SSH免密登录;关闭防火墙) 2. 下载Hadoop安装包 并解压至相关目录 3. 配置Hadoop相关配置文件 (1)hadoop-env.sh 添加Ja

  • 搭建Hadoop环境2020-08-10 20:32:18

    本教程介绍基于ECS搭建Hadoop伪分布式环境。 场景体验目标 本场景将提供一台配置了CentOS 7.7的ECS实例(云服务器)。通过本教程的操作,您可以基于ECS实例快速搭建一个Hadoop伪分布式环境。 背景知识 本场景主要涉及以下云产品和服务: 云服务器ECS 云服务器(Elastic Compute Service,简称

  • HBase 入门2020-08-10 06:31:16

    HBase 入门 Hadoop中的HBase ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。 简介: 非关系型数据库知识面扩展 Cassandra hbase mongodb Couchdb,文件存储数据库 Neo4j非关系型图数据库 Hbase Hadoop

  • MySQL5.5编译方式安装2020-08-08 23:03:02

    一、准备工作 (一)上传工具包和软件包 [root@hadoop-slave1 software]# ls cmake-2.8.8.tar.gz mysql-5.5.32.tar.gz 将所需要的cmake和mysql包上传到服务器上去。 (二)安装工具和依赖包 1、安装cmake # 解压 [root@hadoop-slave1 software]# tar xf cmake-2.8.8.tar.gz # 进入

  • Hadoop: Why Not Use RAID?2020-08-08 22:34:24

     一、针对hadoop集群的磁盘配置建议     针对datanode,建议采用一组单独的磁盘,针对namenode节点,建议采用raid5或raid1来实现针对metadata的冗灾。 二、针对此问题讨论的资料     针对此问题,两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是: Steve Lo

  • RMDB与hadoop的实时整合2020-08-08 22:33:54

    一、MySQL的Hadoop Applier     实现原理是:把hadoop作为MYSQL 的slave,实时把数据同步到hadoop,支持apache hadoop     通过分析MYSQL的binlog日志,在hdfs产生一个目录(同表名),所有的表记录都存储在一个文件中,用户的操作如插入,更新,删除都会产生一笔记录追加到文件末尾.  

  • RMDB与hadoop的实时整合2020-08-08 22:31:42

    一、MySQL的Hadoop Applier     实现原理是:把hadoop作为MYSQL 的slave,实时把数据同步到hadoop,支持apache hadoop     通过分析MYSQL的binlog日志,在hdfs产生一个目录(同表名),所有的表记录都存储在一个文件中,用户的操作如插入,更新,删除都会产生一笔记录追加到文件末尾.  

  • Hadoop资源调度器2020-08-07 18:00:52

    Hadoop资源调度器是负责将任务分配给各种DataNode上的可用YARN容器的组件。调度器是ResourceManager中的插件。可以将调度器视为工具,它使集群多个租户共享集群,并以有效和及时的方式使用集群资源(CPU和内存),同时它还注意集群的总分配容量。 容量调度器(Capacity Scheduler)是Apache Had

  • Hadoop HDFS 集群的分布式搭建2020-08-04 16:00:28

    Hadoop集群的HA 1、简介 HA模式解决单点故障问题, 2、规划 NN-1 NN-2 DN ZK ZKFC JNN Node1 * * * Node2 * * * * * Node3 * * * Node4 * * ZK: zookeeper ZKFC: failover controller【故障转移进程】 2.1、秘钥 给配置ZKFC两个节点做免秘钥登录。

  • Hadoop基本操作2020-07-29 16:00:15

    一、Hadoop命令行操作 (1)查看帮助 $hdfs dfs -help  (2)查看当前目录信息 $hdfs dfs -ls /       (3)上传文件 $hdfs dfs -put /本地路径 /hdfs路径 (4)剪切文件 $hdfs dfs -moveFromLocal a.txt /aa.txt (5)下载文件到本地 $hdfs dfs -get /hdfs路径 /本地路径 (6)合并下载 $hdfs d

  • hadoop环境搭建及测试2020-07-27 23:32:40

    在window下搭建hadoop环境,此类文章数不胜数且多为转载,真正开发搭建为数不多,且很多对于搭建环节所遇到的问题答非所问或无法解决只知转载,笔者在实际搭建中一步步总结而成且进行最后测试,希望能够有所帮助。

  • hadoop大数据架构2020-07-27 14:31:13

    数据架构包含:数据采集层,数据调度平台、数据展示层     数据采集 自己业务数据(主要是各个业务线的数据,例如:用户、订单等),主要存放在关系型数据库中,例如Mysql等。 埋点日志(涉及到用户对APP或者小程序等的访问、分享、浏览等基本的用户行为数据),这份数据主要是存放在HIVE上; 第三

  • hadoop-MapReduce总结2020-07-26 18:34:51

    1.1 MapReduce定义     1.2 MapReduce优缺点   1.2.1 优点          1.2.2 缺点      1.3 MapReduce核心思想       1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不

  • kettle连接CDH的hive存取数据2020-07-26 03:00:30

    一开始下载了最新版的kettle8.2,经过各种百度,下载hive配置和jar包,但是总是连接不上hive,报各种错误,不一一举例了。     折腾很久才发现,原来是版本不匹配 因为kettle连接hadoop集群,分为连接CDH还是apache hadoop,从目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-c

  • Hadoop入门学习2020-07-23 17:31:13

    自己学习Hadoop时,整理的资料,方便以后查看,希望能帮到大家,有什么问题欢迎大家指出 一、Hadoop是什么?其核心又是什么? Hadoop历史         雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和W

  • zookeeper简介及基操2020-07-23 17:00:45

    1 zk的安装: 2 1. 下载zk.tar.gz安装包,并解压至/usr/local/devInstall 3 2. 在zk的目录下新建文件夹data 4 3. 复制zk/config目录下的zoo_sample.cfg,重命名为zoo.cfg,vim zoo.cfg,将其中的dataDir=步骤2中data的目录;dataDir指定的路径用于存储zk中数据的内存快

  • Hadoop基础(四十八):函数2020-07-22 21:00:56

    1 系统内置函数 1.查看系统自带的函数 hive> show functions; 2.显示自带的函数的用法 hive> desc function upper; 3.详细显示自带的函数的用法 hive> desc function extended upper; 2 自定义函数 1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF来方便

  • Hadoop基础(三十六):监听服务器节点动态上下线案例2020-07-21 12:05:10

    1.需求 某分布式系统中,主节点可以有多台,可以动态上下线,任意一台客户端都能实时感知到主节点服务器的上下线。 2.需求分析,如图 5-12 所示   3.具体实现 (0)先在集群上创建/servers 节点 [zk: localhost:2181(CONNECTED) 10] create /servers "servers" Created /servers (1)服务

  • Hadoop基础(三十七):Zookeeper 内部原理2020-07-21 12:03:35

    1 节点类型 2 Stat 结构体 1)czxid-创建节点的事务 zxid 每次修改 ZooKeeper 状态都会收到一个 zxid 形式的时间戳,也就是 ZooKeeper 事务 ID。 事务 ID 是 ZooKeeper 中所有修改总的次序。每个修改都有唯一的 zxid,如果 zxid1 小于 zxid2,那么 zxid1 在 zxid2 之前发生。 2)ctime -

  • 老刘Hadoop学习笔记(4)JDK和Open JDK区别2020-07-20 22:03:46

    今天在虚拟机安装JDK检查版本时发现已经有JDK1.8版本,不过是Open JDK。 由于需要卸载初装JDK,于是就赶紧再普及下知识,以下是转https://www.cnblogs.com/sxdcgaq8080/p/7487369.html博文内容。 历史上的原因是,openjdk是jdk的开放原始码版本,以GPL协议的形式放出。在JDK7的时候,openjdk

  • Hadoop基础(二十八):数据清洗(ETL)(二)复杂解析版2020-07-19 21:00:14

    数据清洗案例实操-复杂解析版 1.需求 对Web访问日志中的各字段识别切分,去除日志中不合法的记录。根据清洗规则,输出过滤后的数据。 (1)输入数据     (2)期望输出数据 都是合法的数据   2.实现代码   (1)定义一个bean,用来记录日志数据中的各数据字段   package com.atguigu.mapredu

  • Hadoop基础(二十):Shuffle机制(一)2020-07-18 22:32:45

    1 Shuffle机制   Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。如图4-14所示。     2 Partition分区             3 Partition分区案例实操 1.需求 将统计结果按照手机归属地不同省份输出到不同文件中(分区) (1)输入数据     (2)期望输出数据 手机号136、137

  • ansible自动部署模板文件中列表长度判断2020-07-11 13:06:30

    在自动部署中因为要根据集群节点数来对flink的配置文件进行配置,高可用hdfs集群中用Hadoop-admin来作为checkpoint的位置,而在单机里用ip:port作为checkpoint的位置 checkpoint_local: "{{ components.hadoop.roles.namenode.ips[0] }}:{{ components.hadoop.hdfs_port }}" checkpoin

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有