ICode9

精准搜索请尝试: 精确搜索
  • hive部署2022-06-20 11:37:54

    1. 前置条件 安装hive前需先安装mysql及hadoop a)在mysql中创建用户及数据库 create user 'hive' identified by 'hive';grant all privileges on *.* to 'hive'@'%' with grant option;create database hive character set latin1; b)hadoop环境变量需要需要 /etc/

  • window下部署单机hadoop环境2022-06-18 14:33:25

    window本地部署单机hadoop,修改配置文件和脚本如下,只记录关键配置和步骤,仅供参考 hadoop-2.6.5 spark-2.3.3 1.配置文件core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </proper

  • Exception message: CreateSymbolicLink error (1314): ???????????2022-06-18 14:04:28

    window下运行任务报错:Exception message: CreateSymbolicLink error (1314): ??????????? 报错信息如下: Diagnostics: Exception from container-launch. Container id: container_1655531508531_0001_02_000001 Exit code: 1 Exception message: CreateSymbolicLink error (1314)

  • sqoop从mysql导数据到hdfs使用lzop压缩格式,报:NullPointerException2022-06-18 00:32:39

    sqoop从mysql导数据到hdfs使用lzop压缩格式,报:NullPointerException 具体报错如下: Error: java.lang.NullPointerException at com.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:63) at org.apache.hadoop.mapred.MapTask$NewTrac

  • 大数据之Hadoop集群中Yarn常用命令2022-06-17 21:04:04

    Yarn状态的查询,除了可以在hadoop103:8088页面查看以外,还可以通过命令操作。常见的命令操作如下所示。 需求:执行WordCount案例,并通过Yarn命令查看任务运行情况。 # 启动集群 [hadoop@hadoop102 bin]$ myhadoop.sh start # 运行wordcount案例 [hadoop@hadoop102 hadoop-3.1.3]$ hado

  • 大数据之Hadoop集群中MapReduce的Join操作2022-06-17 21:02:58

    需求分析 如下两张输入表格 order表 id pid amount 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 pd表 pid pname 01 小米 02 华为 03 格力 将商品信息表中数据根据商品pid合并的订单数据表中 id pname amount 1001 小

  • 大数据之Hadoop集群的HDFS压力测试2022-06-17 21:01:23

    测试HDFS写性能 1)写测试的原理 2)测试内容:向HDFS集群写10个128MB的文件(3个机器每个4核,2 * 4 = 8 < 10 < 3 * 4 =12) [hadoop@hadoop103 ~]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrF

  • 大叔问题定位分享(49)hbase集群重启后master初始化失败2022-06-16 10:36:29

    hbase集群重启后异常,发现是master初始化失败导致的,在master启动日志中发现问题原因为 2022-05-26 14:06:15,645 WARN org.apache.hadoop.hbase.master.HMaster: hbase:namespace,,1607716627354.56dafb9f3eadaae9e95d5b05f3142a34. is NOT online; state={56dafb9f3eadaae9e95d5b

  • 一个因为windows系统缺失文件而导致的pyspark的BUG2022-06-14 19:35:55

    背景: 在windows 系统中开发pyspark程序。 一个简单的WC程序: from pyspark.sql import SparkSession spark = SparkSession.builder.appName('SparkByEx').getOrCreate() sc = spark.sparkContext text_file = sc.textFile("nba.csv") counts = text_file.flatMap(lambda

  • Hadoop2022-06-13 19:03:48

    一、简介 Hadoop是目前最流行的大数据软件框架之一,它能利用简单的高级程序对大型数据集进行分布式存储和处理。 Hadoop是阿帕奇(Apache)软件基金会发布的一个开源项目,它可以安装在服务器集群上,通过服务器之间的通信和协同工作来存储和处理大型数据集。因为能够高效地处理大数据,Had

  • Hadoop单机部署2022-06-12 23:32:20

    Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/ Hadoop单机部署 该部署以Red Hat 7为例 安装前提:需先配置好1.8的JAVA环境,可参考JDK的安装配置(Windows、Linux),Hadoop和Java版本对应关系可参考https://blog.csdn.net/m0_67393619/article/details/123933614 1.解

  • Hive集成tez引擎2022-06-10 21:35:45

    在使用Hive 2的时候,启动时会提示:Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases. tez引擎可以将多个有依赖的作业转换为一个作业,这样只需写一

  • MapReduce入门实例——WordCount2022-06-09 23:31:06

    摘要:MapReduce的IDEA配置及WordCount案例 目录Maven项目配置pom.xmllog4j.properties编写应用程序IDEA配置Debug Maven项目配置 创建一个空的Maven项目 pom.xml 打开根目录下的pom.xml文件,参考配置: <properties> <project.build.sourceEncoding>UTF-8</project.build.source

  • Windows11安装Hadoop3.3.22022-06-08 19:02:06

    Windows11安装Hadoop3.3.2 JDK 安装 Hadoop的Java版本https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions >## Hadoop支持的 Java 版本>>- Apache Hadoop 3.3 及更高版本支持 Java 8 和 Java 11(仅限运行时)> - 请使用 Java 8 编译 Hadoop。不支持使用 Java

  • 大数据处理期末复习2022-06-08 13:02:02

    目录1. 分析题(1)常见大数据计算模式及其解决的主要问题。(2)spark streaming的运行原理。(3)spark能不能取代Hadoop,理由是什么。(4)spark中的宽依赖和窄依赖分别是什么,它们的区别是什么。(5)划分stage的方法,在图中划分stage。(6)函数式编程的特点,其与命令式编程的区别。2. 程序填空(1)创建RDD的

  • 6-8(1)2022-06-08 12:05:45

    【选择】 1、在HDFS中,用于保存数据的节点是(b)。 A、namenode B、datanode C、secondaryNode D、yarn 2、在MapReduce程序中,map()函数接收的数据格式是(d)。 A、字符串 B、整型 C、Long D、键值对 3、每个Map任务都有一个内存缓冲区,默认大小是(c)。 A、128M B、64M C、100M D、32M 4、下

  • 大数据技术之Hive 第8章 函数 自定义函数UDF和UDTF2022-06-08 02:31:47

    8.3 自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 3)根据用户自定义函数类别分为以下三种: (1)UDF(User-Defined-Func

  • Hadoop MapReduce入门2022-06-06 17:00:34

    一:配置pom <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.0.1</version> </dependency> 二:测试代码 package com.jachs.hadoop; import java.io.IOExcepti

  • zookeeper安装配置2022-06-06 10:31:54

    1. 下载zookeeper二进制安装包 2.解压zookeeper安装包把zookeeper-3.4.3.tar.gz文件存放在/home/hadoop目录下,进行解压: hadoop@ubuntu:~$ sudo tar -zxvf zookeeper-3.4.3.tar.gz hadoop@ubuntu:~$ chown -R hadoop:hadoop zookeeper-3.4.3 或者zookeeper在线安装 hadoop@ubunt

  • Zookeeper2022-06-04 20:35:30

    1.Zookeeper概念 -Zookeeper是Apache hadoop 项目下的一个子项目,是一个树形目录服务 -Zookeeper翻译过来就是动物园管理员,他是用来Hadoop(大象)/Hive(蜜蜂)/Pig(小猪)的管理员。简称zk -Zookeeper是一个分布式的,开源的分布式应用程序的协调服务  

  • Hadoop 性能优化2022-06-04 09:03:32

    Hadoop 性能优化 小文件问题 HDFS和MapReduce是针对大文件设计的,在小文件处理上效率低下,且十分消耗内存资源。每个小文件都会占用一个block、产生一个InputSplit、产生一个Map任务,这样map任务的启动时间很长,执行任务的时间很短。解决方法是使用容器将小文件组织起来,HDFS提供了两种

  • Hive-day03_hive介绍和三种交互方式2022-06-01 21:34:46

    Hive1.2.1_hive介绍和三种交互方式 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 思考:计算文件user.txt中张三出

  • 大数据基础之Hive2022-05-31 18:01:19

    http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC dr

  • Hadoop MR 和 Spark 的相同点和不同点?2022-05-31 17:05:08

    Hadoop 底层使用 MapReduce 计算架构,只有 map 和 reduce 两种操作,表达能力比较欠缺,而且在 MR 过程中会重复的读写 hdfs,造成大量的磁盘 io 读写操作,所以适合高时延环境下批处理计算的应用; Spark 是基于内存的分布式计算架构,提供更加丰富的数据集操作类型,主要分成转化操作和行动操作

  • HDFS NameNode Hadoop怎么分片2022-05-31 16:31:42

    HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表,这里遵循机架感应原则(把副本分别放在不同的机架,甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块(Hadoop2.X 版本每一个 block

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有