Hadoop

hive部署2022-06-20 11:37:54

1. 前置条件安装hive前需先安装mysql及hadoop a）在mysql中创建用户及数据库 create user 'hive' identified by 'hive';grant all privileges on *.* to 'hive'@'%' with grant option;create database hive character set latin1; b）hadoop环境变量需要需要 /etc/
window下部署单机hadoop环境2022-06-18 14:33:25

window本地部署单机hadoop，修改配置文件和脚本如下，只记录关键配置和步骤，仅供参考 hadoop-2.6.5 spark-2.3.3 1.配置文件core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </proper
Exception message: CreateSymbolicLink error (1314): ???????????2022-06-18 14:04:28

window下运行任务报错：Exception message: CreateSymbolicLink error (1314): ??????????? 报错信息如下： Diagnostics: Exception from container-launch. Container id: container_1655531508531_0001_02_000001 Exit code: 1 Exception message: CreateSymbolicLink error (1314)
sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException2022-06-18 00:32:39

sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException 具体报错如下： Error: java.lang.NullPointerException at com.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:63) at org.apache.hadoop.mapred.MapTask$NewTrac
大数据之Hadoop集群中Yarn常用命令2022-06-17 21:04:04

Yarn状态的查询，除了可以在hadoop103:8088页面查看以外，还可以通过命令操作。常见的命令操作如下所示。需求：执行WordCount案例，并通过Yarn命令查看任务运行情况。 # 启动集群 [hadoop@hadoop102 bin]$ myhadoop.sh start # 运行wordcount案例 [hadoop@hadoop102 hadoop-3.1.3]$ hado
大数据之Hadoop集群中MapReduce的Join操作2022-06-17 21:02:58

需求分析如下两张输入表格 order表 id pid amount 1001 01 1 1002 02 2 1003 03 3 1004 01 4 1005 02 5 1006 03 6 pd表 pid pname 01 小米 02 华为 03 格力将商品信息表中数据根据商品pid合并的订单数据表中 id pname amount 1001 小
大数据之Hadoop集群的HDFS压力测试2022-06-17 21:01:23

测试HDFS写性能 1）写测试的原理 2）测试内容：向HDFS集群写10个128MB的文件（3个机器每个4核，2 * 4 = 8 < 10 < 3 * 4 =12） [hadoop@hadoop103 ~]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrF
大叔问题定位分享（49）hbase集群重启后master初始化失败2022-06-16 10:36:29

hbase集群重启后异常，发现是master初始化失败导致的，在master启动日志中发现问题原因为 2022-05-26 14:06:15,645 WARN org.apache.hadoop.hbase.master.HMaster: hbase:namespace,,1607716627354.56dafb9f3eadaae9e95d5b05f3142a34. is NOT online; state={56dafb9f3eadaae9e95d5b
一个因为windows系统缺失文件而导致的pyspark的BUG2022-06-14 19:35:55

背景：在windows 系统中开发pyspark程序。一个简单的WC程序： from pyspark.sql import SparkSession spark = SparkSession.builder.appName('SparkByEx').getOrCreate() sc = spark.sparkContext text_file = sc.textFile("nba.csv") counts = text_file.flatMap(lambda
Hadoop2022-06-13 19:03:48

一、简介 Hadoop是目前最流行的大数据软件框架之一，它能利用简单的高级程序对大型数据集进行分布式存储和处理。 Hadoop是阿帕奇（Apache）软件基金会发布的一个开源项目，它可以安装在服务器集群上，通过服务器之间的通信和协同工作来存储和处理大型数据集。因为能够高效地处理大数据，Had
Hadoop单机部署2022-06-12 23:32:20

Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/ Hadoop单机部署该部署以Red Hat 7为例安装前提：需先配置好1.8的JAVA环境，可参考JDK的安装配置(Windows、Linux)，Hadoop和Java版本对应关系可参考https://blog.csdn.net/m0_67393619/article/details/123933614 1.解
Hive集成tez引擎2022-06-10 21:35:45

在使用Hive 2的时候，启动时会提示：Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases. tez引擎可以将多个有依赖的作业转换为一个作业，这样只需写一
MapReduce入门实例——WordCount2022-06-09 23:31:06

摘要：MapReduce的IDEA配置及WordCount案例目录Maven项目配置pom.xmllog4j.properties编写应用程序IDEA配置Debug Maven项目配置创建一个空的Maven项目 pom.xml 打开根目录下的pom.xml文件，参考配置： <properties> <project.build.sourceEncoding>UTF-8</project.build.source
Windows11安装Hadoop3.3.22022-06-08 19:02:06

Windows11安装Hadoop3.3.2 JDK 安装 Hadoop的Java版本https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Java+Versions >## Hadoop支持的 Java 版本>>- Apache Hadoop 3.3 及更高版本支持 Java 8 和 Java 11（仅限运行时）> - 请使用 Java 8 编译 Hadoop。不支持使用 Java
大数据处理期末复习2022-06-08 13:02:02

目录1. 分析题（1）常见大数据计算模式及其解决的主要问题。（2）spark streaming的运行原理。（3）spark能不能取代Hadoop，理由是什么。（4）spark中的宽依赖和窄依赖分别是什么，它们的区别是什么。（5）划分stage的方法，在图中划分stage。（6）函数式编程的特点，其与命令式编程的区别。2. 程序填空（1）创建RDD的
6-8(1)2022-06-08 12:05:45

【选择】 1、在HDFS中，用于保存数据的节点是（b）。 A、namenode B、datanode C、secondaryNode D、yarn 2、在MapReduce程序中，map()函数接收的数据格式是（d）。 A、字符串 B、整型 C、Long D、键值对 3、每个Map任务都有一个内存缓冲区，默认大小是（c）。 A、128M B、64M C、100M D、32M 4、下
大数据技术之Hive 第8章函数自定义函数UDF和UDTF2022-06-08 02:31:47

8.3 自定义函数 1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。 2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。 3）根据用户自定义函数类别分为以下三种：（1）UDF（User-Defined-Func
Hadoop MapReduce入门2022-06-06 17:00:34

一：配置pom <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-core</artifactId> <version>1.0.1</version> </dependency> 二:测试代码 package com.jachs.hadoop; import java.io.IOExcepti
zookeeper安装配置2022-06-06 10:31:54

1. 下载zookeeper二进制安装包 2.解压zookeeper安装包把zookeeper-3.4.3.tar.gz文件存放在/home/hadoop目录下，进行解压： hadoop@ubuntu:~$ sudo tar -zxvf zookeeper-3.4.3.tar.gz hadoop@ubuntu:~$ chown -R hadoop:hadoop zookeeper-3.4.3 或者zookeeper在线安装 hadoop@ubunt
Zookeeper2022-06-04 20:35:30

1.Zookeeper概念 -Zookeeper是Apache hadoop 项目下的一个子项目，是一个树形目录服务 -Zookeeper翻译过来就是动物园管理员，他是用来Hadoop(大象）/Hive（蜜蜂）/Pig(小猪)的管理员。简称zk -Zookeeper是一个分布式的，开源的分布式应用程序的协调服务
Hadoop 性能优化2022-06-04 09:03:32

Hadoop 性能优化小文件问题 HDFS和MapReduce是针对大文件设计的，在小文件处理上效率低下，且十分消耗内存资源。每个小文件都会占用一个block、产生一个InputSplit、产生一个Map任务，这样map任务的启动时间很长，执行任务的时间很短。解决方法是使用容器将小文件组织起来，HDFS提供了两种
Hive-day03_hive介绍和三种交互方式2022-06-01 21:34:46

Hive1.2.1_hive介绍和三种交互方式 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。思考：计算文件user.txt中张三出
大数据基础之Hive2022-05-31 18:01:19

http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC dr
Hadoop MR 和 Spark 的相同点和不同点？2022-05-31 17:05:08

Hadoop 底层使用 MapReduce 计算架构，只有 map 和 reduce 两种操作，表达能力比较欠缺，而且在 MR 过程中会重复的读写 hdfs，造成大量的磁盘 io 读写操作，所以适合高时延环境下批处理计算的应用； Spark 是基于内存的分布式计算架构，提供更加丰富的数据集操作类型，主要分成转化操作和行动操作
HDFS NameNode Hadoop怎么分片2022-05-31 16:31:42

HDFS 上传文件和读文件的流程 (1)由客户端 Client 向 NameNode 节点发出请求; (2)NameNode 向 Client 返回可以存数据的 DataNode 列表，这里遵循机架感应原则(把副本分别放在不同的机架，甚至不同的数据中心); (3)客户端首先根据返回的信息先将文件分块(Hadoop2.X 版本每一个 block

首页 < 3 4 5 6 7 8 > 尾页

ICode9

hive部署2022-06-20 11:37:54

window下部署单机hadoop环境2022-06-18 14:33:25

Exception message: CreateSymbolicLink error (1314): ???????????2022-06-18 14:04:28

sqoop从mysql导数据到hdfs使用lzop压缩格式，报：NullPointerException2022-06-18 00:32:39

大数据之Hadoop集群中Yarn常用命令2022-06-17 21:04:04

大数据之Hadoop集群中MapReduce的Join操作2022-06-17 21:02:58

大数据之Hadoop集群的HDFS压力测试2022-06-17 21:01:23

大叔问题定位分享（49）hbase集群重启后master初始化失败2022-06-16 10:36:29

一个因为windows系统缺失文件而导致的pyspark的BUG2022-06-14 19:35:55

Hadoop2022-06-13 19:03:48

Hadoop单机部署2022-06-12 23:32:20

Hive集成tez引擎2022-06-10 21:35:45

MapReduce入门实例——WordCount2022-06-09 23:31:06

Windows11安装Hadoop3.3.22022-06-08 19:02:06

大数据处理期末复习2022-06-08 13:02:02

6-8(1)2022-06-08 12:05:45

大数据技术之Hive 第8章 函数 自定义函数UDF和UDTF2022-06-08 02:31:47

Hadoop MapReduce入门2022-06-06 17:00:34

zookeeper安装配置2022-06-06 10:31:54

Zookeeper2022-06-04 20:35:30

Hadoop 性能优化2022-06-04 09:03:32

Hive-day03_hive介绍和三种交互方式2022-06-01 21:34:46

大数据基础之Hive2022-05-31 18:01:19

Hadoop MR 和 Spark 的相同点和不同点？2022-05-31 17:05:08

HDFS NameNode Hadoop怎么分片2022-05-31 16:31:42

大数据技术之Hive 第8章函数自定义函数UDF和UDTF2022-06-08 02:31:47