hive

hive优化数据倾斜2022-05-08 17:34:22

hive数据倾斜产⽣的原因数据倾斜的原因很⼤部分是join倾斜和聚合倾斜两⼤类⼀、Hive倾斜之group by聚合倾斜原因：　　分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；　　对⼀些类型统计的时候某种类型的数据量特别多，其他的数据类型特别少。当按照类型进⾏group by的
大数据Hadoop之——搭建本地flink开发环境详解（window10）2022-05-08 17:31:42

目录一、下载安装IDEA二、搭建本地hadoop环境（window10）三、安装Maven四、新建项目和模块1）新建maven项目2）新建flink模块五、配置IDEA环境（scala）1）下载安装scala插件2）配置scala插件到模块或者全局环境3）创建scala项目4）DataStream API配置1、Maven配置2、示例演示5）Table API & SQL配置1、
hive常用命令2022-05-08 15:34:04

1、进⼊hive数据库：hive2、查看hive中的所有数据库：show databases;3、⽤default数据库：use default;4、查看所有的表：show tables;5、查询表结构：desc mytest（表名）;6、查询表数据： select * from mytest（表名）；7、创建数据库：hive> CREATE SCHEMA userdb;8、验证数据库表：hive> SHOW DATABASE
7. Spark SQL2022-05-08 13:03:34

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因　　hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序复杂性。同时也由
hive3.1.2版本的安装2022-05-07 23:05:44

Hive环境搭建说明：因为之前写的hive2.3.6版本是基于hadoop2.7的，但是hadoop更新到hadoop3.2版本之后，再使用原来的版本就存在一些问题。于是怀疑是hive版本与hadoop版本不兼容造成的，于是下载了hive3.1.2，完整的走了一遍，具体步骤参照如下教程。（原来的hive2.3.6版本的教程应该也是可
Hive源码解析环境搭建2022-05-07 20:01:30

一、准备工作 1.1 下载地址 https://github.com/apache/hive https://dlcdn.apache.org/hive/ 版本：2.3.9 1.2 环境依赖 hadoop2.x mysql maven java8 1.3 Idea插件需要在idea中搜索安装ANTLR插件二、本地编译运行 2.1 编译 mvn clean package -DskipTests -Pdist 2.2 配置h
hive常用基础函数2022-05-07 18:31:54

第一次接触hive sql，听说与标准的sql是差不多的，但是在实际使用过程当中发现还是有差别，特做记录。日期函数 date_sub(date, int1)：返回日期date减去int1的日期【input：date_sub('2021-11-15', 1)；output：'2021-11-14'】 ps：与mysql中的date_sub函数语法是不一样的「干货」5分钟了解h
7. Spark SQL2022-05-07 12:36:33

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。 SparkSQL出现的原因: SparkSQL的前身Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。 SparkS
hive多行转多列2022-05-07 07:32:13

查看：https://blog.csdn.net/cwfreebird/article/details/91355730 方案一： sum case when select brand, max(case when area_name='东北' then total_price_actual else 0 end) db_price, max(case when area_name='华北' then total_price_actual else 0 end
替换Hive引擎为Spark2022-05-07 03:01:51

写在前面必须要先保证hadoop是正常启动的，hadoop安装配置见《CentOS7安装Hadoop集群》 HIVE是正常的，Hive安装配置见《CentOS7安装Hive》 Spark是正常的，Spark安装配置见《CentOS7安装Spark集群（yarn模式）》其它配置 HDFS创建以下路径，用于存储相关jar包解压缩spark-3.0.0-bin-wit
CDH升级到CDP大数据集群碰到的问题解析2022-05-05 20:04:06

一、背景 2019 年，Cloudera 与 Hortonworks 合并后，彻底完成了转型。Cloudera 果断宣布，对 CDH 和 HDP 两条产品线将仅支持到 2022 年。对于两个产品高度重合的部分会做删减和融合，结果就是推出新的数据平台 CDP （Cloudera Data Platform）。2022 年后，原 CDH 和 HDP 用户会被转移到 C
Hive SQL语句大全2022-05-05 10:33:17

库操作创建数据库 -- 创建一个数据库，在HDFS上的默认路径为/user/hive/warehouse/*.db create database mydatabase; -- 可以使用if exists判断数据库是否已存在(存在则不创建) create database if not exists mydatabase; -- 创建一个数据库，并指定其存放路径 create database m
docker快速搭建hive环境2022-05-04 19:09:33

一、安装docker 二、安装docker-compose 两种最新的docker安装方式 1.从github上下载docker-compose二进制文件安装1.1下载最新版的docker-compose文件 sudo curl -L https://github.com/docker/compose/releases/download/1.16.1/docker-compose-`uname -s`-`uname -m` -o /usr/l
Hive教程2022-05-03 09:03:07

Hive概述前边已经搭建好了hive，也通过cli登录上了hive，那我们来简单说一下hive Hive概念 Hive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储支持，也可
【Hadoop】9、Sqoop组件2022-04-30 13:34:37

目录Sqoop组件安装与配置1、使用xftp将软件包上传到/opt/software2、部署sqoop(在master上执行)3、启动sqoop集群(在master上执行)4、连接hive配置(在master上执行）5、在Hive中创建sample数据库和student数据表6、从MySQL导出数据，导入Hive7、将数据从hive中导出到mysql数据库中(在m
Hive 避免小文件2022-04-29 14:31:08

set mapred.max.split.size=256000000; set mapred.min.split.size.per.node=100000000;set mapred.min.split.size.per.rack=100000000;set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set hive.merge.mapfiles = true;set hive.merge.mapredfi
hive中文注释乱码解决方法2022-04-29 12:01:35

hive中文注释乱码解决方法注意：如果hive-site.xml文件里面默认配置的是UTF-8格式，可以省略一二步第一步：进入hive安装目录下面的conf目录，修改hive-site.xml文件 cd /opt/module/hive/conf vim hive-site.xml 第二步：修改以下内容 <property> 　　<name>javax.jdo.option.Connecti
开发一个不需要重写成Hive QL的大数据SQL引擎2022-04-29 11:33:48

摘要：开发一款能支持标准数据库SQL的大数据仓库引擎，让那些在Oracle上运行良好的SQL可以直接运行在Hadoop上，而不需要重写成Hive QL。本文分享自华为云社区《从零开发大数据SQL引擎》，作者：JavaEdge 。学习大数据技术的核心原理，掌握一些高效的思考和思维
hive分区值含有字符的处理2022-04-28 15:32:28

1、起因按照time（正常格式yyyy-MM-dd HH:mm:ss）去决定dt分区，但是没想到time有300多条异常格式，导致落dt分区时有以下两种错误形式： dt=%255B....%255B.... dt=%5B....%5B.... 2、处理 dt=%255B....%255B.... 将%25替换为%即可，然后执行alter drop partition dt=%5B....%5B....
Hive中的一些时间函数简记2022-04-28 15:02:52

Hive日期时间函数在impala上执行的几种结果，供参考 select to_date(concat(substr(from_unixtime(unix_timestamp(),'yyyy-MM-dd'),1,8),'01')) select current_timestamp() --2022-04-28 14:37:24.777441000 select unix_timestamp() -- 1651128042 select from_unixti
7.Spark SQL2022-04-26 21:00:57

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。　　Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为，Sark仅
记一次hive提交spark任务报错2022-04-26 11:36:29

hive提交spark报错报错内容 Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed
040.mysql-datax从hive导入mysql报错：（表情包字符）java.sql.SQLException: Incorrect string value: '\xF0\x9F2022-04-25 19:35:39

040.mysql-datax从hive导入mysql报错：（表情包字符） java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x87\xF0\x9F...' for column 'member_name 解决方法：jdbc链接添加配置 ?com.mysql.jdbc.faultInjection.serverCharsetIndex=45 - name: exp_ads_t
Hive3.1.2安装指南2022-04-25 16:35:26

Hive3.1.2安装指南 1、安装Hive3.1.2 首先需要下载Hive安装包文件， Hive官网下载地址 #解压安装包 hadoop@hadoop-master:~$ sudo tar xf apache-hive-3.1.2-bin.tar.gz -C /usr/local/ hadoop@hadoop-master:~$ cd /usr/local/ hadoop@hadoop-master:/usr/local$ sudo mv apache-h
shells/hive.sh2022-04-13 10:03:01

1 #!/bin/bash 2 function hive_stop(){ 3 pid=$(ps ax | grep "hive") 4 kill $pid || echo "hive服务关闭" 5 } 6 case $1 in 7 "start"){ 8 echo "__________启动hive__________" 9 /opt/module/hive/bin/hive

首页 < 4 5 6 7 8 > 尾页

ICode9

hive优化数据倾斜2022-05-08 17:34:22

大数据Hadoop之——搭建本地flink开发环境详解（window10）2022-05-08 17:31:42

hive常用命令2022-05-08 15:34:04

7. Spark SQL2022-05-08 13:03:34

hive3.1.2版本的安装2022-05-07 23:05:44

Hive源码解析环境搭建2022-05-07 20:01:30

hive常用基础函数2022-05-07 18:31:54

7. Spark SQL2022-05-07 12:36:33

hive多行转多列2022-05-07 07:32:13

替换Hive引擎为Spark2022-05-07 03:01:51

CDH升级到CDP大数据集群碰到的问题解析2022-05-05 20:04:06

Hive SQL语句大全2022-05-05 10:33:17

docker快速搭建hive环境2022-05-04 19:09:33

Hive教程2022-05-03 09:03:07

【Hadoop】9、Sqoop组件2022-04-30 13:34:37

Hive 避免小文件2022-04-29 14:31:08

hive中文注释乱码解决方法2022-04-29 12:01:35

开发一个不需要重写成Hive QL的大数据SQL引擎2022-04-29 11:33:48

hive分区值含有字符的处理2022-04-28 15:32:28

Hive中的一些时间函数简记2022-04-28 15:02:52

7.Spark SQL2022-04-26 21:00:57

记一次hive提交spark任务报错2022-04-26 11:36:29

040.mysql-datax从hive导入mysql报错：（表情包字符）java.sql.SQLException: Incorrect string value: '\xF0\x9F2022-04-25 19:35:39

Hive3.1.2安装指南2022-04-25 16:35:26

shells/hive.sh2022-04-13 10:03:01