HIVE

Hadoop生态系统（数据仓库Hive的安装）2022-10-18 14:27:28

一、数据仓库数据仓库是一个面向主题的、集成的、随时间变化，但信息本身相对稳定的数据集合，相比于传统型数据库，它主要用于支持企业或组织的决策分析处理。主要有以下3个特点：数据仓库是面向主题的：数据仓库中的数据是按照一定的主题域进行组织，大概意思就是说存的数据是一类数据
flink-cdc同步mysql数据到hive2022-09-16 14:34:26

本文首发于我的个人博客网站等待下一个秋-Flink 什么是CDC？ CDC是（Change Data Capture 变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行
org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use2022-09-15 13:34:09

做机器迁移，导致flink程序写iceberg失败，原因是hive的元数据存储库mysql停了一段时间。然后flink出现以下异常， org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file: hdfs://ns1/user/hive/warehouse/iceberg_ods.db/ods_xxx/metadata/17120-4
一文带你体验MRS HetuEngine如何实现跨源跨域分析2022-09-15 11:01:24

摘要： HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎，亲自全程体验其如何实现多数据源的跨源跨域分析能力。本文分享自华为云社区《MRS HetuEngine体验跨源跨域分析【玩转华为云】》，作者：龙哥手记。 HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎，亲自全程体验其如何实
Presto、Spark SQL、Hive的比较2022-09-13 15:01:55

Presto、Spark SQL、Hive的比较 1.Presto Presto只有计算分析能力但可以连接多种数据源，包括Hive，Oracle，MySQL，Kafka，MongoDB，Redis等，并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。 Presto是一个低延迟高并发的内存计算引擎，相比Hive，
数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向2022-09-12 22:00:23

@目录概述Spark on HiveHive on Spark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐Executor CPU核数配置Executor CPU内存配置Executor 个数配置Driver配置整体配置概述前面的文章都
hive on spark 关于hive的配置2022-09-11 12:30:16

1. hive-site.xml root@hadoop101 conf]# vi hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.C
ExcelToDatabase：批量导入Excel到MySQL/Oracle/SQL Server/Hive数据库的自动化工具2022-09-10 19:01:16

ExcelToDatabase:批量导入Excel到MySQL/Oracle/SQLServer/Hive数据库简介 ExcelToDatabase 是一个可以批量导入excel到数据库(mysql/oracle/sqlserver/hive)的自动化工具。自动化是其最大的特点，因为它可以根据excel自动导入数据到数据库而不需要做任何映射。批量是它另一个特点，
Hive优化-重要2022-09-08 21:03:09

Hiv优化 1.hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，select字段名也是需要进行mapreduce的过程，默认是more)
Hive的基本概念2022-09-08 14:33:03

一、Hive基本概念 1．什么是Hive? hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。 Hive的
hive删除表后重新创建时提示表已存在并且卡死2022-09-08 12:34:35

SQL 错误 [1] [08S01]: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.iceberg.exceptions.AlreadyExistsException: Table was created concurrently: iceberg_dw.dw_xxxxxxxx iceberg
Hive-day32022-09-06 20:00:22

Hive分区在大数据中，最常见的一种思想就是分治，我们可以把大的文件切割划分成一个个的小的文件，这样每次操作一个个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天或者每小时切分成一个个小的文件，这样去操作小的文件就会容易很多了。
【Hive】使用dbeaver连接内网中的hive2022-09-03 13:01:16

设置ssh连接这里设置的ssh连接，是跳板机的连接设置然后是常规的hive-server2的IP和端口设置
HiveSql调优系列之Hive严格模式，如何合理使用Hive严格模式2022-09-02 19:00:50

目录综述1.严格模式1.1 参数设置1.2 查看参数1.3 严格模式限制内容及对应参数设置2.实际操作2.1 分区表查询时必须指定分区2.2 order by必须指定limit2.3 限制笛卡尔积3.搭配使用3.1 参数3.2 搭配使用案例综述在同样的集群运行环境中，hive调优有两种方式，即参数调优和sql调优。本
【Hive】concat、concat_ws拼接值中有NULL2022-09-01 22:34:59

将多个字段合并成一个字段，我们一般使用concat或concat_ws。 concat 使用concat时，如果如果拼接的字段中有null，结果也会变成null concat_ws 使用concat_ws来拼接时，字段有为null的，结果并不会也变成null
java通过jdbc连接hive并实时获取日志（转）2022-09-01 15:31:06

转载：https://blog.csdn.net/weixin_43455443/article/details/115343995 4、通过java代码连接hive on spark，使用hive-jdbc引入pom文件 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.1.1</vers
大数据分析常用组件、框架、架构介绍（Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase）2022-09-01 00:04:49

首先，数据传输组件： ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。其次，数据存储组件： ④HDFS (Hadoop Distributed File System)用Java编写，是谷歌的GFS（Google File S ystem）的一
Hive中insert into 和 insert overwrite的区别2022-08-31 18:00:38

相同点 insert into 和 insert overwrite 都是往表中插入数据的。不同点区别1： insert into ：其实是将数据追加到表的末尾，注意可不是覆盖是追加。 insert overwrite : 其实是将重写表（或分区）中的内容，即将原来的hive表中的数据（或分区）删除掉，再进行插入数据操作。提示：如果hive
从Hive中使用HQL语句创建DataFrame--常用方式2022-08-27 12:30:50

默认情况下SparkSession不支持读取Hive中的数据，也不支持操作HQL语法，如果要读取Hive中的数据，需要开启Hive的支持，构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setMaster("local[2]").setAppName("demo") val session = Spa
hive 参数优化2022-08-26 19:02:41

最近为了调试hive试了很多hive参数，对于hive任务优化，减少使用内存有一些自己的见解，在此做一个记录。一：mapreduce的基本流程及阶段可进行的优化操作（其实有很多不用设置有默认的设置，此处做面试，参考设置在下一节）附上网上的一张老图（虽然老但是很具有代表性，哈哈哈）上面的
记一次使用“msck repair table 表名”这个命令2022-08-23 15:02:05

背景：数据导入到hive后，查询不到数据原因： MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hive有个服务叫metastore，这个服务主要是存储一些元数据信息，比如数据库名，表名或者表的分区等等信息。如
metastore作用_Hive安装配置2022-08-17 12:34:18

本文介绍Hive安装配置的整个过程，包括MySQL、Hive及Metastore的安装配置，并分析了Metastore三种配置方式的区别。网上有很多介绍Hive Metastore三种配置方式的文章，但是理解都不对，给读者造成了很多误导。本人详细阅读Apache和CDH官方文档中关于Hive Metastore的部分，并经过实践，终于填
元数据治理利器 - Apache Atlas2022-08-16 17:02:27

一、功能简介 Atlas 是一组可扩展的核心基础治理服务，使企业能够高效地满足其在 Hadoop 中的合规性要求，并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能，以构建其数据资产的目录，对这些资产进行分类和治理，并为数据科学家、分析师和数据治理团
hive functions 大全2022-08-14 16:35:07

show functions 查看了所有的方法把所有的方法记录下来，下次免得去翻别人的博客了数学函数数学常规函数函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negative(4);-4 sin 正弦值参数无限制数字即可
HIVE优化之记录的分离与聚合2022-08-14 16:34:17

行转列 ① CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串; ② CONCAT_WS(separator, str1, str2,...)：　　·它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。　　·分隔符可以是与剩余参数一样的字符串。　　·如果分隔符

1 2 3 4 5 6 7 8 > 尾页

ICode9

Hadoop生态系统（数据仓库Hive的安装）2022-10-18 14:27:28

flink-cdc同步mysql数据到hive2022-09-16 14:34:26

org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use2022-09-15 13:34:09

一文带你体验MRS HetuEngine如何实现跨源跨域分析2022-09-15 11:01:24

Presto、Spark SQL、Hive的比较2022-09-13 15:01:55

数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向2022-09-12 22:00:23

hive on spark 关于hive的配置2022-09-11 12:30:16

ExcelToDatabase：批量导入Excel到MySQL/Oracle/SQL Server/Hive数据库的自动化工具2022-09-10 19:01:16

Hive优化-重要2022-09-08 21:03:09

Hive的基本概念2022-09-08 14:33:03

hive删除表后重新创建时提示表已存在并且卡死2022-09-08 12:34:35

Hive-day32022-09-06 20:00:22

【Hive】使用dbeaver连接内网中的hive2022-09-03 13:01:16

HiveSql调优系列之Hive严格模式，如何合理使用Hive严格模式2022-09-02 19:00:50

【Hive】concat、concat_ws拼接值中有NULL2022-09-01 22:34:59

java通过jdbc连接hive并实时获取日志（转）2022-09-01 15:31:06

大数据分析常用组件、框架、架构介绍（Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase）2022-09-01 00:04:49

Hive中insert into 和 insert overwrite的区别2022-08-31 18:00:38

从Hive中使用HQL语句创建DataFrame--常用方式2022-08-27 12:30:50

hive 参数优化2022-08-26 19:02:41

记一次使用“msck repair table 表名”这个命令2022-08-23 15:02:05

metastore作用_Hive安装配置2022-08-17 12:34:18

元数据治理利器 - Apache Atlas2022-08-16 17:02:27

hive functions 大全2022-08-14 16:35:07

HIVE优化之记录的分离与聚合2022-08-14 16:34:17