ICode9

精准搜索请尝试: 精确搜索
  • Hadoop生态系统(数据仓库Hive的安装)2022-10-18 14:27:28

    一、数据仓库 数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据

  • flink-cdc同步mysql数据到hive2022-09-16 14:34:26

    本文首发于我的个人博客网站 等待下一个秋-Flink 什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行

  • org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use2022-09-15 13:34:09

    做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。 然后flink出现以下异常, org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file: hdfs://ns1/user/hive/warehouse/iceberg_ods.db/ods_xxx/metadata/17120-4

  • 一文带你体验MRS HetuEngine如何实现跨源跨域分析2022-09-15 11:01:24

    摘要: HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实现多数据源的跨源跨域分析能力。 本文分享自华为云社区《MRS HetuEngine体验跨源跨域分析【玩转华为云】》,作者:龙哥手记。 HetuEngine作为MRS服务中交互式分析&多源统一SQL引擎,亲自全程体验其如何实

  • Presto、Spark SQL、Hive的比较2022-09-13 15:01:55

    Presto、Spark SQL、Hive的比较 1.Presto Presto只有计算分析能力但可以连接多种数据源,包括Hive,Oracle,MySQL,Kafka,MongoDB,Redis等,并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。 Presto是一个低延迟高并发的内存计算引擎,相比Hive,

  • 数仓Hive和分布式计算引擎Spark多整合方式实战和调优方向2022-09-12 22:00:23

    @目录概述Spark on HiveHive on Spark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐Executor CPU核数配置Executor CPU内存配置Executor 个数配置Driver配置整体配置 概述 前面的文章都

  • hive on spark 关于hive的配置2022-09-11 12:30:16

    1.   hive-site.xml    root@hadoop101 conf]# vi hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>javax.jdo.option.C

  • ExcelToDatabase:批量导入Excel到MySQL/Oracle/SQL Server/Hive数据库的自动化工具2022-09-10 19:01:16

    ExcelToDatabase:批量导入Excel到MySQL/Oracle/SQLServer/Hive数据库 简介 ExcelToDatabase 是一个可以批量导入excel到数据库(mysql/oracle/sqlserver/hive)的自动化工具。自动化是其最大的特点,因为它可以根据excel自动导入数据到数据库而不需要做任何映射。批量是它另一个特点,

  • Hive优化-重要2022-09-08 21:03:09

    Hiv优化 1.hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more)  

  • Hive的基本概念2022-09-08 14:33:03

    一、Hive基本概念 1.什么是Hive? hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。可以存储、查询和分析存储在Hadoop中的大规模数据。 hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。 Hive的

  • hive删除表后重新创建时提示表已存在并且卡死2022-09-08 12:34:35

    SQL 错误 [1] [08S01]: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.iceberg.exceptions.AlreadyExistsException: Table was created concurrently: iceberg_dw.dw_xxxxxxxx iceberg

  • Hive-day32022-09-06 20:00:22

    Hive分区  在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。

  • 【Hive】使用dbeaver连接内网中的hive2022-09-03 13:01:16

    设置ssh连接    这里设置的ssh连接,是跳板机的连接设置   然后是常规的hive-server2的IP和端口设置  

  • HiveSql调优系列之Hive严格模式,如何合理使用Hive严格模式2022-09-02 19:00:50

    目录综述1.严格模式1.1 参数设置1.2 查看参数1.3 严格模式限制内容及对应参数设置2.实际操作2.1 分区表查询时必须指定分区2.2 order by必须指定limit2.3 限制笛卡尔积3.搭配使用3.1 参数3.2 搭配使用案例 综述 在同样的集群运行环境中,hive调优有两种方式,即参数调优和sql调优。 本

  • 【Hive】concat、concat_ws拼接值中有NULL2022-09-01 22:34:59

    将多个字段合并成一个字段,我们一般使用concat或concat_ws。 concat 使用concat时,如果如果拼接的字段中有null,结果也会变成null   concat_ws  使用concat_ws来拼接时,字段有为null的,结果并不会也变成null  

  • java通过jdbc连接hive并实时获取日志(转)2022-09-01 15:31:06

    转载:https://blog.csdn.net/weixin_43455443/article/details/115343995 4、通过java代码连接hive on spark,使用hive-jdbc引入pom文件 <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.1.1</vers

  • 大数据分析常用组件、框架、架构介绍(Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase)2022-09-01 00:04:49

    首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Java编写,是谷歌的GFS(Google File S ystem)的一

  • Hive中insert into 和 insert overwrite的区别2022-08-31 18:00:38

    相同点 insert into 和 insert overwrite 都是往表中插入数据的。   不同点 区别1: insert into :其实是将数据追加到表的末尾,注意 可不是覆盖 是追加。 insert overwrite : 其实是将重写表(或分区)中的内容,即将原来的hive表中的数据(或分区)删除掉,再进行插入数据操作。 提示: 如果hive

  • 从Hive中使用HQL语句创建DataFrame--常用方式2022-08-27 12:30:50

    默认情况下SparkSession不支持读取Hive中的数据,也不支持操作HQL语法, 如果要读取Hive中的数据,需要开启Hive的支持, 构建sparkSession的时候调用一个函数enableHiveSupport() val sparkConf = new SparkConf().setMaster("local[2]").setAppName("demo") val session = Spa

  • hive 参数优化2022-08-26 19:02:41

    最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:mapreduce的基本流程及阶段可进行的优化操作 (其实有很多不用设置有默认的设置,此处做面试,参考设置在下一节) 附上网上的一张老图(虽然老但是很具有代表性,哈哈哈)     上面的

  • 记一次使用“msck repair table 表名”这个命令2022-08-23 15:02:05

    背景: 数据导入到hive后,查询不到数据   原因: MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。 我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分区等等信息。如

  • metastore作用_Hive安装配置2022-08-17 12:34:18

    本文介绍Hive安装配置的整个过程,包括MySQL、Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区别。网上有很多介绍Hive Metastore三种配置方式的文章,但是理解都不对,给读者造成了很多误导。本人详细阅读Apache和CDH官方文档中关于Hive Metastore的部分,并经过实践,终于填

  • 元数据治理利器 - Apache Atlas2022-08-16 17:02:27

    一、功能简介 Atlas 是一组可扩展的核心基础治理服务,使企业能够高效地满足其在 Hadoop 中的合规性要求,并允许与整个企业数据生态系统集成。Apache Atlas 为组织提供开放的元数据管理和治理功能,以构建其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团

  • hive functions 大全2022-08-14 16:35:07

    show functions 查看了所有的方法把所有的方法记录下来,下次免得去翻别人的博客了 数学函数 数学常规函数 函数简介用法 abs 绝对值 select abs(-13);13 negative 正数转负数,负数转正数 select negative(-4);4 select negative(4);-4 sin 正弦值 参数无限制数字即可

  • HIVE优化之记录的分离与聚合2022-08-14 16:34:17

    行转列 ① CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; ② CONCAT_WS(separator, str1, str2,...):   ·它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。   ·分隔符可以是与剩余参数一样的字符串。   ·如果分隔符

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有