ICode9

精准搜索请尝试: 精确搜索
  • 总结淘宝双十一数据可视化遇到的问题和对应的解决方案2022-06-21 13:04:32

    1,运行hive时,出现包错误   原因:spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为之前安装spark的jar包路径即可。 解决方

  • 在springboot中使用jdbcTemplate(7)-hivejdbc2022-06-20 14:33:47

    在springboot中使用jdbcTemplate 在springboot中使用jdbcTemplate(2)-多数据源 在springboot中使用jdbcTemplate(3) 在springboot中使用jdbcTemplate(4) 在springboot中使用jdbcTemplate(5) 在springboot中使用jdbcTemplate(6) 大家都在知道,Java原生的jdbc有很多冗余代码,spring-jd

  • hive部署2022-06-20 11:37:54

    1. 前置条件 安装hive前需先安装mysql及hadoop a)在mysql中创建用户及数据库 create user 'hive' identified by 'hive';grant all privileges on *.* to 'hive'@'%' with grant option;create database hive character set latin1; b)hadoop环境变量需要需要 /etc/

  • 4.7:Hive操作实验2022-06-17 18:34:24

    〇、概述 1、拓扑结构   2、目标 通过Hive实验熟悉Hive的基本操作 一、操作流程 1、启动环境     2、启动hive 输入 cd /home/user/bigdata/apache-hive-2.3.4-bin/conf 输入 vi hive-site.xml 编辑hive的配置文件 按i进行编辑,将文件最后三条注释掉,即增加<!--  和 -->。按:w

  • 分布式数据仓库Hive2022-06-16 09:34:05

    Hive系统介绍 Hive是基于Hadoop的数据仓库 Hive方便使用SQL来执行读取、写入、管理基于分布式存储的大型数据集 可以基于存储数据来构建数据结构,提供命令行和JDBC两种开发方式 Hive的设计思想 Hive不是数据库,是数据仓库,它的设计是围绕数据分析,而不是数据存储,或者说Hive是基于数据

  • Hive Sql实现高难度的 sql 需求2022-06-15 19:32:43

    题目: (1).前置条件: 有以下数据集I,表查询结果如下图所示,设置该表为表:test_user_scan。       (2).题目要求: 使用 hive sql 查询出每个用户相邻两次浏览时间之差小于三分钟的次数。 预期结果:       解题思路: (1). 子查询G 作为 left join 的主表,主要是为了获取所有的user

  • Hive 写法 上月、上季度、上年2022-06-15 17:03:51

    --上月 select date_format(add_months(current_date(),-1),'YYYYMM')    --上季度 select YEAR((add_months(CURRENT_DATE,-3)));--上季度年度select QUARTER(add_months(CURRENT_DATE,-3));--上季度数   --上年 select YEAR(current_date())-1

  • hive操作记录2022-06-15 11:35:12

    1.在hive部署节点使用hive的shell,在./bin/hive目录下进入hive的客户端,执行我们的sql语句 --删除表 drop table if exists iov_gather_table; --创建表 CREATE TABLE IF NOT EXISTS iov_gather_table(tid bigint,ty string,val string) PARTITIONED BY (f string) stored AS ORC ;

  • Hive优化2022-06-14 16:34:23

    一、join优化 1. 使用相同的连接键当对3个或者更多个表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。 2. 尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。 3. 尽量原子化操作尽量避免一个SQL包含

  • hive sql 将array<float>转成arrray<string>2022-06-13 20:32:09

    在网上找了很久,终于解决了,代码如下: with mydata as ( select ID, my_array from ( --some array<struct> example select 1 ID, array(1.1, 2.2, 3.3) as my_array union all select 2 ID, array(4.4, 5

  • 超实用, Hive日常操作必会,学会事半功倍。2022-06-13 19:37:07

    Hive 表基本操作   1.创建表 1 CREATE TABLE if NOT EXISTS table_name 2 ( 3 column_name1 string comment '字段名的释义', 4 column_name2 int comment '字段名的释义', 5 column_name3 int comment '字段名的释义', 6 column_name4 decimal(22,6) comm

  • hive 开窗函数2022-06-12 16:00:16

    -- 开窗------------------------分组排序--------------------------------- -- row_number() over(partition by ... order by ...) 组内的排名序号 1 2 3 4 5 6 7 -- rank() over(partition by userid order by pv desc) 组内的排名序号 1 2 3 3 5 6 6 8 -- dense_rank over

  • Hive集成tez引擎2022-06-10 21:35:45

    在使用Hive 2的时候,启动时会提示:Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases. tez引擎可以将多个有依赖的作业转换为一个作业,这样只需写一

  • hive sql2022-06-09 12:05:16

    How to transform data into a map using group by in Hive SQL? 用途: https://stackoverflow.com/questions/63708713/how-to-transform-data-into-a-map-using-group-by-in-hive-sql

  • Hive窗口函数2022-06-08 22:05:52

    1.1 Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值,也可以是排序值。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多行记录 开窗函数一般分为两类,

  • Hive库基本操作2022-06-08 20:37:18

      2.1.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。 create database testdb; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) create database if not exists testdb; 2.2.2 创建数据库和位置 create database if

  • Hive-基本函数_窗口函数_行列转换_UDF_连续登录问题2022-06-08 19:35:12

    hive-基本函数_窗口函数_行列转换_UDF_连续登录问题 目录hive-基本函数_窗口函数_行列转换_UDF_连续登录问题SQL练习hive语句的执行顺序from-->join-->where-->group by-->聚合函数-->having-->select-->开窗函数-->distinct-->order by-->limit生成的语法树结构如下:详细对比HQL原

  • 大数据技术之Hive 第8章 函数 系统内置函数2022-06-08 03:34:05

    第8章 函数 8.1 系统内置函数 1)查看系统自带的函数 hive> show functions; 2)显示自带的函数的用法 hive> desc function upper; 3)详细显示自带的函数的用法 hive> desc function extended upper; 8.2 常用内置函数 8.2.1 空字段赋值 1)函数说明 NVL:给值为NULL的数据赋值,它的格式

  • 大数据技术之Hive 第10章 企业级调优2022-06-08 03:01:21

    第10章 企业级调优 10.1 执行计划(Explain) 1)基本语法 EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 2)案例实操 (1)查看下面这条语句的执行计划 没有生成MR任务的 hive (default)> explain select * from emp; Explain STAGE DEPENDENCIES: Stage-0 is a root stage ST

  • 大数据技术之Hive 第11章 Hive实战2022-06-08 03:01:04

    第11章 Hive实战 11.1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: -- 统计视频观看数Top10 -- 统计视频类别热度Top10 -- 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 -- 统计视频观看数Top50所关联视频的所属类别Rank -- 统计每个类别中的

  • 大数据技术之Hive 学习遇到 常见错误及解决方案2022-06-08 03:00:48

    附录:常见错误及解决方案 0) 如果更换Tez引擎后,执行任务卡住,可以尝试调节容量调度器的资源调度策略 将$HADOOP_HOME/etc/hadoop/capacity-scheduler.xml文件中的 <property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.1</value> <des

  • 大数据技术之Hive 第7章 分区表和分桶表(优化)2022-06-08 02:31:58

    第7章 分区表和分桶表(优化) 7.1 分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效

  • 大数据技术之Hive 第8章 函数 自定义函数UDF和UDTF2022-06-08 02:31:47

    8.3 自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 3)根据用户自定义函数类别分为以下三种: (1)UDF(User-Defined-Func

  • 大数据技术之Hive 第9章 压缩和存储2022-06-08 02:31:31

    第9章 压缩和存储 9.1 Hadoop压缩配置 9.1.1 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 为了支持多种压缩/解压缩算法,Hadoop引入

  • 大数据技术之Hive 第1章 Hive基本概念2022-06-08 02:03:22

    第1章 Hive基本概念 1.1 什么是Hive 1)hive简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 2)Hive本质:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有