ICode9

精准搜索请尝试: 精确搜索
  • Hive-day09 HiveJDBC2022-07-01 21:04:06

    Hive JDBC 启动hiveserver2 在使用Hive JDBC之前必须先启动客服端服务,这样用其他节点,或者idea就可以连接hive数据库,命令为: hive --service hiveserver2 & 或者 hiveserver2 & 新建maven项目并添加两个依赖 <dependency> <groupId>org.apache.hadoop</groupId>

  • hive 将查询的结果存为新表2022-07-01 20:35:56

    create table itcast_ods.tmp as SELECT count(ip) c, ip FROM itcast_ods.web_acc_info GROUP BY ip order by c desc 几种保存Hive查询结果的方法 - 又尘埃 - 博客园 (cnblogs.com)

  • hive 总结2022-07-01 18:33:33

    hive 建表 1字符串 用string  因为varchar容易中文乱码 2数值可以用int 但是后面不能加括号  int(12)类似这样   Hive 时间数据类型 - 简书 (jianshu.com)

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • hive加载数据的几种方式2022-06-30 15:00:31

    1.从文件中加载数据建表语句: CREATE TABLE IF NOT EXISTS `test.test1`( `user_id` int, `name` string, `address` string) row format delimited fields terminated by ','; 注意:建表的分隔符必须与文件中数据的分隔符一致,不然数据无法分割从本地加载数据:(1)load方式 load da

  • Hive-day06 Hive分区2022-06-30 09:00:42

    Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。

  • linux 进入hive2022-06-30 01:00:48

    #进入beeline[root@master ~]# beeline#进入beeline后,连接10000端口beeline> !connect jdbc:hive2://192.168.152.50:10000Connecting to jdbc:hive2://192.168.152.50:10000Enter username for jdbc:hive2://192.168.152.50:10000: dwl #用户名dwlEnter password for jdbc:hive2:

  • Hive explain执行计划详解2022-06-28 16:04:48

     简介:HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助 一、EXPLAIN 参数介绍 语法 : EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] querySql EXTENDED:加上 extended 可

  • Hive-day04 Hive2022-06-26 19:02:32

    2.3 Hive表操作 Hive的存储格式: Hive没有专门的数据文件格式,常见的有以下几种(加粗为常用格式): ​ TEXTFILE ​ SEQUENCEFILE ​ AVRO ​ RCFILE ​ ORCFILE ​ PARQUET TextFile: TEXTFILE 即正常的文本格式,是Hive默认文件存储格式,因为大多数情况下源数据文件都

  • 【Hive】Hive日期和时间戳函数2022-06-25 15:04:33

    原文链接   Hive Date and Timestamp functions are used to manipulate Date and Time on HiveQL queries over Hive CLI, Beeline, and many more applications Hive supports.   The default date format of Hive is yyyy-MM-dd, and for Timestamp yyyy-MM-dd HH:mm:ss

  • Spark SQL 数据源 hive表2022-06-24 17:05:28

    Spark SQL 数据源(json文件、hive表、parquet文件) -- json 详见 524 hive表   scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one deprecation (since 2.0.0); for details, enable `:setting -deprecation' or `:replay -deprecation'

  • 大数据组件之Hive安装2022-06-24 15:35:36

    目录前言一、准备二、安装Hive三、修改Hive元数据存储到mysql1、hive添加mysql驱动2、安装mysql四、hive常用命令其它命令五、Hive常见属性配置1、Hive数据仓库位置配置2、查询后信息显示配置3、Hive运行日志信息配置4、参数配置方式1)查看当前所有的配置信息2)配置参数的三种方式3)

  • Hive优化2022-06-23 21:03:06

    1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more) Fetch抓取

  • ETL工具 (二)sqoop 数据同步工具2022-06-23 20:00:07

    Sqoop简介 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具、 官网: http://sqoop.apache.org/ 版本:(两个版本完全不兼容,sqoop1使用最多) sqoop1:1.4.x sqoop2:1.99.x sqoop架构非常简单,是hadoop生态系统的架构最简单的框架。 sqoop1由client端直接接入hadoo

  • Hive2022-06-22 18:03:18

    一. hive中的数据类型   hive中的数据类型主要分为:   (1)基本数据类型     1.数值型:主要就是用来保存数字      整数型       tinyint :1字节       smallint :2字节       int    :4字节       bigint    :8字节      浮点型     

  • 总结淘宝双十一数据可视化遇到的问题和对应的解决方案2022-06-21 13:04:32

    1,运行hive时,出现包错误   原因:spark版本升级到2.x以后,原有lib目录下的大JAR包被分散成多个小JAR包,原来的spark-assembly-*.jar已经不存在,所以hive没有办法找到这个JAR包。要做的只是将hive中的启动文件中的sparkAssemblyPath这一行更改为之前安装spark的jar包路径即可。 解决方

  • 在springboot中使用jdbcTemplate(7)-hivejdbc2022-06-20 14:33:47

    在springboot中使用jdbcTemplate 在springboot中使用jdbcTemplate(2)-多数据源 在springboot中使用jdbcTemplate(3) 在springboot中使用jdbcTemplate(4) 在springboot中使用jdbcTemplate(5) 在springboot中使用jdbcTemplate(6) 大家都在知道,Java原生的jdbc有很多冗余代码,spring-jd

  • hive部署2022-06-20 11:37:54

    1. 前置条件 安装hive前需先安装mysql及hadoop a)在mysql中创建用户及数据库 create user 'hive' identified by 'hive';grant all privileges on *.* to 'hive'@'%' with grant option;create database hive character set latin1; b)hadoop环境变量需要需要 /etc/

  • 4.7:Hive操作实验2022-06-17 18:34:24

    〇、概述 1、拓扑结构   2、目标 通过Hive实验熟悉Hive的基本操作 一、操作流程 1、启动环境     2、启动hive 输入 cd /home/user/bigdata/apache-hive-2.3.4-bin/conf 输入 vi hive-site.xml 编辑hive的配置文件 按i进行编辑,将文件最后三条注释掉,即增加<!--  和 -->。按:w

  • 分布式数据仓库Hive2022-06-16 09:34:05

    Hive系统介绍 Hive是基于Hadoop的数据仓库 Hive方便使用SQL来执行读取、写入、管理基于分布式存储的大型数据集 可以基于存储数据来构建数据结构,提供命令行和JDBC两种开发方式 Hive的设计思想 Hive不是数据库,是数据仓库,它的设计是围绕数据分析,而不是数据存储,或者说Hive是基于数据

  • Hive Sql实现高难度的 sql 需求2022-06-15 19:32:43

    题目: (1).前置条件: 有以下数据集I,表查询结果如下图所示,设置该表为表:test_user_scan。       (2).题目要求: 使用 hive sql 查询出每个用户相邻两次浏览时间之差小于三分钟的次数。 预期结果:       解题思路: (1). 子查询G 作为 left join 的主表,主要是为了获取所有的user

  • Hive 写法 上月、上季度、上年2022-06-15 17:03:51

    --上月 select date_format(add_months(current_date(),-1),'YYYYMM')    --上季度 select YEAR((add_months(CURRENT_DATE,-3)));--上季度年度select QUARTER(add_months(CURRENT_DATE,-3));--上季度数   --上年 select YEAR(current_date())-1

  • hive操作记录2022-06-15 11:35:12

    1.在hive部署节点使用hive的shell,在./bin/hive目录下进入hive的客户端,执行我们的sql语句 --删除表 drop table if exists iov_gather_table; --创建表 CREATE TABLE IF NOT EXISTS iov_gather_table(tid bigint,ty string,val string) PARTITIONED BY (f string) stored AS ORC ;

  • Hive优化2022-06-14 16:34:23

    一、join优化 1. 使用相同的连接键当对3个或者更多个表进行join连接时,如果每个on子句都使用相同的连接键的话,那么只会产生一个MapReduce job。 2. 尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。 3. 尽量原子化操作尽量避免一个SQL包含

  • hive sql 将array<float>转成arrray<string>2022-06-13 20:32:09

    在网上找了很久,终于解决了,代码如下: with mydata as ( select ID, my_array from ( --some array<struct> example select 1 ID, array(1.1, 2.2, 3.3) as my_array union all select 2 ID, array(4.4, 5

专注分享技术,共同学习,共同进步。侵权联系[admin#icode9.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有