ICode9

精准搜索请尝试: 精确搜索
  • Hive —— 入门2022-07-11 16:38:47

    Hive —— 入门 Hive介绍     Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言( HQL),用于访问和分析存储在Hadoop文件中的大型数据集。     

  • HBase-day09 HBase与Hive的集成2022-07-10 20:03:05

    HBase与Hive的集成 HBase与Hive的对比 hive: 数据仓库:Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 用于数据分析、清洗:Hive适用于离线的数据分析和清洗,延迟较高。 基于HDFS、MapReduce:Hive存储的数据依旧在DataNode上,编写

  • 一键同步mysql到数仓(airflow调度)2022-07-09 23:35:52

    经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具) 一:背景、功能、流程介绍 1.背景:     1.数仓使用hive存储,datax导数据、airflow调度    2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了        还需

  • 大数据实习项目(分析双十一)2022-07-09 22:34:17

    大数据分析系统 一、系统设计概述 1、设计目的 熟悉Linux系统、MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和应用; 了解大数据处理的基本流程; 熟悉数据预处理方法; 熟悉在不同类型数据库之间进行数据相互导入导出; 熟悉使用JSP语言搭建动态Web工程; 熟悉使用Spark MLlib进

  • day12022-07-06 00:35:02

    用sqoop脚本从mysql 导入到hive 建立ods层 #将mysql 中第一张表导入hive 中的ods层/usr/bin/sqoop import "-Dorg.apache.sqoop.splitter.allow_text_splitter=true" \--connect 'jdbc:mysql://106.75.33.59:3306/nev?useUnicode=true&characterEncoding=UTF-8&autoReconn

  • Hive API2022-07-04 11:02:12

    配置MySQL 只需要在master节点上启动MySQL即可 注意需要创建hive用户,并设置MySQL远程可以访问 • mysql -hlocalhost -uroot -p123456 • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'%' IDENTIFIED BY '123456' • GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localh

  • hive 导出表到mysql2022-07-02 20:04:36

    1 在mysql 中建库 CREATE DATABASE yp_olap DEFAULT CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;   2 在presto 中建mysql的表 DROP TABLE mysql.yp_olap.test;CREATE TABLE mysql.yp_olap.test( id int comment '主键ID', create_time timestamp com

  • 第一周总结2022-07-02 19:02:49

    这周安装了 虚拟机 学习hadoop 相关知识列如  Sqoop的基本概念     Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流

  • Hive-day13 Hive各种函数分类2022-07-01 22:31:55

    Hive自定义函数UserDefineFunction UDF:一进一出 定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法

  • Hive-day14 Hive优化2022-07-01 22:31:37

    Hive优化 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more) F

  • Hive-day09 HiveJDBC2022-07-01 21:04:06

    Hive JDBC 启动hiveserver2 在使用Hive JDBC之前必须先启动客服端服务,这样用其他节点,或者idea就可以连接hive数据库,命令为: hive --service hiveserver2 & 或者 hiveserver2 & 新建maven项目并添加两个依赖 <dependency> <groupId>org.apache.hadoop</groupId>

  • hive 将查询的结果存为新表2022-07-01 20:35:56

    create table itcast_ods.tmp as SELECT count(ip) c, ip FROM itcast_ods.web_acc_info GROUP BY ip order by c desc 几种保存Hive查询结果的方法 - 又尘埃 - 博客园 (cnblogs.com)

  • hive 总结2022-07-01 18:33:33

    hive 建表 1字符串 用string  因为varchar容易中文乱码 2数值可以用int 但是后面不能加括号  int(12)类似这样   Hive 时间数据类型 - 简书 (jianshu.com)

  • 基于Hadoop与Spark的大数据开发概论2022-06-30 23:01:36

    Hadoop 什么是Hadoop? ​ Hadoop是一套开源的用于大规模数据集的分布式储存和处理的工具平台。他最早由Yahoo的技术团队根据Google所发布的公开论文思想用Java语言开发,现在则隶属于Apache基金会 Hadoop的核心组成 ​ Hadoop框架主要包括三大部分:分布式文件系统、分布式计算系统、资

  • hive加载数据的几种方式2022-06-30 15:00:31

    1.从文件中加载数据建表语句: CREATE TABLE IF NOT EXISTS `test.test1`( `user_id` int, `name` string, `address` string) row format delimited fields terminated by ','; 注意:建表的分隔符必须与文件中数据的分隔符一致,不然数据无法分割从本地加载数据:(1)load方式 load da

  • Hive-day06 Hive分区2022-06-30 09:00:42

    Hive分区 在大数据中,最常见的一种思想就是分治,我们可以把大的文件切割划分成一个个的小的文件,这样每次操作一个个小的文件就会很容易了,同样的道理,在hive当中也是支持这种思想的,就是我们可以把大的数据,按照每天或者每小时切分成一个个小的文件,这样去操作小的文件就会容易很多了。

  • linux 进入hive2022-06-30 01:00:48

    #进入beeline[root@master ~]# beeline#进入beeline后,连接10000端口beeline> !connect jdbc:hive2://192.168.152.50:10000Connecting to jdbc:hive2://192.168.152.50:10000Enter username for jdbc:hive2://192.168.152.50:10000: dwl #用户名dwlEnter password for jdbc:hive2:

  • Hive explain执行计划详解2022-06-28 16:04:48

     简介:HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助 一、EXPLAIN 参数介绍 语法 : EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] querySql EXTENDED:加上 extended 可

  • Hive-day04 Hive2022-06-26 19:02:32

    2.3 Hive表操作 Hive的存储格式: Hive没有专门的数据文件格式,常见的有以下几种(加粗为常用格式): ​ TEXTFILE ​ SEQUENCEFILE ​ AVRO ​ RCFILE ​ ORCFILE ​ PARQUET TextFile: TEXTFILE 即正常的文本格式,是Hive默认文件存储格式,因为大多数情况下源数据文件都

  • 【Hive】Hive日期和时间戳函数2022-06-25 15:04:33

    原文链接   Hive Date and Timestamp functions are used to manipulate Date and Time on HiveQL queries over Hive CLI, Beeline, and many more applications Hive supports.   The default date format of Hive is yyyy-MM-dd, and for Timestamp yyyy-MM-dd HH:mm:ss

  • Spark SQL 数据源 hive表2022-06-24 17:05:28

    Spark SQL 数据源(json文件、hive表、parquet文件) -- json 详见 524 hive表   scala> val hivecontext = new org.apache.spark.sql.hive.HiveContext(sc) warning: one deprecation (since 2.0.0); for details, enable `:setting -deprecation' or `:replay -deprecation'

  • 大数据组件之Hive安装2022-06-24 15:35:36

    目录前言一、准备二、安装Hive三、修改Hive元数据存储到mysql1、hive添加mysql驱动2、安装mysql四、hive常用命令其它命令五、Hive常见属性配置1、Hive数据仓库位置配置2、查询后信息显示配置3、Hive运行日志信息配置4、参数配置方式1)查看当前所有的配置信息2)配置参数的三种方式3)

  • Hive优化2022-06-23 21:03:06

    1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more) Fetch抓取

  • ETL工具 (二)sqoop 数据同步工具2022-06-23 20:00:07

    Sqoop简介 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具、 官网: http://sqoop.apache.org/ 版本:(两个版本完全不兼容,sqoop1使用最多) sqoop1:1.4.x sqoop2:1.99.x sqoop架构非常简单,是hadoop生态系统的架构最简单的框架。 sqoop1由client端直接接入hadoo

  • Hive2022-06-22 18:03:18

    一. hive中的数据类型   hive中的数据类型主要分为:   (1)基本数据类型     1.数值型:主要就是用来保存数字      整数型       tinyint :1字节       smallint :2字节       int    :4字节       bigint    :8字节      浮点型     

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有