ICode9

精准搜索请尝试: 精确搜索
  • Hive远程模式2022-02-27 11:01:01

    前提:hive的本地模式与内嵌模式都已经完成 1. 集群主机Hadoop的core-site.xml文件添加以下内容 <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name&

  • Hive-入门2022-02-25 22:35:55

    一、 数据仓库 1. 数据仓库的基本概念         简称DW,Data Houseware。专门存储数据,构建面向分析的集成化数据环境,主要职责是做数据分析以支持决策。 2.数据分析的特征:         面向主题:数据分析有一定的范围,需要选择一定的主题进行分析         集

  • Pig安装与部署2022-02-25 16:32:06

    什么是Pig? Pig是一种数据流语言和运行环境,常用于检索和分析数据量较大的数据集。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。 Pig与Hive的区别? Pig与Hive作为一种高级数据语言,均运行于HDFS之上,是hadoop上层的衍生架构,用于简化ha

  • 大数据培训:Hive日常操作分享2022-02-25 11:57:59

    Hive 表基本操作 1.创建表 CREATE TABLE if NOT EXISTS table_name ( column_name1 string comment '字段名的释义', column_name2 int comment '字段名的释义', column_name3 int comment '字段名的释义', column_name4 decimal(22,6) comment '字段名的释义', ... )

  • Hive笔记2022-02-25 10:34:43

    什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行

  • Hive下载安装2022-02-24 14:35:23

    一、Hive安装地址 官网地址:http://hive.apache.org/  文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted  github地址:https://github.com/apache/hive  下载地址:http://archive.apache.org/dist/hive/ 二、部署安装 把下载的apache-hive-3.1.2-

  • sqoop脚本将hive数据导入postgres中2022-02-24 10:01:53

    将hive的ads层数据导入到数据库PostgreSQL脚本 #!/usr/bin/env bash :<<! des系统ads层数据 导入PG的 TCT_DW 库 相关表: ads_cockpit_indicvalue(指标结果集) ! # 定义变量名字 #以下信息为虚构,目的是可以更好的了解命令的写法。需要修改为自己机器的适配信息 hive="/usr/b

  • Hive结合shell脚本企业实战用法2022-02-23 20:02:13

    Hive结合shell脚本企业实战用法 目录Hive结合shell脚本企业实战用法1、Linux设置定时任务2、Hive结合shell脚本使用hive -e “SQL语句”hive -f sql文件 1、Linux设置定时任务 编辑定时任务 [root@master ]#crontab -e * * * * * 第1个*:表示分钟 第2个*:表示小时 第3个*:表示星

  • hive开发中实际的日期转换函数2022-02-23 19:34:02

      日期函数 1. UNIX时间戳转日期函数: from_unixtime 语法: from_unixtime(bigint unixtime[, string format]) 返回值: string 说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式 举例: hive> select from_unixtime(1323308943,'yyyyMMdd

  • Apache Hive2022-02-23 15:32:37

    Hive 启动准备 启动hadoop start-all.sh mysql service mysqld start #建议:把mysqld服务设置为开机自启动 chkconfig mysqld on 安全模式中->等待几秒->确认不是安全模式后再下一步 启动hive服务 nohup /export/servers/hive/bin/hive --service metastore & nohup

  • HIve 常用函数2022-02-23 10:33:16

    常用HIve函数 hive日期函数 - 1、hive取得当前日期时间: -- 1.1) 取得当前日期: select current_date(); -- 1.2) 取得当前日期时间: select current_timestamp(); -- 1.3) hive取得当前时间戳: select unix_timestamp(); -- 1.4) 时间戳转日期: select from_unixtime(1517725

  • Hive里使用SQL语句创建复杂数据类型2022-02-22 22:02:01

    前言 在Hive使用过程中,有时需要通过sql语句来创建复杂数据类型,例如ARRAY、MAP、STRUCT等,甚至还有嵌套的复杂数据类型例如ARRAY[STRUCT],有必要了解一下sql语句中复杂数据类型的创建。 一、Map类型的创建 函数名称函数参数函数说明map(key1,value1,key2,value2,…)创建了一个ma

  • 10、Hive数据仓库——函数2022-02-22 18:58:50

    Hive数据仓库——函数 文章目录 Hive数据仓库——函数Hive 常用函数关系运算数值计算条件函数日期函数字符串函数 Hive 中的wordCountHive 开窗函数测试数据建表语句row_number:无并列排名dense_rank:有并列排名,并且依次递增rank:有并列排名,不依次递增percent_rank:(rank的结果

  • Hive设置map和reduce数量2022-02-22 16:31:40

    一、控制hive任务中的map数: 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 举例: a) 假设input目录下有1

  • Hive. 函数 instr 的用法2022-02-22 11:35:41

    INSTR(C1,C2,I,J) 在一个字符串中搜索指定的字符,返回发现指定的字符的位置; C1 被搜索的字符串 C2 希望搜索的字符串 I 搜索的开始位置,默认为1 J 出现的位置,默认为1 select instr("abcde",'b'); --> 2   

  • HIVE处理速度过慢2022-02-22 10:32:20

    2019/01/21下午,业务侧反馈hive处理速度过慢,目前所有涉及hive的作业都很慢,影响这些业务不能在正常时间内完成 以下实例供参考,在生产环境中运行: 在Hive客户端执行select count(*) from tableName; table1中有20w数据,跑了30S出结果; table2中有10亿数据,跑了大概30分钟出结果。 sq

  • hive中drop表效率低2022-02-21 23:04:31

    问题描述: 使用hive时,drop表很慢,一张空表都需要90s左右 检查: --------检查hive日志,无报错信息 --------检查主机资源消耗情况,正常无瓶颈 --------检查mysql日志,无错误提示 --------检查mysql慢日志(slow.log),发现在drop表时,会在元数据库中进行select,并且时间消耗接近于drop

  • Hive 高级函数----开窗函数2022-02-21 23:02:11

    目录Hive 高级函数----开窗函数测试数据建表语句一、排列函数row_number:无并列排名dense_rank:有并列排名,并且依次递增rank:有并列排名,不依次递增percent_rank:(rank的结果-1)/(分区内数据的个数-1)cume_dist:计算某个窗口或分区中某个值的累积分布。NTILE(n):对分区内数据再分成n组,然

  • hive小案例-综合开窗函数、判断语句、日期转换、时间均值计算2022-02-21 22:59:54

    内容目录 一、介绍数据二、ER模型三、思路梳理四、问题解决五、总sql编写六、运行结果展示 需要完成的事情:一张全量表,计算任务七天平均开始结束时间 一、介绍数据 数据表为一个全量同步表,分区是按照日期,里面有每个任务开始时间、结束时间、开始时间总秒数(到凌晨总秒

  • 使用 Apache Kylin 中遇到的问题汇总2022-02-21 21:34:49

    文章目录 问题1问题2问题3问题4问题5 问题1 安装启动 kylin 时报出现 Please make sure the user has the privilege to run hbase shell 没有在 /etc/profile 中配置 HBASE_HOME 环境变量 问题2 在构建 cube 时,出现 org.apache.kylin.engine.mr.exception.MapReduceEx

  • Hive教程(03)- Hive数据模型2022-02-21 17:04:59

    文章目录 01 引言02 hive数据模型2.1 DataBase数据库2.2 Table表2.2.1 内部表2.2.2 外部表 2.3 Partition分区2.3.1 Partition分区例子 2.4 Bucket桶2.5 分区与分桶的区别 03 文末 01 引言 在前面的教程,已经把Hive环境搭建起来了,有兴趣的同学可以参阅: 《Hive教程(01)- 初识

  • pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_pro2022-02-21 15:37:45

    解决  pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_promotion` 第一步:启动 hive的metastore元数据服务 hive --service metastore 第二步:配置hive的元数据 conf = SparkConf() # 创建spark config 对象 config =

  • 看SparkSql如何支撑企业数仓2022-02-21 12:31:58

    企业级数仓架构设计与选型的时候需要从开发的便利性、生态、解耦程度、性能、 安全这几个纬度思考。本文作者:惊帆 来自于数据平台 EMR 团队 前言 Apache Hive 经过多年的发展,目前基本已经成了业界构建超大规模数据仓库的事实标准和数据处理工具,Hive 已经不单单是一个技术组件,而

  • StreamSets实战之路-21-实战篇- 如何使用StreamSets从MySQL增量更新数据到Hive2022-02-21 12:03:41

    1.文档编写目的 通过StreamSets实现数据采集,在实际生产中需要实时捕获MySQL、Oracle等其他数据源的变化数据(简称CDC)将变化数据实时的写入大数据平台的Hive、HDFS、HBase、Solr、Elasticserach等。本篇文章主要介绍如何使用使用StreamSets通过JDBC的方式实时抽取增量数据到Hi

  • windows下Hive搭建踩坑汇总2022-02-21 10:00:38

    前言:         Hive是一个基于Hadoop的数据仓库工具,以一种类SQL的HQL语句操作Hadoop数据仓库(HDFS等)。所以本地windows安装前需要先搭建Hadoop。前面文章已经大概介绍了环境搭建和踩坑汇总,所以这里也依旧只是介绍基础的安装方法。因为关于Hive的安装,网上其实有很多文章,这里更

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有