ICode9

精准搜索请尝试: 精确搜索
  • |NO.Z.00069|——————————|BigDataEnd|——|Hadoop&PB级数仓.V03|---------------------------------------|PB数仓.v2022-04-11 19:34:57

    [BigDataHadoop:Hadoop&PB级数仓.V03]                                      [BigDataHadoop.PB级企业电商离线数仓][|章节三|Hadoop|元数据管理工具Atlas:Hive血缘关系导入|]一、Hive血缘关系导入### --- 配置HIVE_HOME环境变量; ~~~ 将atlas服务下atlas-ap

  • hive组建2022-04-08 17:00:07

    在所有节点执行: su - hadoop jps #要在master上看到NameNode、Secondarynamenode、ResourceManager三个进程,要在slave1、slave2上看到DataNode、Nodemanager进程 若进程没运行输入以下命令: start-all.sh #在master上部署mysql服务器 yum -y install unzip cd software/ unzip mys

  • 执行spark任务时报错Table or view 'test' not found in database 'test_1'2022-04-08 11:34:12

    执行数据入hive的spark任务时报错: org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view 'test' not found in database 'test_1'; 解决问题: 原因:部署环境的spark目录下conf里hive-site.xml文件没有更新,导致找不到数据库。 办法:将hive的conf目录中的hive-

  • 【hive 自定义函数种类】2022-04-06 15:02:39

    根据用户自定义函数类别分为以下三种: (1)UDF(User-Defined-Function) 一进一出 (2)UDAF(User-Defined Aggregation Function) 聚集函数,多进一出 类似于:count/max/min (3)UDTF(User-Defined Table-Generating Functions) 一进多出 如 lateral view explode()

  • 关于在hive任务中number of reducers的探讨2022-03-30 15:03:30

    ​​ 1.在默认情况下(set mapreduce.job.reduces=-1),实际运行计算过程中reducer的数量会由所读取文件的大小来决定。文件默认大小是256M,即每256M对应一个reduce。比如当文件大小为1G时,会启用4个reducer处理数据;当文件大小为400M时,会启用2个reducer来处理。 2.在进行分区或者sort by

  • Apache Impala架构解析及与Hive、SparkSQL的性能比较2022-03-29 10:31:27

    一、Impala介绍 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是

  • 2.3.12 hadoop体系之离线计算-Hive数据仓库-HIVE的严格模式2022-03-21 19:01:59

    目录 1.写在前面 2.参数设置 3.分别解释 1.写在前面         最近在写一个sql,碰见一个报错,内容如下: Error while compiling statement: FAILED: SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please seth

  • Hive常用函数 - abs2022-03-21 12:07:04

    Hive常用函数 - abs 官方解释 abs(x) - returns the absolute value of x 个人理解 就是返回函数括号内数字的绝对值。 想要获取该数的绝对值的时候就用这个函数没错 使用示例 select abs(-1); > 1 官方示例 abs(x) - returns the absolute value of x Example: > SELECT

  • 大数据笔记--Hive(第四篇)2022-03-20 20:58:48

    目录 一、join 1、概述 2、案例 二、查询和排序 1、having 2、排序 三、beeline 1、概述 2、步骤 四、文件格式 1、概述 2、orc 五、基本架构 六、优化 1、Fetch值修改 2、map side join 3、启用严格模式 4、JVM重用 一、join 1、概述 在Hive中,同MySQL一样,提供了多表的连接查询

  • HIVE:2022-03-18 17:09:02

    my_cluster.sh start(1-标准输出,2-错误输出,2>&1 : 表示将错误重定向到标准输出上,&: 放在命令结尾,表示后台运行)nohup hive --service metastore 1>/opt/module/hive-3.1.2/logs/metastore.log 2>&1 &nohup hive --service hiveserver2 1>/opt/module/hive-3.1.2/logs/hiveSercer

  • hive的jdbc操作2022-03-10 15:32:06

    源码 package com.zc.hive; import java.sql.*; public class HiveJDBCTest { public static void main(String[] args) throws ClassNotFoundException, SQLException { String driver="org.apache.hive.jdbc.HiveDriver"; //驱动

  • Hadoop+Hive2022-03-10 14:05:36

    前言: 在按照自己之前的文档搭建Hadoop和hive时遇到不少的问题,特此记录。 参考博客: Flink1.10集群环境搭建 - 萘汝 - 博客园 (cnblogs.com) CentOS7下构建SQL引擎 - 萘汝 - 博客园 (cnblogs.com) CentOS7下搭建Hadoop分布式集群 Hadooop集群规划 服务器IP hadoop01 hadoop02 had

  • 07-Hive2022-03-08 22:31:50

    一、Hive 1、简介 Hive是一个数据仓库软件。 Hive主要使用HQL(类sql)来分析已经存储在分布式设备(HDFS)上的数据! Hive的本质是将用户编写的HQL,转换为MR程序,对数据进行分析! Hive分析的数据必须是结构化的数据,在分析之前,用户需要对数据创建表结构! Hive的表结构(shema)存储在关系型数据

  • 图解大数据 | 海量数据库查询-Hive与HBase详解2022-03-08 19:02:21

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/172 声明:版权所有,转载请联系平台与作者并注明出处 1.大数据与数据库 1) 从Hadoop到数据库 大家知道在计算机领域,关系数据库大量用于数据存储和维护的场景。

  • 图解大数据 | 实操案例-Hive搭建与应用案例2022-03-08 18:31:17

    作者:[韩信子](https://github.com/HanXinzi-AI)@[ShowMeAI](http://www.showmeai.tech/) [教程地址](http://www.showmeai.tech/tutorials/84):http://www.showmeai.tech/tutorials/84 [本文地址](http://www.showmeai.tech/article-detail/171):http://www.showmeai.tech/article

  • Hudi-通过Hive查询hudi表数据2022-03-03 22:02:45

    环境准备 集成jar包:hudi-hadoop-mr-bundle-0.10.1.jar,放入$HIVE_HOME/lib目录下 建外部表 create database db_hudi; use db_hudi; CREATE EXTERNAL TABLE IF NOT EXISTS tbl_hudi_didi( order_id BIGINT, product_id INT, city_id INT, district INT, co

  • hive 计算每个用户的受欢迎程度2022-03-03 12:33:34

    查找每个用户在Facebook上的受欢迎程度百分比。受欢迎程度百分比定义为:用户拥有的朋友总数除以平台上的用户总数,然后乘以100转换成一个百分比。 输出每个用户及其受欢迎程度百分比。按用户id升序排列。 “id1”和“id2”列是成对的朋友。表如下: id1 id2 1 2 1

  • fusioninsight HD连接hive2022-03-02 13:58:35

    安全模式 windows环境下连接: 我使用的是pyhive连接方式,还需下载sasl包(本地下载不下来,要到指定网站去下),连接hiveserver一直报错: from pyhive import hive conn = hive.Connection(host='172.23.44.2', port=21066, username='hengtian', database='default', auth='KERBEROS'

  • hive 遍历字符串2022-03-02 13:00:22

    需求 遍历字符串,并以一个字符一行的形式显示出来,如遍历"a,b,c,d,e,f"字符串,使其每个字符都生成一行记录; 思路分析 在hive中可以借助posexplode()函数对数组结构的数据进行(xing)行(hang)转列,并对数组中每一位都生成一个索引值.该函数强大之处就是为数组中每一位生成索引。进而借助

  • bucketId out of range: -1 (state=,code=0)2022-03-02 10:34:03

    hive select * from table 出现如上报错 背景 集群为cdp ,hive版本为3.1 集群最开始安装了hive 和tez 没有安装hive on tez。后面发现select count(1)的时候没有启动tez 最后是 hive 不安装 hiveserver2  hive on tez 安装了   另外 这个版本的hive有时候是建外表的,有时候

  • CRM进入大数据层级里的数据库2022-03-01 20:00:38

    进入hive   1、登陆69服务器   (106.128.37.69 hadoop hadoop)   2、sit进入hive中的卡户人表(进去数据库的层级)(用beeline链接hive:beeline是hive0.11版本引入的新命令行客户端工具)   cd /data/serves/spark-2.4. 4-bin-hadoop2.7/bin/. /beeline ! connect jdbc:hive2: //had

  • Spark-submit报错:Failed to get database default, returning NoSuchObjectException2022-03-01 19:33:31

    今天在用spark-submit运行hdfs上传的文件的时候报错Failed to get database default, returning NoSuchObjectException,因为其中需要用到hive,但是我的spark里面没有配置hive,所以需要重新给spark配置一下hive 1、把hive配置的hive-site.xml (hive/conf/hive-site.xml)文件拷贝到 spar

  • hive 取第二高指标的两种解决思路2022-02-28 17:04:11

    需求 平时工作中经常会遇到取某某指标第 n 个的需求,今天介绍下取 这样需求的两种思路 数据准备 select *from temp_shop_info where shop_id = '111'; 111 1 90 111 2 80 111 3 50 111 4 70 111 5 20 111 6 10 最后一个字段是金额,今天就

  • 设置hive 参数2022-02-28 17:00:03

    set hive.execution.engine=mr; set mapreduce.map.memory.mb=4096; set mapreduce.reduce.memory.mb=8192; set hive.support.concurrency=false; set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.parti

  • 1.大数据概述2022-02-27 13:01:49

    一,列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系,以图呈现并加以文字描述。       1 、HDFSHadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop项目的两大核心之一,是针对谷歌文件系统(Google File SystemGFS)的开源实现。HDFS具有处理超大数

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有