ICode9

精准搜索请尝试: 精确搜索
  • hive优化数据倾斜2022-05-08 17:34:22

    hive数据倾斜产⽣的原因数据倾斜的原因很⼤部分是join倾斜和聚合倾斜两⼤类⼀、Hive倾斜之group by聚合倾斜原因:  分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久;  对⼀些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进⾏group by的

  • 大数据Hadoop之——搭建本地flink开发环境详解(window10)2022-05-08 17:31:42

    目录一、下载安装IDEA二、搭建本地hadoop环境(window10)三、安装Maven四、新建项目和模块1)新建maven项目2)新建flink模块五、配置IDEA环境(scala)1)下载安装scala插件2)配置scala插件到模块或者全局环境3)创建scala项目4)DataStream API配置1、Maven配置2、示例演示5)Table API & SQL配置1、

  • hive常用命令2022-05-08 15:34:04

    1、进⼊hive数据库:hive2、查看hive中的所有数据库:show databases;3、⽤default数据库:use default;4、查看所有的表:show tables;5、查询表结构:desc mytest(表名);6、查询表数据: select * from mytest(表名);7、创建数据库:hive> CREATE SCHEMA userdb;8、验证数据库表:hive> SHOW DATABASE

  • 7. Spark SQL2022-05-08 13:03:34

    1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因   hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的根本原因是其完全脱离了hive的限制,hive是hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序复杂性。同时也由

  • hive3.1.2版本的安装2022-05-07 23:05:44

    Hive环境搭建 说明: 因为之前写的hive2.3.6版本是基于hadoop2.7的,但是hadoop更新到hadoop3.2版本之后,再使用原来的版本就存在一些问题。 于是怀疑是hive版本与hadoop版本不兼容造成的,于是下载了hive3.1.2,完整的走了一遍,具体步骤参照如下教程。 (原来的hive2.3.6版本的教程应该也是可

  • Hive源码解析环境搭建2022-05-07 20:01:30

    一、准备工作 1.1  下载地址 https://github.com/apache/hive https://dlcdn.apache.org/hive/ 版本:2.3.9 1.2 环境依赖 hadoop2.x mysql maven java8 1.3 Idea插件 需要在idea中搜索安装ANTLR插件   二、本地编译运行 2.1 编译 mvn clean package -DskipTests -Pdist 2.2 配置h

  • hive常用基础函数2022-05-07 18:31:54

    第一次接触hive sql,听说与标准的sql是差不多的,但是在实际使用过程当中发现还是有差别,特做记录。 日期函数 date_sub(date, int1):返回日期date减去int1的日期 【input:date_sub('2021-11-15', 1);output:'2021-11-14'】 ps:与mysql中的date_sub函数语法是不一样的 「干货」5分钟了解h

  • 7. Spark SQL2022-05-07 12:36:33

    1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。 SparkSQL出现的原因:    SparkSQL的前身Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。 SparkS

  • hive多行转多列2022-05-07 07:32:13

    查看:https://blog.csdn.net/cwfreebird/article/details/91355730 方案一: sum case when select brand, max(case when area_name='东北' then total_price_actual else 0 end) db_price, max(case when area_name='华北' then total_price_actual else 0 end

  • 替换Hive引擎为Spark2022-05-07 03:01:51

    写在前面 必须要先保证hadoop是正常启动的,hadoop安装配置见《CentOS7安装Hadoop集群》 HIVE是正常的,Hive安装配置见《CentOS7安装Hive》 Spark是正常的,Spark安装配置见《CentOS7安装Spark集群(yarn模式)》 其它配置 HDFS创建以下路径,用于存储相关jar包 解压缩spark-3.0.0-bin-wit

  • CDH升级到CDP大数据集群碰到的问题解析2022-05-05 20:04:06

    一、背景   2019 年,Cloudera 与 Hortonworks 合并后,彻底完成了转型。Cloudera 果断宣布,对 CDH 和 HDP 两条产品线将仅支持到 2022 年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台 CDP (Cloudera Data Platform)。2022 年后,原 CDH 和 HDP 用户会被转移到 C

  • Hive SQL语句大全2022-05-05 10:33:17

    库操作 创建数据库 -- 创建一个数据库,在HDFS上的默认路径为/user/hive/warehouse/*.db create database mydatabase; -- 可以使用if exists判断数据库是否已存在(存在则不创建) create database if not exists mydatabase; -- 创建一个数据库,并指定其存放路径 create database m

  • docker快速搭建hive环境2022-05-04 19:09:33

    一、安装docker 二、安装docker-compose 两种最新的docker安装方式 1.从github上下载docker-compose二进制文件安装1.1下载最新版的docker-compose文件 sudo curl -L https://github.com/docker/compose/releases/download/1.16.1/docker-compose-`uname -s`-`uname -m` -o /usr/l

  • Hive教程2022-05-03 09:03:07

    Hive概述 前边已经搭建好了hive,也通过cli登录上了hive,那我们来简单说一下hive Hive概念 Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,也可

  • 【Hadoop】9、Sqoop组件2022-04-30 13:34:37

    目录Sqoop组件安装与配置1、使用xftp将软件包上传到/opt/software2、部署sqoop(在master上执行)3、启动sqoop集群(在master上执行)4、连接hive配置(在master上执行)5、在Hive中创建sample数据库和student数据表6、从MySQL导出数据,导入Hive7、将数据从hive中导出到mysql数据库中(在m

  • Hive 避免小文件2022-04-29 14:31:08

    set mapred.max.split.size=256000000; set mapred.min.split.size.per.node=100000000;set mapred.min.split.size.per.rack=100000000;set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;set hive.merge.mapfiles = true;set hive.merge.mapredfi

  • hive中文注释乱码解决方法2022-04-29 12:01:35

    hive中文注释乱码解决方法 注意:如果hive-site.xml文件里面默认配置的是UTF-8格式,可以省略一二步 第一步:进入hive安装目录下面的conf目录,修改hive-site.xml文件 cd /opt/module/hive/conf vim hive-site.xml 第二步:修改以下内容 <property>   <name>javax.jdo.option.Connecti

  • 开发一个不需要重写成Hive QL的大数据SQL引擎2022-04-29 11:33:48

    摘要:开发一款能支持标准数据库SQL的大数据仓库引擎,让那些在Oracle上运行良好的SQL可以直接运行在Hadoop上,而不需要重写成Hive QL。 本文分享自华为云社区《​​​​​​​​​​​​​​从零开发大数据SQL引擎》,作者:JavaEdge 。 学习大数据技术的核心原理,掌握一些高效的思考和思维

  • hive分区值含有字符的处理2022-04-28 15:32:28

    1、起因 按照time(正常格式yyyy-MM-dd HH:mm:ss)去决定dt分区, 但是没想到time有300多条异常格式,导致落dt分区时有以下两种错误形式: dt=%255B....%255B.... dt=%5B....%5B.... 2、处理 dt=%255B....%255B.... 将%25替换为%即可,然后执行alter drop partition dt=%5B....%5B....

  • Hive中的一些时间函数简记2022-04-28 15:02:52

    Hive日期时间函数 在impala上执行的几种结果,供参考 select to_date(concat(substr(from_unixtime(unix_timestamp(),'yyyy-MM-dd'),1,8),'01')) select current_timestamp() --2022-04-28 14:37:24.777441000 select unix_timestamp() -- 1651128042 select from_unixti

  • 7.Spark SQL2022-04-26 21:00:57

    1.请分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。   Shark提供了类似于Hive的功能,与Hive不同的是,Shark把SQL语句转换成Spark作业,而不是MAPreduce作业。为了实现Hive的兼容,Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为,Sark仅

  • 记一次hive提交spark任务报错2022-04-26 11:36:29

    hive提交spark报错 报错内容 Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed

  • 040.mysql-datax从hive导入mysql报错:(表情包字符)java.sql.SQLException: Incorrect string value: '\xF0\x9F2022-04-25 19:35:39

    040.mysql-datax从hive导入mysql报错:(表情包字符) java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x87\xF0\x9F...' for column 'member_name   解决方法 :jdbc链接添加配置  ?com.mysql.jdbc.faultInjection.serverCharsetIndex=45   - name: exp_ads_t

  • Hive3.1.2安装指南2022-04-25 16:35:26

    Hive3.1.2安装指南 1、安装Hive3.1.2 首先需要下载Hive安装包文件, Hive官网下载地址 #解压安装包 hadoop@hadoop-master:~$ sudo tar xf apache-hive-3.1.2-bin.tar.gz -C /usr/local/ hadoop@hadoop-master:~$ cd /usr/local/ hadoop@hadoop-master:/usr/local$ sudo mv apache-h

  • shells/hive.sh2022-04-13 10:03:01

      1 #!/bin/bash 2 function hive_stop(){ 3 pid=$(ps ax | grep "hive") 4 kill $pid || echo "hive服务关闭" 5 } 6 case $1 in 7 "start"){ 8 echo "__________启动hive__________" 9 /opt/module/hive/bin/hive

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有