ICode9

精准搜索请尝试: 精确搜索
首页 > 数据库> 文章详细

Presto、Spark SQL、Hive的比较

2021-12-07 13:02:42  阅读:226  来源: 互联网

标签:Presto 数据源 MapReduce Hive 查询 SQL Spark


一、Presto

     Presto是Facebook开源的,完全基于内存的并⾏计算,分布式SQL交互式查询引擎是它被设计用来专门处理高速,实时的数据分析。Presto本身不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。
与MySQL对比:MySQL首先是一个单点关系型数据库,其具有存储和计算分析能力,而Presto只有计算分析能力;在数据量方面,MySQL不能满足当前大数据量的分析需求,在这样的背景下,Facebook开发出Presto这样一个可以满足大数据量分析需求的工具。

    Presto只有计算分析能力但可以连接多种数据源,包括Hive,Oracle,MySQL,Kafka,MongoDB,Redis等,并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。

    Presto是一个低延迟高并发的内存计算引擎,相比Hive,执行效率要高很多。

    擅长:

    1、 轻量快速,支持近乎实时的查询

    2、Facebook内部广泛使用,有好的扩展性和稳定性

    3、和impala同样使用分布式查询引擎,和传统的Mapreduce相比,消除了延迟和磁盘IO开销

    4、有完善的文档

二、Hive
     Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
     Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
     Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式

Hive执行HQL语句有以下三种方式:

1:直接命令行执行SQL语句:hive -e "select from table…

2:执行HQL文件中的语句:hive -f temp.hql

3:打开调试模式:hive --hiveconf

优点:

   运行在Mapreduce框架之上,非常好的支持用户自定义函数,可以方便的和hbase等系统结合使用。

缺点:

   拥有MapReduce所有缺点,包含昂贵的Shuffle操作和磁盘IO操作,不支持多个reduce操作group by和order by查询,对比相关竞品查询速度较慢

三、Spark SQL

     SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,我们上面提到,Hive是基于hadoop之上的一个开源的工具,提供的就是类似于SQL的一种HQL语言,它的好处就是可以直接把你的SQL语句转换成mapreduce作业,然后提交在集群上运行,好处就是我们不需要基于mapreduce的api进行编程,只需要写SQL语句就能完成大数据的统计和分析。
在上面我们提到,Hive是把SQL翻译成MapReduce作业,所以底层还是基于MapReduce,那么MapReduce框架的缺点就是效率太低,那么这样的话我们Hive的效率肯定不会高,对于批处理的作业Hive进行实现的话,如果很大的话,耗时会很时间,甚至十几个小时。

那么如何改进呢?
    方法就是换掉底层的执行引擎,后来就产生的TEZ还有Spark这些底层的执行引擎,也就是说Hive可以跑在TEZ、SPARK上面。 后来慢慢发展就推出了Spark,Spark是一个基于内存的分布式计算框架,他的执行效率比MapReduce提高了很多!

    Spark SQL的一大用处就是执行SQL查询语句,Spark SQL也可以用来从Hive中读取数据,当我们使用其它编程语言来运行一个SQL语句,结果返回的是一个Dataset或者DataFrame,可以使用命令行,JDBC或者ODBC的方式来与SQL进行交互。

四、三者对比

   Hive是一个数据仓库,是一个交互式比较弱一点的查询引擎,交互式没有presto那么强,而且只能访问hdfs的数据;
   Presto是一个交互式查询引擎,可以在很短的时间内返回查询结果,秒级,分钟级,能访问很多数据源;
   Hive在查询100Gb级别的数据时,消耗时间已经是分钟级了;但是Presto是取代不了Hive的,因为Presto全部的数据都是在内存中,限制了在内存中的数据集大小,比如多个大表的join,这些大表是不能完全放进内存的,实际应用中,对于在Presto的查询是有一定规定条件的,比如说一个查询在Presto查询超过30分钟(此时适合在SparkSQL运行),那就kill掉吧,说明不适合在Presto上使用,主要原因是,查询过大的话,会占用整个集群的资源,这会导致你后续的查询是没有资源进行查询的,这跟Presto的设计理念是冲突的,就像是你进行一个查询,但是要等个5分钟才有资源继续查询,这是很不合理的,交互式就变得弱了很多。

    因此 ,在数据源的级联查询时,用Presto写SQL语句进行查询。在进行简单的数据查询时,可以用HQL进行建表,查询,关联等。当数据量较大时,可用SparkSQL进行建表,查询,关联等。

 

 

 

 

     

标签:Presto,数据源,MapReduce,Hive,查询,SQL,Spark
来源: https://www.cnblogs.com/xuzhujack/p/15655319.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有