hive数仓常见面试题2021

2021-10-22 10:03:11 阅读：305 来源： 互联网

标签：数仓面试题函数 TOP10 hive 2021 排序数据 order

1|0面试题：

hive 内部表和外部表的区别？
hive 是如何实现分区的？
Hive 有哪些方式保存元数据，各有哪些优缺点？
hive中order by、distribute by、sort by和cluster by的区别和联系
hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？
hive 如何优化？

2|0hive 内部表和外部表的区别？

未被external修饰的是内部表（managed table），被external修饰的为外部表（external table）；
内部表数据由Hive自身管理，外部表数据由HDFS管理；
内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除；
对内部表的修改会将修改直接同步给元数据，而对外部表的表结构和分区进行修改，则需要修复（MSCK REPAIR TABLE table_name;）
修改外部表想要生效，需要先把外部表转内部表，然后修改，再转外部表。

3|0hive 是如何实现分区的？

建表语句：
create table tablename (id) partitioned by (dt string)
增加分区：
alter table tablenname add partition (dt = ‘2016-03-06’)
删除分区：
alter table tablename drop partition (dt = ‘2016-03-06’)

4|0Hive 有哪些方式保存元数据，各有哪些优缺点？

存储于 derby数据库，此方法只能开启一个hive客户端，不推荐使用
存储于mysql数据库中，可以多客户端连接，推荐使用

5|0hive中order by、distribute by、sort by和cluster by的区别和联系

order by
order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样，它只在一个reduce中进行所以数据量特别大的时候效率非常低。
而且当设置：set hive.mapred.mode=strict的时候不指定limit，执行select会报错，如下：
LIMIT must also be specified。

sort by
sort by 是单独在各自的reduce中进行排序，所以并不能保证全局有序，一般和distribute by 一起执行，而且distribute by 要写在sort by前面。
如果mapred.reduce.tasks=1和order by效果一样，如果大于1会分成几个文件输出每个文件会按照指定的字段排序，而不保证全局有序。
sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响。

distribute by
DISTRIBUTE BY 控制map 中的输出在 reducer 中是如何进行划分的。使用DISTRIBUTE BY 可以保证相同KEY的记录被划分到一个Reduce 中。

cluster by
distribute by 和 sort by 合用就相当于cluster by，但是cluster by 不能指定排序为asc或 desc 的规则，只能是升序排列。

6|0hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别？

TextFile：默认格式，数据不做压缩，磁盘开销大，数据解析开销大

SequenceFile：Hadoop API提供的一种二进制文件支持，使用方便，可分割，可压缩，支持三种压缩，NONE，RECORD，BLOCK。

RCFILE：是一种行列存储相结合的方式。首先，将数据按行分块，保证同一个 record 在同一个块上，避免读一个记录读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。数据加载的时候性能消耗大，但具有较好的压缩比和查询响应。

7|0hive 如何优化？

join 优化，尽量将小表放在 join 的左边，如果一个表很小可以采用 mapjoin。
排序优化，order by 一个 reduce 效率低，distirbute by +sort by 也可以实现全局排序。
使用分区，查询时可减少数据的检索，从而节省时间。

8|0# 海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10

方案1:
a) 在每台电脑上求出TOP10，可以采用包含10个元素的堆完成(TOP10小，用最大堆，TOP10大，用最小堆)。
b) 比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。
c) 最后堆中的元素就是TOP10大
方案2
a) 求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10组合起来，共1000个数据
b) 再利用上面类似的方法求出TOP10就可以了。

9|0row_number()、rank()、dense_rank() 区别

ROW_NUMBER()函数作用就是将select查询到的数据进行排序，每一条数据加一个序号，他不能用做于学生成绩的排名，一般多用于分页查询。
RANK()函数，顾名思义排名函数，可以对某一个字段进行排名，这里为什么和ROW_NUMBER()不一样那，ROW_NUMBER()是排序，当存在相同成绩的学生时，ROW_NUMBER()会依次进行排序，他们序号不相同，而Rank()则不一样出现相同的，他们的排名是一样的。
DENSE_RANK()函数也是排名函数，和RANK()功能相似，也是对字段进行排名。

10|0hive 开窗函数有哪些？

开窗函数一般用于数据分析，计算基于组的某种聚合值。
跟聚合函数的区别在于：对于每个组返回多行，而聚合函数对于每个组只返回一行。
开窗函数指定了分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变化而变化！
基础结构：分析函数（如:sum(),max(),row_number()...） + 窗口子句（over函数）
例如：sum() over(partition by user_id order by order_time desc)
over函数写法： over（partition by cookieid order by createtime）先根据cookieid字段分区，相同的cookieid分为一区，每个分区内根据createtime字段排序（默认升序）
注：不加 partition by 的话则把整个数据集当作一个分区，不加 order by的话会对某些函数统计结果产生影响，如sum()

分析函数有：avg(),min(),max(),sum()
排序函数：row_number(), rank(), dense_rank()

__EOF__

标签：数仓,面试题,函数,TOP10,hive,2021,排序,数据,order
来源： https://blog.csdn.net/weixin_43231331/article/details/120896626

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9