面试总结
1.面试以项目为开始展开,不断深入,从项目的背景一直介绍到项目用到的技术原理。会不断的问为什么
2.考察底层原理
3.语言表达能力很重要,需要把原理背景说清楚
下面是题目,欢迎大家把想到的答案写在评论区一起讨论
题目:
- 简单介绍一下数仓的业务场景
- 数仓分为4层,共有多少个主题?分别是什么?为什么分成这3个主题而不是更多?因为电商场景是
- 那你个人的一些项目呢?
- 数仓为什么分成这4层?
- o d s 层存储源数据有什么特别之处吗?
- 为什么在ods层是TextFile格式,不能用Parquet?
- 我的意思是说,为什么ods会选择textile 这种方式去存储。不能直接用parquet或者其他更好的格式?
- 数据接入的方式是用Load Data是吗?(反问的语气)
- ods还有什么特别之处吗?比如说内部表还是外部表?
- DWD层除了存放日志中的关键信息,更多应该存放什么数据
- dws层和ads层有什么区别
- 两者的本质的区别是什么?
- 数仓为什么要这么分层
- 还有吗?发散一下想一想为什么这么分层?就比如说我不这么分层的行不行?不行的原因是什么?
- 为什么分层以后便于管理维护?
- 数仓理论建模,什么是维度建模?
- 一句话总结什么是维度建模
- 维度建模的模型有哪些?都是什么?适用什么场景?
- .配置的计算引擎使用的是spark还是mr? 为什么Spark或Tez会比MR快?
- .配置的话是用yarn-cluster模式还是yarn-client模式?
- 一个SPARK任务在Yarn-cluster模式下的运行流程?都跟哪些关键节点进行交互,分别承担了哪些职责
- driver启动的节点是由谁分配给它的,在哪个节点启动driver
- yarn,spark,hive界限是什么?
- .在任务调度上有什么调优空间吗?yarn?
- .spark任务的调优方法?.
- SQL调优,去重不用count distinct 而是group by 底层原理是什么?
- .dsitribute by,cluster by, sort by 还有orderby 4个排序的区别
- .kafka发布/订阅模式有什么优点和缺点?
- .其他的MQ有哪些消费模式
- .hive执行过程中数据倾斜是什么?数据倾斜的底层原理是什么?有哪几种倾斜的类型,比如MAP,Join,reduce的倾斜,这三种了解吗?还有其他过程的倾斜?
- JVM的主要组成部分和作用
- 堆、栈和队列的区别是什么?
- java的垃圾回收机制
- 什么对象可以被回收
- .从本质上讲一下老年代和新生代
- .什么时候垃圾回收机制去检查?
- .java会存在内存泄漏吗?是如何发生内存泄漏的,一般如何处理这种情况
- .java中什么是深拷贝和浅拷贝?
标签:总结,为什么,倾斜,数仓,什么,建模,面试,分层 来源: https://blog.csdn.net/weixin_38813363/article/details/111402873
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。