hadoop解决数据倾斜的方法

2020-06-16 11:52:50 阅读：209 来源： 互联网

标签：倾斜数据量自定义 reduce hadoop key mr 解决聚合

1，如果预聚合不影响最终结果，可以使用conbine，提前对数据聚合，减少数据量。

2，使用2次mr的方式。第一次mr，在map输出是给key加上一个前缀，则可以把相同的key分配到不同的reduce聚合，可以实现同一个key数据量大的问题；第二次mr对把第一次mr输出的数据的key去掉前缀，在聚合。

3，增加reduce个数，提示并行度。

4，自定义分区，自定义散列函数，把数据均匀分配到不同reduce。

标签：倾斜,数据量,自定义,reduce,hadoop,key,mr,解决,聚合
来源： https://www.cnblogs.com/gaoshanmuxue/p/13140164.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

hadoop解决数据倾斜的方法