标签:phone1 自定义 分区 Partition partition Partitioner ReduceTask
默认分区
默认分区是根据key的hashCode对ReduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。
自定义分区
(1)自定义类继承Partitioner, 重写getPartition() 方法
(2)在Job驱动中,设置自定义Partitioner
(3)自定义Patition后,要根据自定义Partitioner的逻辑设置相应数量的ReduceTask
分区总结
(1)如果ReduceTask的数量 > getPartition的结果数,则会多产生几个空的输出文件(这样会浪费资源)。
(2)如果 1 < ReduceTask 的数量 < getPartition的结果数, 则有一部分分区数据无处安放,会报异常。
(3)如果ReduceTask的数量 = 1, 则不管MapTask端输出多少个分区文件,最终结果都交给这一个ReduceTask,最终也就只会产生一个结果文件part-r-00000;
(4)分区号必须从零开始,逐一累加。
例子:
自定义
1 import org.apache.hadoop.io.Text; 2 import org.apache.hadoop.mapreduce.Partitioner; 3 4 public class ProvincePartitioner extends Partitioner<Text, FlowBean> { 5 /** 6 * @param text the key to be partioned. 7 * @param flowBean the entry value. 8 * @param numPartitions the total number of partitions. 9 * @return the partition number for the <code>key</code>. 10 */ 11 @Override 12 public int getPartition(Text text, FlowBean flowBean, int numPartitions) { 13 14 //text 是手机号 15 String phone = text.toString(); 16 17 // 去前三位 18 String phone1 = phone.substring(0, 3); 19 20 int partition; 21 if ("136".equals(phone1)) { 22 partition = 0; 23 } else if ("137".equals(phone1)) { 24 partition = 1; 25 }else if ("138".equals(phone1)) { 26 partition = 2; 27 }else if ("139".equals(phone1)) { 28 partition =3; 29 }else { 30 partition = 4; 31 } 32 return partition; 33 } 34 }
设置分区数
// 设置分区数, 5个 job.setPartitionerClass(ProvincePartitioner.class); job.setNumReduceTasks(5);
结果
标签:phone1,自定义,分区,Partition,partition,Partitioner,ReduceTask 来源: https://www.cnblogs.com/xiao-wang-tong-xue/p/16507968.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。