汇总三个文件中的内容

2021-10-06 14:02:28 阅读：121 来源： 互联网

标签：文件 val scala 汇总 zkpk 三个 ._ line txt

环境：Spark Yarn-Cluster模式下

要求:将三份文件中的内容读取并合并，格式：学号，姓名，大数据成绩，Hadoop成绩，总成绩，平均分

一、启动集群，关闭安全模式，进入spark-shell

[zkpk@master ~]start-dfs.sh
[zkpk@master ~]start-yarn.sh
[zkpk@master ~]xcall.sh
[zkpk@master ~]hdfs dfsadmin -safemode leave
[zkpk@master ~]cd spark
[zkpk@master spark]bin/spark-shell

二、准备文件，上传到HDFS上

[zkpk@master ~]hdfs dfs -put /home/zkpk/student1.txt /user/zkpk

上传命令：hdfs dfs -put /文件所在路径 /上传到的路径

三、创建RDD（读取文件）

scala >  val student = sc.textFile("./student1.txt")
scala >  val bigdata = sc.textFile("./result_bigdataPaltform1.txt")
scala >  val hadoop = sc.textFile("./result_hadoopTraining1.txt")

四、通过map函数将读取到的RDD进行切分

student1.txt文件中提取学号和姓名，另外两个文件中提取学号和成绩：

scala >  val m_student = student.map{x=>val line=x.split("\t");(line(0),line(1))}
scala >  val m_hadoop = hadoop.map{x=>val line=x.split("\t");(line(0),line(2))}
scala >  val m_bigdata = bigdata.map{x=>val line=x.split("\t");(line(0),line(2))}

五、合并三个PairRDD,将合并后的PairRDD中的二元数组拆分成多元数组

scala >  val result = m_student.join(m_hadoop)
scala >  val result1 = result.join(m_bigdata)

scala >  val result2 = result1.map(x=>(x._1,x._2._1._1,x._2._1._2,x._2._2))

结果展示：

六、添加总成绩和平均成绩

scala >  val result3 = result2.map(x=>(x._1,x._2,x._3.toInt,x._4.toInt,(x._3.toInt+x._4.toInt)))

scala >  val result4 = result3.map(x=>(x._1,x._2,x._3,x._4,x._5,(x._5.toDouble/2)))

七、将RDD保存到HDFS上并查看前五行的结果

scala >  result4.saveAsTextFile("/user/zkpk/output.txt")
scala >  result4.saveAsTextFile("/user/zkpk/output.txt").take(5)

标签：文件,val,scala,汇总,zkpk,三个,._,line,txt
来源： https://blog.csdn.net/weixin_48216471/article/details/120623625

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

汇总三个文件中的内容