ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

2021-06-10

2021-06-10 13:33:20  阅读:241  来源: 互联网

标签:10 成绩 06 Algorithm 文件 Jim 2021 Tom txt


1、需求描述
本次实验需要在linux下完成RDD编程并熟悉Spark的RDD基本操作,编写代码来完成下面的三个问题
1.pyspark交互式编程
本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
请根据给定的实验数据,在pyspark中通过编程来计算以下内容:

2.编写独立应用程序实现数据去重
对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。本文给出门课的成绩(A.txt、B.txt)下面是输入文件和输出文件的一个样例,供参考。
3.编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。本文给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),下面是输入文件和输出文件的一个样例,供参考。

2、环境介绍
1.在vmware中安装linux操作系统Ubuntu16.04,在Ubuntu中安装好hadoop,spark2.4.0和python3.4.3
2.然后进入终端输入cd /usr/local/hadoop pyspark然后进入pyspark的编程环境
3、数据来源描述
本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
本文给出门课的成绩(A.txt、B.txt)下面是输入文件和输出文件的一个样例.

输出文件的一个样例,供参考。
输入文件A的样例如下:
20200101 x
20200102 y
20200103 x
20200104 y
20200105 z
20200106 z
输入文件B的样例如下:
20200101 y
20200102 y
20200103 x
20200104 z
20200105 y
根据输入的文件A和B合并得到的输出文件C的样例如下:
20200101 x
20200101 y
20200102 y
20200103 x
20200104 y
20200104 z
20200105 y
20200105 z
20200106 z
本文给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),下面是输入文件和输出文件的一个样例,供参考。
Algorithm成绩:
小明 92
小红 87
小新 82
小丽 90
Database成绩:
小明 95
小红 81
小新 89
小丽 85
Python成绩:
小明 82
小红 83
小新 94
小丽 91
平均成绩如下:
(小红,83.67)
(小新,88.33)
(小明,89.67)
(小丽,88.67)

4、数据上传及上传结果查看
pyspark交互式编程
(1)该系总共有多少学生;
在这里插入图片描述

(2)该系共开设了多少门课程;
在这里插入图片描述

(3)Tom同学的总成绩平均分是多少;
在这里插入图片描述

(4)求每名同学的选修的课程门数;
在这里插入图片描述

(5)该系DataBase课程共有多少人选修;
在这里插入图片描述

(6)各门课程的平均分是多少;
在这里插入图片描述

(7)使用累加器计算共有多少人选了DataBase这门课。
在这里插入图片描述
2.编写独立应用程序实现数据去重

先创建一个zuoye文件夹,然后输完代码,使用命令python3 zuoye.py运行。

在这里插入图片描述
在这里插入图片描述

会自动创建result文件夹储存程序运行结果。
在这里插入图片描述
在这里插入图片描述

5、经验总结
这次的大作业对linux系统有了更多的了解对于更过了解,之前安装spark对环境这些不了解,但是在老师同学的帮助下也成功的完成了环境的安装然后在后面最数据的统计有了了解,并且对操作也更加的熟悉
回顾起此课程设计,至今我仍感慨颇多,从理论到实践,在这段日子里,可以说得是苦多于甜,但是可以学到很多很多的东西,同时不仅可以巩固了以前所学过的知识,而且学到了很多在书本上所没有学到过的知识。通过这次课程设计使我懂得了理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论,才能真正为社会服务,从而提高自己的实际动手能力和独立思考的能力。在设计的过程中遇到问题,可以说得是困难重重,但可喜的是最终都得到了解决。
6、

标签:10,成绩,06,Algorithm,文件,Jim,2021,Tom,txt
来源: https://blog.csdn.net/weixin_53802502/article/details/117775799

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有