ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

RDD编程初级实践

2021-06-15 13:31:01  阅读:139  来源: 互联网

标签:文件 成绩 编程 RDD 初级 课程 Tom txt


  •  

  • 1.pyspark交互式编程

本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:

Tom,DataBase,80

Tom,Algorithm,50

Tom,DataStructure,60

Jim,DataBase,90

Jim,Algorithm,60

Jim,DataStructure,80

……

请根据给定的实验数据,在pyspark中通过编程来计算以下内容:

  • 该系总共有多少学生;

1.创建RDD

2.拆分每行记录,取出每行的第一个元素

3.去除文件中的重复记录

4.统计所有会重复记录。

  • 该系共开设了多少门课程;

1.创建RDD

2.拆分每行记录,取出每行的第一个元素

3.去除文件中的重复记录

4.统计所有会重复记录。

  • Tom同学的总成绩平均分是多少;

1.提取Tom的每门成绩,并转化为int类型

2.统计Tom的课程数

3.统计Tom的总成绩

  • 求每名同学的选修的课程门数;

1.创建RDD

2.求出学生每门课程对应(学生姓名,1),学生有n门课程,则有n个学生

3.按学生姓名为key,获取每个学生的课程总数

4.按照学生姓名分组,统计他们选课程数。

  • 该系DataBase课程共有多少人选修;

1.创建RDD

2.选定课程DataBase

3.输出结果

  • 各门课程的平均分是多少;

1.创建RDD

2.为每门课程的分数后面新增一列,表示一个学生选择了该门课程

3.按课程名称统计总分数和选课人数

4.求平均分

  • 使用累加器计算共有多少人选了DataBase这门课。

1.创建RDD

2.选定课程DataBase

3.使用累加器计算

2.编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。本文给出门课的成绩(A.txt、B.txt)下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20200101    x

20200102    y

20200103    x

20200104    y

20200105    z

20200106    z

输入文件B的样例如下:

20200101    y

20200102    y

20200103    x

20200104    z

20200105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20200101    x

20200101    y

20200102    y

20200103    x

20200104    y

20200104    z

20200105    y

20200105    z

20200106    z

 

实验步骤如下:

  • 当前目录为/usr/local/spark/sparksqldata/,在当前目录下新建一个C.py文件
  •  

  • 向C.py文件写入内容如下:
  •  

  • 在目录为/usr/local/spark/sparksqldata/下执行下面命令执行程序.(注意运行前缀为python8,若使用python3,可能会运行显示不成功。)
  • 在目录/usr/local/spark/sparksqldata/result下即可得到结果文件part-00000。
  • 结果

  •  

  •  

 

   

3.编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。本文给出门课的成绩(Algorithm.txt、Database.txt、Python.txt),下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

    (小红,83.67)

    (小新,88.33)

    (小明,89.67)

(小丽,88.67)

实验步骤如下:

  • 当前目录为/usr/local/spark/mycode/avgscore,在当前目录下新建一个avgscore.py,并将数据文件“Algorithm.txt、Database.txt、Python.txt”放入该文件夹下。
  •  
  • 向avgscore.py文件写入内容如下:
  •  
  • 在目录为/usr/local/spark/mycode/avgscore下执行如图命令执行程序.(注意运行前缀为python3.8,若使用python3,可能会运行显示不成功。)
  • 4.结果。 

 

标签:文件,成绩,编程,RDD,初级,课程,Tom,txt
来源: https://blog.csdn.net/weixin_43909605/article/details/117922363

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有