ICode9

精准搜索请尝试: 精确搜索
  • RDD操作综合实例2022-04-11 19:31:06

    一、词频统计 A.分步骤实现 1.准备文件           1.下载小说或长篇新闻稿                 2.上传到hdfs 启动hdfs 上传文件并查看             2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD       与原txt文件对比       3

  • 6. RDD综合练习:更丰富的操作2022-04-10 20:33:53

    集合运算练习 union(), intersection(),subtract(), cartesian()   三、学生课程分数 网盘下载sc.txt文件,通过RDD操作实现以下数据分析: 持久化 scm.cache()                    总共有多少学生?map(), distinct(), count()   开设了多少门课程?           

  • 5.RDD操作综合实例2022-04-09 23:04:17

    一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 统计词频 按词频排序 输出到文件

  • 大数据Hadoop之——计算引擎Spark2022-04-09 18:00:18

    目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)Cluster Manager:资源管理器4)Executor:执行器5)Worker:计算节点6)RDD:弹性分布式数据集7)窄依赖8)宽依赖9)DAG:有向无环图10)DAGScheduler:有向无环图调度器11)TaskSched

  • 5.RDD操作综合案例2022-04-08 17:04:08

    一、词频统计   1.准备文件     1.下载小说或长篇新闻稿     2.上传到hdfs上                       2.读文件创建RDD               3.分词               4.排除大小写lower(),map()                标点符号re.split(pa

  • 5.RDD操作综合实例2022-04-08 02:01:10

    一、词频统计 A. 分步骤实现 1、准备文件   1、下载小说或长篇新闻稿   2、上传到hdfs上 2、读文件创建RDD 3、分词 4、  排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap(),   长度小于2的词filter() 5、统计词频 6、按词频排序 7、输出到文件

  • 5.RDD操作综合实例2022-04-07 22:02:27

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()    

  • 五、RDD操作综合实例2022-04-07 21:02:38

    A.分步骤实现 1.准备文本文件 2.读文件 3.分词 4.排除大小写lower(),map()    标点符号re.split(pattern,str),flatMap()    停用词,可网盘下载stopwords.txt,filter()        长度小于2的词filter() 5.统计 映射成键值对 6.排序 7.写文件   8.查看文件  

  • 5.RDD操作综合实例2022-04-07 20:36:01

    5.RDD操作综合实例 一、词频统计 A. 分步骤实现     1.上传到hdfs上                2,读文件创建RDD      3.分词       4.排除大小写lower(),map()       5.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(),长度

  • 5.RDD操作综合实例2022-04-07 15:32:16

    一、词频统计 A. 分步骤实现    1.准备文件,下载小说或长篇新闻稿           2.上传到hdfs上                3.读文件创建RDD      4.分词       5.排除大小写lower(),map()       6.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载

  • 5.RDD操作综合实例2022-04-07 15:00:29

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()    

  • 5.RDD操作综合实例2022-04-07 14:32:57

    A.分步骤实现 1.准备文件   上传到hdfs上    2.读文件创建RDD    3.分词       4.排除大小写lower(),map()    标点符号re.split(pattern,str),flatMap(),先导入re然后用re.split分词  长度小于2的词filter()     5.统计词频    6.按词频排序    7.输出到

  • 5.RDD操作综合实例2022-04-07 05:00:18

    一、词频统计 A. 分步骤实现    1.准备文件     1.下载小说或长篇新闻稿         2.上传到hdfs上         2.读文件创建RDD         3.分词            4.排除大小写lower(),map()          标点符号re.split(pattern,str),flatMap(),  

  • 5.RDD操作综合实例2022-04-07 05:00:05

    5.RDD操作综合实例 一、词频统计 A. 分步骤实现 1、准备文件 分词 排除大小写lower(),map() .标点符号re.split(pattern,str),flatMap(),先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这里用\W+即可) 停用词,可网盘下载stopwords.

  • 5.RDD操作综合实例2022-04-06 21:34:55

    一、词频统计 A. 分步骤实现  1.准备文件   (1)下载小说或长篇新闻稿      (2)上传到hdfs上   2.读文件创建RDD   3.分词   4.排除大小写lower(),map()标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),长度小于2的词filter()  

  • 5.RDD操作综合实例2022-04-06 19:35:08

    一、词频统计 A. 分步骤实现  1.准备文件   1.下载小说或长篇新闻稿       2.上传到hdfs上     2.读文件创建RDD               3.分词     4.排除大小写lower(),map()      标点符号re.split(pattern,str),flatMap(),                停用

  • 5.RDD操作综合实例2022-04-06 15:34:55

    一、词频统计 A. 分步骤实现  1. 准备文件,下载小说或长篇新闻稿 2. 上传到hdfs上 3. 读文件创建RDD 4. 分词 5. 排除大小写lower(),map() 6. 标点符号re.split(pattern,str),flatMap() 识别标点符号并替换成空白值      清除空白值   7. 停用词,可网盘下载stopwords.txt

  • 6. RDD综合练习:更丰富的操作2022-04-06 15:05:19

    三、学生课程分数 持久化 scm.cache() 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 生成(姓名,课程分数)键值对RDD,观察keys(),values() 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), countByValue()  有多少个100分? Tom选修了

  • 5.RDD操作综合实例2022-04-06 01:34:08

    准备文件,上传到hdfs上     读文件创建RDD     分词     排除大小写,标点符号     统计词频     排序   输出到文件   查看结果     B.一句话实现        

  • RDD操作综合实例2022-04-05 21:00:46

    一、词频统计 A.分步骤实现 1.准备文件           1.下载小说或长篇新闻稿                 2.上传到hdfs 启动hdfs 上传文件并查看             2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD       与原txt文件对比      

  • 5.RDD操作综合实例2022-04-05 19:34:58

    准备文件 读文件创建RDD     分词     排除大小写lower(),map()     标点符号re.split(pattern,str),flatMap(),     停用词,可网盘下载stopwords.txt,filter(),             长度小于2的词filter()       统计词频     按词频排序     输出到文件    

  • 5.RDD操作综合实例2022-04-04 18:01:08

    准备文件 下载小说或长篇新闻稿 http://www.kekenet.com/read/202203/653673.shtml 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 过滤掉长度小于2的词filter() 统计词

  • spark学习路线2022-04-04 12:31:25

    尚硅谷大数据Spark教程从入门到精通 001.尚硅谷_Spark框架 - 简介 002.尚硅谷_Spark框架 - Vs Hadoop 003.尚硅谷_Spark框架 - 核心模块 - 介绍 004.尚硅谷_Spark框架 - 快速上手 - 开发环境准备 005.尚硅谷_Spark框架 - 快速上手 - WordCount - 案例分析 006.尚硅谷_Spark框架 -

  • 第五章_Spark核心编程_Rdd_读取&保存2022-04-03 08:32:26

    1.说明 * 1.Rdd文件读取和保存 可以从两个角度来区分 * 文件格式 : text、json、csv、sequence文件、Object序列化文件 * 文件系统 : 本地文件系统、hdfs、hbase、各类型数据库 2.Spark中怎样读取&保存text文件? 1.读取 * 1.SparkContext.textFile *

  • 第五章_Spark核心编程_Rdd_任务拆分(Application&Job&Stage&Task)2022-04-02 07:31:51

    1.说明 /* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("distinctTest") Job:一个Action算子就会生成一个Job

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有