ICode9

精准搜索请尝试: 精确搜索
  • 5.RDD操作综合实例2022-04-02 01:33:16

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上                   2.读文件创建RDD     3.分词     排除大小写lower(),map()     标点符号re.split(pattern,str),flatMap()         停用词,可网盘下载stopwords.txt

  • 第五章_Spark核心编程_Rdd_血缘关系2022-04-01 12:32:17

    1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系? * 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的 元数据信息和转换行为 *

  • 第五章_Spark核心编程_Rdd_闭包检测&对象序列化2022-04-01 08:00:52

    1. 说明 /*闭包检查*/ /* * 1. Scala的闭包 * 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包 * 使用场景 : * 在嵌套函数中,内层函数可以 只用外层函数的任意变量 * * 2. Spark的闭包 * 1. 算子之外的

  • 5. RDD操作综合实例2022-04-01 01:01:28

    一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 >>> words = lines.flatMap(lambda a:a.split()) >>> words.collect() (1)排除大小写lower(),map() >>> words2 = words.map(lambda a:a.lower()) >>> words2.colle

  • 5.RDD操作综合实例2022-03-30 18:34:46

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上     2.读文件创建RDD   3.分词     排除大小写lower(),map()     标点符号re.split(pattern,str),flatMap(),     停用词,可网盘下载stopwords.txt,filter(),       长

  • 5.RDD操作综合实例2022-03-30 18:32:19

    一、词频统计 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号,停用词,长度小于2的词 统计词频 排序 输出到文件 查看结果 一句话实现 点击查看代码 ''' 词频统计 准备文件包括词频统计文件和停用词文件 存放于实验机或

  • 5.RDD操作综合实例2022-03-30 13:00:08

    一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() .标点符号re.split(pattern,str),flatMap(), 先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这里用\W+即可

  • 五、RDD操作综合实例2022-03-30 10:31:06

    A.分步骤实现 1.准备文件   下载小说或长篇新闻稿(从网上随便找一篇新闻)       上传到hdfs上    2.读文件创建RDD 3.分词    4.排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap() 停用词     长度小于2的词filter()    5.统计词频    6.

  • 4.RDD操作2022-03-30 01:31:45

    一、 RDD创建   1.从本地文件系统中加载数据创建RD   2.从HDFS加载数据创建RDD     启动hdfs     上传文件     查看文件     加载     停止hdfs   3.通过并行集合(列表)创建RDD    输入列表,字符串,numpy生成数组   二、 RDD操作 转换操作

  • 5.RDD操作综合实例2022-03-30 00:34:42

    一、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.标点符号re.split(pattern,str),flatMap(), 先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这

  • RDD操作2022-03-29 19:32:44

    一、RDD创建 1.从本地文件系统中加载数据创建RDD        2.从HDFS加载数据创建RDD   启动hdfs  上传文件  查看文件  加载  停止hdfs         3.通过并行集合(列表)创建RDD   输入列表  字符串  numpy生成数组      二、RDD操作 转换操作   1

  • 4.RDD操作2022-03-29 18:33:59

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD   2.从HDFS加载数据创建RDD启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD输入列表 字符串 numpy生成数组   二、 RDD操作 转换操作 1.转换操作 1.filter(func) 显式定义函数lambda函数   2.ma

  • 4.RDD操作2022-03-29 17:34:49

    一、 RDD创建 1. 从本地文件系统中加载数据创建RDD 2. 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 二、 RDD操作 转换操作 1.转换操作        1.fillter(func)        显式定义函数   lambda函数      2. map(func)   显式定义

  • 4.RDD操作2022-03-29 17:33:23

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD         2.从HDFS加载数据创建RDD             停止hdfs     3.通过并行集合(列表)创建RDD       二、 RDD操作 转换操作 1.filter(func)  传入lambda匿名函数  显式定义函数         2.map(func)   显

  • 4.RDD操作2022-03-29 14:31:33

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD     从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs   通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 二、 RDD操作 转换操作 filter(func) lambda函数   显式定义函数  

  • 5.RDD操作综合实例2022-03-29 09:33:09

    一、词频统计 A.分步骤实现 1.准备文件   1.下载小说或长篇新闻稿     2.上传到hdfs上

  • 4.RDD操作2022-03-29 09:31:31

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 停止hdfs 3.通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 1.filter(func) 传入lambda匿名函数 显式定义函数 2.map(func) 显式定义函数 lambda函数 flatMap(fu

  • 4.RDD操作2022-03-29 08:31:44

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD        2.从HDFS加载数据创建RDD    启动hdfs     上传文件       查看文件     停止hdfs    3.通过并行集合(列表)创建RDD   输入列表、字符串、生成数组     二、 RDD操作 转换操作 1.filter(func)

  • RDD操作2022-03-28 19:33:14

    一、 RDD创建 从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs       3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组       二、 RDD操作 转换操作  filter(func)传入lambda匿名函数显式定义函数  2.map(f

  • 4.RDD操作2022-03-28 18:32:50

    一、 RDD创建 环境启动、文件准备:   1.从本地文件系统中加载数据创建RDD   2.从HDFS加载数据创建RDD 不同语句:   3.通过并行集合(列表)创建RDD ps:不知为何会存在一定乱序       二、 RDD操作  1.转换操作 1.filter:     2.map:   3.flatMap:     4.groupB

  • 4.RDD操作2022-03-28 13:04:29

    一、 RDD创建    1.从本地文件系统中加载数据创建RDD          2.从HDFS加载数据创建RDD              加载         停止hdfs      3.通过并行集合(列表)创建RDD     输入列表、字符串、生成数组     二、 RDD操作 转换操作 1. filter(func)传入lamb

  • 4.RDD操作2022-03-28 09:05:01

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD     3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数组     二、 RDD操作 转换操作   1. filter(func)     传入lambda匿名函数     2.map(func)     lambda函数      

  • 4.RDD操作2022-03-28 01:00:35

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合(列表)创建RDD输入列表、字符串、生成数组 一、 1.从本地文件系统中加载数据创建RDD:   2.启动HDFS: 上传文件并查看: 停止HDFS: 3.通过并行集合(列表

  • RDD操作2022-03-28 00:33:38

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs                   通过并行集合(列表)创建RDD输入列表、字符串、生成数组         二、 RDD操作 转换操作  filter(func)传入lambda匿名函数 显式

  • 4.RDD操作2022-03-27 20:03:42

    一、 RDD创建 1.从本地文件系统中加载数据创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD   与原txt文件对比     2.从HDFS加载数据创建RDD 启动hdfs   上传文件   查看文件     加载 停止hdfs     3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有