一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词,可网盘下载stopwords.txt
1. RDD 血缘关系 /*RDD 血缘关系*/ /* * 1. 什么是Rdd的血缘关系? * 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。 * 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。 * 3.RDD的 Lineage 会记录RDD的 元数据信息和转换行为 *
1. 说明 /*闭包检查*/ /* * 1. Scala的闭包 * 如果一个函数,访问了它外部的(局部)变量的值,那么这个函数和所处的环境,称之为闭包 * 使用场景 : * 在嵌套函数中,内层函数可以 只用外层函数的任意变量 * * 2. Spark的闭包 * 1. 算子之外的
一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 >>> words = lines.flatMap(lambda a:a.split()) >>> words.collect() (1)排除大小写lower(),map() >>> words2 = words.map(lambda a:a.lower()) >>> words2.colle
一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长
一、词频统计 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写,标点符号,停用词,长度小于2的词 统计词频 排序 输出到文件 查看结果 一句话实现 点击查看代码 ''' 词频统计 准备文件包括词频统计文件和停用词文件 存放于实验机或
一、词频统计 A. 分步骤实现 1、准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() .标点符号re.split(pattern,str),flatMap(), 先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这里用\W+即可
A.分步骤实现 1.准备文件 下载小说或长篇新闻稿(从网上随便找一篇新闻) 上传到hdfs上 2.读文件创建RDD 3.分词 4.排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词 长度小于2的词filter() 5.统计词频 6.
一、 RDD创建 1.从本地文件系统中加载数据创建RD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表,字符串,numpy生成数组 二、 RDD操作 转换操作
一、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿 上传到hdfs上 2.读文件创建RDD 3.分词 4.标点符号re.split(pattern,str),flatMap(), 先导入re然后用re.split分词(\W+会匹配所有非单词字符,(\W+)会返回这些,但我们不需要返回,所以这
一、RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 二、RDD操作 转换操作 1
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD输入列表 字符串 numpy生成数组 二、 RDD操作 转换操作 1.转换操作 1.filter(func) 显式定义函数lambda函数 2.ma
一、 RDD创建 1. 从本地文件系统中加载数据创建RDD 2. 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 二、 RDD操作 转换操作 1.转换操作 1.fillter(func) 显式定义函数 lambda函数 2. map(func) 显式定义
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 停止hdfs 3.通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 1.filter(func) 传入lambda匿名函数 显式定义函数 2.map(func) 显
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 通过并行集合(列表)创建RDD 输入列表 字符串 numpy生成数组 二、 RDD操作 转换操作 filter(func) lambda函数 显式定义函数
一、词频统计 A.分步骤实现 1.准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 停止hdfs 3.通过并行集合(列表)创建RDD 二、 RDD操作 转换操作 1.filter(func) 传入lambda匿名函数 显式定义函数 2.map(func) 显式定义函数 lambda函数 flatMap(fu
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数组 二、 RDD操作 转换操作 1.filter(func)
一、 RDD创建 从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 3.通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、 RDD操作 转换操作 filter(func)传入lambda匿名函数显式定义函数 2.map(f
一、 RDD创建 环境启动、文件准备: 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 不同语句: 3.通过并行集合(列表)创建RDD ps:不知为何会存在一定乱序 二、 RDD操作 1.转换操作 1.filter: 2.map: 3.flatMap: 4.groupB
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数组 二、 RDD操作 转换操作 1. filter(func)传入lamb
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数组 二、 RDD操作 转换操作 1. filter(func) 传入lambda匿名函数 2.map(func) lambda函数
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合(列表)创建RDD输入列表、字符串、生成数组 一、 1.从本地文件系统中加载数据创建RDD: 2.启动HDFS: 上传文件并查看: 停止HDFS: 3.通过并行集合(列表
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 从HDFS加载数据创建RDD启动hdfs上传文件查看文件加载停止hdfs 通过并行集合(列表)创建RDD输入列表、字符串、生成数组 二、 RDD操作 转换操作 filter(func)传入lambda匿名函数 显式
一、 RDD创建 1.从本地文件系统中加载数据创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD 与原txt文件对比 2.从HDFS加载数据创建RDD 启动hdfs 上传文件 查看文件 加载 停止hdfs 3.通过并行集合(列表)创建RDD 输入列表、字符串、生成数