ICode9

精准搜索请尝试: 精确搜索
  • 算法之大数据2022-07-22 23:37:01

    算法之大数据 参考链接 思想 哈希函数可以把数据按照种类均匀分流 布隆过滤器用于集合的建立与查询,并可以节省大量空间 一致性hash解决数据服务器的负载管理问题 利用并查集结构做岛问题的并行计算、 位图解决某一范围上数字的出现情况,并可以节省大量空间 利用分段统计思想、

  • 文本挖掘预处理之TF-IDF2022-07-09 21:33:54

    原地址 目录前言1. 文本向量化特征的不足 前言 在文本挖掘预处理之向量化与Hash Trick中,我们讲到,在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原理做一个总结。 1. 文本向量化特征的不足 在将文本分

  • 5.RDD操作综合实例2022-06-07 18:34:09

    A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(), 长度小于2的词filter() 统计词频 按词频排序 输出到文件 查看结果 B. 一句话实现:文件入

  • 5.RDD操作综合实例2022-05-31 12:33:12

    一、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿          2.上传到hdf 2.读文件创建RDD    3.分词    4.排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),   长度小于2的词f

  • 4.RDD操作(补交)2022-05-31 12:32:55

    一、 RDD创建    1.从本地文件系统中加载数据创建RDD          2.从HDFS加载数据创建RDD              加载         停止hdfs      3.通过并行集合(列表)创建RDD     输入列表、字符串、生成数组     二、 RDD操作 转换操作 1. filter(func)传入lamb

  • python 按照jieba分词后,再根据字典的词频进行排序输出2022-05-09 01:32:23

    dict.txt 迅雷不及掩耳盗铃之势 1 掩耳盗铃 2 铃儿响叮当 3 当仁不让 5 让世界充满爱 3 让世界充满爱 5 迅雷不及 0 迅雷 0 掩耳 0 盗铃 0 实现代码 # -*- ecoding: utf-8 -*- # @ModuleName: test002 # @Function: # @Author: darling # @Time: 2022-05-05 20:01 import jieba

  • 【Python小随笔】词频统计2022-05-06 21:31:33

    def word_counts_action(text, top_number): """ :param text: 统计的文本 :param top_number: 输出词频前几 :return: [('非常', 36), ('很', 31), ('手机', 23), ('也', 18)] """

  • 5.RDD操作综合实例2022-04-12 17:04:08

    一、词频统计 A. 分步骤实现 1.准备文件 下载小说或长篇新闻稿          2.上传到hdf 2.读文件创建RDD    3.分词    4.排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),   长度小于2的词f

  • 5.RDD操作综合实例2022-04-12 13:34:13

    一、词频统计 A. 分步骤实现   准备文件 下载小说或长篇新闻稿 上传到hdfs上       读文件创建RDD     分词     排除大小写lower(),map()     停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()     统计词频         按词频排序  

  • 5.RDD操作综合实例2022-04-12 11:33:10

    一、词频统计 A. 分步骤实现   准备文件 下载小说或长篇新闻稿 上传到hdfs上       读文件创建RDD       分词               排除大小写lower(),map()       停用词,可网盘下载stopwords.txt,filter(),             长度小于2的词filter()      

  • 5.RDD操作综合实例2022-04-12 10:03:28

    一、词频统计 A. 分步骤实现  1、准备文件 (1)下载小说或长篇新闻稿 (2)上传到hdfs上      2、读文件创建RDD    3、分词    4、排除大小写lower(),map()    标点符号re.split(pattern,str),flatMap(),    停用词,可网盘下载stopwords.txt,filter(),     长度小于2

  • 5.RDD操作综合实例2022-04-12 09:01:03

    一、词频统计 1.分步骤实现 1).准备文件    1.下载小说或长篇新闻稿   2.上传到hdfs上 3.读文件创建RDD 分词        排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(),   长度小于2的词filter()  统计

  • 5.RDD操作综合实例2022-04-12 08:35:22

    一、词频统计 A.分步骤实现 1.准备文件           1.下载小说或长篇新闻稿                 2.上传到hdfs 启动hdfs 上传文件并查看             2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD       与原txt文件对比       3

  • 5.RDD操作综合实例2022-04-11 23:32:31

    一、词频统计 A. 分步骤实现 准备文件 1.下载小说或长篇新闻稿 2.上传到hdfs上  读文件创建RDD    分词  排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(), 停用词,可网盘下载stopwords.txt,filter(),   长度小于2的词filter()  统计词频   按词

  • RDD操作综合实例2022-04-11 19:31:06

    一、词频统计 A.分步骤实现 1.准备文件           1.下载小说或长篇新闻稿                 2.上传到hdfs 启动hdfs 上传文件并查看             2.读文件创建RDD 创建SparkContext以及从文件系统中加载数据创建RDD       与原txt文件对比       3

  • 5.RDD操作综合实例2022-04-09 23:04:17

    一、词频统计 A. 分步骤实现 准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap() 停用词,可网盘下载stopwords.txt,filter() 长度小于2的词filter() 统计词频 按词频排序 输出到文件

  • 5.RDD操作综合案例2022-04-08 17:04:08

    一、词频统计   1.准备文件     1.下载小说或长篇新闻稿     2.上传到hdfs上                       2.读文件创建RDD               3.分词               4.排除大小写lower(),map()                标点符号re.split(pa

  • 5.RDD操作综合实例2022-04-08 02:01:10

    一、词频统计 A. 分步骤实现 1、准备文件   1、下载小说或长篇新闻稿   2、上传到hdfs上 2、读文件创建RDD 3、分词 4、  排除大小写lower(),map()   标点符号re.split(pattern,str),flatMap(),   长度小于2的词filter() 5、统计词频 6、按词频排序 7、输出到文件

  • 5.RDD操作综合实例2022-04-07 22:02:27

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()    

  • 五、RDD操作综合实例2022-04-07 21:02:38

    A.分步骤实现 1.准备文本文件 2.读文件 3.分词 4.排除大小写lower(),map()    标点符号re.split(pattern,str),flatMap()    停用词,可网盘下载stopwords.txt,filter()        长度小于2的词filter() 5.统计 映射成键值对 6.排序 7.写文件   8.查看文件  

  • 5.RDD操作综合实例2022-04-07 20:36:01

    5.RDD操作综合实例 一、词频统计 A. 分步骤实现     1.上传到hdfs上                2,读文件创建RDD      3.分词       4.排除大小写lower(),map()       5.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载stopwords.txt,filter(),长度

  • 5.RDD操作综合实例2022-04-07 15:32:16

    一、词频统计 A. 分步骤实现    1.准备文件,下载小说或长篇新闻稿           2.上传到hdfs上                3.读文件创建RDD      4.分词       5.排除大小写lower(),map()       6.标点符号re.split(pattern,str),flatMap(),停用词,可网盘下载

  • 5.RDD操作综合实例2022-04-07 15:00:29

    一、词频统计 A. 分步骤实现  准备文件 下载小说或长篇新闻稿 上传到hdfs上 读文件创建RDD 分词 排除大小写lower(),map() 标点符号re.split(pattern,str),flatMap(),   停用词,可网盘下载stopwords.txt,filter(),     长度小于2的词filter()    

  • 5.RDD操作综合实例2022-04-07 14:32:57

    A.分步骤实现 1.准备文件   上传到hdfs上    2.读文件创建RDD    3.分词       4.排除大小写lower(),map()    标点符号re.split(pattern,str),flatMap(),先导入re然后用re.split分词  长度小于2的词filter()     5.统计词频    6.按词频排序    7.输出到

  • 5.RDD操作综合实例2022-04-07 05:00:18

    一、词频统计 A. 分步骤实现    1.准备文件     1.下载小说或长篇新闻稿         2.上传到hdfs上         2.读文件创建RDD         3.分词            4.排除大小写lower(),map()          标点符号re.split(pattern,str),flatMap(),  

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有