ICode9

精准搜索请尝试: 精确搜索
  • 文本特征选择2020-03-21 19:02:47

    在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF-IDF 监督方法: 卡方 信息增益 互信息 一、

  • 中文分词cppjieba2020-02-02 18:53:46

    简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 精

  • 搜索引擎(3)——查询理解——不可省词2020-01-29 23:56:02

    1. 倒排求交 上一篇讲了分词。对用户的query分词之后,得到了一个个独立的词(term)。先设想一个问题,用这些词去索引里搜索时,是不是doc命中query中任何一个term,都可以被搜索出来?(query中只有一个term除外) 这里涉及好几个问题: 1. 截断:例如query是5个词ABCDEF,如果只命中F的doc也搜索出来,那

  • 什么是TD-IDF?(计算两篇文章相似度)2020-01-22 16:57:11

    什么是TD-IDF? 计算特征向量(或者说计算词条的权重) 构造文档模型 我们这里使用空间向量模型来数据化文档内容:向量空间模型中将文档表达为一个矢量。 We use the spatial vector model to digitize the document content: the vector space model represents the document as a vecto

  • tf-idf实例一2020-01-15 12:43:54

    #!/usr/bin/env python -- coding:utf-8 -- import nltk import math import jieba import string from nltk.corpus import stopwords from collections import Counter from nltk.stem.porter import * from sklearn.feature_extraction.text import TfidfVectorizer text

  • tf-idf实例二2020-01-15 12:36:38

    #!/usr/bin/env python -- coding:utf-8 -- import numpy as np import pandas as pd from collections import Counter docA = ‘The cat sat on my bed’ docB = ‘The dog sat on my knees’ 切割文档 bowA = docA.split(’ ‘) bowB = docB.split(’ ') print(bowA,bowB

  • 文本在计算机中的表示方法总结2019-10-27 22:08:02

    文章目录1. 概述2. 离散式表示(Discrete Representation)2.1 One-HotDemo缺点2.2 词袋模型(Bag Of Word,BOW)Demo缺点2.3 TF-IDF(词频-逆文档频率)公式优点缺点3. 分布式表示(Distributed Representation)3.1 n-gram3.2 共现矩阵(Co-Occurrence Matrix)优点缺点3.3 Word2Vec模型效果优

  • 分析一套源代码的代码规范和风格并讨论如何改进优化代码2019-10-09 16:52:44

    结合工程实践选题相关的一套源代码,根据其编程语言或项目特点,分析其在源代码目录结构、文件名/类名/函数名/变量名等命名、接口定义规范和单元测试组织形式等方面的做法和特点; 我的工程实践题目是 低功耗高可靠文件系统的设计与实现,本项目基于ESP32嵌入式开发平台,设计与实现低功耗

  • TF-IDF模型2019-09-27 11:03:15

    TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率),一种用于资讯检索和资讯探勘的常用加权技术。 词项t的词项频率(以下简称词频)tft,d是指词项t在文档d中出现的次数,是与文档相关的一个量,可以认为是文档内代表度的一个量,也可以认为是一种局部信息。  

  • 如何从当前语料库生成自定义的逆文档频率(IDF)文件(三)2019-09-23 17:03:39

    第一篇:https://blog.csdn.net/qq_34333481/article/details/84105246 第二篇:https://blog.csdn.net/qq_34333481/article/details/84235921 一个可以运行的例子 '''all_dict = dict() # 每个单词在所有文章中出现的次数。其每个键的值是一直在+1的。 temp_dict = dict() #

  • 如何为 esp32 编译和配置及烧写 MicroPython 固件。2019-09-13 21:02:37

    MicroPython 在 esp-idf (esp32) 上编译固件 esp32 编译 micropython 的固件相关的资料应该很多吧,我也会出一篇,但会额外讲一些 linux 的东西的。 资料将按照以下顺序进行说明。 什么是 esp-idf ? 配置 esp32 工具链 准备 micropython 仓库 建立 micropython for esp32 固件 注意,

  • 什么是TF-IDF算法?2019-09-11 21:01:28

    (注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html) 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这

  • ESP32连接阿里云MQTT2019-09-07 20:36:55

    ESP32连接阿里云的gayhub链接 ESP32官网文档:可下载开发文档 文章目录一、ESP32介绍二、搭建ESP32开发环境(一)、调出终端(二)、代码补全三、ESP32接入阿里云(一)、编译项目(二)、配置项目(三)、烧录程序(四)、配置四组数(五)、完成四、其他make指令 一、ESP32介绍 首先ESP32有辣么辣么多

  • 搭建ESP-IDF生产环境2019-09-01 19:02:06

    打开快速入门网站入手:https://docs.espressif.com/projects/esp-idf/zh_CN/latest/get-started/index.html# 从快速入门网页可以知道,操作分了如下几个步骤: 设置开发环境 第一步:设置工具链 第二步:获取 ESP-IDF 第三步:设置环境变量 第四步:安装 Python 软件包 创建您的第一个工

  • 京东算法岗笔试2019-08-25 15:07:23

    题型30题单项选择,2道编程(leetcode medium到hard之间),不能截屏,凭记忆回忆一下,当做笔记了   1、知道前序遍历,中序遍历,确定二叉树的结构,如果不平衡,调整为平衡后,输出后序遍历的结果? 关键是不平衡调整为平衡的过程,下图中 右旋(顺时针),左旋(逆时针),“谁主动撞谁”,撞下来的节点归主动

  • [MATLAB] Simple TF-IDF implementation2019-08-09 12:42:38

    原文链接:http://www.cnblogs.com/youth0826/archive/2012/08/11/2633688.html [MATLAB] Simple TF-IDF implementation Term-Frequency word weighting scheme is one of most used in normalization of document-term matrices in text mining an

  • NLP基础2019-08-05 12:08:34

    文章目录文本相似度把评论翻译成机器看的懂的语言使用机器看的懂得算法轮询去比较每一条和所有评论的相似程度(TF-IDF)好消息: NLP: Natural Language Processing 自然语言处理 马蜂窝评论造假: 是怎么发现数据造假的呢? 使用NLP中的文本相似度分析! 文本相似度 文本相似度分析:

  • 文本特征选择2019-08-04 13:00:44

    在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF-IDF 监督方法: 卡方 信息增益 互信息 一、T

  • ESP32第一章esp32简介2019-07-31 12:42:49

    ESP32第一章esp32简介ESP32模块及开发板ESP-IDF ESP32模块及开发板 ESP32是乐鑫信息科技(以下简称乐鑫)推出的一块WIFI芯片。ESP32 集成了天线开关、射频 balun、功率放大器、低噪放大器、过滤器和电源管理模块,整个解决方案占用了最少的印刷电路板面积。2.4 GHz Wi-Fi 加蓝

  • PipeCAD 简介2019-07-24 23:53:35

    PipeCAD 简介     PipeCAD的定位是中小型项目的管道设计软件,主要有管道建模、设备建模以及管道ISO图及平面图功能。程序的操作方式尽量参考PDMS,考虑灵活性、易于使用。如果用来和国内其他管道设计软件来对比,主要优势就是基于独立图形平台,不依赖第三方图形平台如AutoCAD,程序安装

  • TF-IDF2019-07-08 20:42:14

           TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。        为什么要用TF-IDF?因为计算机只能识别数字,对于一个一个的单词,

  • R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究2019-06-20 16:53:57

    我们将 对1993年发送到20个Usenet公告板的20,000条消息进行从头到尾的分析。此数据集中的Usenet公告板包括新闻组用于政治,宗教,汽车,体育和密码学等主题,并提供由许多用户编写的丰富文本。 预处理 我们首先阅读20news-bydate文件夹中的所有消息,这些消息组织在子文件夹中,每个消息都有一

  • TF-IDF与余弦相似性的应用(三):自动摘要2019-06-09 14:54:31

    转:TF-IDF与余弦相似性的应用(三):自动摘要 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对

  • nlp之TF-IDF2019-05-26 17:38:27

       首先我也不知道这个练习有什么用,就是玩一玩,很多东西都是不知道有啥用,玩玩或许就有用了,开心就好。今天看到大家发的马总的一个朋友圈截图:腾讯成立之初就是为了做一个好的产品,不是为了赚钱。哈哈哈哈哈哈哈 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索

  • 机器学习之scikit-learn特征工程2019-05-21 14:49:55

    一.特征工程是什么 特征工程是将原始数据转换为更好的代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性。 二.字典特征抽取 作用:对字典数据进行特征化处理 API: sklearn.feature_extraction.DictVectorizer 相关语法: dic = DictVectorizer() ###进行

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有