ICode9

精准搜索请尝试: 精确搜索
  • HanLP-地名识别调试方法2019-07-19 10:01:21

    HanLP收词特别是实体比较多,因此特别容易造成误识别。下边举几个地名误识别的例子,需要指出的是,后边的机构名识别也以地名识别为基础,因此,如果地名识别不准确,也会导致机构名识别不准确。 类型1 数字+地名[1] 暗访哈尔滨网约车:下10单来7辆“黑车” 1辆套牌[2] 房天下每日成交5月12日海

  • pyhanlp 繁简转换之拼音转换与字符正则化2019-06-28 09:23:35

    繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。   ·说明 · HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇

  • hanlp添加词典不起作用2019-06-25 23:03:42

    不起作用的原因很多,这里列举几个 这里的hanlp我虽然用的maven建立的但是要添加自定义词典,所以没有用maven引入的方式,而是下载了data+hanlp.jar文件          data下载地址https://pan.baidu.com/s/1o8Rri0y   1、没有删除custom文件夹下的所有bin文件   当添加新词典后,没

  • HanLP极致简繁转换2019-06-13 08:51:07

    为什么80%的码农都做不了架构师?>>>    谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“

  • 准确分词之动态调整词频和字典顺序2019-05-05 15:56:29

    #-*- coding=utf8 -*- import jieba import re from tokenizer import cut_hanlp # jieba.load_userdict("dict.txt") # # 设置高词频:一个 # jieba.suggest_freq('台中',tune=True) # 设置高词频:dict.txt中的每一行都设置一下 # fp=open("dict.txt",'r'

  • 词性标注代码实现及信息提取2019-05-05 15:54:46

    #-*- coding=utf8 -*- import jieba import re from tokenizer import seg_sentences fp=open("text.txt",'r',encoding='utf8') fout=open("out.txt",'w',encoding='utf8') for line in fp: line=line.str

  • HanLP Analysis for Elasticsearch2019-04-22 10:55:43

    基于 HanLP 的 Elasticsearch 中文分词插件,核心功能: 兼容 ES 5.x-7.x;内置词典,无需额外配置即可使用;支持用户自定义词典;支持远程词典热更新(待开发);内置多种分词模式,适合不同场景;拼音过滤器(待开发);简繁体转换过滤器(待开发)。 版本插件版本和 ES 版本一致,直接下载对应版本的插件进行安

  • HanLP Android 示例2019-04-17 10:56:50

    portable版 portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖: dependencies {    compile 'com.hankcs:hanlp:portable-1.6.8'} 自定义版 HanLP的全部功能(分词、简繁、拼音、文本分类、句法分析)都兼容安卓,具体配置方法如下: 1、下载

  • 分词工具Hanlp基于感知机的中文分词框架2019-04-03 10:56:06

      结构化感知机标注框架是一套利用感知机做序列标注任务,并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架,该框架利用1个算法解决3个问题,时自治同意的系统,同时三个任务顺序渐进,构成流水线式的系统。本文先介绍中文分词框架部分内容。中文分词训练只需指定

  • idea 使用问题记录2019-03-27 09:54:06

    导入 HanLP 项目后,运行样例时出现“找不到 junit.framework”的报错。解决方式是,在 File > Project Structure > Libraries 中添加相应的 jar 包,并且要同时选择两个 modules,否则依然会报错。

  • 中文分词算法工具hanlp源码解析2019-03-13 10:54:29

    词图 词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。 需要稀疏2维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他

  • 如何编译运行HanLP自然语言处理包2019-03-06 11:56:42

    master分支对于master分支,编译方法如下:git clone  https://github.com/hankcs/HanLP.gitmvn install -DskipTests ·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。·该方法不会将src/main/resources目录下的任何资源(包括hanlp.properties)打包进jar,如

  • hanlp大辞典2019-02-24 23:44:25

     hanlp加一个很大的词典时候遇到的问题: ,然后改为5g,5g,问题得到解决。 但是运行后还有一个问题是: 重新改为10g,10g,问题得到解决。 也就是给java虚拟机分配的内存大点。

  • Hanlp分词之CRF中文词法分析详解2019-02-18 14:55:51

    这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口。 CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习。默认模型训练自OpenCorpus/pku98/199801.txt,随hanlp 1.6.2以上版本发布。语料格式等与感知机词法分析器相同,请先阅读《感知机词法

  • 中文分词语言处理HanPL配置,以及在eclipse中安装使用方式2019-02-18 09:41:57

    HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父目录,方法:1.解压hanlp-1.3.1-release,2、将里面的hanlp.properties

  • 汉语言处理包Hanlp的使用2019-02-18 09:40:17

    本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z##########python可以用easy_install安装一些软件############1.JPype使用介绍参考:http://michael-paul.iteye.com/blog/1055786Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过程中,有时需要

  • 中文自然语言处理工具hanlp隐马角色标注详解2019-02-13 14:55:05

     本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++)。语料格式输入语料格式为人民日报分词语料

  • java分词技术(自动提取关键词,段落大意)hanlp2019-02-01 17:39:16

    这是老师大作业需要的技术问  了同班级的人(相当于学长!!你说的菜的有办法嘛啊哈哈哈哈哈)才知道hanlp这个外部包  言归正传 使用方法 包以及数据如下GIT下载很慢我传百度云了   链接:https://pan.baidu.com/s/14a22v1g_CAQN-G-k8f3Ovw  提取码:yfse  1 把你的下载的data解压到

  • 自然语言处理工具hanlp自定义词汇添加图解2019-01-27 10:55:14

    过程分析1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有