HanLP

HanLP-地名识别调试方法2019-07-19 10:01:21

HanLP收词特别是实体比较多，因此特别容易造成误识别。下边举几个地名误识别的例子，需要指出的是，后边的机构名识别也以地名识别为基础，因此，如果地名识别不准确，也会导致机构名识别不准确。类型1 数字+地名[1] 暗访哈尔滨网约车：下10单来7辆“黑车” 1辆套牌[2] 房天下每日成交5月12日海
pyhanlp 繁简转换之拼音转换与字符正则化2019-06-28 09:23:35

繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式，并且已经封装到了HanLP中，使得我们可以轻松的使用，而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 ·说明 · HanLP能够识别简繁分歧词，比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇
hanlp添加词典不起作用2019-06-25 23:03:42

不起作用的原因很多，这里列举几个这里的hanlp我虽然用的maven建立的但是要添加自定义词典，所以没有用maven引入的方式，而是下载了data+hanlp.jar文件 data下载地址https://pan.baidu.com/s/1o8Rri0y 1、没有删除custom文件夹下的所有bin文件　　当添加新词典后，没
HanLP极致简繁转换2019-06-13 08:51:07

为什么80%的码农都做不了架构师？>>> 谈起简繁转换，许多人以为是小意思，按字转换就行了。事实上，汉语历史悠久，地域复杂，发展至今在字符级别存在“一简对多繁”和“一繁对多简”，在词语级别上存在“简繁分歧词”，在港澳台等地则存在“字词习惯不同”的情况。为此，HanLP新增了“
准确分词之动态调整词频和字典顺序2019-05-05 15:56:29

#-*- coding=utf8 -*- import jieba import re from tokenizer import cut_hanlp # jieba.load_userdict("dict.txt") # # 设置高词频：一个 # jieba.suggest_freq('台中',tune=True) # 设置高词频：dict.txt中的每一行都设置一下 # fp=open("dict.txt",'r'
词性标注代码实现及信息提取2019-05-05 15:54:46

#-*- coding=utf8 -*- import jieba import re from tokenizer import seg_sentences fp=open("text.txt",'r',encoding='utf8') fout=open("out.txt",'w',encoding='utf8') for line in fp: line=line.str
HanLP Analysis for Elasticsearch2019-04-22 10:55:43

基于 HanLP 的 Elasticsearch 中文分词插件，核心功能：兼容 ES 5.x-7.x；内置词典，无需额外配置即可使用；支持用户自定义词典；支持远程词典热更新（待开发）；内置多种分词模式，适合不同场景；拼音过滤器（待开发）；简繁体转换过滤器（待开发）。版本插件版本和 ES 版本一致，直接下载对应版本的插件进行安
HanLP Android 示例2019-04-17 10:56:50

portable版 portable版零配置，仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖： dependencies { compile 'com.hankcs:hanlp:portable-1.6.8'} 自定义版 HanLP的全部功能（分词、简繁、拼音、文本分类、句法分析）都兼容安卓，具体配置方法如下： 1、下载
分词工具Hanlp基于感知机的中文分词框架2019-04-03 10:56:06

结构化感知机标注框架是一套利用感知机做序列标注任务，并且应用到中文分词、词性标注与命名实体识别这三个问题的完整在线学习框架，该框架利用1个算法解决3个问题，时自治同意的系统，同时三个任务顺序渐进，构成流水线式的系统。本文先介绍中文分词框架部分内容。中文分词训练只需指定
idea 使用问题记录2019-03-27 09:54:06

导入 HanLP 项目后，运行样例时出现“找不到 junit.framework”的报错。解决方式是，在 File > Project Structure > Libraries 中添加相应的 jar 包，并且要同时选择两个 modules，否则依然会报错。
中文分词算法工具hanlp源码解析2019-03-13 10:54:29

词图词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话，那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续，同时也可能有多个前驱，它们构成的图我称作词图。需要稀疏2维矩阵模型，以一个词的起始位置作为行，终止位置作为列，可以得到一个二维矩阵。例如：“他
如何编译运行HanLP自然语言处理包2019-03-06 11:56:42

master分支对于master分支，编译方法如下:git clone https://github.com/hankcs/HanLP.gitmvn install -DskipTests ·由于目前一些test不够规范，使用了硬编码路径下的资源，所以暂时跳过单元测试。·该方法不会将src/main/resources目录下的任何资源（包括hanlp.properties）打包进jar，如
hanlp大辞典2019-02-24 23:44:25

hanlp加一个很大的词典时候遇到的问题：，然后改为5g，5g，问题得到解决。但是运行后还有一个问题是：重新改为10g，10g，问题得到解决。也就是给java虚拟机分配的内存大点。
Hanlp分词之CRF中文词法分析详解2019-02-18 14:55:51

这是另一套基于CRF的词法分析系统，类似感知机词法分析器，提供了完善的训练与分析接口。 CRF的效果比感知机稍好一些，然而训练速度较慢，也不支持在线学习。默认模型训练自OpenCorpus/pku98/199801.txt，随hanlp 1.6.2以上版本发布。语料格式等与感知机词法分析器相同，请先阅读《感知机词法
中文分词语言处理HanPL配置，以及在eclipse中安装使用方式2019-02-18 09:41:57

HanLP由3部分组成：类库hanlp.jar包、模型data包、配置文件hanlp.properties，请前往项目主页下载最新版：https://github.com/hankcs/HanLP/releases。对于非portable版，下载后，你需要编辑配置文件第一行的root指向data的父目录，方法：1.解压hanlp-1.3.1-release，2、将里面的hanlp.properties
汉语言处理包Hanlp的使用2019-02-18 09:40:17

本来想通过python调用Java实现Hanlp的使用，参考文章：http://t.cn/RUrIF7z##########python可以用easy_install安装一些软件############1.JPype使用介绍参考：http://michael-paul.iteye.com/blog/1055786Python 作为一种灵活的软件开发语言在当今被广泛使用。在软件开发过程中，有时需要
中文自然语言处理工具hanlp隐马角色标注详解2019-02-13 14:55:05

本文旨在介绍如何利用HanLP训练分词模型，包括语料格式、语料预处理、训练接口、输出格式等。目前HanLP内置的训练接口是针对一阶HMM-NGram设计的，另外附带了通用的语料加载工具，可以通过少量代码导出供其他训练工具使用的特定格式（如CRF++）。语料格式输入语料格式为人民日报分词语料
java分词技术（自动提取关键词，段落大意）hanlp2019-02-01 17:39:16

这是老师大作业需要的技术问了同班级的人（相当于学长!!你说的菜的有办法嘛啊哈哈哈哈哈）才知道hanlp这个外部包言归正传使用方法包以及数据如下GIT下载很慢我传百度云了链接：https://pan.baidu.com/s/14a22v1g_CAQN-G-k8f3Ovw 提取码：yfse 1 把你的下载的data解压到
自然语言处理工具hanlp自定义词汇添加图解2019-01-27 10:55:14

过程分析1.添加新词需要确定无缓存文件，否则无法使用成功，因为词典会优先加载缓存文件2.再确认缓存文件不在时，打开本地词典按照格式添加自定义词汇。3.调用分词函数重新生成缓存文件，这时会报一个找不到缓存文件的异常，不用管，因为加载词典进入内存是会优先加载缓存，缓存不在当然会报异常

首页 < 1 2

ICode9

HanLP-地名识别调试方法2019-07-19 10:01:21

pyhanlp 繁简转换之拼音转换与字符正则化2019-06-28 09:23:35

hanlp添加词典不起作用2019-06-25 23:03:42

HanLP极致简繁转换2019-06-13 08:51:07

准确分词之动态调整词频和字典顺序2019-05-05 15:56:29

词性标注代码实现及信息提取2019-05-05 15:54:46

HanLP Analysis for Elasticsearch2019-04-22 10:55:43

HanLP Android 示例2019-04-17 10:56:50

分词工具Hanlp基于感知机的中文分词框架2019-04-03 10:56:06

idea 使用问题记录2019-03-27 09:54:06

中文分词算法工具hanlp源码解析2019-03-13 10:54:29

如何编译运行HanLP自然语言处理包2019-03-06 11:56:42

hanlp大辞典2019-02-24 23:44:25

Hanlp分词之CRF中文词法分析详解2019-02-18 14:55:51

中文分词语言处理HanPL配置，以及在eclipse中安装使用方式2019-02-18 09:41:57

汉语言处理包Hanlp的使用2019-02-18 09:40:17

中文自然语言处理工具hanlp隐马角色标注详解2019-02-13 14:55:05

java分词技术（自动提取关键词，段落大意）hanlp2019-02-01 17:39:16

自然语言处理工具hanlp自定义词汇添加图解2019-01-27 10:55:14