ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

pyhanlp常用功能

2021-11-19 09:33:03  阅读:210  来源: 互联网

标签:功能 sentence newSegment 常用 pyhanlp print 识别 HanLP 分词


HanLP提供下列功能:

中文分词
1.最短路分词(Dijkstra精度已经足够,且速度比N最短快几倍)
2.N-最短路分词(与Dijkstra对比,D已够用)
3.CRF分词(对新词较有效)
4.索引分词(长词切分,索引所有可能词)
5.极速词典分词(速度快,精度一般)
6.用户自定义词典
7.标准分词(HMM-Viterbi)

命名实体识别
1.实体机构名识别(层叠HMM-Viterbi)
2.中国人名识别(HMM-Viterbi)
3.音译人名识别(层叠隐马模型)
4.日本人名识别(层叠隐马模型)
5.地名识别(HMM-Viterbi)

篇章理解
1.关键词提取( TextRank关键词提取)
2.自动摘要( TextRank自动摘要,提取关键句子)
3.短语提取( 基于互信息和左右信息熵的短语提取)

简繁拼音转换
1.拼音转换( 多音字,声母,韵母,声调)
2.简繁转换(繁体中文分词,简繁分歧词)

智能推荐
1.文本推荐(句子级别,从一系列句子中挑出与输入句子/词语最相似的那一句)
2.语义距离(基于《同义词词林扩展版》)

原文链接:https://blog.csdn.net/XiaoXiao_Yang77/article/details/78437915

实体标注分词导录:

from pyhanlp import *

import os #远程调试用
os.environ[‘JAVA_HOME’] = ‘/usr/local/jdk-11’#远程调试用
from pyhanlp import *
print (HanLP.segment(“刘晓明去哪里了?”))
#1.2.3.crf/viterbi
sentence = ‘林志玲亮相网友’
CRFnewSegment = HanLP.newSegment(“crf”)
CRFnewSegment = HanLP.newSegment(“viterbi”)
识别日语名开
viterbiNewSegment = HanLP.newSegment(“viterbi”).enableJapaneseNameRecognize(True)
识别日语名开
CRFnewSegment_new = HanLP.newSegment(“crf”).enableJapaneseNameRecognize(True)
print("crf : ",CRFnewSegment.seg(sentence))
print("crf_new : ",CRFnewSegment_new.seg(sentence))
print("viterbi : ",viterbiNewSegment.seg(sentence))

4.感知机
StandardTokenizer = JClass(“com.hankcs.hanlp.tokenizer.StandardTokenizer”)
StandardTokenizer.SEGMENT.enableNumberQuantifierRecognize(True)
print(StandardTokenizer.segment(‘李明华’))

5.适用于中国人名识别
segment = HanLP.newSegment().enableNameRecognize(True)
print(segment.seg(‘黄晓明’))

6.音译名识别
sentence = ‘比尔盖茨、亚马逊的贝索斯、苹果的库克’
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)

7.感知机词法分析器
PerceptronLexicalAnalyzer = JClass(‘com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer’)
analyzer = PerceptronLexicalAnalyzer()
print(analyzer.analyze(董事长李红小姐"))

标签:功能,sentence,newSegment,常用,pyhanlp,print,识别,HanLP,分词
来源: https://blog.csdn.net/weixin_52582710/article/details/121414928

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有