ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

07 在solr中配置分词器、停词库以及扩展词库

2020-03-29 17:55:09  阅读:275  来源: 互联网

标签:07 tomcat solr 扩展 dic 词库 分词器 root


在前面几节,我们看了一下solr的基本用法,这一节我们将看一下在solr中配置分词器、停词库以及扩展词库。

1、前提约束

2、操作步骤:

  • 未配置前的测试
    所有汉字都被单个分词,并未按语义

2.1、配置

  • 上传jar包IKAnalyzer2012FF_u1.jar
    将IKAnalyzer2012FF_u1.jar上传到/root/apache-tomcat-8.0.33/webapps/solr/WEB-INF/lib,就可以完成中文的分词。
  • 修改/root/solr-4.10.3/example/solr/collection1/conf/schema.xml
    <fieldType name="text_ik" class="solr.TextField">
        <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>
    <field name="companyname" type="text_ik" indexed="true" stored="true"/>
    <field name="companydesc" type="text_ik" indexed="true" stored="true"/>
    <field name="item_keywords" type="text_ik"  indexed="true" stored="true" multiValued="true" />
    <copyField source="companyname" dest="item_keywords"/>
    <copyField source="companydesc" dest="item_keywords"/>
  • 创建/root/apache-tomcat-8.0.33/webapp/solr/WEB-INF/classes文件夹,在该文件夹创建IKAnalyzer.cfg.xml、ext.dic、stopword.dic文件夹。
    IKAnalyzer.cfg.xml内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> 
<properties>  
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典     -->
    <entry key="ext_dict">ext.dic;</entry> 
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">stopword.dic;</entry> 
</properties>

ext.dic乃扩展词库,内容如下,请注意第一行空:


万和
江苏万和

stopword.dic乃停词库,内容如下,请注意第一行空:


的
是
一个
  • 重启tomcat

2.2、测试

  • 测试扩展词库
    扩展词库测试
  • 测试停词库
    测试停词库
    以上就是solr中的分词、停词以及扩展词库。

标签:07,tomcat,solr,扩展,dic,词库,分词器,root
来源: https://www.cnblogs.com/alichengxuyuan/p/12577251.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有