首页 > 其他分享> 文章详细

文档正常话

2022-02-11 08:00:18 阅读：218 来源： 互联网

标签：filter tokenizer analyzer char 正常文档分词器 my

一、normalization

normalization：规范化。在切词之后，包括大小写的转换、去掉语气词停用词(is、an)、单复数的变化

每种分词器的normalization策略不一样，如下图展示

二、char filter

char filter：字符过滤器，在切词之前完成操作

1、HTML Strip

 1 PUT my_index
 2 {
 3   "settings": {
 4     "analysis": {
 5       "analyzer": {
 6         "my_analyzer": {
 7           "tokenizer": "keyword",
 8           "char_filter": [
 9             "my_char_filter"
10           ]
11         }
12       },
13       "char_filter": {
14         "my_char_filter": {
15           "type": "html_strip",
16           "escaped_tags":"a"     使用该属性可以规定保留哪些标签
17         }
18       }
19     }
20   }
21 }

2、Mapping

 1 PUT my_index
 2 {
 3   "settings": {
 4     "analysis": {
 5       "char_filter": {
 6         "my_char_filter": {
 7           "type": "mapping",
 8           "mappings": [
 9             "滚 => *",
10             "垃 => *",
11             "圾 => *"
12           ]
13         }
14       },
15       "analyzer": {
16         "my_analyzer": {
17           "tokenizer": "keyword",
18           "char_filter": [
19             "my_char_filter"
20           ]
21         }
22       }
23     }
24   }
25 }

3、Pattern Replace，正则替换

 1 PUT my_index
 2 {
 3   "settings": {
 4     "analysis": {
 5       "char_filter": {
 6         "my_char_filter": {
 7           "type": "pattern_replace",
 8           "pattern":"(\\d{3})\\d{4}(\\d{4})",
 9           "replacement":"$1****$2"
10         }
11       },
12       "analyzer": {
13         "my_analyzer": {
14           "tokenizer": "keyword",
15           "char_filter": [
16             "my_char_filter"
17           ]
18         }
19       }
20     }
21   }
22 }

三、分词器tokenizer

分词器最主要的作用是进行切词，默认分词器为standard

标签：filter,tokenizer,analyzer,char,正常,文档,分词器,my
来源： https://www.cnblogs.com/lyc-code/p/15880129.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

文档正常话

一、normalization

二、char filter

三、分词器tokenizer