前言
在做文本挖掘的时候,首先要做的预处理就是分词。
- 英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。
- 而中文由于没有空格,分词就是一个需要专门去解决的问题了。
无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的分词原理做一个总结。
1. 分词的基本原理
现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:"小明/来到/荔湾/区",而不是“小明/来到/荔/湾区”。那么如何做到这一点呢?
从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句子出现的概率要比“小明/来到/荔/湾区”大。如果用数学的语言来说说,如果有一个句子S,它有m种分词选项如下:
- \(A_{11}A_{12}...A_{1n_1}\)
- \(A_{21}A_{22}...A_{2n_2}\)
- \(...... ......\)
- \(A_{m1}A_{m2}...A_{mn_m}\)
标签:...,文本,小明,语料库,句子,空格,转载,分词 来源: https://www.cnblogs.com/zjuhaohaoxuexi/p/16460116.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。