标签:lexicon 记录 text 丁雪伟 更新 实验 words txt 字典
2.10实验:字典中没有的词在text中按照单个字分词
- 字典中有丁雪伟,可以在丁雪伟的音素错误的时候也能纠正为丁雪伟,所以字典的作用是从音素到词之间的矫正。
- 如果字典中没有丁雪伟这个词,在text分词的时候只能按照丁、雪、伟这三个字来分词。所以有一个常用的小技巧是将所有单个汉字作为词加入词典,这样在增加中文词的时候。“新词”总可以被拆分成“单字词”,这样L无需改变,只需将kaldi构建HCLG中的G进行更新即可。
- 使用aishell自带词典lexicon_orign.txt,和my_text_1,my_text_5(两个文档中丁雪伟,万丰电厂,七沥站都被分为单个词),重复5遍比重复一遍的效果好了很多。
- my_text_1
- my_text_5
- 总结:字典中没有这个词时,可以在text中对这个词进行字分词,以提高识别率,所以需要使字典覆盖更多的汉字。
words.txt phones.txt lm与lexicon和text的关系:
- 明确一个地方,words.txt完全是根据lexicon.txt得到的,而且lexicon的行数比words多几行,因为lexicon中包含了多音字。如果在字典lexicon中多加了30个词,就比方说上边的lexicon_mix.txt,相应的words.txt中也会多30行。
- 生成语言模型的时会同时用到lexicon和text文件,如果text中的词语lexicon中没有,那么就会出现下图的情况:
标签:lexicon,记录,text,丁雪伟,更新,实验,words,txt,字典 来源: https://blog.csdn.net/m0_51590371/article/details/122853815
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。