首页 > 数据库> 文章详细

MySQL中的n-gram计数

2019-07-10 00:14:57 阅读：223 来源： 互联网

标签：mysql nlp full-text-search n-gram

我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库中提取10,000个文本文件 – 这将产生性能问题.

我是MySQL的新手,所以我不确定它是否有任何内置功能进行n-gram分析,或者是否有好的插件可以做到这一点.请注意,在我的分析中,我需要达到至少4克(最好是5克),所以我见过的简单的2克插件在这里不起作用.我还需要能够在进行n-gram计数之前从文本文档中删除停用词.

来自社区的任何想法？

谢谢,

罗恩

解决方法:

我的建议是使用像lucene / solr这样的专用全文搜索索引程序,它对这类东西有更丰富和可扩展的支持.它需要你学习一点才能设置它,但听起来好像你想在一个难以在MySQL中自定义的水平上乱七八糟.

标签：mysql,nlp,full-text-search,n-gram
来源： https://codeday.me/bug/20190709/1418304.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

MySQL中的n-gram计数