ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

java weka stringtowordvector没有正确计算单词出现次数

2019-08-26 22:09:50  阅读:230  来源: 互联网

标签:java string machine-learning api weka


所以我正在使用Weka机器学习库的JAVA API,我有以下代码:

    String html = "repeat repeat repeat";

    Attribute input = new Attribute("html",(FastVector) null);

    FastVector inputVec = new FastVector();
    inputVec.addElement(input);

    Instances htmlInst = new Instances("html",inputVec,1);
    htmlInst.add(new Instance(1));  
    htmlInst.instance(0).setValue(0, html);

    StringToWordVector filter = new StringToWordVector();
    filter.setUseStoplist(true);

    filter.setInputFormat(htmlInst);
    Instances dataFiltered = Filter.useFilter(htmlInst, filter);

    Instance last = dataFiltered.lastInstance();
    System.out.println(last);

虽然StringToWordVector应该计算字符串中出现的单词,而不是将“重复”一词计数3次,但计数仅为1

我究竟做错了什么?

解决方法:

哎呀……所有这些代码行.相反,这几行怎么样?

public static Map<String, Integer> countWords(String input) {
    Map<String, Integer> map = new HashMap<String, Integer>();
    Matcher matcher = Pattern.compile("\\b\\w+\\b").matcher(input);
    while (matcher.find())
        map.put(matcher.group(), map.containsKey(matcher.group()) ? map.get(matcher.group()) + 1 : 1);
    return map;
}

这是代码的实际应用:

public static void main(String[] args) {
    System.out.println(countWords("sample, repeat sample, of text"));
}

输出:

{of=1, text=1, repeat=1, sample=2}

标签:java,string,machine-learning,api,weka
来源: https://codeday.me/bug/20190826/1734539.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有