ICode9

精准搜索请尝试: 精确搜索
  • python – scikit-learn确定所选类别的分类器的分类/分数2019-06-28 05:44:07

    我正在做一些多类文本分类,它可以很好地满足我的需求: classifier = Pipeline([ ('vect', CountVectorizer(tokenizer=my_tokenizer, stop_words=stopWords, ngram_range=(1, 2), min_df=2)), ('tfidf', TfidfTransformer(norm='l2', use_idf=True, smooth_idf

  • python – Sklearn将Pandas Dataframe和CSR Matrix分成测试和训练集2019-06-23 13:44:07

    我正在尝试使用scikit-learn DecisionTree和Pandas Dataframe对文本进行分类: 首先,我构建了一个如下所示的数据框: cat1 cat2 corpus title 0 0 1 Test Test Test erster titel 1 1 0

  • 如何在java中使用StringToWordVector(weka)?2019-06-23 01:49:18

    这是我的arff文件 @relation hamspam @attribute text string @attribute class {ham,spam} @data 'good',ham 'very good',ham 'bad',spam 'very bad',spam 'very bad, very bad',spam 我想要做的是在我的java程序中使用weka clasiffier对其

  • 如何将ScikitLearn分类器应用于大图像中的切片/窗口2019-06-22 17:43:02

    鉴于是在scikit学习中训练有素的分类,例如一个RandomForestClassifier.分类器已经过大小样本的训练,例如: 25×25. 如何轻松将其应用于大图像中的所有图块/窗口(例如640×480)? 我能做的是(提前代码慢!) x_train = np.arange(25*25*1000).reshape(25,25,1000) # just some pseudo tra

  • R语言中多分类问题 multicalss classification 的性能测量2019-06-12 21:50:36

    对于分类问题,通常根据与分类器相关联的混淆矩阵来定义分类器性能。基于矩阵的条目,可以计算灵敏度(召回),特异性和精确度。   对于二元分类问题,所有这些性能测量都很容易获得。哪种衡量标准取决于分类器的类型。硬分类器是非得分的,因为它们只产生结果。另一方面,软分类器是评分分

  • java – 根据唯一值将列表拆分为子列表2019-06-12 03:49:39

    我有一份清单清单: 列表与LT; ArrayList的&LT字符串&GT&GT D = new ArrayList<>(); 当它被填充时,它可能看起来像:[“A”,“B”,“Y”][“C”,“D”,“Y”][“A”,“D”,“N”] 我想根据唯一属性值将列表列表拆分为分区(比如索引1). 所以索引1的属性有两个唯一值,“B”和“D”,所以我

  • python – 加载pickled分类器数据:词汇不适合错误2019-06-11 23:45:20

    我在这里阅读了所有相关问题,但找不到可行的解决方案: 我的分类器创建: class StemmedTfidfVectorizer(TfidfVectorizer): def build_analyzer(self): analyzer = super(TfidfVectorizer, self).build_analyzer() return lambda doc: english_stemmer.stemWords

  • python – 使用sklearn进行Logistic回归2019-06-09 05:43:11

    不确定这是否是这个问题的好地方,但我被告知CrossValidated不是.所以,所有这些问题都涉及sklearn,但如果你对逻辑回归有一般的见解,我也很乐意听到它们. 1)数据是否必须标准化(平均0,stdev 1)?2)在sklearn中,如何指定我想要的正则化类型(L1与L2)?请注意,这与惩罚不同;惩罚是指分类错

  • 如何使用自定义功能的sklearn管道?2019-06-08 23:46:33

    我正在使用Python和sklearn进行文本分类.除了矢量化器之外,我还有一些自定义功能.我想知道是否可以将它们与sklearn Pipeline一起使用以及如何将功能堆叠在其中. 我目前没有管道分类代码的简短示例.请告诉我,如果你发现它有什么不妥之处,将非常感谢你的帮助.是否可以以某种方式将其

  • python – partial_fit Sklearn的MLPClassifier2019-06-08 23:42:20

    我一直在尝试使用Sklearn的神经网络MLPClassifier.我有一个大小为1000个实例的数据集(带有二进制输出),我想应用一个带有1个隐藏层的基本神经网络. 问题是我的数据实例并非同时全部可用.在任何时间点,我只能访问1个数据实例.我认为MLPClassifier的partial_fit方法可以用于此,所以我

  • python – Tensorflow中的多标签分类器2019-06-08 17:45:36

    我想用TensorFlow开发一个多标签分类器,我试图意味着存在多个包含多个类的标签.为了说明你可以想象这样的情况: > label-1类:灯光下雨,下雨,局部下雨,没有下雨>标签-2类:晴天,部分多云,多云,非常多云. 我想用神经网络对这两个标签进行分类.现在,我为每个(label-1,label-2)对类使用了不

  • Online Classification2019-06-03 16:49:19

    Another challenging trend in Internet evolution is the tremendous growth of the infrastructure in every dimension, including bandwidth capacity of links(背景). Most real-world applications of traffic classification require tools to work online, reporting li

  • ImageNet Classification with Deep Convolutional Neural Networks2019-05-31 20:53:54

    ImageNet Classification with Deep Convolutional Neural Networks 原文地址 时间:2012 Intro ImageNet是一个包含15 million的高分辨率图片数据集,其中包括了22000个类别,ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)使用了ImageNet的子集作为比赛数据——约1

  • 抑制libsvm(python)中的输出2019-05-30 18:54:21

    我使用python的libsvm(svmutils)进行分类任务.分类器是准确的.但是,我得到这样的输出: * optimization finished, #iter = 75 nu = 0.000021 obj = -0.024330, rho = 0.563710 nSV = 26, nBSV = 0 Total nSV = 26 * optimization finished, #iter = 66 nu = 0.000030 obj = -0.0355

  • java – Mahout – 简单的分类问题2019-05-30 07:48:28

    我正在尝试构建一个简单的模型,可以将点分类为2D空间的2个分区: >我通过指定几个点和它们所属的分区来训练模型.>我使用模型来预测测试点可能落入的组(分类). 不幸的是,我没有得到预期的答案.我在代码中遗漏了什么,或者我做错了什么? public class SimpleClassifier { public s

  • 如何使用XGboost优化sklearn管道,用于不同的`eval_metric`?2019-05-22 21:55:09

    我正在尝试使用XGBoost,并将eval_metric优化为auc(如here所述). 这在直接使用分类器时工作正常,但在我尝试将其用作pipeline时失败. 将.fit参数传递给sklearn管道的正确方法是什么? 例: from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler fr

  • Evaluation of Sampling and Cross-Validation Tuning Strategies for Regional-Scale Machine Learning Cl2019-05-14 15:40:51

    比较了不同抽样方法(随机,分层等比随机,分层不等比随机,人为),不同交叉验证方法(k折,留一法,蒙特卡洛),不同样本范围大小的效果,最后都是用SVM分类 结果是k折验证最好,人为选择样本最差。小范围小样本的效果和分布广泛的样本的效果差不多,说明了如果取样困难,小样本也是能用的

  • R语言中多分类问题 multicalss classification 的性能测量2019-05-06 18:41:42

    判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。 本文主要关注LDA,并探讨其在理论和实践中作为分类和可视化技术的用途。由于QDA和RDA

  • 机器学习基石11-Linear Models for Classification2019-04-25 15:50:33

    注: 文章中所有的图片均来自台湾大学林轩田《机器学习基石》课程。 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们介绍了Logistic Regression问题,建立cross-entropy error,并提出使用梯度下降算法gradient descent来获得最好的logistic hypothesis。本节课继续介绍使用线性模型

  • 李宏毅机器学习笔记3:Classification、Logistic Regression2019-03-23 22:42:58

    李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube、网易云课堂、B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对这些知识内容的理解与补充。(本笔记配合李宏毅老师的视频一起使用效果更佳!) ML Le

  • TreeLSTM Sentiment Classification2019-03-08 13:47:32

    实验室周日讨论班讲的是TreeLSTM Sentiment Classification,主讲人:王铭涛 本人来做一下总结。 下面的图片来自于 王铭涛的ppt   导读 我们一步一步来。先说最基础的RNN结构: 公式为: 就一个简单的隐层h。 但是RNN的缺点是会有梯度爆炸或者梯度消失问题。这里我就不详细解释了。

  • 吴恩达机器学习笔记(6)——Logistic回归2019-03-06 15:53:41

    1. Classification  我们可以尝试使用线性回归来实现分类,所要做的就是在线性回归拟合数据以后给他一个threshold(阈值),例如在下面的例子中,就可以给一个0.5作为阈值(当hθ(x)的值大于等于0.5时,预测y为1;当hθ(x)小于0.5时,预测y为0)来预测肿瘤的性质(良性或恶性)。   在这种情况下,我

  • py2-py3.4 Debug 过程记录 for text_classification_AI1002019-03-06 09:52:41

    part one data_process.py   part one data_process.py 1、 for line in stop_words_file.readlines(): stopwords_list.append(line.decode('gdk')[:-1]) 改为 for line in stop_words_file.readlines(): stopwords_list.append(line[:-1]) 2、 wit

  • tensorflow学习笔记_0002_keras_basic_classification2019-03-05 20:00:44

    一、概述 本博文基于tensorflow的官方指南,演示一个基本分类的例子,环境为win10+spyder3.3.3+python3.6,直接上代码。   二、代码与运行结果 1、导入依赖库 # TensorFlow and tf.keras import tensorflow as tf from tensorflow import keras # Helper libraries import numpy a

  • AI - TensorFlow - Classification(分类)与Regression (回归)2019-02-25 22:47:29

    分类与回归 分类(Classification)与回归(Regression)的区别在于输出变量的类型。通俗理解,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。回归问题的预测结果是连续的,通常是用来预测一个值,如预测房价、未来的天气情况等等。一个比较常见的回归算法是线性

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有