原文链接:http://tecdat.cn/?p=24906 原文出处:拓端数据部落公众号 你知道“巨型猪饲料”“单身狗粮”是什么吗?这不是给动物吃的,也许你或多或少听说过,这些在网上引起巨大反响的零食,完全激起了大家的购买欲望。 要点提示 与传统食品相比,这种购物模式不需要消费者亲自到商店或市场去挑
原文链接:http://tecdat.cn/?p=24925 原文出处:拓端数据部落公众号 Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假
原文链接:http://tecdat.cn/?p=24896 原文出处:拓端数据部落公众号 漂亮的圆形图。我不确定对数据分析师本身是否有额外的好处,但如果能吸引决策者的注意,那对我来说就是额外的价值。 然而,用coord_polar()或偶尔发现的ggplot2中的coord_radar()构建它们可能很难。我发现的两个主要问
原文链接:http://tecdat.cn/?p=24742 原文出处:拓端数据部落公众号 摘要 有限混合模型是对未观察到的异质性建模或近似一般分布函数的流行方法。它们应用于许多不同的领域,例如天文学、生物学、医学或营销。本文给出了这些模型的概述以及许多应用示例。 介绍 有限混合模型是对未观
原文链接:http://tecdat.cn/?p=24753 原文出处:拓端数据部落公众号 摘要 在这项工作中,我通过创建一个包含四只基金的模型来探索 copula,这些基金跟踪股票、债券、美元和商品的市场指数。然后,我使用该模型生成模拟值,并使用实际收益和模拟收益来测试模型投资组合的性能,以计算风险价值(V
原文链接:http://tecdat.cn/?p=24613 原文出处:拓端数据部落公众号 我们在心理学网络论文中看到的一个问题是,作者有时会对其数据的可视化进行过度解释。这尤其涉及到图形的布局和节点的位置,例如:网络中的节点是否聚集在某些社区。 下面我将详细讨论这个问题,并提供一个关于如何识别网
原文链接:http://tecdat.cn/?p=24658 原文出处:拓端数据部落公众号 圆填充Circle packing算法 已经开发了大量确定性和随机性的圆填充算法。 RepelLayout 通过成对排斥迭代移动圆圈来搜索非重叠布局。圆的位置被限制在一个矩形区域内。为避免边缘效应,可以将边界区域视为环面,例
原文链接:http://tecdat.cn/?p=24671 原文出处:拓端数据部落公众号 在本文中,我解释了基本回归,并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。我还应用 PCA 创建了一个回归模型,用于使用前几个主成分对相同的犯罪数据进行建模。最后,我对两种模型的结果进行了比较,看看
原文链接:http://tecdat.cn/?p=24680 原文出处:拓端数据部落公众号 Beta 假设反映了一种工具对例如市场的风险。但是,您可以通过各种方式估算此度量。 你可以收缩你的估计来稳定它。另一个方面是这种风险度量的非线性。在红色和绿色的时间里,对市场的敏感性不相同。从结果中我们可以
原文链接:http://tecdat.cn/?p=24511 原文出处:拓端数据部落公众号 本文通过一些指数对散点图矩阵和平行坐标显示中的面板进行排序,并根据其数值水平对面板进行着色。 显示相关矩阵 cor <- cor(ley) leclr <- mat.colr(cor) mtcolr 根据相关性大小为相关性分配
原文链接:http://tecdat.cn/?p=24535 原文出处:拓端数据部落公众号 最近,copula 在仿真模型中变得流行起来。Copulas 是描述变量之间依赖关系的函数,并提供了一种创建分布以对相关多元数据建模的方法。使用 copula,数据分析师可以通过指定边缘单变量分布并选择特定的 copula 来提供变量
原文链接:http://tecdat.cn/?p=24973 原文出处:拓端数据部落公众号 简介 世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式,从而减少并发症。本研究旨在查明心脏
原文链接:http://tecdat.cn/?p=24421 原文出处:拓端数据部落公众号 AdaBoost是? Boosting指的是机器学习元算法系列,它将许多 "弱 "分类器的输出合并成一个强大的 "集合",其中每个弱分类器单独的错误率可能只比随机猜测好一点。 AdaBoost这个名字代表了自适应提升,它指的是一种特殊的
原文链接:http://tecdat.cn/?p=24354 原文出处:拓端数据部落公众号 本文介绍简化模型构建和评估过程。 caret包的train 函数可用于 使用重采样评估模型调整参数对性能的影响 在这些参数中选择“最佳”模型 从训练集估计模型性能 首先,必须选择特定的模型。 调整模型的第一步是选
原文链接:http://tecdat.cn/?p=24182 原文出处:拓端数据部落公众号 概要 本文用 R 编程语言极值理论 (EVT) 以确定 10 只股票指数的风险价值(和条件 VaR)。使用 Anderson-Darling 检验对 10 只股票的组合数据进行正态性检验,并使用 Block Maxima 和 Peak-Over-Threshold 的 EVT 方法估
原文链接:http://tecdat.cn/?p=24134 原文出处:拓端数据部落公众号 测试非线性回归中的交互作用 因子实验在农业中非常普遍,它们通常用于测试实验因素之间相互作用的重要性。例如,可以在两种不同的施氮水平(例如高和低)下进行基因型评估,以了解基因型的排名是否取决于养分的可用性。对
原文链接:http://tecdat.cn/?p=24141 原文出处:拓端数据部落公众号 背景 贝叶斯模型提供了变量选择技术,确保变量选择的可靠性。对社会经济因素如何影响收入和工资的研究为应用这些技术提供了充分的机会,同时也为从性别歧视到高等教育的好处等主题提供了洞察力。下面,贝叶斯信息准则(BIC
原文链接:http://tecdat.cn/?p=24084 原文出处:拓端数据部落公众号 在这篇文章中,我将扩展从数据推断概率的示例,考虑 0 和 1之间的所有(连续)值,而不是考虑一组离散的候选概率。这意味着我们的先验(和后验)现在是一个 probability density function (pdf) 而不是 probability mas
原文链接 http://tecdat.cn/?p=23947 原文出处:拓端数据部落公众号 摘要 分布滞后非线性模型(DLNM)表示一个建模框架,可以灵活地描述在时间序列数据中显示潜在非线性和滞后影响的关联。该方法论基于交叉基的定义,交叉基是由两组基础函数的组合表示的二维函数空间,它们分别指定了预测
原文链接:http://tecdat.cn/?p=23955 原文出处:拓端数据部落公众号 关联规则学习 在机器学习中用于发现变量之间的有趣关系。Apriori算法是一种流行的关联规则挖掘和频繁项集提取算法,在关联规则学习中有应用。它旨在对包含交易的数据库进行操作,例如商店客户的购买(购物篮分析)。除了
原文链接:http://tecdat.cn/?p=23921 原文出处:拓端数据部落公众号 本文描述了训练支持向量回归模型的过程,该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是普通工作日的用电量。 关于支持向量机的快速说明 支持向量机是机器学习的一种形式
原文链接: http://tecdat.cn/?p=23848 原文出处:拓端数据部落公众号 决策树是对例子进行分类的一种简单表示。它是一种有监督的机器学习技术,数据根据某个参数被连续分割。决策树分析可以帮助解决分类和回归问题。 决策树算法将数据集分解成更小的子集;同时,相关的决策树也在逐步发展。
原文链接:http://tecdat.cn/?p=23583 原文出处:拓端数据部落公众号 作者:Herbert Hu 项目挑战 无印良品,是指“没有名字的优良商品”,于1980年诞生于日本,主推服装、生活杂货、食品等各类优质商品。2005年,无印良品进入中国市场,产品注重纯朴、简洁、环保、以人为本等理念,深受广大消费者
原文链接:http://tecdat.cn/?p=23599 原文出处:拓端数据部落公众号 降维是在我们处理包含过多特征数据的大型数据集时使用的,提高计算速度,减少模型大小,并以更好的方式将巨大的数据集可视化。这种方法的目的是保留最重要的数据,同时删除大部分的特征数据。 在这个教程中,我们将简要
原文链接:http://tecdat.cn/?p=23509 原文出处:拓端数据部落公众号 我们在研究工作中使用广义加性模型(GAMs)。mgcv软件包是一套优秀的软件,可以为非常大的数据集指定、拟合和可视化GAMs。 这篇文章介绍一下广义加性模型(GAMs)目前可以实现的功能。 我们需要加载mgcv library('mgcv')