原文链接:http://tecdat.cn/?p=26341 原文出处:拓端数据部落公众号 本文数据采集于豆瓣读书网站,分析内容将基于豆瓣读书的图书评分和评论信息。 主题将紧紧围绕以下几点:有哪些书籍值得推荐?一般书籍的价格是多少?一本书的评分和评论数量之间是否存在某种关系? 视频:R语言关联规则模
稀土掘金开发者社区公布了2021年度人气创作者榜单。拓端tecdat与华为云、蚂蚁金服、37手游等企业一同入选“2021 掘金人气团队榜榜单”。 近日互联网技术的优质内容分享社区稀土掘金,为了更好地展示社区的优质创作者、激励更多优质的技术人才参与到内容创作来,持续促进社区生态完
原文链接:http://tecdat.cn/?p=26158 原文出处:拓端数据部落公众号 弹性网络正则化同时应用 L1 范数和 L2 范数正则化来惩罚回归模型中的系数。为了在 R 中应用弹性网络正则化。在 LASSO回归中,我们为 alpha 参数设置一个 '1' 值,并且在 岭回归中,我们将 '0' 值设置为其 alpha 参数。
原文链接:http://tecdat.cn/?p=25761 原文出处:拓端数据部落公众号 VARs的结构也允许联合检验多个方程的限制。例如,检验滞后p的所有回归变量的系数是否为零,可能是有意义的。这相当于检验滞后阶数p-1是正确的原假设。系数估计值的大样本联合正态性很方便,因为它意味着我们可以简单
原文链接:http://tecdat.cn/?p=25770 原文出处:拓端数据部落公众号 在本文中,我们展示了 copula GARCH 方法拟合模拟数据和股票数据并进行可视化。 r还提供了一个特殊情况(具有正态或学生 t残差)。 一、如何在R中对股票x和y的收益率拟合copula模型 数据集 为了这个例子的目的,我使用
原文链接:http://tecdat.cn/?p=25564 原文出处:拓端数据部落公众号 冗余分析(redundancy analysis,RDA)是一种回归分析结合主成分分析的排序方法,也是多因变量(multiresponse)回归分析的拓展。从概念上讲,RDA是因变量矩阵与解释变量之间多元多重线性回归的拟合值矩阵的PCA分析。 本报告对
原文链接:http://tecdat.cn/?p=25583 原文出处:拓端数据部落公众号 多项式逻辑回归 是逻辑回归的扩展,它增加了对多类分类问题的支持。 默认情况下,逻辑回归仅限于两类分类问题。一些扩展,可以允许将逻辑回归用于多类分类问题,尽管它们要求首先将分类问题转换为多个二元分类问题。
原文链接:http://tecdat.cn/?p=25610 原文出处:拓端数据部落公众号 配对交易提出的问题之一是股票的贝塔值相对于市场的不稳定估计。这是一个可能的解决方案的建议,这并不是真正的解决方案。看看下图: Microsoft的滚动系数(回归:MSFT~SPY)- 120 天的窗口,纯蓝色是使用完整样本估计的 be
原文链接:http://tecdat.cn/?p=25610 原文出处:拓端数据部落公众号 配对交易提出的问题之一是股票的贝塔值相对于市场的不稳定估计。这是一个可能的解决方案的建议,这并不是真正的解决方案。 看看下图: Microsoft的滚动系数(回归:MSFT~SPY)- 120 天的窗口,纯蓝色是使用完整样本估
原文链接:http://tecdat.cn/?p=25583 原文出处:拓端数据部落公众号 多项式逻辑回归 是逻辑回归的扩展,它增加了对多类分类问题的支持。 默认情况下,逻辑回归仅限于两类分类问题。一些扩展,可以允许将逻辑回归用于多类分类问题,尽管它们要求首先将分类问题转换为多个二元分类问
原文链接:http://tecdat.cn/?p=25111 原文出处:拓端数据部落公众号 分类树的一个常见用途是预测抵押贷款申请人是否会拖欠贷款。数据包含对 5,960 名抵押贷款申请人的观察结果。一个名为的变量 Bad 表示申请人在获得贷款批准后是还清贷款还是拖欠贷款。 此示例构建一个树模型,该
原文链接:http://tecdat.cn/?p=25133 原文出处:拓端数据部落公众号 2017 年年中,R 推出了 Keras 包 ,这是一个在 Tensorflow 之上运行的综合库,具有 CPU 和 GPU 功能。本文将演示如何在 R 中使用 LSTM 实现时间序列预测。 简单的介绍 时间序列涉及按时间顺序收集的数据。我用 xt
原文链接:http://tecdat.cn/?p=25044 原文出处:拓端数据部落公众号 1 简介 在本文,我们将考虑观察/显示所有变量的模型,以及具有潜在变量的模型。第一种有时称为“路径分析”,而后者有时称为“测量模型”。 2 进行简单的多元回归 SEM 在很大程度上是回归的多元扩展,我们可以在其中一次检
原文链接:http://tecdat.cn/?p=24996 原文出处:拓端数据部落公众号 我一直在寻找一种直观的方法来绘制流程中状态之间的流程或连接。一个明显的选择是,R软件包恰好满足了我的需求。 将数据设置为正确的格式是一个比较麻烦的过程。现在,本文仅说明如何构建多级图。 构造数据 此示例的
原文链接:http://tecdat.cn/?p=24956 原文出处:拓端数据部落公众号 绘制分类或回归树的基本方法的 rpart() 函数只是调用 plot。然而,总的来说,结果并不漂亮。事实证明,一段时间以来,有一种更好的方法来绘制 rpart() 树。 我们可以大概浏览下如何实现,并且进一步研究。 #
原文链接:http://tecdat.cn/?p=24973 原文出处:拓端数据部落公众号 简介 世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式,从而减少并发症。本研究旨在查明心脏病最
原文链接:http://tecdat.cn/?p=24886 原文出处:拓端数据部落公众号 在网络上进行社区检测时,有时我们不仅拥有实体之间的联系。这些实体代表了我们可能也想在网络可视化中代表的现实事物。 plot(g) 我使用数据集,代表了观察到的 18 位女性参加 14 场社交活
原文链接:http://tecdat.cn/?p=24753 原文出处:拓端数据部落公众号 摘要 在这项工作中,我通过创建一个包含四只基金的模型来探索 copula,这些基金跟踪股票、债券、美元和商品的市场指数。然后,我使用该模型生成模拟值,并使用实际收益和模拟收益来测试模型投资组合的性能,以计算风险价值(V
原文链接:http://tecdat.cn/?p=24671 原文出处:拓端数据部落公众号 在本文中,我解释了基本回归,并介绍了主成分分析 (PCA) 使用回归来预测城市中观察到的犯罪率。我还应用 PCA 创建了一个回归模型,用于使用前几个主成分对相同的犯罪数据进行建模。最后,我对两种模型的结果进行了比较,看看
原文链接:http://tecdat.cn/?p=24680 原文出处:拓端数据部落公众号 Beta 假设反映了一种工具对例如市场的风险。但是,您可以通过各种方式估算此度量。 你可以收缩你的估计来稳定它。另一个方面是这种风险度量的非线性。在红色和绿色的时间里,对市场的敏感性不相同。从结果中我们可以
原文链接:http://tecdat.cn/?p=24535 原文出处:拓端数据部落公众号 最近,copula 在仿真模型中变得流行起来。Copulas 是描述变量之间依赖关系的函数,并提供了一种创建分布以对相关多元数据建模的方法。使用 copula,数据分析师可以通过指定边缘单变量分布并选择特定的 copula 来提供变量
原文链接:http://tecdat.cn/?p=24973 原文出处:拓端数据部落公众号 简介 世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家,一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式,从而减少并发症。本研究旨在查明心脏
原文链接:http://tecdat.cn/?p=24421 原文出处:拓端数据部落公众号 AdaBoost是? Boosting指的是机器学习元算法系列,它将许多 "弱 "分类器的输出合并成一个强大的 "集合",其中每个弱分类器单独的错误率可能只比随机猜测好一点。 AdaBoost这个名字代表了自适应提升,它指的是一种特殊的
原文链接:http://tecdat.cn/?p=24134 原文出处:拓端数据部落公众号 测试非线性回归中的交互作用 因子实验在农业中非常普遍,它们通常用于测试实验因素之间相互作用的重要性。例如,可以在两种不同的施氮水平(例如高和低)下进行基因型评估,以了解基因型的排名是否取决于养分的可用性。对
原文链接 http://tecdat.cn/?p=23947 原文出处:拓端数据部落公众号 摘要 分布滞后非线性模型(DLNM)表示一个建模框架,可以灵活地描述在时间序列数据中显示潜在非线性和滞后影响的关联。该方法论基于交叉基的定义,交叉基是由两组基础函数的组合表示的二维函数空间,它们分别指定了预测