原文链接:http://tecdat.cn/?p=23524 原文出处:拓端数据部落公众号 在本文中,我想向你展示如何使用R的Metropolis采样从贝叶斯Poisson回归模型中采样。 Metropolis-Hastings算法 Metropolis-Hastings抽样算法是一类马尔科夫链蒙特卡洛(MCMC)方法,其主要思想是生成一个马尔科夫链使其平
原文链接:http://tecdat.cn/?p=23534 作者:ShiChao Wu 项目挑战 肝脏病在早期可能没有任何症状,不容易被察觉,或者症状是模糊的。肝脏病的症状和肝脏病的类型和程度高度相关,肝脏病的一般是通过肝功能测试诊断。在常见的肝功能测试诊断中,一般主要包含三大类指标:血清酶、胆红素和血清
原文链接:http://tecdat.cn/?p=23344 原文出处:拓端数据部落公众号 在许多网站上都可以找到一个流行的德国信贷数据集german_credit,其中包含了银行贷款申请人的信息。该文件包含1000名申请人的20条信息。 下面的代码可以用来确定申请人是否有信用,以及他(或她)是否对贷款人有良好的信
原文链接:http://tecdat.cn/?p=23322 原文出处:拓端数据部落公众号 月亮图和饼图 饼图把一个圆分成多个部分,这些部分的弧长(以及面积)代表一个整体的比例。月亮图也是如此,它把一个圆分成多个部分,这些部分的面积代表整个圆的比例,但在月亮图中,这些部分被画成圆的月牙形,就像月相。
原文链接:http://tecdat.cn/?p=23392 原文出处:拓端数据部落公众号 作者:Minghong Xu 某制药公司每年要花费大量的资金在电费上,由于电力公司的业务改革,该药企可以在一年或月开始时向电力公司预购一定数量的电力,如果实际消耗大于该值,则每多消耗一度电要付比以前更多的电费,如果实际上
原文链接:http://tecdat.cn/?p=23264 原文出处:拓端数据部落公众号 录取情况反映了公众对一所大学水平和实力的认知,是评价一所大学及其专业 "知名度 "的重要指标。 要点提示 本文对国内部分院校近两年的录取分数线进行分析,旨在为考生和家长在填报志愿时提供科学参考。 北京、上
原文链接:http://tecdat.cn/?p=23276 原文出处:拓端数据部落公众号 有些问题是线性的,但有些问题是非线性的。我假设,你过去的知识是从讨论和解决线性问题开始的,这是一个自然的起点。对于非线性问题的解决,往往涉及一个初始处理步骤。这个初始步骤的目的是将问题转化为同样具有线性特征
原文链接:http://tecdat.cn/?p=23115 原文出处:拓端数据部落公众号 在这个文章中,我们演示了copula GARCH方法(一般情况下)。 1 模拟数据 首先,我们模拟一下创新分布。我们选择了一个小的样本量。理想情况下,样本量应该更大,更容易发现GARCH效应。 ## 模拟创新 d <- 2 #
原文链接:http://tecdat.cn/?p=23068 原文出处:拓端数据部落公众号 Rasch 分析是获得客观的、最基本的累加型测量值(兼顾分析模型中的标准误和质量控制如拟合统计值)的一种分析方法,适用于通过随机观测有序、分级类反应获得的数据分析。 Rasch 模型是如何处理数据的呢? 在Rasch 模
原文链接:http://tecdat.cn/?p=23038 原文出处:拓端数据部落公众号 简介 假设我们需要设计一个抽样调查,有一个完整的框架,包含目标人群的信息(识别信息和辅助信息)。如果我们的样本设计是分层的,我们需要选择如何在总体中形成分层,以便从现有的辅助信息中获得最大的优势。 换句话说,我们必
原文链接:http://tecdat.cn/?p=23026 原文出处:拓端数据部落公众号 在交互式平行坐标图中,有一个很好的htmlwidgets的例子。你可以交互式地操作平行坐标图来放大有趣的观察结果。 不久前,我读到了关于系统参数优化结果的可视化,使用应用程序来创建和操作回测结果。这个想法是通过改变系
原文链接:http://tecdat.cn/?p=23019 原文出处:拓端数据部落公众号 蒙特卡洛方法利用随机数从概率分布P(x)中生成样本,并从该分布中评估期望值,该期望值通常很复杂,不能用精确方法评估。在贝叶斯推理中,P(x)通常是定义在一组随机变量上的联合后验分布。然而,从这个分布中获得独立样本并不
原文链接:http://tecdat.cn/?p=23010 原文出处:拓端数据部落公众号 跳跃扩散过程为连续演化过程中的偏差提供了一种建模手段。但是,跳跃扩散过程的微积分使其难以分析非线性模型。本文开发了一种方法,用于逼近具有依赖性或随机强度的多变量跳跃扩散的转移密度。通过推导支配过程时变
原文链接:http://tecdat.cn/?p=22945 原文出处:拓端数据部落公众号 动态时间规整(DTW,Dynamic time warping,动态时间归整/规整/弯曲)是一种衡量两个序列之间最佳排列的算法。线性序列数据如时间序列、音频、视频都可以用这种方法进行分析。DTW通过局部拉伸和压缩,找出两个数字序列数
随着社会经济的发展,饮食生活已经逐渐融入了我们的日常生活世界,每天都不可避免地在 "吃 "的问题上有更多的考虑,吃好、吃多已经不再是我们的烦恼。 要点提示 外卖的盛行已经成为各地的普遍现象,越来越多的大学生喜欢呆在宿舍里,用电脑来解决一天的生活问题,外卖成了很多大学生的
原文链接:http://tecdat.cn/?p=22886 原文出处:拓端数据部落公众号 这篇文章假定你已经知道如何用igraph库建立一个基本的网络图。 基本上,igraph允许将几种类型的输入转化为一个图形对象,可以使用plot()函数绘制,如下所示。 # 创建数据 network <- graph(data , mode='undi
原文链接:http://tecdat.cn/?p=22853 原文出处:拓端数据部落公众号 本文将介绍R中可用于投资组合优化的不同求解器。 通用求解器 通用求解器可以处理任意的非线性优化问题,但代价可能是收敛速度慢。 默认包 包stats(默认安装的基本R包)提供了几个通用的优化程序。 optimize()。用于区
原文链接:http://tecdat.cn/?p=22828 原文出处:拓端数据部落公众号 主要优化方法的快速概述 我们介绍主要的优化方法。我们考虑以下问题 . 无导数优化方法 Nelder-Mead方法是最著名的无导数方法之一,它只使用f的值来搜索最小值。过程: 设置初始点x1,...,xn+1 对点进行排序,使得f
原文链接:http://tecdat.cn/?p=22849 原文出处:拓端数据部落公众号 当需要为数据选择最合适的预测模型或方法时,预测者通常将可用的样本分成两部分:内样本(又称 "训练集")和保留样本(或外样本,或 "测试集")。然后,在样本中估计模型,并使用一些误差指标来评估其预测性能。 如果这样的程序只做
原文链接:http://tecdat.cn/?p=11887 北京在快速发展的同时,人口也在快速膨胀。自从90年代以来,外来人口便是北京人口迅速增加的重要原因之一。 ▼ 为此我们分析了已迁离北京的外来人口的月收入、性别、迁入北京和迁离北京的日期、教育程度和职业这些方面的数据。 外来人口在京