数据的收集——统计学（二）

2022-07-31 17:32:52 阅读：187 来源： 互联网

统计学的应用领域如人工智能，数据挖掘，数据分析，都离不开数据。

一、统计学的数据类型

按计量尺度可以分为定性数据和定量数据，定性数据就是用非数值来描述的数据，更进一步地，可以细分为分类数据和顺序数据，分类数据就是某一类别的数据，如男和女、优秀良好和及格等。顺序数据就是分类数据中的类别不是杂乱的，而是有序的，如产品分为一等、二等和三等。数值型数据就是用数字来表示的数据，这也是我们平时接触最多的一种类型的数据。按数据被收集的方法来看，可以分为观测数据和实验数据。观测数据就是通过观测、调查得出的数据，而实验数据则是在实验中收集到的数据。按被描述现象与时间的关系，可以分为截面数据和时间序列数据，截面数据指在相同或相似时间点上收集的数据，如2019年我国城镇家庭人均收入的数据。时间序列数据是按照时间顺序收集而来，现象随时间变化的数据，如2015~2019年我国城镇家庭人均收入。
对不同类型的数据我们会进行不同的统计分析方法，因此做好数据类型的区分也是很重要的。

二、统计数据来源

统计数据资料的来源主要有两种：

通过直接的调查或实验获得的原始数据，这是统计数据的直接来源，一般称之为原始或第一手统计数据。
别人调查的数据，并将这些数据进行加工和汇总后公布的数据，这是统计数据的间接来源，通常称之为次级数据或第二手间接的统计数据。

2.1 数据的直接来源——原始数据

搜集数据最基本的形式就是进行统计调查或进行实验活动。统计调查或进行实验就是统计数据的直接来源。

统计调查

是指根据统计研究预定的目的、要求和任务，运用科学的方法，有计划、有组织的向客观实际搜集资料的过程。
通过统计调查得到的数据，一般叫做观测数据。

实验法

通过实验法得到的数据就是实验数据。在实验中往往需要将研究对象分为两个组，一个实验组，一个对照组。对实验组的输入变量加以控制或改变，对照组则不加控制。根据两组的输出结果，可以看到输入变量对输出的影响。

2.2 数据的间接来源——次级数据

次级数据（第二手数据）是指由他人搜集和整理得到的统计数据。包括*公开出版的统计数据，主要来自官方的统计部门和政府、组织、学校、科研机构。如：《中国统计年鉴》、《人口普查资料汇编》、《北京市统计年鉴》、《世界发展报告》等；尚未公开发表的统计数据，如各企业的经营报表数据，专业调查咨询机构未公开发布的调查结果数据。

三搜集数据的方法

包括，普查、抽样调查、统计报表、重点调查、典型调查

3.1普查

普查是专门组织的一次性的全面调查，用来调查属于一定时点上或一定时期内的社会现象总量。比如：人口普查、农业普查、经济普查等。适用于搜集某些不能或不适宜定期的全面统计报表搜集的统计资料。以摸清重大的国情、国力。普查是一种全面调查，也是一次性的专门调查。优点是资料包括的范围全面、详尽、系统；缺点是普查的工作量大、耗资也多，时间周期较长，一般不宜经常举行。

3.2 抽样调查

是一种非全面调查，它是按照随机原则从总体中抽取一部分单位作为样本进行观察研究，以抽样样本的指标去推算总体指标的一种调查。特点：

样本单位按随机原则抽取，排除了主观因素对样本对选取样本单位的影响。
能够根据部分调查的实际资料对调查对象的总体数量特征进行推断，从而达到对调查总体的认识。
在抽样调查中会存在抽样误差，但是这个误差可以事先计算并加以控制。
优点是既能节省人力、财力、物力，又可以提高资料的时效性，而且能取到比较正确的全面统计资料。抽样调查是一种非全面的、一次性或经常性的专门调查，这种调查方法在市场经济条件下，使用非常广泛。

3.3 重点调查

重点调查是在调查对象中选择一部分重点单位进行的一种非全面调查。这些重点单位虽然数目不多，但它们具有所研究现象的总量在总体总量中占据绝大部分的特点。当调查的任务只要求掌握事物的基本概况与基本的发展趋势，而不要求掌握全面的准确资料，而且在总体中确实存在着重点单位时，进行重点调查是比较适宜的。优点是重点调查可以节省人力、财力，而且及时。

3.4 典型调查

典型调查是一种非全面的专门调查，它是根据调查的目的与要求，在对被调查对象进行全面分析的基础上，有意识地选择若干具有典型意义的或有代表性的单位进行的调查。优点是灵活机动、通过少数典型即可取得深入、详实的统计资料；缺点是由于受“有意识的选取若干有代表性”的限制，在很大程度上受人们主观认识上的影响。典型调查必须同其他调查结合起来使用，才能避免出现片面性。

各类统计调查方法的特点对比

	调查范围	调查时间	收集资料方法
普查	全面	一次	采访、报告或空间遥感
抽样调查	非全面	经常或一次	直接观察或采访
重点调查	非全面	经常或一次	报告
典型调查	非全面	一次	采访

四、统计抽样方法

有时候我们使用的数据源可能来自调查，那么如何从总体中抽取出有效的样本呢，就要看调查的方法了。可以分为概率抽样和非概率抽样。
概率抽样，就是我们常说的随机抽样，即按照随机的原则去抽取样本，确保每个个体都有机会被选中。
随机抽样中还可以细分几种：

简单随机抽样：最基本的抽样方法，抽选的概率是相同的。优点是简单，缺点是大规模的调查中实施会有困难。
分层抽样：将抽样单位按照某种特征或规则划分为不同的层，从不同层中独立随机地抽样。优点是样本结构与总体结构相近。
整群抽样：将总体中若干单位合并为组，称之为群，抽取群。对总体的估计精度较差。
系统抽样：将总体中的所有单位按一定顺序排列，在规定范围内随机抽取一个单位作为初始单位，接着按事先定好的规则确定其他样本单位。
如为了调查某学校学生的身高情况，从男生中抽取60人，女生抽取40人，这属于分层抽样；从4个年纪中抽样，这属于整群抽样；将全校学生名字按拼音顺序排列，每隔50人抽取一名，这属于系统抽样。

非概率抽样，顾名思义，就是抽样时不随机，同样也可以细分为以下几种：

方便抽样：调查过程中调查员依据方便的原则抽样的方法。
判断抽样：研究人员有目的地选择一些单位作为样本。
自愿样本：被调查者自愿参加。这种样本是有偏的，但可以反映出某类群体的看法。
滚雪球抽样：首先选择一组调查单位，再请他们提供调查对象继续调查，滚雪球下去，适用特定群体
配额抽样：先将总体中的所有单位按一定类别分成若干类，再在每类中采用方便抽样、判断抽样的方法抽取样本，同分层抽样，但抽样方法不是随机的。
具体采用哪种抽样方法，要看所研究问题的目的、特征等综合考量。需要说明的是，非概率抽样因为不是随机原则，因此无法用样本的特征去估计总体，非概率抽样适合探索性的研究

五、数据误差

通过调查收集到的数据与研究结果的真实数据之间的差异，通常可以分为抽样误差和非抽样误差。
抽样误差：由抽样的随机性引起的样本与总体结果的差异，抽样误差的大小同多种因素有关，最主要的是样本量，样本量越大，抽样误差就越小。什么是抽样误差，比如随机抽样的产品的合格率为60%，再抽样的结果是61%，误差在59%~61%之间波动，这就是抽样误差。
非抽样误差：除抽样误差外其他原因引起的样本与总体结果的差异。在非概率抽样时可能会产生非抽样误差，常见的如抽样框误差、回答误差、无回答误差、测量误差等。

六、通用数据网站

6.1官方网站

对于从业者来说，数据获取自然不是问题。可是，对于初学者来说，数据的获取成了大难题。下面就总结一些有用的数据网站：
1.data.gov( https://www.data.gov/ )
这是美国政府公开数据的所在地，该站点包含了超过19万的数据点。这些数据集不同于气候、教育、能源、金融和更多领域的数据。
2.data.gov.in( https://data.gov.in/ )
这是印度政府公开数据的所在地，通过各种行业、气候、医疗保健等来寻找数据，你可以在这里找到一些灵感。根据你居住的国家的不同，你也可以从其他一些网站上浏览类似的网站。
3.WorldBank( http://data.worldbank.org/ )
世界银行的开放数据。该平台提供 Open Data Catalog，世界发展指数，教育指数等几个工具。
4.RBI( https://rbi.org.in/Scripts/Statistics.aspx )
印度储备银行提供的数据。这包括了货币市场操作、收支平衡、银行使用和一些产品的几个指标。
5.Five ThirtyEight Datasets ( https://github.com/fivethirtyeight/data )
Five Thirty Eight，亦称作 538，专注与民意调查分析，政治，经济与体育的博客。该数据集为 Five ThirtyEight Datasets 使用的数据集。每个数据集包括数据，解释数据的字典和Five ThirtyEight 文章的链接。如果你想学习如何创建数据故事，没有比这个更好。
6.国家数据。http://data.stats.gov.cn/index.htm
7.CEIC.http://www.ceicdata.com/zh-hans
8.datahub https://datahub.io/
9.搜数网 http://www.soshoo.com/
10.中国统计信息网 http://www.tjcn.org/
11. figshare https://figshare.com/ 研究成果共享平台，在这里你会发现来自世界的大牛们的研究成果分享，同时get其中的研究数据，内容很有启发性，网站颇具设计感。
12.github https://github.com/caesar0301/awesome-public-datasets github上的大神已经为大家整理好了一个非常全面的数据获取渠道，包含各个细分领域的数据库资源，自然科学和社会科学的覆盖都很全面，简直是做研究和数据分析的利器。
13.香港政府数据中心 https://data.gov.hk/en/
14.纽约市开放数据中心 https://opendata.cityofnewyork.us/
15.纽约政府数据中心 https://data.ny.gov/
16 澳大利亚国家开放数据中心 http://data.gov.au/
17 英国国家数据中心 https://data.gov.uk/
18 日本统计局 http://www.stat.go.jp/
19 美国劳工统计局 https://www.bls.gov/data/
20.经合组织（OECD） https://data.oecd.org/
21 欧盟数据门户 https://www.europeandataportal.eu/
22 伯克利亚数据实验室 http://www.lib.berkeley.edu/libraries/data-lab 数据实验室是由当前加州大学伯克利分校的学生和教员提供有关数字数据的研究，他们会查找并推荐好的数据源到网站，并会对像文件格式转换、网页抓取和基本统计软件等技术数据问题提供咨询。实验室还提供工作站分析软件如ArcGIS、SAS、SPSS、STATA，Stata，R和Python等。
23.数据美国 https://datausa.io/ 美国大数据(Data Usa)主要研究宏观的社会联系，在海量数据中找出人们的某个被忽略的特征。网站根据地区、行业、职业、教育背景做了初步的分类，用户可以进入任何你想了解的部分，探索美国社会局部的详细情况。它们也提供了地图式的阅读视图。
24 Open Data 500 http://www.opendata500.com/us/ Open Data 500是首个以开放政府数据来产生新的业务和开发新的产品和服务的综合研究性美国公司。研究机构可以发布网站上收集的数据，企业、组织和公民也可以分析网站上的数据，并使用这些信息。
25 Open Data Inception https://opendatainception.io/ 网站记录了2600+个开放式数据信息门户网站，可直接通过地图精准找到你需要的不同地区的数据门户网站。

6.2大型数据集

1.Amazon WebServices（AWS）datasets
( https://aws.amazon.com/cn/datasets/ )
Amazon提供了一些大数据集，可以在他们的平台上使用，也可以在本地计算机上使用。您还可以通过EMR使用EC2和Hadoop来分析云中的数据。在亚马逊上流行的数据集包括完整的安然电子邮件数据集，Google Booksn-gram，NASA NEX 数据集，百万歌曲数据集等。
2.Googledatasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些数据集作为其 Big Query 工具的一部分。包括 GitHub 公共资料库的数据，Hacker News 的所有故事和评论。
3.Youtubelabeled Video Dataset
( https://research.google.com/youtube8m/ )
几个月前，谷歌研究小组发布了YouTube上的“数据集”，它由800万个YouTube视频id和4800个视觉实体的相关标签组成。它来自数十亿帧的预先计算的，最先进的视觉特征。
4.亚马逊公共数据集
（https://amazonaws-china.com/cn/public-datasets/）
网站来自亚马逊的跨科学云数据平台，其中包含化学、生物、经济等多个领域的数据集，当数据在 AWS 上公开提供后，任何人都可以分析任意数量的数据，而无需自行下载或存储这些数据

6.3预测建模与机器学习数据集

1.UCI MachineLearning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI机器学习库显然是最著名的数据存储库。如果您正在寻找与机器学习存储库相关的数据集，通常是首选的地方。这些数据集包括了各种各样的数据集，从像Iris和泰坦尼克这样的流行数据集到最近的贡献，比如空气质量和GPS轨迹。存储库包含超过350个与域名类似的数据集(分类/回归)。您可以使用这些过滤器来确定您需要的数据集。
2.Kaggle
( https://www.kaggle.com/datasets )
Kaggle提出了一个平台，人们可以贡献数据集，其他社区成员可以投票并运行内核/脚本。他们总共有超过350个数据集——有超过200个特征数据集。虽然一些最初的数据集通常出现在其他地方，但我在平台上看到了一些有趣的数据集，而不是在其他地方出现。与新的数据集一起，界面的另一个好处是，您可以在相同的界面上看到来自社区成员的脚本和问题。
3.AnalyticsVidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您可以从我们的实践问题和黑客马拉松问题中参与和下载数据集。问题数据集基于真实的行业问题，并且相对较小，因为它们意味着2 - 7天的黑客马拉松。
4.Quandl
( https://www.quandl.com/ )
Quandl 通过起网站、API 或一些工具的直接集成提供了不同来源的财务、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费，但高级数据集需要付费。通过搜索仍然可以在平台上找到优质数据集。例如，来自印度的证券交易所数据是免费的。
5.Past KDDCups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 组织的年度数据挖掘和知识发现竞赛。
6.DrivenData
( https://www.drivendata.org/ )
Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后，他们为数据科学家组织在线模拟竞赛，从而开发出最好的模型来解决这些问题。

6.4 图像分类数据集

1.The MNISTDatabase
( http://yann.lecun.com/exdb/mnist/ )
最流行的图像识别数据集，使用手写数字。它包括6万个示例和1万个示例的测试集。这通常是第一个进行图像识别的数据集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
这里是下一阶段的进化，如果你已经通过了手写的数字。该数据集包括自然图像中的字符识别。数据集包含74,000个图像，因此数据集的名称。
3.Frontal FaceImages
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已经完成了前两个项目，并且能够识别数字和字符，这是图像识别中的下一个挑战级别——正面人脸图像。这些图像是由CMU & MIT收集的，排列在四个文件夹中。
4.ImageNet
( http://image-net.org/ )
现在是时候构建一些通用的东西了。根据WordNet层次结构组织的图像数据库(目前仅为名词)。层次结构的每个节点都由数百个图像描述。目前，该集合平均每个节点有超过500个图像(而且还在增加)。

6.5文本分类数据集

1.Spam – NonSpam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。
2.TwitterSentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
该数据集包含 1578627 个分类推文，每行被标记为1的积极情绪，0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。
3.Movie ReviewData
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
这个网站提供了一系列的电影评论文件，这些文件标注了他们的总体情绪极性(正面或负面)或主观评价(例如，“两个半明星”)和对其主观性地位(主观或客观)或极性的标签。

6.6 推荐引擎数据集

1.MovieLens
( https://grouplens.org/ )
MovieLens 是一个帮助人们查找电影的网站。它有成千上万的注册用户。他们进行自动内容推荐，推荐界面，基于标签的推荐页面等在线实验。这些数据集可供下载，可用于创建自己的推荐系统。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在线笑话推荐系统。

6.7各种来源的数据集网站

1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的数据集页面一直是人们搜索数据集的参考。列表全面，但是某些来源不再提供数据集。因此，需要谨慎选择数据集和来源。
2.Awesome PublicDatasets
(https://github.com/caesar0301/awesome-public-datasets)
一个GitHub存储库，它包含一个由域分类的完整的数据集列表。数据集被整齐地分类在不同的领域，这是非常有用的。但是，对于存储库本身的数据集没有描述，这可能使它非常有用。
3.RedditDatasets Subreddit
(https://www.reddit.com/r/datasets/)
由于这是一个社区驱动的论坛，它可能会遇到一些麻烦(与之前的两个来源相比)。但是，您可以通过流行/投票来对数据集进行排序，以查看最流行的数据集。另外，它还有一些有趣的数据集和讨论。

6.8 数据交易平台

1.优易数据 http://www.youedata.com/
2. 数据堂 http://www.datatang.com/

参考文献

1.(统计学_第一章_统计和数据)[https://blog.csdn.net/qq_36569032/article/details/108406527?ops_request_misc=&request_id=&biz_id=102&utm_term=统计学&utm_medium=distribute.pc_search_result.none-task-blog-2_allsobaiduweb~default-4-108406527.nonecase&spm=1018.2226.3001.4187]
2.(数据获取)[https://blog.csdn.net/weixin_45745075/article/details/115347304]

标签：抽样,http,收集,com,www,统计学,https,数据
来源： https://www.cnblogs.com/haohai9309/p/16537510.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9