首页 > 其他分享> 文章详细

大数据技术【9】

2022-02-09 14:05:14 阅读：203 来源： 互联网

标签：以下分类数据仓库技术算法可视化数据

1.Apriori方法通常用于关联规则挖掘。。

2.数据仓库可支持决策。

3.用于分类的离散化方法之间的根本区别在于是否使用类信息。

4.大数据可视化可以用在以下何种场景（）。

A.其余所有选项均可
B.电子地图
C.股票趋势
D.公司财务报表、销售统计

5.下面关于数据开放的陈述哪个是不正确的（）。

A.允许公民要求数据开放数据
B.要提供全部的原始数据
C.要提供应用程序开放接口
D.允许公众免费查询、下载

6.KNN是基于规则的分类器。

7.宁家骏委员指出，云计算、大数据、物联网等技术主导了21世纪。

8.()的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

A.数据清洗
B.数据归约
C.数据变换
D.数据集成

9.大数据环境下的隐私担忧，主要表现为（）。

A.恶意广告推送
B.病毒入侵
C.个人信息的被识别与暴露
D.用户画像的生成

10.聚类分析要求同类数据的内容相似度尽可能小。

11.数据分析中，脏数据是完全不能用的。

12.噪声数据处理的主要方法不包括（）。

A.分箱
B.回归
C.聚类
D.关联分析

13.以下哪个不属于分类算法（）。

A.KNN算法
B.朴素贝叶斯
C.决策树
D.K均值算法

14.推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于网站最热卖商品、客户所处城市、（），推测客户将来可能的购买行为。

A.客户的个人信息
B.客户的朋友
C.客户的兴趣爱好
D.客户过去的购买行为和购买记录

15.以下哪项不属于数据挖掘的内容（）。

A.高德地图导航躲避拥堵的功能
B.补充与完善路网属性
C.多维分析统计用户出行规律
D.建立道路拥堵概率与拥堵趋势变化模型

16.原始数据集来自多个数据库或数据仓库，它们的结构和规则是相同的。

17.数据可视化中实现中数据映射指的是（）

A.概括现实生活中用户遇到的问题
B.视图的选择与用户交互控制的设计
C.从数据源中选取有效数据
D.确定数据到标记和视觉通道的映射

18.大数据环境下的隐私担忧，主要表现为（）。

A.恶意广告推送
B.用户画像的生成
C.个人信息的被识别与暴露
D.病毒入侵

19.大数据可视化可以用在以下何种场景（）。

A.公司财务报表、销售统计
B.电子地图
C.股票趋势
D.其余所有选项均可

20.脏数据是指格式不规范、编码不统一、意义不明或与实际业务关系不大的数据。

21.以下哪些分类方法可以较好地避免样本的不平衡问题（）。

A.KNN
B.神经网络
C.SVM
D.Bayes

22.朴素贝叶斯是一种分类算法。

23.如下哪个不是最近邻分类器的特点。（）

A.最近邻分类器基于全局信息进行预测
B.分类一个测试样例开销很大
C.可以生产任意形状的决策边界
D.它使用具体的训练实例进行预测，不必维护源自数据的模型

24.以下哪个不属于分类算法（）。

A.K均值算法
B.决策树
C.朴素贝叶斯
D.KNN算法

25.将以下大数据的6V特征对应起来

26.分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（）问题。

A.时序预测
B.分类与回归
C.聚类分析
D.关联规则挖掘

27.MapReduce任务过程分为两个处理阶段：map阶段和（）阶段。。

A.reduce
B.map
C.master
D.Map/Reduce

28.以下各项均是针对数据仓库的不同说法，不正确的有（）。

A.数据仓库就是数据库
B.数据仓库是一切商业智能系统的基础
C.数据仓库是面向业务的，支持联机事务处理（OLTP）
D.数据仓库支持决策而非事务处理

29.大数据往往是指（）及以上级别的数据量。

A.MB
B.GB
C.TB
D.PB

30.用于分类与回归应用的主要算法有)。

A.RBF神经网络、K均值法、决策树
B.K均值法、SOM神经网络
C.Apriori算法、HotSpot算法
D.决策树、BP神经网络、贝叶斯

31.（）反映数据的精细化程度，越细化的数据，价值越高。

A.规模
B.活性
C.关联度
D.颗粒度

32.KNN是一种分类方法。

33.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.④③②①b.①②③④c.①④③②d.③①②④

A.④③②①
B.①②③④
C.①④③②
D.③①②④

34.下列演示方式中，不属于传统统计图方式的是（）。

A.曲线图
B.饼状图
C.网络图
D.柱状图

35.以下哪个算法是分类算法（）。

A.DBSCAN
B.EM
C.K-Mean
D.C4.5

36.噪声数据处理的主要方法不包括（）。

A.回归
B.聚类
C.分箱
D.关联分析

37.数据的不确定性的产生原因不包括（）。

A.数据特征描述
B.缺失值处理
C.数据精度转换
D.数据采集与传输

38.（）是一种用作显示一组数据分散情况资料的统计图，它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。

A.箱形图
B.直方图
C.折线图
D.雷达图

39.Hadoop框架中最核心的设计是（）。

A.MapReduce和HDFS
B.MapReduce和Hive
C.ZooKeeper和HDFS
D.Hive和HDFS

40.大数据的（），指的是数据有很多不同形式（文本、图像、视频、机器数据），无模式或者模式不明显、且语法或句义不连贯。

A.多样性
B.高速
C.大量性
D.低价值密度

41.（）是数值数据分布的精确图形表示，是一个连续变量（定量变量）的概率分布的估计。它是一种条形图。

A.散点图
B.直方图
C.折线图
D.圆环图

42.大数据可视化可以用在以下何种场景（）。

A.公司财务报表、销售统计
B.股票趋势
C.电子地图
D.其余所有选项均可

43.Hadoop框架中最核心的设计是（）。

A.MapReduce和Hive
B.ZooKeeper和HDFS
C.MapReduce和HDFS
D.Hive和HDFS

44.在统计计算中，（）算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。

A.最大期望算法
B.K-Means算法
C.KNN算法
D.Apriori算法

45.以下哪个不属于大数据的技术特征（）。

A.关注数据的相关性
B.重视数据的复杂性
C.力求数据的精确性
D.分析全面的数据

46.美国沃尔玛连锁超市的真实案例:尿布与啤酒这两种风马牛不相及的商品居然摆在一起，但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这个案例是使用了（）的典型例子。

A.物联网
B.聚类
C.云计算
D.关联规则

47.谷歌流感趋势预测充分体现了数据重组和扩展对数据价值的重要意义。

48.将以下大数据的6V特征对应起来

49.将以下大数据的6V特征对应起来

50.离散属性总是具有有限个值。

51.在产业发展领域，大数据加速了产业优化升级的步伐。

52.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越好。

53.预测建模任务主要包括哪几大类问题？

A.分类和模式发现
B.分类和模式匹配
C.分类和回归
D.模式发现和模式匹配

54.数据可视化中实现中数据映射指的是（）

A.视图的选择与用户交互控制的设计
B.确定数据到标记和视觉通道的映射
C.从数据源中选取有效数据
D.概括现实生活中用户遇到的问题

55.KNN算法中，所选择的邻居都是已经正确分类的对象。

56.数据的不确定性的产生原因不包括（）。

A.数据精度转换
B.数据采集与传输
C.数据特征描述
D.缺失值处理

57.以下关于大数据可视化的说法，不正确的是（）

A.涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域，成为研究数据表示、数据处理、决策分析等一系列问题的综合技术
B.对多维数据进行切片、块、旋转等动作剖析数据，从而多角度多侧面观察数据
C.大数据可视化利用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行各种交互处理的理论、方法和技术
D.能够把抽象、枯燥或难以理解的内容，包括看似毫无意义的数据、信息、知识等等以一种容易理解的视觉方式展示出来

58.以下哪个是聚类分析的典型算法（）。

A.SVM算法
B.K均值算法
C.Apriori算法
D.KNN算法

59.可视化实现时，根据可视化目标选择相应的图表形式，如果关注3个变量的分布情况，可选择（）。

A.二维散点图
B.柱状直方图
C.3D区域图
D.折线直方图

60.在大数据分析中，在数据基础上是倾向于全体数据而不是抽样数据。

61.HDFS中的block默认保存（）份

A.3
B.1
C.2
D.不确定

62.以下说法正确的是（）。

A.可信度是对关联规则的准确度的衡量。
B.聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
C.原始数据集来自多个数据库或数据仓库，它们的结构和规则是相同的。
D.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。

63.以下说法不正确的是（）。

A.决策树方法通常用于关联规则挖掘。
B.分类是预测数据对象的离散类别。
C.Apriori算法是一种典型的关联规则挖掘算法。
D.预测是用于数据对象的连续取值。

64.数据仓库是面向业务的，支持联机事务处理（OLTP）。

65.以下哪个算法是分类算法（）。

A.EM
B.C4.5
C.K-Mean
D.DBSCAN

66.将以下大数据的6V特征对应起来

67.中国大数据产业特征不包括（）。

A.区域产业集聚现雏形
B.大数据整体解决方案已成熟
C.互联网企业表现强势
D.大数据基础研究受到重视

68.（）是指对数据源进行清洗、裁剪，并共享多样化数据来加快数据分析。

A.数据抽取
B.数据挖掘
C.数据加载
D.数据整合

69.聚类是观察式学习。

70.分类是预测数据对象的离散类别。

71.下面关于数据开放的陈述哪个是不正确的（）。

A.要提供应用程序开放接口
B.要提供全部的原始数据
C.允许公众免费查询、下载
D.允许公民要求数据开放数据

72.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.③①②④b.①④③②c.④③②①d.①②③④

A.③①②④
B.①④③②
C.④③②①
D.①②③④

73.内存通常是集群的最主要瓶颈。

74.目前所获取的总数据量的80%以上都是（）数据。。

A.文本
B.半结构化
C.结构化
D.非结构化

75.（）是目标类数据的一般特性的汇总，通常以用户指定类的数据通过数据库查询收集，其输出可以用多种形式呈现，例如饼图，条形图，折线图等等。

A.数据整合
B.数据特征
C.数据采集
D.数据属性

76.决策树方法通常用于关联规则挖掘。。

77.以下哪一项不属于Hadoop可以运行的模式（）。

A.伪分布式模式
B.分布式模式
C.单机（本地）模式
D.互联模式

78.以下哪些方法可用于预测分析（）。

A.回归分析
B.指数平滑
C.其余选项均是
D.周期变化分析

79.大数据的（）指数据能够被组织并呈现。借助于图形化手段，清晰有效地传达和沟通信息。基于数据，借助可视化手段提高大脑利用率。

A.可视化
B.大量性
C.低价值密度
D.多样性

80.判断题:数据仓库是一切商业智能系统的基础。

81.分类模型的误差大致分为两种：训练误差和泛化误差。

82.大数据环境下的隐私担忧，主要表现为（）。

A.用户画像的生成
B.个人信息的被识别与暴露
C.病毒入侵
D.恶意广告推送

83.大数据的（）指数据能够被组织并呈现。借助于图形化手段，清晰有效地传达和沟通信息。基于数据，借助可视化手段提高大脑利用率。

A.大量性
B.可视化
C.多样性
D.低价值密度

84.HDFS默认BlockSize的大小是（）。

A.64MB
B.128MB
C.256MB
D.32MB

85.许多公司利用大数据技术来收集海量数据、训练模型、优化模型，并发布预测模型来提高业务水平或者避免风险，这是大数据在（）的技术。

A.数据校验
B.数据整合
C.知识搜索
D.预测分析

86.（）是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。

A.主成分分析
B.指数分析
C.回归分析
D.预测分析

87.分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（）问题。

A.聚类分析
B.分类与回归
C.时序预测
D.关联规则挖掘

88.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。

89.以下哪个不是决策树的算法（）。

A.ID3
B.Prim
C.C4.5
D.CART

90.大数据往往是指（）及以上级别的数据量。

A.TB
B.PB
C.GB
D.MB

91.分类模型的误差只有模型训练误差。

92.以下说法正确的是（）。

A.聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。
B.原始数据集来自多个数据库或数据仓库，它们的结构和规则是相同的。
C.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
D.可信度是对关联规则的准确度的衡量。

93.以下哪一项不属于Hadoop可以运行的模式（）。

A.单机（本地）模式
B.伪分布式模式
C.互联模式
D.分布式模式

94.分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（）问题。

A.聚类分析
B.时序预测
C.分类与回归
D.关联规则挖掘

95.预测建模任务主要包括哪几大类问题？

A.分类和回归
B.分类和模式发现
C.模式发现和模式匹配
D.分类和模式匹配

96.图型（Neo4j）数据库是关系数据库。

97.以下说法不正确的是（）。

A.Apriori算法是一种典型的关联规则挖掘算法。
B.分类是预测数据对象的离散类别。
C.决策树方法通常用于关联规则挖掘。
D.预测是用于数据对象的连续取值。

98.“啤酒和尿布”是关联规则分析的一个典型例子。

99.大数据的数据规模大，数据价值密度高。

100.定量属性只能是整数值。

标签：以下,分类,数据仓库,技术,算法,可视化,数据
来源： https://blog.csdn.net/robin9409/article/details/122840505

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

大数据技术【9】