首页 > 其他分享> 文章详细

大数据技术【12】

2022-02-09 14:00:18 阅读：177 来源： 互联网

标签：12 技术 MapReduce 算法客户可视化聚类数据

1.K-means算法属于分类算法。

2.大数据的（）指数据能够被组织并呈现。借助于图形化手段，清晰有效地传达和沟通信息。基于数据，借助可视化手段提高大脑利用率。

A.多样性
B.可视化
C.大量性
D.低价值密度

3.（）分析又称为变异数分析，主要用于两个及两个以上样本均数差别的显著性检验。

A.回归分析
B.相关分析
C.方差分析
D.因子分析

4.聚类就是分类。

5.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.①④③②b.①②③④c.③①②④d.④③②①

A.①④③②
B.①②③④
C.③①②④
D.④③②①

6.大数据处理流程不包括以下哪个（）。

A.结果展示
B.抽样统计
C.数据采集
D.数据分析与挖掘

7.以下各项均是针对数据仓库的不同说法，不正确的有（）。

A.数据仓库是面向业务的，支持联机事务处理（OLTP）
B.数据仓库是一切商业智能系统的基础
C.数据仓库支持决策而非事务处理
D.数据仓库就是数据库

8.在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。

9.推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于网站最热卖商品、客户所处城市、（），推测客户将来可能的购买行为。

A.客户的兴趣爱好
B.客户的个人信息
C.客户的朋友
D.客户过去的购买行为和购买记录

10.大数据起源于金融行业。

11.用于分类与回归应用的主要算法有)。

A.K均值法、SOM神经网络
B.RBF神经网络、K均值法、决策树
C.Apriori算法、HotSpot算法
D.决策树、BP神经网络、贝叶斯

12.（）是一种用作显示一组数据分散情况资料的统计图，它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。

A.折线图
B.雷达图
C.直方图
D.箱形图

13.以下关于大数据关键问题的说法，不正确的是（）。

A.非结构化与半结构化数据的处理是一项重要的课题
B.大数据复杂性，不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
C.传统的统计理论与技术能很好地实现大数据知识发现
D.大数据处理问题复杂多样，难以用一种单一的计算模式涵盖互联网企业表现强势

14.（）是数值数据分布的精确图形表示，是一个连续变量（定量变量）的概率分布的估计。它是一种条形图。

A.圆环图
B.直方图
C.折线图
D.散点图

15.（）反映数据的精细化程度，越细化的数据，价值越高。

A.颗粒度
B.活性
C.关联度
D.规模

16.许多公司利用大数据技术来收集海量数据、训练模型、优化模型，并发布预测模型来提高业务水平或者避免风险，这是大数据在（）的技术。

A.预测分析
B.知识搜索
C.数据整合
D.数据校验

17.K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。

18.以下关于大数据可视化的说法，不正确的是（）

A.能够把抽象、枯燥或难以理解的内容，包括看似毫无意义的数据、信息、知识等等以一种容易理解的视觉方式展示出来
B.涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域，成为研究数据表示、数据处理、决策分析等一系列问题的综合技术
C.对多维数据进行切片、块、旋转等动作剖析数据，从而多角度多侧面观察数据
D.大数据可视化利用计算机图形学和图像处理技术，将数据转换为图形或图像在屏幕上显示出来，并进行各种交互处理的理论、方法和技术

19.大数据的目的在于发现新的知识与洞察并进行科学决策。

20.Birch算法是一种非常有效的、传统的层次聚类算法。

21.（）是一个由Apache基金会所开发的分布式系统基础架构，用户可以在不了解分布式底层细节的情况下，开发分布式程序。它实现了一个分布式文件系统，充分利用集群的威力进行高速运算和存储。

A.Linux
B.Tomcat
C.NoSQL
D.Hadoop

22.离群点都不是合法的数据对象或者值。

23.大数据可视化可以用在以下何种场景（）。

A.电子地图
B.公司财务报表、销售统计
C.其余所有选项均可
D.股票趋势

24.数据挖掘可用于在地图软件中建立道路拥堵概率与拥堵趋势变化模型。

25.KNN算法中，所选择的邻居都是还没分类的对象。

26.在统计计算中，（）算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。

A.Apriori算法
B.KNN算法
C.最大期望算法
D.K-Means算法

27.最早提出大数据时代概念的公司是（）。

A.脸谱公司
B.谷歌公司
C.微软公司
D.麦肯锡公司

28.如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。

29.BIRCH是一种（）。

A.关联分析算法
B.特征选择算法
C.聚类算法
D.分类器

30.推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于网站最热卖商品、客户所处城市、（），推测客户将来可能的购买行为。

A.客户的个人信息
B.客户的兴趣爱好
C.客户过去的购买行为和购买记录
D.客户的朋友

31.Apriori算法是一种典型的聚类分析算法。

32.许多公司利用大数据技术来收集海量数据、训练模型、优化模型，并发布预测模型来提高业务水平或者避免风险，这是大数据在（）的技术。

A.数据整合
B.预测分析
C.数据校验
D.知识搜索

33.下面哪一项不属于大数据关键技术（）。

A.云计算
B.数据众包
C.关系型数据库
D.分布式文件系统

34.CPU通常是集群的最主要瓶颈。

35.在统计计算中，（）算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。

A.最大期望算法
B.K-Means算法
C.Apriori算法
D.KNN算法

36.（）是数值数据分布的精确图形表示，是一个连续变量（定量变量）的概率分布的估计。它是一种条形图。

A.散点图
B.圆环图
C.折线图
D.直方图

37.以下哪项不属于数据挖掘的内容（）。

A.多维分析统计用户出行规律
B.建立道路拥堵概率与拥堵趋势变化模型
C.补充与完善路网属性
D.高德地图导航躲避拥堵的功能

38.给定由两次运行K均值产生的两个不同的簇集，误差的平方和最小的那个应该被视为较优。

39.以下哪个算法是分类算法（）。

A.EM
B.K-Mean
C.C4.5
D.DBSCAN

40.（）是考察多个变量间相关性一种多元统计方法，研究如何通过少数几个主成分来揭示多个变量间的内部结构，即从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。

A.主成分分析
B.回归分析
C.指数分析
D.预测分析

41.最早提出大数据时代概念的公司是（）。

A.脸谱公司
B.微软公司
C.麦肯锡公司
D.谷歌公司

42.()的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。

A.数据集成
B.数据清洗
C.数据归约
D.数据变换

43.Hadoop框架中最核心的设计是（）。

A.MapReduce和Hive
B.Hive和HDFS
C.ZooKeeper和HDFS
D.MapReduce和HDFS

44.以下哪个不属于大数据的关键技术（）。

A.流处理
B.数据表
C.并行化
D.可视化

45.（）是一种用作显示一组数据分散情况资料的统计图，它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较。

A.直方图
B.折线图
C.箱形图
D.雷达图

46.噪声数据处理的主要方法不包括（）。

A.关联分析
B.回归
C.聚类
D.分箱

47.（）反映数据的精细化程度，越细化的数据，价值越高。

A.颗粒度
B.关联度
C.活性
D.规模

48.噪声和伪像是数据错误这一相同表述的两种叫法。

49.下列关于MapReduce说法不正确的是（）。。

A.MapReduce来源于google的学术论文
B.MapReduce隐藏了并行计算的细节，方便使用
C.MapReduce是一种计算框架
D.MapReduce程序只能用Java语言编写

50.以下说法不正确的是（）。

A.决策树方法通常用于关联规则挖掘。
B.预测是用于数据对象的连续取值。
C.Apriori算法是一种典型的关联规则挖掘算法。
D.分类是预测数据对象的离散类别。

51.使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务（）。

A.预测建模
B.寻找模式和规则
C.探索性数据分析
D.建模描述

52.Kmeans算法包括如下步骤：①在第j次迭代中，对于每个样本点，选取最近的中心点，归为该类；②更新中心点为每类的均值；③随机选取k个中心点；④j选择一项：a.①④③②b.④③②①c.①②③④d.③①②④

A.①④③②
B.④③②①
C.①②③④
D.③①②④

53.下列演示方式中，不属于传统统计图方式的是（）。

A.饼状图
B.曲线图
C.柱状图
D.网络图

54.以下哪些算法是基于规则的分类器（）。

A.人工神经网络
B.KNN
C.C4.5
D.朴素贝叶斯

55.各种传感器无时无刻不在为我们提供大量的数据。

56.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务（）。

A.寻找模式和规则
B.建模描述
C.预测建模
D.根据内容检索

57.以下说法不正确的是（）。

A.决策树方法通常用于关联规则挖掘。
B.分类是预测数据对象的离散类别。
C.预测是用于数据对象的连续取值。
D.Apriori算法是一种典型的关联规则挖掘算法。

58.推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于网站最热卖商品、客户所处城市、（），推测客户将来可能的购买行为。

A.客户过去的购买行为和购买记录
B.客户的个人信息
C.客户的兴趣爱好
D.客户的朋友

59.大数据的应用可以促进健康管理的个性化和多元化。

60.决策树是一种基于树形结构的预测模型，每一个树形分叉代表一个分类条件，叶子节点代表最终的分类结果，其优点在于易于实现，决策时间短，并且适合处理非数值型数据。

61.将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为（）。所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

A.聚类
B.机器学习
C.关联规则
D.云计算

62.决策树中不包含一下哪种结点（）。

A.根结点
B.内部结点
C.外部结点
D.叶结点

63.将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为（）。所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

A.关联规则
B.云计算
C.机器学习
D.聚类

64.智能健康手环的应用开发，体现了传感器的数据采集技术的应用。

65.（）是研究两个或两个以上处于同等地位的随机变量相关性的统计分析方法，包括变量之间是否存在依存关系，存在什么样的依存方向等等。

A.回归分析
B.主成分分析
C.判别分析
D.相关分析

66.下面（）程序负责HDFS数据存储。

A.Datanode
B.Jobtracker
C.SecondaryNameNode
D.NameNode

67.大数据会带来机器智能。

68.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数值。

69.在统计计算中，（）算法是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量。

A.K-Means算法
B.Apriori算法
C.KNN算法
D.最大期望算法

70.智慧城市的构建包括物联网、云计算、大数据等技术。

71.以下哪个不属于大数据可视化的应用（）。

A.热点地图
B.响应式表单
C.医学影像
D.天气云图

72.（）是在掌握大量观察数据的基础上，利用数理统计方法建立变量与自变量之间的回归关系函数表达式。

A.主成分分析
B.指数分析
C.预测分析
D.回归分析

73.大数据只包含结构化数据。

74.分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（）问题。

A.分类与回归
B.聚类分析
C.关联规则挖掘
D.时序预测

75.大数据的6V特征中，Variety表示（）

A.多样
B.高速
C.大量
D.低价值密度

76.决策树方法通常用于关联规则挖掘。

77.（）是指对数据源进行清洗、裁剪，并共享多样化数据来加快数据分析。

A.数据挖掘
B.数据加载
C.数据抽取
D.数据整合

78.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度（）,并将这些用户喜欢的项推荐给有相似兴趣的用户。

A.相似
B.预测
C.推荐
D.相同

79.Hadoop作者是KentBeck。

80.HDFS中的block默认保存（）份

A.1
B.2
C.3
D.不确定

81.数据从产生到被删除销毁的过程中，具有多个不同的数据存在阶段。

82.用于分类与回归应用的主要算法有)。

A.Apriori算法、HotSpot算法
B.K均值法、SOM神经网络
C.RBF神经网络、K均值法、决策树
D.决策树、BP神经网络、贝叶斯

83.建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？

A.寻找模式和规则
B.建模描述
C.预测建模
D.根据内容检索

84.决策树中不包含一下哪种结点（）。

A.叶结点
B.内部结点
C.外部结点
D.根结点

85.信息生命周期管理是据生命周期管理的来源，最早由英国企业提出。

86.聚类分析时不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别。

87.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

88.HDFS默认BlockSize的大小是（）。

A.128MB
B.256MB
C.64MB
D.32MB

89.数据可视化中实现中数据映射指的是（）

A.确定数据到标记和视觉通道的映射
B.从数据源中选取有效数据
C.视图的选择与用户交互控制的设计
D.概括现实生活中用户遇到的问题

90.以下哪些算法是基于规则的分类器（）。

A.人工神经网络
B.C4.5
C.KNN
D.朴素贝叶斯

91.美国沃尔玛连锁超市的真实案例:尿布与啤酒这两种风马牛不相及的商品居然摆在一起，但这一奇怪的举措居然使尿布和啤酒的稍量大幅增加了。这个案例是使用了（）的典型例子。

A.聚类
B.关联规则
C.云计算
D.物联网

92.下列演示方式中，不属于传统统计图方式的是（）。

A.柱状图
B.网络图
C.曲线图
D.饼状图

93.下列关于MapReduce说法不正确的是（）。。

A.MapReduce来源于google的学术论文
B.MapReduce隐藏了并行计算的细节，方便使用
C.MapReduce程序只能用Java语言编写
D.MapReduce是一种计算框架

94.数据可视化中实现中数据映射指的是（）

A.概括现实生活中用户遇到的问题
B.确定数据到标记和视觉通道的映射
C.从数据源中选取有效数据
D.视图的选择与用户交互控制的设计

95.目前，我国互联网、移动互联网用户规模居全球第()，拥有丰富的数据资源和应用市场优势。

A.一
B.四
C.二
D.三

96.（）反映数据的精细化程度，越细化的数据，价值越高。

A.活性
B.颗粒度
C.关联度
D.规模

97.寻找模式和规则主要是对数据进行干扰，使其符合某种规则以及模式。

98.以下哪个不属于大数据可视化的应用（）。

A.医学影像
B.响应式表单
C.热点地图
D.天气云图

99.K均值算法是分类算法。

100.HDFS默认BlockSize的大小是（）。

A.32MB
B.128MB
C.64MB
D.256MB

标签：12,技术,MapReduce,算法,客户,可视化,聚类,数据
来源： https://blog.csdn.net/robin9409/article/details/122840432

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

大数据技术【12】