大数据（一）

2021-02-15 10:05:44 阅读：211 来源： 互联网

什么是大数据？
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。
大数据的特点：
1. 多样（Variety）
2. 大量（Volume）
3. 高速（Velocity）
4. 低价值密度（Value）
5. 真实性（Veracity）
大数据处理的框架、架构、系统有：
Hadoop生态、clickhouse、kafka、flink等等

一.clickhouse?
Yandex（俄罗斯的类似谷歌的大公司）在2016年6月15日开源了一个【数据分析的数据库】，名字叫做ClickHouse.
Ø 1.真正的面向列的DBMS（数据库管理系统），如：mysql是面向行
Ø 2.数据高效压缩
Ø 3.磁盘存储的数据
Ø 4.多核并行处理
Ø 5.在多个服务器上分布式处理
Ø 6.SQL语法支持
Ø 7.向量化引擎
Ø 8.实时数据更新
Ø 9.索引
Ø 10.适合在线查询
Ø 11.支持近似预估计算
Ø 12.支持嵌套的数据结构
Ø 支持数组作为数据类型
Ø 13.支持限制查询复杂性以及配额
Ø 14.复制数据复制和对数据完整性的支持
不支持的点：
Ø 1.不支持事物。
Ø 2.不支持Update/Delete操作。
Ø 3.支持有限操作系统。

二.什么是kafka？Kafka与MQ的区别？
【kafka是一种高吞吐量的分布式发布订阅消息系统】。特性：
通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
高吞吐量：即使是非常普通的硬件kafka也可以支持每秒数十万的消息。
支持通过kafka服务器和消费机集群来分区消息。
支持Hadoop并行数据加载。
卡夫卡的目的是提供一个发布订阅解决方案，它可以处理消费者规模的网站中的所有动作流数据。
Kafka与MQ的区别：
1.在架构模型方面
2.吞吐量：rabbitMQ在吞吐量方面稍逊于kafka，rabbitMQ支持对消息的可靠的传递，支持事务，不支持批量的操作
3.可用性方面
rabbitMQ支持miror的queue，主queue失效，miror queue接管。
kafka的broker支持主备模式。
4.集群负载均衡方面
rabbitMQ的负载均衡需要单独的loadbalancer进行支持。
kafka采用zookeeper对集群中的broker、consumer进行管理

三.什么是Hadoop?hadoop工程一般包含哪些模块？Apache中其他Hadoop相关的项目包括哪些？
1.Hadoop是一个开源框架，允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。
2.Hadoop工程包括以下模块：
Hadoop Common：支持其他Hadoop模块的通用工具。
【HDFS】Hadoop Distributed File System(HDFSTM)：提供高吞吐量的访问应用数据的一个分布式文件系统。
Hadoop YARN：一种作业调度和集群资源管理的框架。
Hadoop MapReduce：一种基于Yarn来处理大数据集合的系统。
　　3.Apache中其他Hadoop相关的项目包括：
AmbariTM：一种用于提供、管理和监督Apache Hadoop集群的基于Web UI的且易于使用的Hadoop管理工具。
AvroTM：一种数据序列化系统。
CassandraTM：一种无单点故障的可扩展的分布式数据库。
ChukwaTM：一种用于管理大型分布式系统的数据收集系统。
HBaseTM：一种支持存储大型表的结构化存储的可扩展的分布式数据库。
HiveTM：一种提供数据汇总和特定查询的数据仓库。
MahoutTM：一种可扩展的机器学习和数据挖掘库（Scala语言实现，可结合Spark后端）。
PigTM：一种高级的数据流语言且支持并行计算的执行框架（2017年发布的最新版本0.17.0是添加了Spark上的Pig应用）。
SparkTM：一种用于Hadoop数据的快速通用计算引擎。
Spark提供一种支持广泛应用的简单而易懂的编程模型，包括ETL（ Extract-Transform-Load）、机器学习、流处理以及图计算。
TezTM：一种建立在Hadoop YARN上数据流编程框架。
它提供了一个强大而灵活的引擎来任意构建DAG（Directed-acyclic-graph）任务去处理用于批处理和交互用例的数据。
ZooKeeperTM：一种给分布式应用提供高性能的协同服务系统。

四.什么是flink？
Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。

参考链接：https://baijiahao.baidu.com/s?id=1639754083195876618&wfr=spider&for=pc

参考链接：https://www.jianshu.com/p/350b59e8ea68

参考链接：https://www.oschina.net/p/kafka?hmsr=aladdin1e1

参考链接：https://baijiahao.baidu.com/s?id=1653690802220334321&wfr=spider&for=pc

参考链接：https://www.cnblogs.com/wing1995/p/9300120.html

标签：Hadoop,支持,一种,kafka,数据,分布式
来源： https://www.cnblogs.com/duiyuedangge/p/14403257.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

大数据（一）