ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

大数据框架基础入门Hadoop教程

2019-07-27 12:41:42  阅读:181  来源: 互联网

标签:分析 教程 入门 结构化 Hadoop 技术 MapReduce 数据量 数据


Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。

90%的世界数据在过去的几年中产生”。

由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以填补整个足球场。在2011年创建相同数据量只需要两天,在2013年该速率仍在每十分钟极大地增长。虽然生产的所有这些信息是有意义的,处理起来有用的,但是它被忽略了。

什么是大数据?

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。

在大数据会发生什么?

大数据包括通过不同的设备和应用程序所产生的数据。下面给出的是一些在数据的框架下的领域。

  • 黑匣子数据:这是直升机,飞机,喷气机的一个组成部分,它捕获飞行机组的声音,麦克风和耳机的录音,以及飞机的性能信息。
  • 社会化媒体数据:社会化媒体,如Facebook和Twitter保持信息发布的数百万世界各地的人的意见观点。
  • 证券交易所数据:交易所数据保存有关的“买入”和“卖出”,客户由不同的公司所占的份额决定的信息。
  • 电网数据:电网数据保持相对于基站所消耗的特定节点的信息。
  • 交通运输数据:交通数据包括车辆的型号,容量,距离和可用性。
  • 搜索引擎数据:搜索引擎获取大量来自不同数据库中的数据。

Hadoop教程

因此,大数据包括体积庞大,高流速和可扩展的各种数据。它的数据为三种类型。

  • 结构化数据:关系数据。
  • 半结构化数据:XML数据。
  • 非结构化数据:Word, PDF, 文本,媒体日志。

大数据的好处

  • 通过保留了社交网络如Facebook的信息,市场营销机构了解可以他们的活动,促销等广告媒介的响应。
  • 利用信息计划生产在社会化媒体一样喜好并让消费者对产品的认知,产品企业和零售企业。
  • 使用关于患者以前的病历资料,医院提供更好的和快速的服务。

大数据技术

大数据的技术是在提供更准确的分析,这可能影响更多的具体决策导致更大的运行效率,降低成本,并减少了对业务的风险。

为了利用大数据的力量,需要管理和处理的实时结构化和非结构化的海量数据,可以保护数据隐私和安全的基础设施。

目前在市场上的各种技术,从不同的供应商,包括亚马逊,IBM,微软等来处理大数据。尽管找到了处理大数据的技术,我们研究了以下两类技术:

操作大数据

这些包括像MongoDB系统,提供业务实时的能力,这里主要是数据捕获和存储互动工作。

NoSQL大数据系统的设计充分利用已经出现在过去的十年,而让大量的计算,以廉价,高效地运行新的云计算架构的优势。这使得运营大数据工作负载更容易管理,更便宜,更快的实现。

一些NoSQL系统可以提供深入了解基于使用最少的编码无需数据科学家和额外的基础架构的实时数据模式。

分析大数据

这些包括,如大规模并行处理(MPP)数据库系统和MapReduce提供用于回顾性和复杂的分析,可能触及大部分或全部数据的分析能力的系统。

MapReduce提供分析数据的基础上,MapReduce可以按比例增加从单个服务器向成千上万的高端和低端机的互补SQL提供的功能,这是系统的一种新方法。

这两个类技术是互补的,并经常一起部署。

操作与分析系统

  操作 分析
等待时间 1 ms – 100 ms 1 min – 100 min
并发 1000 – 100,000 1 – 10
访问模式 写入和读取 读取
查询 选择 非选择性
数据范围 操作 回溯
最终用户 顾客 数据科学家
技术 NoSQL MapReduce, MPP 数据库

大数据的挑战

大数据相关的主要挑战如下:

  • 采集数据
  • 策展
  • 存储
  • 搜索
  • 分享
  • 传输
  • 分析
  • 展示

为了实现上述挑战,企业通常需要企业级服务器的帮助。

 

推荐学习目录:Hadoop教程

标签:分析,教程,入门,结构化,Hadoop,技术,MapReduce,数据量,数据
来源: https://blog.csdn.net/mnhjyus/article/details/95794758

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有