首页 > 其他分享> 文章详细

阿里云E-MapReduce探秘，快速构建可扩展的高性能大数据平台(技术部分)

2021-06-10 21:56:39 阅读：170 来源： 互联网

标签：探秘 MapReduce Hadoop 开源高性能集群 EMR Spark 数据

本文来自夏立的分享，花名雷飙，阿里巴巴计算平台EMR高级产品专家。 2014年开始接触大数据，历经阿里内部的大数据发展，目前在阿里云上负责开源的大数据平台EMR产品，构建云上的开源生态。

产品介绍

阿里云EMR的整体架构如下：管理运维能力

集群管理，作业管理和调度
操作Web化、SDK&API

完全兼容开源系统，并在之基础上强化

Hadoop, Spark性能优化
监控能力能整合强化

伴随社区发展的生态

组件跟随开源社区保持版本升级
开源与阿里云平台的联结者，充分发挥云的生态能力
云产品对接（OSS，SLS，MaxCompute等）
云能力对接，弹性等等（本地盘实例严格打散，弹性伸缩能力，支持竞价实例）

全球部署（全球15个region部署）

基于企业级开源大数据生态上多样化场景方案的快速复制

提供完整的企业级的一体化平台

打包计算平台能力
开箱即用的体验

常见的组合使用方式：

640?wx_fmt=jpeg

大数据平台应用到的组件包括：通用Hadoop

开源大数据离线、实时、Ad-hoc查询场景
基于开源Hadoop生态，采用YARN管理集群资源，提供Hive、Spark离线大规模分布式数据存储和计算， SparkStreaming、Flink、Storm流式数据计算，Presto、Impala交互式查询，Oozie、Pig等Hadoop生态圈的组件，支持OSS存储，支持Kerberos的数据认证与加密。

Kafka

开源高吞吐量，可扩展性的消息系统
E-MapReduce Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集、监控数据聚合等场景，支持离线或流式数据处理、实时数据分析等。

DataScience

大数据+AI场景
Data Science针对大数据+AI场景，提供了Hive、Spark离线大数据ETL，TensorFlow模型训练，用户可以选择CPU+GPU的异构计算框架，利用英伟达GPU对部分深度学习算法就行高性能计算。

Druid

实时交互式分析服务场景
Druid提供了大数据查询毫秒级延迟，支持多种数据摄入方式。可与E-MapReduce Hadoop、E-MapReduce Spark、阿里云OSS、阿里云RDS等服务搭配组合使用，构建灵活稳健的实时查询解决方案。

Zookeeper

分布式锁
适用于大规模的Hadoop集群、HBase集群、Kafka集群独立的分布式一致性锁服务。

产品功能点

可视化集群管理控制台

640?wx_fmt=jpeg

自带的调度系统

640?wx_fmt=jpeg

项目级别的权限管理
支持DAG
更好的弹性资源结合
方便的多种作业管理
完善的报警和监控

机器学习支持深度学习、AI以成为目前炙手可热的词汇，EMR EMR Cluster Learning将深度学习和开源大数据技术深度结合，提供一体化的大数据+深度学习服务。利用一个集群，构建企业数据湖，同时进行机器学习和深度学习：

支持ECS GPU机型，通过Hadoop YARN调度集群GPU资源 Spark ML
TensorFlow Horvod • 支持TensorFlow ，Horvod等计算框架
可采用PS、MPI等数据通信模式
支持Docker，Standalone运行模式

640?wx_fmt=jpeg

欢迎点赞+收藏+转发朋友圈素质三连

640?wx_fmt=jpeg

文章不错？点个【在看】吧！ ????

标签：探秘,MapReduce,Hadoop,开源,高性能,集群,EMR,Spark,数据
来源： https://blog.51cto.com/u_14222592/2894161

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

阿里云E-MapReduce探秘，快速构建可扩展的高性能大数据平台(技术部分)

产品介绍

产品功能点