标签:探秘 MapReduce Hadoop 开源 高性能 集群 EMR Spark 数据
本文来自夏立的分享,花名雷飙,阿里巴巴计算平台EMR高级产品专家。 2014年开始接触大数据,历经阿里内部的大数据发展,目前在阿里云上负责开源的大数据平台EMR产品,构建云上的开源生态。
产品介绍
阿里云EMR的整体架构如下: 管理运维能力集群管理,作业管理和调度
操作Web化、SDK&API
Hadoop, Spark性能优化
监控能力能整合强化
组件跟随开源社区保持版本升级
开源与阿里云平台的联结者,充分发挥云的生态能力
云产品对接(OSS,SLS,MaxCompute等)
云能力对接,弹性等等(本地盘实例严格打散,弹性伸缩能力,支持竞价实例)
基于企业级开源大数据生态上多样化场景方案的快速复制
打包计算平台能力
开箱即用的体验
开源大数据离线、实时、Ad-hoc查询场景
基于开源Hadoop生态,采用YARN管理集群资源,提供Hive、Spark离线大规模分布式数据存储和计算, SparkStreaming、Flink、Storm流式数据计算,Presto、Impala交互式查询,Oozie、Pig等Hadoop生态圈的组 件,支持OSS存储,支持Kerberos的数据认证与加密。
开源高吞吐量,可扩展性的消息系统
E-MapReduce Kafka提供一套完整的服务监控体系和元数据管理。广泛用于日志收集、监控数据聚合等场 景,支持离线或流式数据处理、实时数据分析等。
大数据+AI场景
Data Science针对大数据+AI场景,提供了Hive、Spark离线大数据ETL,TensorFlow模型训练,用户可以选 择CPU+GPU的异构计算框架,利用英伟达GPU对部分深度学习算法就行高性能计算。
实时交互式分析服务场景
Druid提供了大数据查询毫秒级延迟,支持多种数据摄入方式。可与E-MapReduce Hadoop、E-MapReduce Spark、阿里云OSS、阿里云RDS等服务搭配组合使用,构建灵活稳健的实时查询解决方案。
分布式锁
适用于大规模的Hadoop集群、HBase集群、Kafka集群独立的分布式一致性锁服务。
产品功能点
可视化集群管理控制台 自带的调度系统项目级别的权限管理
支持DAG
更好的弹性资源结合
方便的多种作业管理
完善的报警和监控
支持ECS GPU机型,通过Hadoop YARN调度集群GPU资源 Spark ML
TensorFlow Horvod • 支持TensorFlow ,Horvod等计算框架
可采用PS、MPI等数据通信模式
支持Docker,Standalone运行模式
欢迎点赞+收藏+转发朋友圈素质三连
文章不错?点个【在看】吧! ????
标签:探秘,MapReduce,Hadoop,开源,高性能,集群,EMR,Spark,数据 来源: https://blog.51cto.com/u_14222592/2894161
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。