ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

基于阿里云EMR初期集群选购指南

2020-12-09 15:01:55  阅读:297  来源: 互联网

标签:64G 16 云盘 系统盘 集群 ESSD EMR 120G 选购指南


 

  • 业务数据量

       业务库:累计15G

       日志:累计3T;日增量13G

 

  • 集群配置

     方案制定:

  1. 高可用(建议):

       集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。

 

  1. 方案:

 

方案一

方案二

方案三

方案四

是否高可用

总机器数

4

4

3

3

Master节点数

2

2

1

1

Master核心数

16

16

16

16

Master内存

64G

64G

64G

64G

Master磁盘

120G ESSD系统盘+1T ESSD硬盘

120G ESSD系统盘+1T高效云盘

120G ESSD系统盘+1T ESSD硬盘

120G ESSD系统盘+1T高效云盘

Worker节点数

2

2

2

2

Worker核心数

16

16

16

16

Worker内存

64G

64G

64G

64G

Worker磁盘

120G ESSD系统盘 + 4*2T ESSD硬盘

120G ESSD系统盘 + 4*2T 高效云盘

120G ESSD系统盘 + 4*2T ESSD硬盘

120G ESSD系统盘 + 4*2T 高效云盘

预估价格

26592.00/月

14611.20/月

23528.00/月

12212.80/月

 

 

 

 

 

 

  1. 磁盘性能对比

       可选磁盘:ESSD PL0 ,高效云盘

       磁盘类型后续不可修改,但可增加不同类型磁盘混用;

       现有业务高效云盘可以支撑,需考虑后续需求情况;

 

  • 技术选型

       集群版本:阿里云EMR-3.29.0

       Hadoop版本:hadoop2.x       

       可选组件:

  1. Zookeeper(高可用默认安装):分布式服务框架,Hbase和手动安装低版本Kafaka会用到
  2. Impala:快速查询HDFS或HBase中的数据的查询系统
  3. Flume:数据采集工具,可用来做日志采集
  4. Flink:现在非常流行的实时数据处理工具

 

  • 其他

       MySQL(云):1.用来存放各组件的原数据;2.离线数据导出

       Kafka(云或自建):消息中间件,减少业务间耦合度,统一数据源等

       Redis(云或自建):NoSQL数据库,读写速度快,实时项目存储数据,保存偏移量

       Airflow(自建):调度工具,调度任务

       DataX(自建):数据仓库-业务库间数据导入导出

       FileBeat(自建):日志采集

 

  • 数据流

 

  • 数据门户

       阿里云 Quick BI

标签:64G,16,云盘,系统盘,集群,ESSD,EMR,120G,选购指南
来源: https://blog.csdn.net/Mr_ShangHaohao/article/details/110925701

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有