标签:场景 交互式 学习 寒假 生态系统 数据处理 spark 时间跨度 Spark
在实际应用中,大数据处理主要包括以下三个类型:
- 复杂的批量数据处理,通常时间跨度在数十分钟到数小时之间
- 基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间
- 基于实时数据流的数据处理,通常时间跨度在数百毫秒到数秒之间
当同时存在以上三种场景时,就需要同时部署三种不同的软件:
- 复杂的批量数据处理
- 基于历史数据的交互式查询
-
基于实时数据流的数据处理
问题:
- 不同场景之间输入输出数据无法做到无缝共享,通常需要进行数据格式的转换
- 不同的软件需要不同的开发和维护团队,带来了较高的使用成本
- 比较难以对同一个集群中的各个系统进行统一的资源协调和分配
Spark设计:遵循“一个软件栈满足不同应用场景”的理念,逐渐形成了一套完整的生态系统
Spark生态系统:
- Spark Streaming提供流计算功能
- Mllib提供机器学习算法库的组件
- Spark Core提供内存计算
- Spark SQL提供交互式查询分析
- Graphx提供图计算
Spark生态系统组件的应用场景:
标签:场景,交互式,学习,寒假,生态系统,数据处理,spark,时间跨度,Spark 来源: https://www.cnblogs.com/fengchuiguobanxia/p/15819746.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。