标签:架构 离线 hadoop 实时 Hadoop 采集 数据 第三方
数据架构包含:数据采集层,数据调度平台、数据展示层
数据采集
- 自己业务数据(主要是各个业务线的数据,例如:用户、订单等),主要存放在关系型数据库中,例如Mysql等。
- 埋点日志(涉及到用户对APP或者小程序等的访问、分享、浏览等基本的用户行为数据),这份数据主要是存放在HIVE上;
- 第三方数据,例如:获取的第三方竞品数据、各种API获取、TD投放、爬虫等第三方数据。
埋点采集主要是离线数仓和实时采集,改进方案:NG -> Kafka -> StructuredStreaming/Flink,然后实时的需求直接走StructuredStreaming/Flink,获取实时的数据存到redis/ES等内存数据库中,可以做搜索推荐。离线的将数据存到HDFS中,第二天对昨天的日志进行合并(主要是合并小文件)
数据中台主要包含:数据治理、数据安全、数据质量
Hadoop的最核心的存储层叫做HDFS,全称是Hadoop文件存储系统,有了存储系统还要有分析系统maoreduce,mapreduce做分析太重,脸书开源了hive
Hadoop最开始设计是用来跑文件的,对于数据的批处理(batch data processing)能力较强,实时数据(streaming data processing) 使用spark 或flink
标签:架构,离线,hadoop,实时,Hadoop,采集,数据,第三方 来源: https://www.cnblogs.com/Christbao/p/13385231.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。