spark分析网吧同行朋友思路

2021-03-15 20:51:42 阅读：179 来源： 互联网

spark分析网吧同行朋友思路

浪院长浪尖聊大数据

有粉丝留言了一个这样的问题


你好，我们现在正好遇到一个spark的问题。
在mysql库中有2.5kw网吧轨迹数据，
需要计算同行关系:计算两人在相同网吧十分钟前后上下网三次及以上
(如:a和b在19号十分钟前后出现在了A网吧，又在21号十分钟前后出现在了B网吧，
再在22号十分钟前后出现在了D网吧)
就需要保留他们的身份ID和一起上下网的次数。
2.5kw轨迹中有8k+网吧请问有什么思路吗？

如果flink有更好的处理方式也可以。

使用用一个mysql的连接器，但是这东西需要配置一个分区列。

直接用的网吧编号。这样会分8000多分区(而且后面的逻辑也没有用到这个分区列)，
是不是有问题？今天测试了一下。
两个网吧，3w多数据，两个小时没跑完。。
(我们是先用连接器抽出数据，按照网吧分组计算单次然后聚合筛选3次及以上的)
网吧数据从几条到几万条不等。

分区列的问题解决：
可以采用时间戳(long型)分区，会造成多余的一次shuffle。
自定义jdbcRDD，我记得以前分享过网上也有资料，这样就可以自定义分区策略了。数据还是要有明显的分区列的。
增加自增ID列。

处理思路：

按照网吧ID进行group by，然后同组内两两组合，判断A，B进入网吧时间差值是否小于10min，同时判断离开网吧的时间是否相差10min以内，如果两者都是true就保留，否则过滤。保留人物ID要进行两两组合，比如，A#B；两者的顺序可以定义个排序策略，比如字符串的话字典排序，这样下面可以用。flatmap展开之后key和value翻转。
然后在进行一次group by(key),此时的key就是A#B的组合了，value是网吧，然后统计value的size是否大于三。
有疑问就是两个人相同时间下班，住的距离比较近，就经常去相同的离他们都近的网吧，同时上下网，不是同行，确实巧合。这个是否要处理。
相约同一网吧。
其它，肯定还有其它问题或者思路欢迎大家留言。
这应该是没有敏感信息吧，会不会被你同事看到。

标签：key,同行,十分钟,网吧,spark,ID,分区
来源： https://blog.51cto.com/15127544/2660563

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

spark分析网吧同行朋友思路

spark分析网吧同行朋友思路