ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

cpc、hyperloglog原理简述

2022-02-24 14:35:34  阅读:433  来源: 互联网

标签:01 hyperloglog 正面 cpc 试验 简述 https 伯努利


cpc原理简述:
cpc、hyperloglog等是使用概率思想实现“去重计数”的方法,该类方法不直接存储数据集合本身,而是通过一定的概率统计方法预估数据集中不重复元素的个数,这种方法可以大大节省内存,同时保证误差控制在一定范围内。
1、基本概率思想
伯努利试验:一次实验只有两种结果,比如抛硬币结果只能是正面朝上或者反面朝上。
n重伯努利试验:进行多次伯努利试验,比如抛10次硬币。

如果在一次n重伯努利试验中关注的是 第一次出现正面时,跑硬币的次数k,然后进行多次这样的n重伯努利试验,会有如下结果,0代表反面、1代表正面:
第一次试验: 抛了3次才出现正面,此时 k=3,记为:001
第二次试验: 抛了2次才出现正面,此时 k=2,记为:01
第三次试验: 抛了6次才出现正面,此时 k=6,记为:000001
第四次试验: 抛了1次才出现正面,此时 k=1,记为:1

第m次试验: 抛了2次才出现正面,此时 k=2,记为:01

通过研究上述试验中 最大的k 与 试验总次数 m的关系,由极大似然估计可得到:m=2max(k),比如上述试验通过最大k值6估计m的值是=26,代表:通过概率估计,共进行了2的6次方次试验。由此见,该公式误差比较大,特别是在小数据量情况下,所以基于该公式做了多个版本的精度优化(多次分组试验求平均、求调和平均等),最终形成了cpc、hyperloglog(误差一般可以控制在1%以下)等算法。

注意:k代表的是“在对应的试验中,第k次跑硬币时,出现了正面朝上。对于第三次试验的“000001”也可表述为:第一个1出现的位置是6。

2、如何将m=2^max(k)应用于“近似计算”
比如某二级部门下的用户有uuid1,uuid2,uuid3…,先将这些uuid对应的字符串做hash转换成”01001000”、”01010100”、”01001010”的串,然后找到这些01串中第一个1(从右至左)出现位置最大的位置值,比所列举的3个01串,第一个1出现位置依次是4、3、2,所以最大的位置max(k)是4,通过m=2^max(k)公式即可估计共有多少个uuid。

https://zhuanlan.zhihu.com/p/77289303
https://blog.csdn.net/redenval/article/details/85205453
https://zhuanlan.zhihu.com/p/77289303?ivk_sa=1025922x
https://www.cnblogs.com/linguanh/p/10460421.html
https://juejin.cn/post/6844903785744056333#heading-6
https://blog.csdn.net/u010670689/article/details/82181401?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2aggregatepagefirst_rank_ecpm_v1~rank_v31_ecpm-7-82181401.pc_agg_new_rank&utm_term=HyperLogLog+%E5%81%8F%E5%B7%AE&spm=1000.2123.3001.4430

标签:01,hyperloglog,正面,cpc,试验,简述,https,伯努利
来源: https://www.cnblogs.com/shudazhaofeng/p/15931547.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有