ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

数据挖掘课程学习——序列模式发现相关内容调研

2021-09-23 17:03:01  阅读:214  来源: 互联网

标签:候选 产生 模式 项集 序列 算法 课程 数据挖掘


数据挖掘课程学习——序列模式发现相关内容调研

本次实验完成"序列模式发现"的相关内容调研,主要内容包括:什么是序列模式发现;应用在哪些领域;经典的算法有哪些;应用在怎样的数据上;得到怎样的结果。其他内容自由发挥。提交实验报告的word文件。

概念

序列模式挖掘 (sequence pattern mining )是指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。

数据序列是指与单个对象相关联的时间的有序列表。设D为包含一个或多个序列的数据集。
序列s的支持度是包含s的所有数据序列所占的比例。如果序列s的支持度大于或等于用户指定的阈值minsup,则称s是一个序列模式(或频繁序列)

序列模式发现, 给定数据集D和用户指定的最小支持度阈值minsup,序列模式发现的任务是找出支持度大于或等于minsup的所有序列。

产生序列模式的一种蛮力方法是枚举所有可能的序列,并统计他们各自的支持度。
候选序列的个数比候选项集的个数大的多,这就需要采用更好的算法来减小复杂度。

应用领域

序列模式发现涉及多学科技术的集成,被信息产业界认为是人工智能与数据库系统最重要的前沿之一,是当前的热点研究领域。

序列模式发现是最重要的数据挖掘任务之一并有着广阔的应用前景,比如交易数据库中的客户行为分析,Web访问日志分析,科学实验过程的分析,文本分析,DNA分析和自然灾害预测等等。

经典算法

Apriori算法

Apriori算法是第一个关联规则挖掘算法,它开创性地使用基于支持度的剪枝技术,系统地控制候选项集指数增长。
对于文章开头表 6-1 中所示的事务,下图 6-5 给出Apriori算法频繁项集产生部分的一个示例。
在这里插入图片描述
初始时每个项都被看作 候选1-项集。对它们的支持度计数之后,候选项集 {可乐} 和 {鸡蛋} 被丢弃。
在下一次迭代中,就只需使用 频繁1-项集 来产生 候选2-项集 ,由于只有4个 频繁1-项集,因此算法产生的 候选2-项集 的数目为 \(C(4, 2) = 6\)个。计算它们的支持度之后,发现4个候选项集是频繁的,因此用此4个来产生候选3-项集。
通过此例子可以看出先验剪枝策略的有效性。
枚举所有项集到3-项集的暴力策略过程将产生\(C(6, 1) + C(6, 2) + C(6, 3)=6+15+20=41\)个候选项;
而使用Apriori算法,只产生\(C(6, 1) + C(6, 2) + 1 = 13\)个候选。候选项集的数目降低了68%。

Apriori算法伪代码:在这里插入图片描述

其中,\(C_k\) 为 候选k-项集,\(F_k\)为 频繁k-项集。

  • 该算法初始通过单遍扫描数据集,确定每个项的支持度。产生 频繁1-项集 的集合\(F_1\)。(步骤1,2)
  • 然后,该算法将使用上一次产生的 频繁(k-1)-项集,产生新的 候选k-项集(步骤5)。
  • 为了计算新候选项集的支持度,算法需要再次扫描一遍数据集(步骤6-10)。使用子集函数发现事务t包含了哪些候选项集。
  • 完成支持度计算后,算法将删去支持度小于支持度阈值minsup的所有候选项集,生成频繁k-项集。
    当没有新的频繁项集或候选项集产生时,算法结束。

Apriori算法的重要特点:

  • 它是一个逐层 ( level-wise ) 算法,即从频繁1-项集到最长的频繁项集,它每次遍历项集格中的一层;
  • 它使用产生-测试 ( generate-and-test ) 策略来发现频繁项集。在每次迭代之后,新的候选项集都由前一次迭代发现的频繁项集产生,然后对每个候选的支持度进行计数,并与最小支持度阈值进行比较。该算法的总迭代次数是\(k_{max} + 1\),其中\(k_{max}\)是频繁项集的最大长度。

AprioriAll算法

AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,具体候选者的产生如下:
候选集生成的时候需要区分最后两个元素的前后,因此就有<p.item1,p.item2,…,p.,q.>和<p.item1,p.item2,…, q.,p.>两个元素。

AprioriSome算法

AprioriSome算法可以看做是AprioriAll算法的改进,具体可以分为两个阶段:
(1)Forward阶段:找出置顶长度的所有大序列,在产生Li后,根据判断函数j=next(last),此时last=i,j>i,下个阶段不产生i+1的候选项,而是产生j的候选项,如果j=i+1,那么就根据Li生成Cj,如果j>i+1,那么Cj就有Cj-1产生。然后扫描数据库计算Cj的支持度。
(2)Backward阶段:根据Lj中的大项集,去掉Ci(i<j)中出现的Lj项,然后计算Ci中的支持度,判断那些在Forward阶段被漏判的项集。

AprioriAll算法和AprioriSome算法的比较:

(1)AprioriAll用去计算出所有的候选Ck,而AprioriSome会直接用去计算所有的候选,因为包含,所以AprioriSome会产生比较多的候选。
(2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。
(3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。
(4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。

GSP算法

GSP(Generalized Sequential Patterns)算法,类似于Apriori算法大体分为候选集产生、候选集计数以及扩展分类三个阶段。与AprioriAll算法相比,GSP算法统计较少的候选集,并且在数据转换过程中不需要事先计算频繁集。
GSP的计算步骤与Apriori类似,但是主要不同在于产生候选序列模式,GSP产生候选序列模式可以分成如下两个步骤:
(1)连接阶段:如果去掉序列模式S1的第一个项目与去掉序列模式S2的最后一个项目所得到的序列相同,则可以将S1和S2进行连接,即将S2的最后一个项目添加到S1中去。
(2)剪枝阶段:若某候选序列模式的某个子集不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。

应用过程

典型的应用还是限于离散型的序列。

参考来源:
[1]: https://blog.csdn.net/yohjob/article/details/92198700
[2]: https://baike.baidu.com/item/序列模式/6009963?fr=aladdin

标签:候选,产生,模式,项集,序列,算法,课程,数据挖掘
来源: https://www.cnblogs.com/zhangj9/p/15324944.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有