ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

学习笔记(70):第二章:海量数据的处理与挖掘-关联规则挖掘01

2020-02-27 09:01:00  阅读:276  来源: 互联网

标签:事务 01 70 支持 项集 样本 规则 挖掘 购物单


立即学习:https://edu.csdn.net/course/play/26303/334278?utm_source=blogtoedu

1. 数据挖掘是一项从大量的记录数据中提取有价值、人们感兴趣的只是,这些只是是隐含的、事先未知的有用信息,提取的知识一般可表示为概念(concepts)、规则(rules)、规律(regular ides)、模式(patterns)等形式

其中:

规则:海量数据中样本与样本之间的关联性

模式:通过特征X,经过函数f得到结构y

2. 关联规则:发现数据中的规律

* 超市中什么产品回忆起购买(组合推荐)

* 顾客在买了一台PC之后下一步会购买(搭配推荐)

* 哪种DNA对这种药物敏感(统计学运用)

3. 关联规则基本概念

* 每一个数据样本称为项目

* 例如一个顾客购买商品的购物车称为项目的组合即事务

* 事务中有意义的项目集合叫做项集,比如面包和牛奶,这就是二项集,我们要挖掘的就是项集

* 1000个人购物,1000个购物单,牛奶在购物单中出现的次数叫支持度

* 当支持度高到一定程度,才会观测出有意义的信息和规则,设定一个阈值

* 项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或频集)

4. 事务数据库中X和Y同时存在的百分比s%称为支持度;信任度表示出现X的基础上再出现Y的概率,即条件概率

果儿_wj 发布了73 篇原创文章 · 获赞 3 · 访问量 724 私信 关注

标签:事务,01,70,支持,项集,样本,规则,挖掘,购物单
来源: https://blog.csdn.net/wj1408421029/article/details/104529417

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有