ICode9

精准搜索请尝试: 精确搜索
首页 > 数据库> 文章详细

mysql-每天计算累积用户的正确方法是什么?

2019-12-11 06:14:47  阅读:225  来源: 互联网

标签:nosql mysql database


我有一个名为事务的MySQL表,该表具有5列,即id(int),from(int),to(int),value(float),time(datetime).

而且,我每天需要计算某个特定接收者(“至”)的累积用户(唯一的“来自”的数量).

例如:

+-----+------+-----+-------+----------------------------+
| id  | from | to  | value | time                       |
+-----+------+-----+-------+----------------------------+
| 1   |  1   | 223 |     1 | 2019-01-01 01:11:30.000000 |
| 2   |  1   | 224 |     2 | 2019-01-01 21:37:30.000000 |
| 3   |  2   |  25 |   0.1 | 2019-01-02 03:05:30.000000 |
| 4   |  2   | 223 |   0.2 | 2019-01-02 13:26:30.000000 |
| 5   |  3   |  26 |     3 | 2019-01-02 19:29:30.000000 |
| 6   |  3   | 227 |     4 | 2019-01-03 21:37:30.000000 |
| 7   |  1   | 224 |     5 | 2019-01-05 22:03:30.000000 |
| 8   |  4   | 224 |     1 | 2019-01-05 23:48:30.000000 |
| 9   |  5   | 223 |     2 | 2019-01-06 05:41:30.000000 |
| 10  |  6   |  28 |     2 | 2019-01-06 20:19:30.000000 |
+-----+------+-----+-------+----------------------------+

特定于[223,224,227]

那么预期结果是:

2019-01-01: 1 # [1]
2019-01-02: 3 # [1, 2, 3]
2019-01-03: 3 # [1, 2, 3]
2019-01-04: 3 # [1, 2, 3]
2019-01-05: 4 # [1, 2, 3, 4]
2019-01-05: 5 # [1, 2, 3, 4, 5]

直接的方法是使用SQL

SELECT COUNT(DISTINCT(`From`))
FROM `transaction`
FORCE INDEX (to_time_from)
WHERE `time` < '2019-01-0X'
AND `to` IN (223, 224, 227)

但是问题是,事务表很大(每天100万个,大约2年),列出的数据大约是1000个.即使我创建了[to,time,from]和强制使用它.

此外,尽管每日交易量达到约100万,但每日活动用户仅为10,000.所以我正在考虑将DAU列表存储在No-SQL中,例如

2019-01-01: [1]
2019-01-02: [2, 3]
2019-01-03: [3]
2019-01-04: []
2019-01-05: [1, 4]
2019-01-05: [5]

当给定日期d时,我不迟于d检索所有DAU列表并进行联合以获取累积用户.像这样的东西:len(set([dau_list1] [dau_list2] [dau_list3] …))

但是我不知道要使用哪个No-SQL.

> Redis会将所有内容加载到内存中,但是查询时我只需要这些数据.
> MongoDB

>似乎我需要为每个日期创建一个集合,因为我需要在from上创建一个唯一索引.我对吗?
>我知道我可以使用数组字段和$addToSet操作.但这是O(n),非常慢.

那么,什么是正确的方法呢?

解决方法:

在MySQL中,使用类似(no redis,no MongoDB)的方法:

SELECT  DATE(`time`),
        COUNT(*),
        GROUP_CONCAT(`from`)
    FROM  tbl
    WHERE  `to` IN (...)
    GROUP BY  1;    -- shorthand for "DATE(time)"

INDEX(`to`, `from`, `time`)  -- if applying to entire table
INDEX(`to`, `time`, `from`)  -- if you have `AND time ...`

加上一些格式. (这可以通过凌乱的CONCAT来完成,或者留给应用程序代码.)

由于这似乎也是一个“扩展”问题,因此也许您需要一个“摘要表”,该表每天都会用前一天的条目进行更新,从而使查询速度更快.

CREATE TABLE Daily (
    `day` DATE NOT NULL,
    `from` ... NOT NULL,
    `to` ... NOT NULL,
    `ct` SMALLINT UNSIGNED NOT NULL,
    PRIMARY KEY(`to`, `day`, `from`)
) ENGINE=InnoDB;

然后查询变为

SELECT  `day`,
        SUM(ct),
        GROUP_CONCAT(DISTINCT `from`)
    FROM Daily
    WHERE  `to` IN (...)`
    GROUP BY `day`;

(它可以帮助您提供CREATE TABLE和INSERT来构建测试用例.)

标签:nosql,mysql,database
来源: https://codeday.me/bug/20191211/2107018.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有