首页 > 其他分享> 文章详细

时序点过程学习笔记

2021-05-12 12:01:37 阅读：481 来源： 互联网

标签：函数强度笔记时序学习序列事件类型过程

https://zhuanlan.zhihu.com/p/110171621

一、什么是时序点过程

现实世界中有这么个问题：有这么一系列历史事件，每个事件都有其对应的发生时间，也有其所属的事件类型，基于这一系列历史事件，预测下一个要发生的是什么类型的事件，以及其发生的时间。

比如下一次地震发生在何时，何地是事件类型，比如一种股票的下一次买卖将发生在何时，买入或卖出是事件类型，比如用户将在何时去下一个目的地，目的地是哪里是事件类型。

点过程可以对这一系列历史事件建模，来解决这个预测问题。

$\boldsymbol{s}=\left\{\left(t_{i}, d_{i}\right)\right\}_{i=1}^{l}, d_{i} \in \mathcal{D}=\{1, \ldots, D\}$

时序点过程的核心是强度函数 $\lambda(t)$ 。 $N_d(t)$ 是截止 $t$ 时刻之前事件类型 $d$ 发生的总次数。 $\lambda_d(t)dt$ 代表在时间窗口 $[t, t+dt]$ 内，事件类型 $d$ 发生的概率。

$\lambda_d(t)dt = \frac{\mathbb{E}\left[\mathrm{d} N_{d}(t) | \mathcal{H}_{t_{\text {last }}}\right]dt}{\mathrm{d} t}=\frac{p\left(t, d | \mathcal{H}_{t_{\text {last }}}\right)dt}{1-F\left(t | \mathcal{H}_{t_{\text {last }}}\right)}$

其中 $p\left(t, d | \mathcal{H}_{t_{\text {last }}}\right)$ 代表基于历史行为，事件类型 $d$ 在 $t$ 时刻发生的条件概率密度函数； $F\left(t | \mathcal{H}_{t_{\text {last }}}\right)$ 代表基于历史行为，至少有一个事件类型在 $(t_{last}, t]$ 发生的条件概率。强度函数 $\lambda(t)$ 为：

$\begin{aligned} \lambda(t) &=\sum_{d=1}^{D} \lambda_{d}(t) \\ &=\sum_{d=1}^{D} \frac{p\left(t, d | \mathcal{H}_{t_{\text {last }}}\right)}{1-F\left(t | \mathcal{H}_{t_{\text {last }}}\right)}=\frac{p\left(t | \mathcal{H}_{t_{\text {last }}}\right)}{1-F\left(t | \mathcal{H}_{\text {last}}\right)} \\ &=\frac{\frac{\mathrm{d} F\left(t | \mathcal{H}_{\text {last }}\right)}{\mathrm{d} t}}{1-F\left(t | \mathcal{H}_{\left.t_{\text {last }}\right)}\right.}=-\frac{\mathrm{d}}{\mathrm{d} t} \log \left(1-F\left(t | \mathcal{H}_{\text {last }}\right)\right) \end{aligned}$

$\begin{aligned} F\left(t | \mathcal{H}_{t_{\text {last}}}\right) &=1-\exp \left(-\int_{t_{\text {lsst}}}^{t} \lambda(s) \mathrm{d} s\right) \\ p\left(t | \mathcal{H}_{t_{\text {last}}}\right) &=\lambda(t) \exp \left(-\int_{t_{\text {last}}}^{t} \lambda(s) \mathrm{d} s\right) \\ p\left(t, d | \mathcal{H}_{t_{\text {lsst}}}\right) &=\lambda_{d}(t) \exp \left(-\int_{t_{\text {last}}}^{t} \lambda(s) \mathrm{d} s\right) \\ p\left(d | t, \mathcal{H}_{t_{\text {last}}}\right) &=\frac{\lambda_{d}(t)}{\lambda(t)} \end{aligned}$

因此，只要能根据历史事件模拟出强度函数 $\lambda(t)$ ，则可以根据 $\lambda(t)$ 预测下一个事件。对 $\lambda(t)$ 的模拟将点过程分为传统点过程和深度点过程。

二、传统点过程

1.homogeneous poisson process假设 $\lambda(t)$ 独立于历史事件，且随着 $t$ 的变化恒定，即 $\lambda(t) = \lambda_0\geq0$ 。inhomogeneous poisson process假设 $\lambda(t)$ 独立于历史事件，且随着 $t$ 的变化而变化，即 $\lambda(t) = g(t)\geq0$

2.hawkes process 认为历史事件有激励作用: $\lambda(t)=\gamma_{0}+\alpha \sum_{t_{j}<t} \gamma\left(t, t_{j}\right),\gamma_{0}\geq0$ ， $\alpha\geq0$ ， $\gamma\left(t, t_{j}\right)=exp(-\beta(t-t_j))$ ， $\beta\geq0$

3. self-correcting process 认为强度函数的趋势是一直在增大，但是当一个事件发生后，会先减小。 $\lambda(t)=\exp \left(\mu t-\sum_{t_{i}<t} \alpha\right)$ ， $\mu>0$ ， $\alpha>0$

三、深度点过程

传统点过程缺点：

（1）传统点过程对强度函数有着上述设定，很有可能不符合实际情况，比如历史事件对强度函数的影响并不一定是累加的；

（2）如果有多种事件类型的话，还需作出各个事件类型是互相独立的假设，并且对每个事件类型求强度函数；

（3）传统点过程对数据的缺失处理不是很好，有时我们只能观测到一部分事件。

深度点过程就无需这么麻烦，用神经网络这样的非线性函数模拟强度函数，这样一个黑盒子无需设定任何先验知识。

1. Recurrent Markd Temporal Point Processes:Embedding Event History to Vector（kdd2016）

输入层：事件类型和发生时间为输入。事件类型用词向量，时间用时间的特征（比如是否周末，是否深夜等）

事件类型生成：普通的softmax

强度函数为：

$\lambda(t)=\exp (\underbrace{\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}}_{\text {past influence }}+\underbrace{w^{t}\left(t-t_{j}\right)}_{\text {current influence }}+\underbrace{b^{t}}_{\text {base intensity }})$

时间生成：用下面这种求平均值的算法比较复杂，没有数值解，有一种简单的解法，我还没弄明白是啥...

$\begin{array}{l}f(t)=\lambda(t) \exp \left(-\int_{t_{j}}^{t} \lambda(\tau) d \tau\right) \\ =\exp \left\{\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}+w^{t}\left(t-t_{j}\right)+b^{t}+\frac{1}{w} \exp \left(\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}+b^{t}\right)\right. \\ \left.-\frac{1}{w} \exp \left(\boldsymbol{v}^{t^{\top}} \cdot \boldsymbol{h}_{j}+w^{t}\left(t-t_{j}\right)+b^{t}\right)\right\}\end{array}$

$\hat{t}_{j+1}=\int_{t_{j}}^{\infty} t \cdot f(t) d t$

loss: $\ell\left(\left\{\mathcal{S}^{i}\right\}\right)=\sum_{i} \sum_{j}\left(\log P\left(y_{j+1}^{i} | \boldsymbol{h}_{j}\right)+\log f\left(d_{j+1}^{i} | \boldsymbol{h}_{j}\right)\right)$

实验使用的四个数据集：

New York City Taxi Dataset：共173 million记录，299个事件类型，670753 个序列

Financial Transaction Dataset：共0.7 million记录，2个事件类型，693499 个序列

Electrical Medical Records：204个事件类型，650个病人的序列

Stack OverFlow Dataset ：共480k记录，81个事件类型，6k用户的序列

代码地址: https://github.com/dunan/NeuralPointProcess

2. The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process（nips 2017）

上一篇论文中，lstm的不同时步的hidden state是离散的，换句话说：当一个新事件发生后，断崖式变化。本文提出一个连续的hidden state变化方式。

$\lambda_{k}(t)=f_{k}\left(\mathbf{w}_{k}^{\top} \mathbf{h}(t)\right)$ $\mathbf{h}(t)=\mathbf{o}_{i} \odot(2 \sigma(2 \mathbf{c}(t))-1) \text { for } t \in\left(t_{i-1}, t_{i}\right]$

事件 $i-1$ 到事件 $i$ 之间的 $t$ 时刻，强度函数由 $\mathbf{h}(t)$ 决定， $\mathbf{h}(t)$ 由 $\mathbf{c}(t)$ 决定。注意 $\mathbf{c}(t)$ 在上篇论文是没有的哦，因为上一篇论文只有事件 $i-1$ 到事件 $i$ ，没有他们之间的 $t$ 时刻

$\begin{aligned} \mathbf{i}_{i+1} & \leftarrow \sigma\left(\mathbf{W}_{\mathbf{i}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{i}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{i}}\right) \\ \mathbf{f}_{i+1} & \leftarrow \sigma\left(\mathbf{W}_{\mathbf{f}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{f}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{f}}\right) \\ \mathbf{z}_{i+1} & \leftarrow 2 \sigma\left(\mathbf{W}_{\mathbf{z}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{z}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{z}}\right)-1 \\ \mathbf{o}_{i+1} & \leftarrow \sigma\left(\mathbf{W}_{\mathbf{o}} \mathbf{k}_{i}+\mathbf{U}_{\mathbf{o}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathbf{o}}\right) \end{aligned}$

$\begin{array}{l}\mathbf{c}_{i+1} \leftarrow \mathbf{f}_{i+1} \odot \mathbf{c}\left(t_{i}\right)+\mathbf{i}_{i+1} \odot \mathbf{z}_{i+1} \\ \overline{\mathbf{c}}_{i+1} \leftarrow \overline{\mathbf{f}}_{i+1} \odot \overline{\mathbf{c}}_{i}+\overline{\boldsymbol{\imath}}_{i+1} \odot \mathbf{z}_{i+1} \\ \boldsymbol{\delta}_{i+1} \leftarrow f\left(\mathbf{W}_{\mathrm{d}} \mathbf{k}_{i}+\mathbf{U}_{\mathrm{d}} \mathbf{h}\left(t_{i}\right)+\mathbf{d}_{\mathrm{d}}\right)\end{array}$

$\mathbf{c}(t) \stackrel{\text { def }}{=} \overline{\mathbf{c}}_{i+1}+\left(\mathbf{c}_{i+1}-\overline{\mathbf{c}}_{i+1}\right) \exp \left(-\boldsymbol{\delta}_{i+1}\left(t-t_{i}\right)\right) \text { for } t \in\left(t_{i}, t_{i+1}\right]$

这里的 $\mathbf{h}(t_i)$ 和 $\mathbf{c}(t_i)$ 都不和上一篇论文中一样，而是 $\mathbf{h}(t)$ 和 $\mathbf{c}(t)$ 在 $t_i$ 时刻的值。

可见 $\mathbf{c}(t)$ 事件 $i$ 到事件 $i+1$ 之间从 $\mathbf{c}_{i+1}$ 向 $\overline{\mathbf{c}}_{i+1}$ 变化的，至于 $\overline{\mathbf{c}}_{i+1}$ 怎么来的，大概是训练的参数吧（还没太明白）。

loss是根据强度函数算的：

$\ell=\sum_{i: t_{i} \leq T} \log \lambda_{k_{i}}\left(t_{i}\right)-\underbrace{\int_{t=0}^{T} \lambda(t) d t}_{\text {call this } \Lambda}$

本文的测试数据集：

Retweets Dataset：3个事件类型，1739547 个序列，序列长度109

MemeTrack Dataset：5000个事件类型，93267 个序列，序列长度3

3. CTRec: A Long-Short Demands Evolution Model for Continuous-Time Recommendation（SIGIR 2019）

这篇文章主要是将深度点过程用在商品推荐上，之前的商品推荐只考虑推荐对的商品，没有考虑在对的时间推荐对的商品，比如用户刚买了个厕所读物，不代表它喜欢厕所读物，不能一直给他推荐厕所读物，而应该考虑商品周期，等他看完了上一本，再给他推荐新的（长期需求）。再比如用户买了个画板，就得立马推荐颜料了（短期需求）。总之，就是考虑用户画像、短期需求和长期需求。

论文有三个创新点：使用的连续lstm，就是上一篇论文中的；使用cnn捕捉短期需求；使用attention捕捉长期需求。

强度函数融合了用户画像、短期需求和长期需求。

$\lambda_{i}(t ; \theta)=f(\underbrace{w_{i}^{i t e m \top} \cdot h(t)}_{\text {short-term }}+\underbrace{w_{i}^{a t t r i^{\top}} \cdot \vartheta(t)}_{\text {long-term }}+\underbrace{w_{i}^{u s e r \top} \cdot u}_{\text {basic demands }})$

cnn使用k个核做多层卷积，最后average pooling。

attention：

$\alpha_{t, t_{j}}=\boldsymbol{h}\left(t_{j}\right)^{\top} \boldsymbol{i}_{t}-\lambda \log \left(\max \left\{\gamma, d_{a_{t}, a_{t_{j}}}^{u}-\Delta_{a_{t}, a_{t_{j}}}^{u}\right\}\right)$

$\mathcal{P}_{t}=\sum_{j=1}^{n} \frac{\exp \left(\alpha_{t, t_{j}}\right)}{\sum_{q=1}^{n} \exp \left(\alpha_{t, t_{q}}\right)} \boldsymbol{h}\left(t_{j}\right)$

$\begin{aligned} \ell\left(I_{t}^{u} ; \theta\right) &=\sum_{j=1}^{n} \log \operatorname{Pr}\left(i_{t_{j}} | I_{t_{j}}^{u}, \Delta t_{j}\right) \\ &=\underbrace{\sum_{j=1}^{n} \log \lambda_{i_{t_{j}}}\left(t_{j} ; \theta\right)}_{\text {purchase }}-\sum_{i_{\text {neg}} \in I} \int_{t_{1}}^{t_{n}} \lambda_{i_{\text {neg}}}(t) d t \\ &=\sum_{i_{\text {neg}} \in I} \sum_{j=1}^{n}\left(\frac{1}{|I|} \log \lambda_{i_{t_{j}}}\left(t_{j} ; \theta\right)-\int_{t_{j-1}}^{t_{j}} \lambda_{\text {ineg}}(t) d t\right) \end{aligned}$

$i_{n+\epsilon}=\arg \max _{i} \int_{t_{n}}^{t_{n+\epsilon}} \frac{\lambda_{i}(t ; \theta)}{\sum_{j \in I} \lambda_{j}(t ; \theta)} p_{i}(t ; \theta) d t, \epsilon \in \mathbb{N}^{*}$

标签：函数,强度,笔记,时序,学习,序列,事件,类型,过程
来源： https://www.cnblogs.com/dhcn/p/14759157.html