ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Factorization Machines

2022-05-02 17:00:56  阅读:220  来源: 互联网

标签:mathbf sum 电影 Factorization 打分 hat FM Machines


目录

Rendle S. Factorization machines. In IEEE International Conference on Data Mining (ICDM), 2010

SVM在很多领域都有应用, 却在推荐系统中没有什么特别好的效果, 作者认为主要原因是推荐系统的数据过于稀疏的原因. 因此, 本文提出FM来解决这一问题(其实从现阶段来看, 可以看成是embedding的一个扩展吧).

主要内容

如上图所示, 每一行\(\mathbf{x} \in \mathbb{R}^n\)是一条数据, 其由下列构成:

  • User: 用户 \(u\), one-hot 向量;
  • Movie: 用户所打分的电影 \(i\), one-hot 向量;
  • Other Movies rated: 其它打过分的矩阵 (normalzied 后)
  • Time: 打分的时间;
  • Last Movie rated: 对电影 \(i\) 打分之前所打分的电影 \(j\), one-hot 向量;
  • Target y: 打分.

举个例子, \(\mathrm{x}^{(1)}, \mathrm{x}^{(2)}, \mathrm{x}^{(3)}\)分别是用户A为电影Titanic, Notting Hill, Star Wars打分的情况, 因为在为 Notting Hill 打分前所打分的电影为 Titanic, 所以 Last Movie rated 对应位置为 1, 其余为 0.

可见上述的数据是相当稀疏的.

FM

FM的预测公式如下:

\[\hat{y}(\mathbf{x}) := w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i + 1}^n \mathbf{v}_i^T \mathbf{v}_j x_i x_j. \]

注意到,

\[\sum_{i=1}^n \sum_{j=i + 1}^n \mathbf{v}_i^T \mathbf{v}_j x_i x_j = \frac{1}{2} \mathbf{x}^T V^T V \mathbf{x} + \frac{1}{2} \sum_{i=1}^n \mathbf{v}_i^T \mathbf{v}_i x_i x_j. \]

实际上, FM 就是对一元特征\(x_i\)和二元特征\(x_ix_j\)的一个线性回归. 我个人感觉 \(\mathbf{v}_i \in \mathbb{R}^k\)可以看成特征\(x_i\)的一个embedding, 由或者 \(V^T V \in \mathbb{R}^{n \times n}\)可以看成是相关矩阵\(X^TX\)的一个近似.

通过和下列普通的回归的方式进行比较, 可以窥见其优势:

\[\hat{y}_{reg}(\bm{x}) = w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n w_{ij} x_i x_j. \]

对于仅包含user和moive特征的\(\mathbf{x}\), 而言

\[\hat{y}(\mathbf{x}) = w_0 + w_u + w_i + \mathbf{v}_u^T \mathbf{v}_i \\ \hat{y}_{reg} (\mathbf{x}) = w_0 + w_u + w_i + w_{ui}. \]

想要训练\(w_{ui}\), 那必须由用户\(u\)为电影\(i\)进行过打分, 这意味着该模型几乎没有泛化性, 反之, FM的\(\mathbf{v}_u, \mathbf{v}_i\)会通过用户\(u\)的各打分数据和电影\(i\)的被打分数据进行训练, 显然更可靠.

优化

  • 自然, 可以沿用回归的思想, 通过诸如MSE进行拟合;
  • 如果是预测点击率, 也可以通过逻辑斯蒂回归等方式拟合;
  • 作者是通过SGD进行训练的.

扩展

上面引入了二元的特征, 自然可以推广到 \(x_{i_1} x_{i_2} \cdots x_{i_d}\) 这种 \(d\) 元的模式, 只是这种方式个人感觉组合数有点夸张了. 另外作者和SVM进行了比较, 其实想说明的点就是之前的, 这里就不多赘述了.

标签:mathbf,sum,电影,Factorization,打分,hat,FM,Machines
来源: https://www.cnblogs.com/MTandHJ/p/16216155.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有