ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

机器学习、推荐系统常用数据集

2021-07-14 22:05:35  阅读:376  来源: 互联网

标签:常用 机器 www 用户 学习 地址 https http 数据


机器学习、推荐系统有关数据集

在学习中整理了机器学习、推荐系统的一些数据集,希望可以对你有所帮助。

1.UCI
这是加州大学信息与计算机科学学院的一个数据库,包含了100多个数据集。
根据机器学习问题的类型对数据集进行分类。你可以找到单变量、多变量、分类、回归
或者是推荐系统的数据集。
地址:https://archive.ics.uci.edu/ml/datasets.html

2.Kaggle数据集
地址:http://www.kaggle.com/datasets

3.计算机视觉数据集:
有大量的图像处理、计算机视觉或者是深度学习的数据集。
地址:https://www.visualdata.io

4.亚马逊数据集
包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等
地址:https://registry.opendata.aws

5.斯坦福大型网络数据集汇编
地址:https://snap.stanford.edu/data/

6.MovieLens
常用的电影推荐数据集,数据集有大有小,既可以进行小型的推荐系统实验,也可以提供工业级别的数据。数据集一般有四个属性,分别对应user、movie、rating、timestamp;
也有一些数据集提供了用户社会统计信息,用户属性一般包括:性别、年龄、职业等。
地址:https://grouplens.org/datasets/movielens/

7.Last.fm
Last.fm提供了用于音乐推荐的数据集。 其记录了用户绑定听歌记录以及对歌曲的反馈。音乐推荐是推荐系统领域较为特殊的领域。2011年的Recsys大会专门邀请了Pandora的研究人员对音乐进行了演讲。
PPT为Music Recommendation and Discovery,地址:http:www.slideshare.net/plamere/music-recommendation-and-discovery
其中,数据集的用户还包含他们喜欢的艺术家的列表以及播放次数。
地址:http://grouplens.org/datasets/hetrec-2011/

8.Amazon Music
该数据集是2014年发布的Amazo评论数据集的更新版本,与之前版本一样,数据集包括评论(评分、文本、帮助投票)、产品元数据(描述、类别信息、价格、品牌和图像特征),
此外,此次数据集更新后,提供了更多的评论,较新的评论以及更多的元数据。

地址:https://nijianmo.github.io/amazon/index.html

9.Yahoo
数据集的大小为从4.5M到1.5G不等,分别提供了Music、Delicious Popular URLs and Tags、Movies Ratings等数据集。
但是由于最近美国的出口条令,直接从网站申请获取数据集往往会被reject。
地址:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

10.Jester
最新的数据集是来自7699位用户的超过100000个新评分,收集时间位2015.4-2019.11。
此外,收集于1999.4-2003.5之间,来自73421个用户对100个笑话中超过410万个连续评分(-10.00到+10.00)。
地址:http://eigentaste.berkeley.edu/dataset/

(3.9MB) Data from 24,983 users who have rated 36 or more jokes, a matrix with dimensions 24983 X 101.
(3.6MB) Data from 23,500 users who have rated 36 or more jokes, a matrix with dimensions 23500 X 101.
(2.1MB) Data from 24,938 users who have rated between 15 and 35 jokes, a matrix with dimensions 24,938 X 101.

地址:https://goldberg.berkeley.edu/jester-data/

11.Retailrocket
该数据集由三个文件组成:一个包含行为数据的文件(events.csv)、一个包含项目属性的文件(item properties.сsv)
和一个描述类别树的文件(category tree.сsv)。数据是从电子商务网站收集的,是原始数据没有内容转换,
并且出于机密的问题,所有值经过哈希处理。其目的是为了隐式反馈推荐领域的研究。

地址:https://www.kaggle.com/retailrocket/ecommerce-dataset

12.Book-Crossing Dataset
包含278858个用户对271379本书的1149780个评分数据。数据集包含:BX-Users、BX-Books、BX-Book-Rating。
此外,提供了SQL和CSV的格式。
地址:http://www2.informatik.uni-freiburg.de/~cziegler/BX/

13.Steam Video Games(9MB)
该数据集包括:user-id、game-title、behavior-name、value。行为包括purchase和play。
当在购买时,值为1,为play时,值为用户玩游戏的小时数。
地址:https://www.kaggle.com/tamber/steam-video-games/data
14.Anime
此数据集包含来自12294动画, 73516用户的用户偏好数据信息。
内容:Anime.csv、rating.csv
地址:https://www.kaggle.com/CooperUnion/anime-recommendations-database

15.Epinions
Epinions是一个网站,用户可以评论产品,其特点是用户根据评论被认为有用的程度获得报酬(收入分享计划)。
地址:http://www.trustlet.org/epinions.html

16.Julian McAuley
该数据集是加州大学圣地亚哥分校实验室整理的数据集,包含多个用于推荐系统的数据集,非常值得收藏。
地址:https://cseweb.ucsd.edu/~jmcauley/datasets.html

17.Chicago Entree
该数据集包含Date, IP, Entry point, Rated restaurant1, …, Rated restaurantN, End point。是对芝加哥餐厅的评论数据集。
地址:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data

标签:常用,机器,www,用户,学习,地址,https,http,数据
来源: https://blog.csdn.net/jiuwu_95/article/details/118737878

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有