ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

推荐系统入门笔记1---基于内容推荐的基础架构

2021-08-22 23:02:48  阅读:211  来源: 互联网

标签:需要 推荐 用户 --- 内容 挖掘 基础架构 个性化


(回头我自己画个图)

  一、推荐系统:个性化推荐的本质是提升信息筛选的效率,如果信息量级小个性化意义不大,需要有大数量级的推荐单位;理论上来说,优质内容越多、类别分布越广泛,个性化推荐效果越好。 二、内容的标准化处理 把内容处理成机器与算法可以理解的特征。 具体处理看业务需求、技术,若是文章、新闻、微博,则需要自然语言处理; 若是图片、视频,则涉及到图像识别与处理。 若歌曲、电影、商品,需要自己建立一套用户打标签的机制,或者通过人工填写、抓取信息的方式打标签。   不管何种内容,需要建立一套自己的标签徒弟,是定义标准的过程。 通常标签是树状或者网状的结构,可能需要收集大量的训练样本。   三、用户行为的日志收集、传输、挖掘与存储 推荐的基础是数据,在挖掘了内容数据以后,接下来需要挖掘数据(用户行为)生成用户的画像。 挖掘:将用户数据进行计算、挖掘处理成为我们想要的特征,用户挖掘通常与算法结合而不能凭空挖特征,没有算法应用的用户画像没有价值。 数据存储:可以存储用户长期留下来的行为来积累用户画像,并且把profile存储起来,若用户量很大,则需要的存储资源也是海量的,需要一个能对大量数据进行分布式存储的数据库。需要一个可以对大量数据进行分布式存储的数据库,并且需要可靠与廉价,如hdfs(Dardoop Distributed File System) 若想要实时计算用户的兴趣,需要可以快速存储的数据库,如redis。 四、选择排序算法 对于获得与处理完的内容、用户的数据,可以使用算法对二者进行匹配了。个性化推荐的本质是在做topN排序,通常包括“召回”与“排序”模块。(简单地说就是先根据一定标准选出小部分内容进行排序然后再推荐) 五、推荐的搜索引擎 个性化推荐与搜索是非常相似的领域,二者都是信息筛选方式,在做一种相关性rank;而搜索更加注重用户的搜索关键词相关性,而推荐更加注重内容与用户信息的相关性。用户的每一次浏览都是一次事实请求,因此需要实时计算当下最符合用户兴趣内容,该步由在线搜索引擎承担。由于性能要求,这步不合适做太耗时的计算。   六、ABtest系统 在推荐系统中,如何结合自己的产品场景选择特征、参数,就成为了个性化推荐精准度的关键因素,如果有ABtest可以代入多种差参数、特征,由ABtest实验得出最佳的实验参数,优化推荐系统。 ABTest,简单来说,就是为同一个产品目标制定两个方案(如两个页面一个用红色的按钮、另一个用蓝色的按钮),让一部分用户使用A方案,另一部分用户使用B方案,然后通过日志记录用户的使用情况,并通过结构化的日志数据分析相关指标,如点击率、转化率等,从而得出那个方案更符合预期设计目标,并最终将全部流量切换至符合目标的方案。   挖掘文本信息的方法: 1、关键词提取:TFIDF 2、实体识别(CRF)模型 3、内容标签分类(nlp接口) 4、主题模型(LDA) 5、词嵌入(Word2vec)

 

标签:需要,推荐,用户,---,内容,挖掘,基础架构,个性化
来源: https://www.cnblogs.com/AKsnoopy/p/15173967.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有