建立个人网站多少钱,网站建设类别,大会注册网站建设,开源it运维管理系统总第 110 篇文章#xff0c;本文大约 3200 字#xff0c;阅读大约需要 10 分钟2020 年第一篇技术文章#xff0c;以一个新的系列开始--推荐系统#xff08;Recommend System#xff09;#xff0c;第一篇文章会简单介绍推荐系统的定义和应用#xff0c;目录如下#xf… 总第 110 篇文章本文大约 3200 字阅读大约需要 10 分钟2020 年第一篇技术文章以一个新的系列开始--推荐系统Recommend System第一篇文章会简单介绍推荐系统的定义和应用目录如下什么是推荐系统你真的需要推荐系统吗推荐系统的问题模式推荐系统存在的问题推荐系统的应用什么是推荐系统来自维基百科的定义推荐系统是一种信息过滤系统手段是预测用户(user)对物品(item)的评分和偏好。进一步从以下三个方面来回答这个问题1. 推荐系统能做什么--推荐系统最终可以把那些会在用户和物品之间产生的连接提前找出来。这里说的连接含义非常广泛凡是能够产生关系的都是连接包括用户对物品的行为或者用户的某些属性和物品的某些属性。这里这么说的依据是基于这样一个事实万事万物都有相互连接的大趋势。2. 推荐系统需要什么--需要已经存在的连接从已有的连接去预测未来的连接。3. 推荐系统怎么做--预测用户评分和偏好。具体说就是机器推荐和人工推荐也就是通常说的个性化推荐和编辑推荐。总体来说推荐系统实际上是在目前信息爆炸的时代可以帮助用户过滤大量无效信息获取到感兴趣的信息或者物品的算法并且也可以挖掘出一些长尾物品。当然过度依赖推荐系统实际上也可能让你只接受到同一类的信息或者单一领域的物品这也是推荐系统存在的一个问题探索与利用问题。推荐系统是如何工作的呢这里可以用一个看电影的例子来解释比如我们在不确定看什么电影的时候通常可能会有这几种方法来做决定咨询朋友。不仅是问朋友也可能是发个朋友圈或者发微博即利用社交产品来问这个问题。这种方式在推荐系统中成为社会化推荐social recommendation即让好友推荐我们也可能因为演员或者导演来决定看什么电影可能的做法就是通过搜索引擎来搜索喜欢的演员和导演有没有在上映的电影或者是还没看过的电影。这种方式叫做基于内容的推荐content-based filtering我们也还会打开豆瓣查看豆瓣的电影排行榜看看哪些高分电影是不错的或者通过和自己历史兴趣形似的用户查看他们看过的电影然后选择一部自己感兴趣的来看。这种方式叫做基于协同过滤collaborative filtering的推荐也就是根据相似用户或者相似物品来进行推荐。上述也只是3种推荐方式实际上推荐系统还有其他的推荐方法但本质上都是需要用户和物品之间存在连接通过已有的连接来预测未来的连接。你需要推荐系统吗从两个方面考虑这个问题产品的目的。如果一个产品的目的是建立的连接越多越好那最终需要一个推荐系统。反之对于工具类的产品并不需要推荐系统产品现有的连接。当产品中的物品很少少到人工可以应付的时候用户产生的连接肯定也不多这时候连接的瓶颈在于物品数量这时候不适合搭建推荐系统另一种情况就是物品不少但用户产生的连接也不多这种情况就是用户留存回访很少需要的是找到用户流失原因而不是推荐系统。这里有一个简单的判断是否需要推荐系统的公式分子表示增加的连接数量分母就是增加的活跃用户数和增加的有效物品数。这个简单的指标是这样的如果增加连接数主要依靠活跃用户数和物品数那么这个指标会很小表示不适合推荐系统如果增加的连接数和新增活跃用户数以及物品关系不大说明连接数已经有自发增长的趋势适合加入推荐系统。最后是否需要推荐系统从战术上看是需要考虑投入产出比的问题需要组建团队、购置计算资源、积累数据和花费时间优化等但如果是战略问题那就不需要讨论了。推荐系统的问题模式根据上文的介绍推荐系统的目标就是预测用户和物品的连接其预测问题模式从达成的连接目标角度区分分为两大类评分预测行为预测评分和行为其实是反映了用户对推荐结果的两类反馈前者是一个显式反馈直接表明用户对推荐的物品的喜好程度而后者更多展示的是隐式反馈比如用户仅仅是浏览阅读了推荐的物品或者说电商类的加入购物车收藏物品等等。评分预测评分预测主要做的事情就是提前预测用户对物品的评分比如对电影评分1-5分或者是商品打多少颗星星。一个比较朴素的实现思想建立一个模型基于用户历史评分的物品来预测分数。如何衡量预测的好坏通常可以用均方根误差RMSE)来作为损失函数其中 n 是样本的总数 是用户对物品的打分表示模型预测的分数因此它们的相减就是模型和用户实际打分的误差而 RMSE 只关心绝对值大小。评分问题主要用于各种点评类产品比如豆瓣、Imdb等等但评分推荐存在这些问题数据不易收集数据质量不能保证伪造数据门槛低评分的分布不稳定整体评分在不同时期会差别很大个人评分也会因时间而有不同标准人和人之间的标准差很大。行为预测行为预测就是利用隐式反馈数据预测隐式反馈的发生概率。行为预测更受到重视的原因有这几点数据比显式反馈更加稠密。评分数据总体来说是很稀疏的隐式反馈更代表用户的真实想法。隐式反馈常常和模型的目标函数关联更密切也通常更容易在 AB 测试中和测试指标挂钩。比如 CTR 预估关注的就是点击这个隐式反馈。行为预测的方式有很多常见的是这两种方式直接预测行为本身发生的概率也叫做点击率预估CTR预估)但实际应用中也可以是收藏、购买行为的预估预测物品的相对排序。推荐系统存在的问题推荐系统发展到现在依然还是有些问题一直没有很好的通用解决方案并且不容易被重视。1. 冷启动问题推荐系统实际上是数据贪婪型应用也就是对数据的需求绝无足够的那一天。冷启动问题可以分为新用户或者不活跃用户新物品或者展示次数较少的物品长尾物品系统本身没有用户和用户行为只有物品数据通常的解决办法是想办法引入数据从已有数据中主动学习一种半监督学习比如用户的注册信息物品的描述信息等等。2.探索与利用问题这个问题也叫 EEExplore Exploit 问题探索也就是挖掘用户身上未知的兴趣爱好推荐和用户兴趣不相关或者不相似的物品包括长尾物品利用利用已知的用户的兴趣爱好推荐相似的物品通常最好的做法是推荐大部分用户感兴趣的物品小部分是新的其他领域的物品比如已知用户是数码产品爱好者那么大部分推荐的就是电脑、键盘等数码产品然后推荐少量的其他类的物品比如运动健身产品或者衣服等但这里需要考虑的就是这个比例的问题不同的用户的推荐比例也不一样可能有的用户就是喜欢探索新奇的物品但有的用户只喜欢感兴趣的物品。3.安全问题推荐系统也是存在安全问题可能会被攻击被攻击的影响有以下几个给出不靠谱的推荐结果影响用户体验并最终影响品牌形象收集了不靠谱的脏数据这个影响会一直持续留存在产品中很难完全消除损失了产品的商业利益这是直接的经济损失推荐系统的应用推荐系统的应用特别广泛包括电子商务、电影和视频、音乐、社交网络、阅读、基于位置的服务、个性化邮件和广告等等。电子商务国内的淘宝、京东等都有个性化推荐系统通过用户浏览、点击、购买、收藏、加入购物车的行为给用户推荐相似的商品电影和视频比如豆瓣、爱奇艺等视频网站豆瓣会有根据用户的评分来获取用户的兴趣然后推荐的方式可以是看过这部电影的用户也喜欢看的电影基于用户的协同过滤推荐或者是其他相似的电影基于物品的协同过滤音乐最有代表性的就是网易云音乐其推荐算法确实是比其他国内的音乐产品要做得更加出色社交网络微博会有多个维度的推荐热门话题同城或者分领域娱乐、科技、体育等阅读主要就是各类的新闻门户网站其中做得最好的就是今日头条事实上当产品的用户和物品数据越来越大的时候都需要考虑使用个性化推荐系统给用户个性化的体验。参考《推荐系统实践》第一章极客时间《推荐系统三十六式》欢迎关注我的微信公众号--算法猿的成长或者扫描下方的二维码大家一起交流学习和进步如果觉得不错在看、转发就是对小编的一个支持