当前位置: 首页 > news >正文

网站建设的常用技术有哪些创意设计专业

网站建设的常用技术有哪些,创意设计专业,拖拽做网站,怎么做网站设计本篇的主要脉络同样依据中科大何向南教授、合工大汪萌教授联合在 TKDE 上的一篇综述文章展开#xff1a;Bias and Debias in Recommender System: A Survey and Future Directions。 下面按照前导文章中介绍的数据偏差 Selection Bias、Conformity Bias、Exposure Bias、Posit… 本篇的主要脉络同样依据中科大何向南教授、合工大汪萌教授联合在 TKDE 上的一篇综述文章展开Bias and Debias in Recommender System: A Survey and Future Directions。 下面按照前导文章中介绍的数据偏差 Selection Bias、Conformity Bias、Exposure Bias、Position Bias分别介绍相应的去偏方法。Popularity Bias、Unfairness 以及如何减缓闭环累积误差的方法暂时不会在本文中涉及。 一、基础概念 1. Propensity Score Propensity Score 的详细介绍建议查看下文,注意掌握几个变量定义干预变量 T结果变量 Y混淆变量 X观测变量 U 集智科学家如何在观测数据下进行因果效应评估78 赞同 · 1 评论文章​编辑 定义在干预变量之外的其他特征变量为一定值的条件下个体被处理的概率倾向指数概括了群体的特征变量如果两个群体的倾向指数相同那他们的干预变量就是与其他特征变量相独立的。对于药物实验来说如果能保证两群人的他吃药的概率完全一样那么可以说这两群人其他特征分布也是一样倾向指数在实际应用中观测不到但可以使用有监督学习的方法进行估计一般是回归 在推荐中来说“被处理”可以理解为“被观测到”如何计算某个 item 被某个 user 观测到的概率容易想到的思路是在保持其他条件相同再计算概率例如排序队列位置不同时重复同个 user 在同个 item 上的观测概率但这种理想情况一般会伤害用户体验。 如何计算 Propensity Score 是一个独立问题可以 naive 的统计方法统计历史上同位置的平均点击率、隐变量学习例如 click models 中预估 position bias 的方法可以参考我之前的文章  成指导深入点击模型二PBM, UBM 与 EM 算法或者 [SIGIR 2018] Unbiased Learning to Rank with Unbiased Propensity Estimation 中介绍的通过对偶学习 Ranking Model 和 Propensity Model 来求解 Propensity Score 思路也可以用于参考。 2. 点击模型click models 介绍点击模型之前需要区分 click models 区别于 FM/FFM/WideDeep/DeepFM 等一系列近年大火的 CTR 模型点击模型关注更多的是可解释性通过人为知识提出先验假设再通过概率图模型独立建模各因素更多时候依赖于 EM 算法求解。因此各种 bias 其实都可以作为其中一个因素存在于概率图然后被求解出来。点击模型被广泛使用于解决 exposure bias/ position bias 中之前我有两篇文章深入介绍过点击模型这里就不重复写了 成指导深入点击模型一RCM, CTR, CM 与 极大似然估计成指导深入点击模型二PBM, UBM 与 EM 算法 二、数据偏差 数据偏差的处理方法有一些共通思路这里先把共通思路介绍一下再分开介绍各种 Bias 的独特处理方法。一般需要去偏的步骤有 2 个分别是在评估中去偏、训练中去偏。 1. 评估去偏 评估推荐系统在评分预测、推荐准确率上的常见 user-item 评估度量指标吧δ_{u,i}可以是 AUC、MAE、MSE、DCGK、PrecisionK对多个评分样本的评估度量 H(R^) 一般是单个样本度量的加权平均。这里“多个样本”常规做法是指观测到的样本而不是真实的全量样本此时会出现 selection bias 造成的评估指标上的偏差修正后的评估度量为  常用工具有 Propensity Score倾向分数 。做法是在单个样本的评估指标中加入 IPS逆倾向得分即倾向指数的倒数倾向性 P_{u,i}定义为观测某个 user-item 评分值的边际概率 P(O_{u,i}1) 因此修正评估度量 2. 训练去偏 数据代入法。数据偏差的本质是缺少无偏数据那么通过协同过滤、社交关系加强等方式补充尽可能相似的数据源并且根据相似程度决定数据源的贡献程度倾向分数。这个比较好理解利用 IPS逆倾向分数修正每组样本的 loss 贡献值如  其中Reg(θ) 是参数的正则化限制Meta Learning。Meta Learning 的 motivation 就是如果模型可以先在数据较多的数据集上学到这些有关“该如何学习新的知识”的先验知识由此让模型先学会“如何快速学习一个新的知识”再去数据较少的数据集上学习就变得很容易了。这么看 Meta Learning 完美契合 selection bias 的解决方案但因为这是个独立学科方向建议参考以下回答单独理解 什么是meta-learning?599 关注 · 17 回答问题​编辑 三、选择偏差 1. 评估去偏 ATOP ATOP 是另一种度量推荐系统效果的无偏指标。ATOP 方法同时建立在 2 个假设之上(1)高相关性评分在观测数据上是随机缺失的(2)其他评级值允许任意丢失数据机制只要丢失的概率高于相关的评分值。这两个假设实际上较难同时符合因此 ATOP 的应用也较少 记 为用户 u 已观测到的相关性 item 的个数  为在 TopK item 中的个数作者证明 ATOP 是对平均召回率的无偏估计并与用户的平均精度成正比 2. 训练去偏 Doubly Robust 模型。这个方法需要根据已有数据再学习一个预测的模型反事实评估某个个体在干预变量变化后结果变量的期望值。经过证明只要倾向指数的估计模型和反事实预测模型中有一个是对的计算出的平均因果效应就是无偏的但如果两个模型估计都是错误的那产生的误差可能会非常大看起来也并非多么 robust。 四、一致性偏差 conformity bias 大多数情况下是由于人们的“从众心理”导致的比较简单的处理方法就是将投票人数样本数量、投票分布、得分平均值都作为建模的输入信号用一个拟合器去拟合去偏后的修正得分值。本质上就是希望把“社会因素“作为考虑的一部分。 五、曝光偏差 1. 训练去偏 倾向分数 类似 selection debias 小节使用逆倾向分数计算即可。当计算度量指标的时除以倾向分数。这里提一篇文章 [WSDM 2020] Unbiased Recommender Learning from Missing-Not-At-Random Implicit Feedback先假设 即物品必须曝光给用户且相关才会发生点击。之后定义了一个理想化的 loss 函数对 label0/1 的样本求损失和每个样本会被相关性等级度量  经过去偏操作之后能够得到修正后的损失函数无偏预估值形式 采样 虽然曝光的内容有偏但是一般学习中使用到的正负样本都是采样得到的那么这里就有一个阶段需要独立处理采样。而在一般的信息检索问题中负例一般是远远大于正例所以对冗余的负例选择性采样是一个需要探索的问题。可以使用最简单的随机采样或者对于比较流行的负例内容做重复采样流行数据一般经过充分曝光负例程度比较确信。更复杂的思路里会把样本的 side information 或者图关系作为预测采样率的工具按照采样率工作。 这里多说一点实际工作中我们尝试对于未曝光的样本适当采样作为”伪负样本“因为不确定未曝光是正是负但因为推荐问题中正例占比很低可以增加模型的泛化能力。 六、位置偏差 Position bias 广泛存在于搜索系统中大家自己想想是不是经常性点击百度/谷歌搜索结果的第一位返回结果推荐系统中也同样存在。而经典去偏方法就是使用点击模型包括 click models 的各种书籍或经典论文中一般也都是拿 position bias 作为分析示例。同理逆倾向分数同样适用。点击模型、倾向分数的解释请参考本文的文章开头。 在神经网络 CTR 模型中华为发表的[RecSys 2019] PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems以及 Youtube 发表的 [RecSys 2019] Recommending What Video to Watch Next: A Multitask Ranking System尝试过将 position bias 作为多塔建模的单独一塔或作为独立一塔的主要输入并且显式地通过 logits 相乘来反应即物品必须曝光给用户且相关才会发生点击而是否曝光仅与物品所处位置 决定。 至此常见数据偏差的去偏思路与方法已经介绍完成了。
http://www.huolong8.cn/news/139288/

相关文章:

  • 做数据同步的两个网站dz论坛可以做商业网站
  • 一个网站建设的流程微信公众平台注册公众号
  • 郴州网站设计较好的公司织梦网站栏目
  • 南昌做网站哪家公司好合肥建筑网站
  • 美妆网站开发规划书网页广告怎么彻底删除
  • 数据查询网站模板点击进入公众号
  • 网站推广的策略方法常德车管所网站
  • 上海嘉定网站建设学ui设计培训班多少钱
  • 连锁店管理网站开发营销网站开发哪家好
  • 东莞专业的网站建设网络推广廉江人做寄生虫网站
  • 网站建设标志设计如何用wordpress挖比特币
  • 做网上卖酒的网站有几家深圳市易捷网络科技有限公司
  • 高端网站设计制作方法在哪个网站可以做试卷
  • 蓝韵网络专业网站建设怎么样郑州网站制作怎么样
  • p2f网站系统seoyoon
  • 哈尔滨网络宣传与网站建设石狮app网站开发
  • 网站建设服务费应该算什么科目研究院网站建设
  • 问卷星网站开发市场调查问卷wordpress必装
  • 网站做301怎么做wordpress 双分页
  • 门户网站制作定制wordpress安装引导页
  • 百度推广登录入口无锡百度搜索排名优化
  • 企业网站模板大全微信开放平台可以做网站么
  • 提高网站访问速度小程序注册申请流程图
  • 苏州 网站设计 知名采集网站如何收录
  • 高端的网站设计公司注册深圳公司不在深圳经营
  • 南昌网站建设加王道下拉wap是什么意思卡老师
  • 网站建设英文文献网站文章更新频率
  • 住房和城乡建设部网站标准下载网站开发公司基础产品
  • 上虞建设局网站做网站应该注意哪些问题
  • 论医院网站的建设中装建设002822股吧