当前位置: 首页 > news >正文

新手学网页设计的网站百度收录网址提交

新手学网页设计的网站,百度收录网址提交,天辰工程信息网,品牌设计法则曾经有个沃尔玛超市#xff0c;它将啤酒与尿布这样两个奇怪的东西放在一起进行销售#xff0c;并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加。 我们关注的是在这样的场景下#xff0c;如何找出物品之间的关联规则。接下来就来介绍下如何使用Apriori算法它将啤酒与尿布这样两个奇怪的东西放在一起进行销售并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加。 我们关注的是在这样的场景下如何找出物品之间的关联规则。接下来就来介绍下如何使用Apriori算法来找到物品之间的关联规则。 1. 关联分析概述 我们先举个超市交易记录如下 交易序号交易商品0‘牛奶’,‘洋葱’,‘肉豆蔻’,‘芸豆’,‘鸡蛋’,‘酸奶’1‘莳萝’,‘洋葱’,‘肉豆蔻’,‘芸豆’,‘鸡蛋’,‘酸奶’2‘牛奶’,‘苹果’,‘芸豆’,‘鸡蛋’3‘牛奶’,‘独角兽’,‘玉米’,‘芸豆’,‘酸奶’4‘玉米’,‘洋葱’,‘洋葱’,‘芸豆’,‘冰淇淋’,‘鸡蛋’ 关联分析的几个概念 支持度Support支持度可以理解为物品当前流行程度。计算方式是 支持度 包含物品A的记录数量 / 总的记录数量 用上面的超市记录举例一共有五个交易牛奶出现在三个交易中故而{牛奶}的支持度为3/5。{鸡蛋}的支持度是4/5。牛奶和鸡蛋同时出现的次数是2故而{牛奶鸡蛋}的支持度为2/5。 support(A⇒B)support_count(A∪B)/N 支持度反映了A和B同时出现的概率关联规则的支持度等于频繁集的支持度。 置信度Confidence置信度是指如果购买物品A有较大可能购买物品B。计算方式是这样 置信度( A - B) 包含物品A和B的记录数量 / 包含 A 的记录数量 举例我们已经知道(牛奶鸡蛋)一起购买的次数是两次鸡蛋的购买次数是4次。那么Confidence(牛奶-鸡蛋)的计算方式是Confidence(牛奶-鸡蛋)2 / 4。 confidence(A⇒B)support_count(A∪B)/support_count(A) 置信度反映了如果交易中包含A则交易包含B的概率。也可以称为在A发生的条件下发生B的概率成为条件概率。 提升度Lift提升度指当销售一个物品时另一个物品销售率会增加多少。计算方式是 提升度( A - B) 置信度( A - B) / (支持度 A) 举例上面我们计算了牛奶和鸡蛋的置信度Confidence(牛奶-鸡蛋)2 / 4。牛奶的支持度Support(牛奶)3 / 5那么我们就能计算牛奶和鸡蛋的支持度Lift(牛奶-鸡蛋)0.83当提升度(A-B)的值大于1的时候说明物品A卖得越多B也会卖得越多。而提升度等于1则意味着产品A和B之间没有关联。最后提升度小于1那么意味着购买A反而会减少B的销量。 2. Apriori算法概述 Apriori算法是发现频繁项集的一种方法。并不会找出关联规则关联规则需要在找到频繁项集以后我们再来统计。 频繁项集频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础它可以告诉我们在数据集中经常一起出现的变量为可能的决策提供一些支持。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。 Apriori算法是第一个关联规则挖掘算法也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系以形成规则其过程由连接类矩阵运算与剪枝去掉那些没必要的中间结果组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数称为项集的频率。如果某项集满足最小支持度则称它为频繁项集。 最小支持度最小支持度就是人为规定的阈值表示项集在统计意义上的最低重要性。 最小置信度最小置信度也是人为规定的阈值表示关联规则最低可靠性。 只有支持度与置信度同时达到了最小支持度与最小置信度此关联规则才会被称为强规则。 频繁项集满足最小支持度的所有项集称作频繁项集。 频繁项集性质1、频繁项集的所有非空子集也为频繁项集2、若A项集不是频繁项集则其他项集或事务与A项集的并集也不是频繁项集 要想获得频繁项集最简单直接的方法就是暴力搜索法但是这种方法计算量过于庞大如下图所示k项的数据集可能生成 2 k − 1 2^k-1 2k−1个频繁项集。 先验原理由于直接暴力搜索不可行因此我们要利用支持度对数据集进行剪枝。 Apriori定律1如果一个集合是频繁项集则它的所有子集都是频繁项集。Apriori定律2如果一个集合不是频繁项集则它的所有超集都不是频繁项集。 如图所示我们发现{A,B}这个项集是非频繁的那么{A,B}这个项集的超集{A,B,C},{A,B,D}等等也都是非频繁的这些就都可以忽略不去计算。 运用Apriori算法的思想我们就能去掉很多非频繁的项集大大简化计算量。 Apriori算法流程 要使用Apriori算法我们需要提供两个参数数据集和最小支持度。我们从前面已经知道了Apriori会遍历所有的物品组合怎么遍历呢答案就是递归。 先遍历1个物品组合的情况剔除掉支持度低于最小支持度的数据项然后用剩下的物品进行组合。遍历2个物品组合的情况再剔除不满足条件的组合。不断递归下去直到不再有物品可以组合。 3. mlxtend-强大的机器学习扩展包 mlxtend是一款基于python的机器学习扩展包其本身使用非常简介方便自带数据集同时也作为sklearn的一个补充和辅助工具。 它可以非常简单高效的利用堆栈泛化来构建更具预测性的模型让我们能够快速组装堆叠回归器的库。集成了从数据到特征选择、建模分类、聚类、图形图像文本、验证、可视化整个一套完整的workflow。 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple mlxtend 3.1. apriori函数 从一个one-hot集中获取频繁项目集支持度。 apriori(df, min_support0.5, use_colnamesFalse, max_lenNone) 参数如下 df这个不用说就是我们的数据集。min_support给定的最小支持度。use_colnames默认False则返回的物品组合用编号显示为True的话直接显示物品名称。max_len最大物品组合数默认是None不做限制。如果只需要计算两个物品组合的话便将这个值设置为2。 3.2. 关联规则函数 association_rules函数语法 association_rules(df, metric‘confidence’, min_threshold0.8, support_onlyFalse) 参数如下 df: pandas模块中的数据帧DataFrame形式的数据metric 用于评估规则是否有意义的度量。可选参数有以下几种‘support’, ‘confidence’, ‘lift’, leverage’和 ‘conviction’min_threshold 评估度量的最小阈值通过度量参数确定候选规则是否有意义。support_only : 只计算规则支持并用 NaN 填充其他度量列。如果: a)输入 DataFrame 是不完整的例如不包含所有规则前因和后果的支持值 b)你只是想加快计算速度因为你不需要其他度量。 4. 实验小案例 import pandas as pd from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import apriori#设置数据集 dataset [[牛奶,洋葱,肉豆蔻,芸豆,鸡蛋,酸奶],[莳萝,洋葱,肉豆蔻,芸豆,鸡蛋,酸奶],[牛奶,苹果,芸豆,鸡蛋],[牛奶,独角兽,玉米,芸豆,酸奶],[玉米,洋葱,洋葱,芸豆,冰淇淋,鸡蛋]]te TransactionEncoder() #进行 one-hot 编码 te_ary te.fit(dataset).transform(dataset) df pd.DataFrame(te_ary, columnste.columns_) df#利用 Apriori 找出频繁项集 freq apriori(df, min_support0.05, use_colnamesTrue) freq.head(10)#导入关联规则包 from mlxtend.frequent_patterns import association_rules #计算关联规则 result association_rules(freq, metricconfidence, min_threshold0.6) result.head(10)5. 总结 关联规则挖掘是一种基于规则的机器学习算法该算法可以在大数据库中发现感兴趣的关系。它的目的是利用一些度量指标来分辨数据库中存在的强规则。也即是说关联规则挖掘是用于知识发现而非预测所以是属于无监督的机器学习方法。 关联规则挖掘可以让我们从数据集中发现项与项item与item之间的关系它在我们的生活中有很多应用场景“购物篮分析”就是一个常见的场景这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量。 参考 zzzzMing. Python --深入浅出Apriori关联分析算法一. 博客园. 2019.08 翻滚的小强. 白话机器学习算法理论实战之关联规则. CSDN博客. 2020.02 https://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/ https://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules/
http://www.yutouwan.com/news/266170/

相关文章:

  • 岳阳整站优化网吧设计装饰公司
  • 建立网站的英文短语网站开发英文合同
  • 广州网站程序开发艺术字体设计网
  • 新能源网站建设重庆工程造价信息2021
  • 农用地转建设用地结果查询网站wordpress多媒体导入
  • 嘉兴做网站建设的公司哪家好网站建站平台系统
  • 邢台建网站哪里有担路网口碑做网站好吗
  • 做it的在哪个网站找工作男女做羞羞完整版网站
  • 网站产品图怎么做的访问网站慢
  • 网站开发背景论文网站如何做触屏滑动
  • 好的平面网站模板知春路网站建设
  • 网站开发作为固定资产怎么摊销3 阐述网站建设的步骤过程 9分
  • 网站建设准备工作总结网店代运营服务
  • 松原建设小学网站WordPress黑镜主题下载
  • 网站正在建设中提示页面深圳网站建设需要多少费用
  • 河南省建设厅注册中心网站如何将自己 做的网站发布网上
  • 建设厅电工证查询网站四川网站建设套餐
  • 产品网站策划书方案做视频网站推广挣钱吗
  • 潍坊视频类网站建设网站公司怎么建站
  • 电商网站开发周期看空间
  • 大兴模版网站建设哪家好个人电影网站建设
  • 内江市规划建设教育培训中心网站宁波市网站建设制作费用
  • 新乡网站建设专业熊掌网络做导购网站要多少钱
  • 商业网站 模板wordpress 标题入库
  • 成都网站系统开发大通证券手机版下载官方网站下载
  • 教育网站开发用例图三类人员 网站开发
  • 网站建设公司咨html编辑器安卓版下载
  • wordpress网站正在建设中网站开发 实名认证需要备案吗
  • 建站报价怎么做淘宝网站的网页
  • 淘宝客网站做seo有用吗公司申请网站建设