当前位置: 首页 > news >正文

郑州网站建设公司锐客科技广州正规网站建设公司

郑州网站建设公司锐客科技,广州正规网站建设公司,网站网站开发的公司,网络营销管理办法我想说#xff1a;“任何事件都是条件概率。”为什么呢#xff1f;因为我认为#xff0c;任何事件的发生都不是完全偶然的#xff0c;它都会以其他事件的发生为基础。换句话说#xff0c;条件概率就是在其他事件发生的基础上#xff0c;某事件发生的概率。 条件概率是朴…我想说“任何事件都是条件概率。”为什么呢因为我认为任何事件的发生都不是完全偶然的它都会以其他事件的发生为基础。换句话说条件概率就是在其他事件发生的基础上某事件发生的概率。 条件概率是朴素贝叶斯模型的基础。 假设你的xx公司正在面临着用户流失的压力。虽然你能计算用户整体流失的概率流失用户数/用户总数。但这个数字并没有多大意义因为资源是有限的利用这个数字你只能撒胡椒面似的把钱撒在所有用户上显然不经济。你非常想根据用户的某种行为精确地估计一个用户流失的概率若这个概率超过某个阀值再触发用户挽留机制。这样能把钱花到最需要花的地方。 你搜遍脑子里的数据分析方法终于一个250年前的人名在脑中闪现。就是“贝叶斯Bayes”。你取得了近一个月的流失用户数、流失用户中未读消息大于5条的人数、近一个月的活跃用户数及活跃用户中未读消息大于5条的人数。在此基础上你获得了一个“一旦用户未读消息大于5条他流失的概率高达%”的精确结论。怎么实现这个计算呢先别着急为了解释清楚贝叶斯模型我们先定义一些名词。 概率Probability——0和1之间的一个数字表示一个特定结果发生的可能性。比如投资硬币“正面朝上”这个特定结果发生的可能性为0.5这个0.5就是概率。换一种说法计算样本数据中出现该结果次数的百分比。即你投一百次硬币正面朝上的次数基本上是50次。 几率Odds——某一特定结果发生与不发生的概率比。如果你明天电梯上遇上你暗恋的女孩的概率是0.1那么遇不上她的概率就是0.9那么遇上暗恋女孩的几率就是1/9几率的取值范围是0到无穷大。 似然Likelihood——两个相关的条件概率之比即给定B发生的情况下某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。另一种表达方式是给定B的情况下A发生的几率和A的整体几率之比。两个计算方式是等价的。 因为上面在似然当中提到了条件概率那么我们有必要将什么是条件概率做更详尽的阐述。 如上面的韦恩图我们用矩形表示一个样本空间代表随机事件发生的一切可能结果。的在统计学中我们用符号P表示概率A事件发生的概率表示为P(A)。两个事件间的概率表达实际上相当繁琐我们只介绍本书中用得着的关系 A事件与B事件同时发生的概率表示为P(A∩B)或简写为P(AB)即两个圆圈重叠的部分。 A不发生的概率为1-P(A)写为P(~A)即矩形中除了圆圈A以外的其他部分。 A或者B至少有一个发生的概率表示为P(A∪B)即圆圈A与圆圈B共同覆盖的区域。 在B事件发生的基础上发生A的概率表示为P(A|B)这便是我们前文所提到的条件概率图形上它有AB重合的面积比上B的面积。 回到我们的例子。以P(A)代表用户流失的概率P(B)代表用户有5条以上未读信息的概率P(B|A)代表用户流失的前提下未读信息大于5条的概率。我们要求未读信息大于5条的用户流失的概率即P(A|B)贝叶斯公式告诉我们  P(A|B)P(AB)/P(B) P(B|A)*P(A)/P(B) 从公式中可知如果要计算B条件下A发生的概率只需要计算出后面等式的三个部分B事件的概率P(B)是B的先验概率、A属于某类的概率P(A)是A的先验概率、以及已知A的某个分类下事件B的概率P(B|A)是后验概率。 如果要确定某个样本归属于哪一类则需要计算出归属不同类的概率再从中挑选出最大的概率 我们把上面的贝叶斯公式写出这样也许你能更好的理解 MAX(P(Ai|B))MAX(P(B|Ai)*P(Ai)/P(B)) 而这个公式告诉我们需要计算最大的后验概率只需要计算出分子的最大值即可而不同水平的概率P(C)非常容易获得故难点就在于P(X|C)的概率计算。而问题的解决正是聪明之处即贝叶斯假设变量X间是条件独立的故而P(X|C)的概率就可以计算为 P(B|Ai) P(B1/Ai)*P(B2/Ai)*P(B3/Ai)*.....*P(Bn/Ai)  如下图由这个公式我们就能轻松计算出在观察到某用户的未读信息大于5条时他流失的概率为80%。80%的数值比原来的30%真是靠谱太多了。 当然现实情况并不会像这个例子这么理想化。大家会问凭什么你就会想到用“未读消息大于5条”来作为条件概率我只能说现实情况中你可能要找上一堆觉得能够凸显用户流失的行为然后一一做贝叶斯规则来测算他们是否能显著识别用户流失。寻找这个字段的效率取决于你对业务的理解程度和直觉的敏锐性。另外你还需要定义“流失”和“活跃”还需要定义贝叶斯规则计算的基础样本这决定了结果的精度。 利用全概率公式的一个例子 朴素贝叶斯的应用不止于此我们再例举一个更复杂但现实场景也更实际的案例。假设你为了肃清电商平台上的恶性商户刷单、非法交易、恶性竞争等委托算法团队开发了一个识别商家是否是恶性商户的模型M1。为什么要开发模型呢因为之前识别恶性商家你只能通过用户举报和人肉识别异常数据的方式人力成本高且速率很慢。你指望有智能的算法来提高效率。 之前监察团队的成果告诉我们目前平台上的恶性商户比率为0.2%记为P(E)那么P(~E)就是99.8%。利用模型M1进行检测你发现在监察团队已判定的恶性商户中由模型M1所判定为阳性恶性商户的人数占比为90%这是一个条件概率表示为P(P|E)90%在监察团队判定为健康商户群体中由模型M1判定为阳性的人数占比为8%表示为P(P|~E)8%。乍看之下你是不是觉得这个模型的准确度不够呢感觉对商户有8%的误杀还有10%的漏判。其实不然这个模型的结果不是你想当然的这么使用的  这里我们需要使用一个称为“全概率公式”的计算模型来计算出在M1判别某个商户为恶性商户时这个结果的可信度有多高。这正是贝叶斯模型的核心。当M1判别某个商户为恶性商户时这个商户的确是恶性商户的概率由P(E|P)表示 P(E|P) P(P|E)*P(E) / (P(E)*P(P|E)P(~E)*P(P|~E))  上面就是全概率公式。要知道判别为恶性商户的前提下该商户实际为恶性商户的概率需要由先前的恶性商户比率P(E)以判别的恶性商户中的结果为阳性的商户比率P(P|E)以判别为健康商户中的结果为阳性的比率P(P|~E)以判别商户中健康商户的比率P(~E)来共同决定。 P(E)     0.2%P(P|E)  90%P(~E)   99.8%P(P|~E)  8%P(E|P) P(P|E)*P(E) / (P(E)*P(P|E)P(~E)*P(P|~E))  2.2% 由上面的数字带入全概率公式后我们获得的结果为2.2%。也就是说根据M1的判别为阳性的结果某个商户实际为恶性商户的概率为2.2%是不进行判别的0.2%的11倍。 你可能认为2.2%的概率并不算高。但实际情况下你应该这么思考被M1模型判别为恶性商户说明这家商户做出恶性行为的概率是一般商户的11倍那么就非常有必要用进一步的手段进行检查了。 恶性商户判别模型真正的使用逻辑应该是如下图所示。我们先用M1进行一轮判别结果是阳性的商户说明出现恶性行为的概率是一般商户的11倍那么有必要用精度更高的方式进行判别或者人工介入进行检查。精度更高的检查和人工介入成本都是非常高的。因此M1模型的使用能够使我们的成本得到大幅节约。  贝叶斯模型在很多方面都有应用我们熟知的领域就有垃圾邮件识别、文本的模糊匹配、欺诈判别、商品推荐等等。通过贝叶斯模型的阐述大家应该有这样的一种体会分析模型并不取决于多么复杂的数学公式多么高级的软件工具多么高深的算法组合它们的原理往往是通俗易懂的实现起来也没有多高的门槛。比如贝叶斯模型用Excel的单元格和加减乘除的符号就能实现。所以不要觉得数据分析建模有多遥远其实就在你手边。 附 朴素贝叶斯分类的工作流程 朴素贝叶斯分类适用解决的问题         在考虑一个结果的概率时候要考虑众多的属性贝叶斯算法利用所有可能的数据来进行修正预测如果大量的特征产生的影响较小放在一起组合的影响较大适合于朴素贝叶斯分类。 应用范围 贝叶斯定理广泛应用于决策分析。先验概率经常是由决策者主观估计的。在选择最佳决策时会在取得样本信息后计算后验概率以供决策者使用。     那在R语言中是如何实现朴素贝叶斯算法的落地的   R语言中的klaR包就提供了朴素贝叶斯算法实现的函数NaiveBayes我们来看一下该函数的用法及参数含义 NaiveBayes(formula, data, ..., subset, na.action na.pass) NaiveBayes(x, grouping, prior, usekernel FALSE, fL 0, ...) formula指定参与模型计算的变量以公式形式给出类似于yx1x2x3 data用于指定需要分析的数据对象 na.action指定缺失值的处理方法默认情况下不将缺失值纳入模型计算也不会发生报错信息当设为“na.omit”时则会删除含有缺失值的样本 x指定需要处理的数据可以是数据框形式也可以是矩阵形式 grouping为每个观测样本指定所属类别 prior可为各个类别指定先验概率默认情况下用各个类别的样本比例作为先验概率 usekernel指定密度估计的方法在无法判断数据的分布时采用密度密度估计方法默认情况下使用正态分布密度估计设为TRUE时则使用核密度估计方法 fL指定是否进行拉普拉斯修正默认情况下不对数据进行修正当数据量较小时可以设置该参数为1即进行拉普拉斯修正。 R语言实战 本次实战内容的数据来自于UCI机器学习网站后文会给出数据集合源代码的链接。 # 下载并加载所需的应用包if(!suppressWarnings(require(‘caret’))){   install.packages(‘caret’)   require(‘caret’) } if(!suppressWarnings(require(‘klaR’))){   install.packages(‘klaR’)   require(‘klaR’) } if(!suppressWarnings(require(‘pROC’))){   install.packages(‘pROC’)   require(‘pROC’) } # 读取蘑菇数据集 mydata - read.csv(file file.choose()) # 简单的了解一下数据 str(mydata) summary(mydata) 该数据集中包含了8124个样本和22个变量如蘑菇的颜色、形状、光滑度等。 # 抽样并将总体分为训练集和测试集 set.seed(12) index - sample(1:nrow(mydata), size 0.75*nrow(mydata)) train - mydata[index,] test - mydata[-index,] # 大致查看抽样与总体之间是否吻合 prop.table(table(mydata$type)) prop.table(table(train$type)) prop.table(table(test$type)) 原始数据中毒蘑菇与非毒蘑菇之间的比较比较接近通过抽选训练集和测试集发现比重与总体比例大致一样故可认为抽样的结果能够反映总体状况可进一步进行建模和测试。 由于影响蘑菇是否有毒的变量有21个可以先试着做一下特征选择这里我们就采用随机森林方法借助caret包实现特征选择的工作进行重要变量的选择 #构建rfe函数的控制参数(使用随机森林函数和10重交叉验证抽样方法并抽取5组样本) rfeControls_rf - rfeControl(functions rfFuncs,method cv,repeats 5) #使用rfe函数进行特征选择 fs_nb - rfe(x train[,-1],y train[,1],sizes seq(4,21,2),rfeControl rfeControls_rf) fs_nb plot(fs_nb, type c(g,o)) fs_nb$optVariables 结果显示21个变量中只需要选择6个变量即可下图也可以说明这一点 所需要选择的变量是 接下来我们就针对这6个变量使用朴素贝叶斯算法进行建模和预测 # 使用klaR包中的NaiveBayes函数构建朴素贝叶斯算法 vars - c(type,fs_nb$optVariables) fit - NaiveBayes(type ~ ., data train[,vars]) # 预测 pred - predict(fit, newdata test[,vars][,-1]) # 构建混淆矩阵 freq - table(pred$class, test[,1]) freq # 模型的准确率 accuracy - sum(diag(freq))/sum(freq) accuracy # 模型的AUC值 modelroc - roc(as.integer(test[,1]), as.integer(factor(pred$class))) # 绘制ROC曲线 plot(modelroc, print.auc TRUE, auc.polygon TRUE, grid c(0.1,0.2), grid.col c(green,red),max.auc.polygon TRUE, auc.polygon.col steelblue) 通过朴素贝叶斯模型在测试集中模型的准确率约为97%而且AUC的值也非常高一般超过0.8就说明模型比较理想了。 参考来源于https://ask.hellobi.com/blog/chuanshu108/6036 https://ask.hellobi.com/blog/lsxxx2011/6381
http://www.huolong8.cn/news/285301/

相关文章:

  • 怎么用阿里云建网站手表网站app推荐
  • 安全联盟网站认证网站推广网络营销方案
  • 淄博网站制作设计怀化seo优化
  • wordpress 转发如何优化网站关键词
  • 网站正在建设中 模板 下载邳州网站设计价格
  • 天津建设工程网站互联网服务行业有哪些工作
  • 如何在建设部网站补录项目网站管理建设工作
  • 软考中级科目难度排行如何优化好一个网站
  • 漳州建设银行网站中企动力简介
  • 健身顾问在哪些网站做推广网站首页制作公司
  • 选网站建设公司有什么注意的武威市住房和建设局网站
  • 代做网站公司有哪些电商平台活动策划方案
  • 阿里巴巴网站推广怎么做唯品会网站页面设计
  • 北京手机专业网站建设公司天涯论坛网站建设
  • 免费的网站有哪些平台抖音代运营传媒属于什么行业
  • 广州市用工备案在哪个网站做网络服务器机柜厂家
  • 南昌网站设计怎么选网页制作基础教程例子ppt
  • 做智能网站系统wordpress 新页面打开空白页
  • asp网站采集青岛网站排名优化公司哪家好
  • 哪个网站可以做结婚证地方旅游网站建设方案
  • 网站查询功能代码软文推广特点
  • 南京市公共建设中心网站网站策划的工作职责
  • 用nas做网站微信导航网站怎么做
  • 时代设计网 新网站深圳网络营销推广
  • 商场网站设计网站百度收录变少
  • 冬青街 做网站早期网页游戏
  • 青岛网站建设开发外包柯城建设局网站
  • 做网站时怎么让边框细一点手机网站如何做外链
  • 网站如何做搜索功能的细分网站
  • 别人买了域名做违法网站哔哩哔哩网页版缓存视频在哪里