江苏智能网站建设流程,ceo是什么职位什么工作,网站标题的重要性,企业网站seo教程常用数据挖掘算法总结及Python实现 高清完整版PDF第一部分数据挖掘与机器学习数学基础第一章机器学习的统计基础1.1概率论l概率论基本概念样本空间我们将随机实验E的一切可能基本结果组成的集合称为E的样本空间,记为S。样本空间的元素,即E的每一个可能的结果,称为样本点。样本空…常用数据挖掘算法总结及Python实现 高清完整版PDF第一部分数据挖掘与机器学习数学基础第一章机器学习的统计基础1.1概率论l概率论基本概念样本空间我们将随机实验E的一切可能基本结果组成的集合称为E的样本空间,记为S。样本空间的元素,即E的每一个可能的结果,称为样本点。样本空间又叫基本事件空间。例:拍拍贷用户的学历S“研究生或以上’,本科,大专’,“高中,“中专,初中及以下},A{研究生或以上’,“本科,“大专”}事件事件A是样本空间的了集,可分为四种类型空事件:样木空间的空子集原了事件:仅包含·个元素的样本空间混合事件:包含多个元素的样木空间样本空间本身也是·个事件集合1.集合A的补集记做A2.集合A和B的交集A⌒B3.集合A和B的合集A∪B4.如果A⌒B,那么A和B互斥5.如果442…An是采样空间S的子集,如果A1∪A2∪…AnS,那么这种情况称作完全穷尽概率论定义概率用来描述一件事的不确定性。假设A是投硬币的一个结果(比如正面朝上),如果重复投硬币很多次,直到A出现的机会逼近个极限p。那么可以说出现A的概率是p对于事件A和B,联合概率P(AB表示事件A和B同时发生的概率number of favorable outcomesP(A)total number of possible outcomes概率定律事件的概率:PA)满足:P(A)≥0;Ps)1:对丁一连串的互斥事件:A)∑/A)条件概率发生事件A的情况下,发生B的概率称作条件概率P(BA)P(B AP(B∩AP(A)·独立性事件发生和其它事件无关。如果P(BAP(B,我们称B和A统计独立,当且仅当:P(4nB)P(4)PB)如果A和B统计独立,那么B与A也统计独立总概率P(A)P(A∩B)P(A∩B)P(AB)P(B)P(AB)P(B)贝叶斯理论P(BIAP(A B)P(B)P(A)P(B):B的先验概率,非条件概率,或者边际概率P(AB):给定B条件下的A的条件概率,也被称作“似然”P(A):A的边际概率,也作为B的后验概率的归·化常量P(B|A):B的后验概率2随机变量,期望,方差随机变量ⅹ是随机试验的数值型结果相关概念:观测值:其中·个结果成为观测值数据:多个观测值集合为数据总体:所有的结果称为总休有两种类型的随机变量离交量:值数目可数对于离散型随机变量,我们关心每个特定数值出现的概率eg.客户的婚姻情况连绥交量:数值在一定范围内对于连续性变量,某·个特定值出现的概率为0,我们只关心区间的概率Eg各户的投资金额概率分布随机变量的分布就是它所有可能的输出以及它们的概率集合概率密度函数随机变量的概率密度函数描述该随机变量在某个取值发生的可能性离散变量:P(X-x)p(x)P(连续变量:累积分布函数x处的累积分布函数是负无穷到ⅹ点的概率密度函数的累加和期望期望是指所有可能值的加权和。其权重对于离散值而言就是该值出现的概率,而对于连续值而言就是共密度函数。离散情况:连续情况:E(x)∑xD(x)E()「xp(x)dkx方差用来描述该随机变量值和平均值的郾散程度离散情况连续情况阳a()∑(x-D()p(x)a()∫(x-B()p(3常用概率分布离散分布:伯努利分布(二项分布)口概率度数P(XX)均值E(r)方差Varr)p(1-p)连续分布正态分布是最常用的一种连续分布。密度函数的特点是:关于均值μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,图像是一条位于x轴上方的钟形曲线。期望值μ决定了分布的位置,标准差σ决定了分布的幅度。当μ0,^21时,称为标准正态分布,记为N(O,1)口概率密度函数100.d2020.21.0P-2.0205翅望E(r)口方差d l4统计量估计和中心极限定理从一个数据集(样本)估计它的分布情况◇统计直方图:直观地显示了数据的分布描述性指标:衡量据中趋势期望值的估计:氵∑X最大值/最小值:2500万用户的最大最小借款金额中值:按照借款金额排序,最中间的值众数:出现次数最多的借款金额衡量变化性范围:最大最小的借款金额之差(x-x)方差的佔计:两个重要定理大数定律中心极限定理10090All heads8070大数定律(趋势60504030中心极限定理(分布)10All TailsIncreasing number of coin tosses大数定理大数定理措述的是一组独立冋分布随杋变量的均值的极限。在这些随机变量个数趋于无穷时,其均值依概率收敛于这些随机变量的数学期望指明样本均值的收敛趋势◆中心极限定理设随机变量Ⅺ1,X2,n相互独立,服从同·分布,且具有数学期望和方差E(H)p,la(X,)a20则随机变量的均值x1渐进地服从正态分布,并且期望和方差分别为E(k1)A,ar(X)a20指明样本均值的分布与样本量的关系1.2假设检验L假设检验概述·作用:检查观察到的样本究竞是否支持对总体的假设,帮助进行决策概率论假设检验数据估计数据决策假设检验在数据分析中的应用◇理解分析建模的结果需要读懂相关性分析,归回等建模的结果coef std errtPtI[95.09 Conf. Int.Const-.3337⊙.650.513.6593.1302.4621.2591.4952.543.1260.8723.390.⊙456⊙.081-0.563⊙.630-0.394.303☆ AB Test什么是假设检验假设检验是数理统计学中根据一定假设条件由样木推断总体的一科方法对总体做假设出样本做检验假设检验的要素令原假设( Null Hypothesis)令备择假设( Alternative Hypothesis):即与原假设相悖的陈述◇检验统计量:用采样数据基于原假设计算岀的统计量,用来检验原假设和备择假设◆拒绝域:在该区问,拒绝原假设,而趋向于备择假设错误类型类型I:在给定原假设是正确的情况下拒绝原假设的概率( False positive)aP( reject Ho| Ho truc)拒真类型I:在给定备择假设是正确的情况下接受原假设的概率( False negative)βP( accept H| Hi truc)取伪·P- value比观测值更极端的情况出现的概率,衡量样本数据相对于原假设的置信强,也称作观测的显著性水平P-valP(Z≥用于做拒绝决定:如果p- value 3 a.不拒绝原假设F-al如果p-vlue拒绝域单边检测ICritical Value(s)H0:u≥3H1:μ3单边检测Il拒绝域H0:≤3H1:3双边检测Ho:μ3≠32如何选择合适的检验两组检验类型参数检测:假定数据遵从某些特定的分布(例如:高斯分布),对总体参数进行佔计或检验例如:z检测,t检测, ANOVA, chi-Square等非参数检测:并没有假定数据遵从某种分布。往往直接对分布的某种特性(如对称性,分位数人小)做检验。例如 Kolmogorov- Smirnov检测, Wilcoxon检测,Mann- Whitney检测, Kruskal- Wallis检测等一个样本和多个样本单个样本检验:仅仅基于·个采样样本,通常基于均值、方差和分布的假设例如,正态分布检验,z检验,t检验多个样本检验:目标是比较多个组别的均值方差是不是相等。例如:∧NOMⅥA检验, Kruskal- Wallis检验(hi- square检验等等。3假设检验正态性检验评估个数据集{x1,…,xn}服从正态分布的可能性Ho:ixl,., xn)-N(u, a2)I1:{x1,,xn}服从仁意分布2-0 plot(图形检验):用图形的方法来比较两个概率分布:把他们的相应百分位数画在张图里,图中任意点(x2y),x利Y坐标分别是这两个分布的百分位数。如果这两个分布很相似, Q-Q plot上的点会近似地位于对角线yx附近Kolmogorov- Smirnov(非参数检验)以样本数据的累计频数分布与特定理论分布比较,拿若两者间的差距很小,则推论该样本取自某特定分布。只8对连续分布适用Z检验原假设下的统计量近似为态分布。-该正态分布方差已知,或可以从大样本里佔计出来(近似Z检验)H0:NO,1)H1:μ≠Critical regionCritical region检验统计量:a/2Acceptancea/2region(r0拒绝H:2Z/2orZT检验-数据严格遵从正态分布不要求方差已知,可以从数据中佔算尤其适用于评估小样本相对总体的差异较Z检验复杂大样本与Z检验结果相似Critical regionH1:μ≠μoIcal regiona/2检验统计量:7≈(X-)x2,n-1an n-I拒绝Ho:T1/2orT检验步骤1)根据问题,判定感兴趣的参数2)给定原假设,F3)给定备择假设I4)选择·个置信水平α5)选择合适的假设检验6)推导出拒绝域7)计算需要的统计变量8)决定拒绝或接收原假设H4.AB Test假设检验的一个重要应用;多个方案并行测试——大多数情况是两个方案每个方案从有一个变量不同—必须是单变量以某种规则优胜劣汰—规则不同可能结果完全不同。13抽样l抽样概述2抽样方法3应用案例