网站设计点评,怎么做百度网站会显示图片在旁边,软件开发技术培训课程,镇江城乡建设网站首页先通过一个案例说明单样本检验的过程#xff1a;案例分析#xff1a;公司制造出10台引擎供测试使用#xff0c;每一台的排放水平如下#xff1a;15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9请判断公司生产的引擎是否符合政府规定呢#xff1f;根据政府发布的新排放…先通过一个案例说明单样本检验的过程案例分析公司制造出10台引擎供测试使用每一台的排放水平如下15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9请判断公司生产的引擎是否符合政府规定呢根据政府发布的新排放要求引擎排放平均值要低于20ppm(ppm是英文百万分之一的缩写这里我们只要理解为是按照环保要求汽车尾气中碳氢化合物要低于20ppm)。#描述统计分析import seaborn as snsimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltdfpd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])sample_meandf.mean()sample_stddf.std()print(样本平均值,%.2f%sample_mean,单位ppm)print(样本标准差,%.2f%sample_std,单位ppm)1、确定问题是什么要研究的问题是这些样本数据是否满足新标准零假设H0公司引擎排放不满足标准也就是平均值u20备择假设Ha:公司引擎排放满足标准平均值u20因为只有一个样本选择单样本检验#推论统计分析(包括假设检验置信区间效应量)sns.distplot(df)plt.title(数据集分布)plt.show()检验方向的确定因为备选假设是公司引擎排放满足标准即u20所以使用单尾检验中的左尾检验.计算p值1)计算标准误差2)计算t值((t样本平均值-总体平均值)/标准误差)3)根据t值查找t表格得到概率p值#手动计算n10SEsample_std/(np.sqrt(n))#计算标准误差pop_mean20t(sample_mean-pop_mean)/SE#计算t值print(标准误差SE,SE)print(t,t)#描述统计分析import seaborn as snsimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltdfpd.Series([15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9])sample_meandf.mean()sample_stddf.std()print(样本平均值,%.2f%sample_mean,单位ppm)print(样本标准差,%.2f%sample_std,单位ppm)1、确定问题是什么要研究的问题是这些样本数据是否满足新标准零假设H0公司引擎排放不满足标准也就是平均值u20备择假设Ha:公司引擎排放满足标准平均值u20因为只有一个样本选择单样本检验#推论统计分析(包括假设检验置信区间效应量)sns.distplot(df)plt.title(数据集分布)plt.show()检验方向的确定因为备选假设是公司引擎排放满足标准即u20所以使用单尾检验中的左尾检验.计算p值1)计算标准误差2)计算t值((t样本平均值-总体平均值)/标准误差)3)根据t值查找t表格得到概率p值#手动计算n10SEsample_std/(np.sqrt(n))#计算标准误差pop_mean20t(sample_mean-pop_mean)/SE#计算t值print(标准误差SE,SE)print(t,t)结果:样本平均值 17.17 单位ppm样本标准差 2.98 单位ppm标准误差SE 0.94281493412t -3.00164952589用Python统计包scipy计算用scipy计算出的是双尾检验单(1samp)样本t检验(ttest1samp)https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest1samp.html相关(related)样本t检验(ttestrel)https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestrel.html双独立(independent)样本t检验(ttestind)https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttestind.htmlfrom scipy import statspop_mean20t,p_twotailstats.ttest_1samp(df,pop_mean)print(t值,t,双尾检验的p值,p_twotail)#单尾检验的p值p_onetailp_twotail/2print(单尾检验的p值,p_onetail)#判断标准(显著性水平)使用alpha5%alpha0.05if(t0 and p_onetailprint(拒绝零假设有统计显著也就是汽车引擎排放满足标准)else:print(接受零假设没有统计显著也就是汽车引擎排放不满足标准)#拒绝零假设有统计显著也就是汽车引擎排放满足标准#置信区间1)置信水平对应的t值(t_ci)2)计算上下限置信区间上限a样本平均值-t_ci*标准误差置信区间下限b样本平均值-t_ci*标准误差t_ci2.262SEstats.sem(df)asample_mean-t_ci*SEbsample_meant_ci*SEprint(单个平均值的置信区间95置信水平CI(%f,%f)%(a,b))效应量效应量是指处理效应的大小。例如药物A比药物B效果显著。度量效应量有很多种但大多数都属于两大主要类别。1)第一种叫差异度量例如在对比平均值时衡量效应大小的常见标准之一是Cohens dCohens d(样本平均值1—样本平均值2)/标准差Cohens d 除以的是标准差也就是以标准差为单位样本平均值和总体平均值之间相差多少。2)第二种叫相关度度量例如R平方表示某个变量的变化比例与另一变量的关系。可以用t检验的信息退出R平方的公式这里的t值从t检验中获得的值df是自由度。r2t2 / (t2df),其中r2是指r的平方t2是t的平如果r平方等于20%表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况#效应量差异指标Cohens dd(sample_mean-pop_mean)/sample_std#效应量相关度指标R2n10dfn-1R2(t*t)/(t*tdf)print(d,d)print(R2,R2)结果t值 -3.00164952589 双尾检验的p值 0.0149164142489单尾检验的p值 0.00745820712445拒绝零假设有统计显著也就是汽车引擎排放满足标准单个平均值的置信区间95置信水平CI(15.037353,19.302647)d -0.9492049239364257R2 0.500274845399数据分析简报结论公司引擎排放满足标准1、描述统计分析样本平均值17.17ppm样本标准差2.98ppm2、推论统计分析1)假设检验独立样本t(9)-3.00,p.0074(α5%)单尾检验(左尾)公司引擎排放满足标准2)置信区间平均值的置信区间95% CI(17.11,17.23)3)效应量d-0.94第一章、常见概率分布随机变量离散随机变量、连续随机变量离散随机变量概率质量函数PMF、离散概率分布连续随机变量概率密度函数PDF、连续概率分布离散概率分布的四大典型伯努利分布、二项分布、几何分布、泊松分布1、伯努利分布即是随机变量X仅有两种可能的情况(1成功0失败)分别对应成功概率p失败概率1-p。2、二项分布即做n次相互独立事件每次事件存在两种情况(成功或失败)每次成功概率都相等用p表示求成功k次的概率是多少。p(k)Cnkpk(1-p)n-k。期望Enp方差np(1-p)。3、几何分布即做n次相互独立事件每次事件存在两种情况(成功或失败)每次成功概率都相等用p表示求第k次做某事才第一次成功的概率。p(k)(1-p)k-1p。期望E1/p。方差等于1-p/p2。4、泊松分布即某一独立事件在任意相同的时间范围内事件发生的概率相同求某个时间范围内发生某件次数k次的概率是多大。p(k)uke-u/k!。期望Eu。方差等于u。连续概率分布的两大典型正态分布、幂律分布1、 正态分布求某一取值范围的概率。第一步确定概率范围p(k1.05)第二步求标准分zk-平均值/标准差第三步查找z表格得出p(Z第二章、抽样分布和中心极限定理总体、样本、样本大小、样本数量中心极限定理1)样本平均值约等于总体平均值。2)不管总体是什么分布任意一个总体的样本平均值都会围绕在总体的平均值周围并且呈正态分布。应用1、用样本来估计总体(民意调查)2、根据总体信息判断某个样本是否属于总体(3个标准差概率97%)解释对于属于正态分布的指标数据我们可以很快捷地对它进行下一步假设检验并推算出对应的置信区间而对于那些不属于正态分布的数据根据中心极限定理在样本容量很大时总体参数的抽样分布是趋向于正态分布的最终都可以依据正态分布的检验公式对它进行下一步分析。总体标准差某个数据集的标准差。样本标准差用样本估计总体标准差s。样本标准误差(标准误)所有样本平均值产生的标准差。抽样分布将样本平均值的分布可视化叫做抽样分布。标准误SE。根据总体信息判断某个样本是否属于总体(抽样分布中3个标准误概率97%)。第三章、置信水平和置信区间置信区间(误差范围)[a,b]置信水平Y%区间包含总体平均值的概率p(a大样本如何计算置信区间(n30抽样分布呈正态分布)1、确定要求解的问题。2、求样本的平均值和标准误差。3、确定置信水平4、求出置信区间上下限的值。a总体平均值-几个标准误差总体平均值-z*标准误差b总体平均值几个标准误差总体平均值z*标准误差【p(Z已知样本平均值的求解过程1、p(Z小样本如何计算置信区间(n30抽样分布呈t分布)t分布的自由度dfn-1。已知样本平均值的求解过程1、确定要求的问题是什么2、求样本的平均值和标准误差3、查找t表格求t值。4、a样本平均值-t*标准误差b样本平均值t*标准误差。第四章、假设性检验假设检验套路问题是什么证据是什么判断标准是什么作出结论假设检验常规过程1、零假设备选假设2、零假设成立时得到样本平均值的概率p值3、显著水平a(0.1%、1%、5%)4、pa时拒绝零假设也就是备选假设成立pa时接受零假设。(一)单样本检验问题是什么1、零假设公司引擎排放不满足标准也就是平均值20备选假设满足标准也就是平均值202、判断假设检验类型单样本检验3、判断抽样分布类型样本大小30(正态分布)、样本大小30(t分布总体近似正态分布)、其它分布。4、判断检验方向单尾检验,还是双尾检验。证据是什么p值在零假设成立条件下得到样本平均值的概率。P值计算步骤计算标准误差、样本平均值、总体均值、t样本平均值-总体均值/标准误差、根据t值查找表格得到p值。判断标准是什么:显著水平a0.05。p0.05时拒绝零假设备选假设成立p0.05时接受零假设。假设检验APA格式单样本t(9)-3.00,p.0074(a5%,单尾检验(左尾)。置信区间a样本平均值-t_ci*标准误差b样本平均值t_ci*标准误差置信区间APA格式单个平均值的置信区间95% CI(17.1117.23)。效应量差异指标Cohen’s d第一组平均值-第二组平均值/标准差相关度指标R2t2/t2df效应量APA报告格式d-0.95。(二)相关配对检验与单样本检验的不同点问题是什么1、零假设特鲁普效应不存在第一组平均值等于第二组平均值或者说第一组平均值-第二组平均值0。备选假设特鲁普效应存在第一组平均值2、判断抽样分布判断出差值数据集(即第一组平均值-第二组平均值)的分布情况。3、t检验对差值数据集进行t检验。置信区间对差值数据集进行平均值置信区间求取。置信区间APA 格式两个平均值差值的置信区间95%置信水平CI[-8.80,-8.67]效应量相关配对检验效应量Cohens d(样本平均值-总体平均值)/样本标准差(三)、双独立样本检验问题1、零假设A版本和B版本没有差别A版本平均值等于B版本。备选假设A版本和B版本有差别二者平均值不相等。2、判断抽样分布类型两个数据集都要进行分布作图判断。案例中同为t分布。3、案例中检验方向是双尾检验。判断标准pa/20.025时拒接零假设。置信区间a样本平均值-t_ci*标准误差b样本平均值t_ci*标准误差这里的样本平均值样本平均值1-样本平均值2标准误差:SE两个样本综合标准误差。置信区间APA格式两个平均值差异的置信区间95置信水平CI[-2.762316,-2.677684]效应量Cohens d(第一组平均值-第二组平均值)/标准差。标准差为合并标准差。