东莞做网站 9353,模板网站新增备案两次都未通过网站也打不开,西安网站,阳江房产网签数据期望值#xff0c;即在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布#xff0c;记为N(μ#xff0c;σ^2)#xff0c;其概率密度函数为正态分布的期望值μ决定了其位置#xff0c;其标准差σ决定… 期望值即在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布记为N(μσ^2)其概率密度函数为正态分布的期望值μ决定了其位置其标准差σ决定了分布的幅度。当μ 0、σ 1时的正态分布是标准正态分布。正态分布的图示如下 在实际场景中数据可能不完全符合正态分布因此需要对数据进行检验验证是否符合正态分布。 一、通过直方图初步判断 df pd.DataFrame(np.random.randn(1000)2,columns[value])
fig,axes plt.subplots(1,2,figsize (10,4))
ax1 axes[0]
ax1.scatter(df.index,df.values)ax2 axes[1]
df.hist(bins 20,alpha 0.7,ax ax2)
df.plot(kind kde,secondary_y True,ax ax2) #使用y轴作为副坐标轴 二、通过qq图判断 qq图通过把测试样本数据的分位数与已知分布进行比较从而检验数据的分布情况。 qq图是一种散点图对应于正态分布的qq图就是有标准正态分布的分位数为横坐标、样本值为纵坐标的散点图。 参考直线四分之一分位点和四分之三分位点看散点是否落在这条线附近。 qq图绘制思路 ①数据清洗后进行排序x(1)x(2)...x(n) ②排序后计算出每个数据对应的百分位p(i)即第i个数据x(i)为p(i)分位数其中p(i) (i-0.5)/npi有多种算法该种最常用 ③绘制直方图 qq 图直方图作为参考 # qq图判断
df pd.DataFrame(np.random.randn(1000)2,columns[value])
mean df[value].mean()
std df[value].std()
print(平均值为%.2f标准差为%.2f%(mean,std))
df.sort_values(value,inplace True)
df_r df.reset_index(drop False) #t变为DataFrame
df_r[p] (df_r.index-0.5)/len(df_r)
df_r[q] (df_r[value]-mean)/std
print(df_r.head())
fig,axes plt.subplots(1,3,figsize (20,4))
des df[value].describe()
# x1,y1 0.25,des[25%]
# x2,y2 0.75,des[75%]ax1 axes[0]
ax1.scatter(df.index,df[value])ax2 axes[1]
df[value].hist(bins 20,ax ax2)
df[value].plot(kindkde,secondary_y True,ax ax2)ax3 axes[2]
ax3.plot(df_r[p],df_r[value],b)
# ax3.plot([x1,x2],[y1,y2],r)
ax3.plot([0.25,0.75],[des[25%],des[75%]],r) 三、k-s检验 k-s是比较一个频率分布f(x)与理论分布g(x)的检测方法将样本数据的累计频率分布与特定的理论分布(比如正态分布)进行比较如果两者差距小则推论样本分布取自某特定分布。 H0样本的总体分布 服从 某特定分布 H1样本的总体分布 不服从 某特定分布 f(x)样本的累计分布函数 g(x)理论分布的分布函数 Df(x)-g(x)的绝对值的最大值即max(abs(f(x)-g(x))) 根据D与D(u,a)比较如果p0.05则接受H0p0.05则拒绝H0接受H1. from scipy import stats
data np.random.randint(70,80,100)
df pd.DataFrame(data,columns[value])
u df[value].mean() #求均值
std df[value].std() #求标准差
stats.kstest(df[value],norm,(u,std))
# KstestResult(statistic0.12748380545258786, pvalue0.07085249921876394)
# 结果中pvalue0.07大于0.05 k-s检验的推导过程 df pd.DataFrame(data,columns[value])
u df[value].mean() #求均值
std df[value].std() #求标准差
print(样本均值%.2f标准差%.2f%(u,std))
s df[value].value_counts().sort_index()
df_s pd.DataFrame({血糖浓度:s.index,频数:s.values})
df_s[累计频数] df_s[频数].cumsum()
df_s[累计频率] df_s[累计频数]/df_s[频数].sum()
df_s[标准化取值] (df_s[血糖浓度] - u)/std
df_s[理论分布] [0.0764,0.1314,0.2090,0.3085,0.4247,0.5438,0.6628,0.7673,0.8508,0.9099] #根据标准化取值查询正态分布表得到
df_s[D] abs(df_s[累计频率] - df_s[理论分布])
dmax df_s[D].max()
print(实际观测D值为%.4f%dmax)
df_s[累计频率].plot(style --r)
df_s[理论分布].plot(style --g)
plt.legend(loc upper left) #红色虚线表示累计频率、绿色虚线表示理论分布的注释位置
# 样本均值74.64标准差3.23
# 实际观测D值为0.1110 根据D值为0.11查询显著性水平表可得知p0.1即满足正态分布。 转载于:https://www.cnblogs.com/Forever77/p/11355131.html