当前位置: 首页 > news >正文

泰安市违法建设网站wordpress后台美化

泰安市违法建设网站,wordpress后台美化,网站前台的模块,frontpage slideshow wordpress1、背景#xff1a;1.1 关于kaggle#xff1a;谷歌旗下的 Kaggle 是一个数据建模和数据分析竞赛平台。该平台是当下最流行的数据科研赛事平台#xff0c;其组织的赛事受到全球数据科学爱好者追捧。 如果学生能够在该平台的一些比赛中获得较好的名次#xff0c;不仅可以赢得…1、背景1.1 关于kaggle谷歌旗下的 Kaggle 是一个数据建模和数据分析竞赛平台。该平台是当下最流行的数据科研赛事平台其组织的赛事受到全球数据科学爱好者追捧。 如果学生能够在该平台的一些比赛中获得较好的名次不仅可以赢得大量的奖金还可以收获 Google 、 Amazon 等知名互联网公司的面试邀请。1.2 关于泰坦尼克灾难(Titanic: Machine Learning from Disaster)以下是关于泰坦尼克生存预测的说明在‘data’处可以点击下载预测数据。1.3泰坦尼克问题的背景这是一个大家都非常熟悉的故事泰坦尼克号邮轮航行途中不行撞击冰山导致船翻了在救援的过程中船长的要求是女士与小孩优先上游艇所以最终是否存活并不是随机事件而是有一定的决定因素的。训练和测试数据是一些乘客的个人信息以及存货状况要尝试根据它生成合适的模型并预测其他人的生存状况这是一个二分类的问题在监督模型中逻辑回归支持向量机决策树随机森林KNN等算法都够进行处理本篇文章中主要内容还是处理数据构建特征对于模型的选择与调优将放到后续的文章中。2、 怎么做手把手教程马上就来先来两条我看到的觉得很重要的经验印象中Andrew Ng老师似乎在coursera上说过应用机器学习千万不要一上来就试图做到完美先撸一个baseline的model出来再进行后续的分析步骤一步步提高所谓后续步骤可能包括『分析model现在的状态(欠/过拟合)分析我们使用的feature的作用大小进行feature selection以及我们模型下的bad case和产生的原因』等等。Kaggle上的大神们也分享过一些experience说几条我记得的哈对数据的认识太重要了数据中的特殊点/离群点的分析和处理太重要了特征工程(feature engineering)太重要了在很多Kaggle的场景下甚至比model本身还要重要要做模型融合(model ensemble)3、初步的数据认知官方提供的数据文件一共有三个一个是带标签的训练数据一个是不带标签的预测数据第三个是结果的提交格式。下面就将训练数据与预测数据都读进来并合并查看。在这多说一句将训练数据与预测数据合并进行统一的清洗可以减少许多的重复性工作import pandas as pdimport matplotlib.pyplot as pltimport numpy as nptrainpd.read_excel(rE:huawei我的作品泰坦尼数据rain.xlsx)testpd.read_excel(rE:huawei我的作品泰坦尼数据est.xlsx)datapd.concat([train,test]) #将训练数据与预测数据进行合并data_1data.copy()如下图为数据结果Age,Fare,Parch,Pclass,SibSp等字段为数值型数据Cabin,Embarked,Name,Sex,Ticket等字段为字符型数据对数据进行初步的了解data_describedata_1.describe() #查看数值型数据的统计指标从上边的数据我们可以得到什么样的结论呢乘客的平均年龄是29岁平均票价是33.9最高票价是512二等舱、三等舱要比一等舱的乘客多很多约有38.3%的乘客获救了以上计算都忽略掉缺失值各字段缺失情况如下data_nulldata_1.isnull().sum() #查看缺失值 初步假设Cabin字段的缺失值最多将近80%的记录都为空假设缺失值有实际意义在处理时将空值作为新的一类Age字段缺失值占比20%也不能建单的通过平均值/中位数/众数来填充填充的方法可以采用对不同乘客属性的中位数进行填充。Embarked与Fare的缺失值较少简单的中位数/平均数填充即ok乘客的各属性分布以及与获救结果的关联统计分别查看性别仓位等级上船港口以及仓位编号与是否生存的关系figplt.figure(figsize(15,10))###Sex与Survived关系axes_1fig.add_subplot(2,2,1)sur_sexpd.pivot_table(train,indexSurvived,columnsSex,valuesPassengerId,aggfunccount)sur_sex.plot(kindbar,stackedTrue,axaxes_1)plt.title(Sex-Survived)##pclass与是否存活svi_ppd.pivot_table(train,indexSurvived,columnsPclass,valuesPassengerId,aggfunccount)axes_2fig.add_subplot(2,2,2)svi_p.plot(kindbar,stackedTrue,axaxes_2)plt.title(Pclass-Survived)###embarked与是否存活axes_3fig.add_subplot(2,2,3)sur_embpd.pivot_table(train,indexSurvived,columnsEmbarked,valuesPassengerId,aggfunccount)sur_emb.plot(kindbar,stackedTrue,axaxes_3)plt.title(Embarked-Survived)##cabin与survived关系axes_6fig.add_subplot(2,2,4)train[Cabin].fillna(N,inplaceTrue)train[Cabin_c]train[Cabin].map(lambda x : x[0])sur_capd.pivot_table(train,indexSurvived,columnsCabin_c,valuesPassengerId,aggfunccount)sur_ca.T.plot(kindbar,stackedTrue,axaxes_6)结论图一性别与生存的有着强关系在生存的乘客中女性的比例明显要高很多。图二仓位等级与生存有着强关系一等舱的乘客生存的概率明显要高很多。图三、登录港口与生存有着一定的关系并不是很明显在生存的乘客中C港口登录的乘客要多一些。图四、A~G的仓位中生存的概率是差不多的而N仓的生存率明显会低很多。年龄与船票价格的的概率密度曲线结论图一、死亡的乘客中低Fare的比例明显要比生存的乘客比例高图二、死亡的乘客中20-30岁的比例要比生存的乘客高在0-10岁的乘客明显生存概率要高一些4、缺失值填充除去要预测的Survived字段一共有四个字段有缺失值下边将按照缺失值从少到多的顺序来填充4.1 Fare字段的缺失值填充Fare只有一个记录的缺失值Fare的整体分布Fare主要分布在100以下如果用全局平均数或中位数填充受高于100值的影响会比较大所以我们看一下能不能从其他的字段中找出一点相关性在这一条记录中Cabin的字段是缺失的Pclass的字段是有的那么先用Pclass3的Fare的中位数填充data_farepd.pivot_table(data_1,indexPclass,valuesFare,aggfuncmedian)data_1[Fare].fillna(data_fare.loc[3,fare],inplaceTrue)4.2 填充Embarked的缺失值在Embarked-Survived的图中可以看出相比未生存下来的人生存者中C港口登录的占比要高很多同时缺失的这两条记录都是生存者那么久很简单了额直接用C来填充缺失值data_1[Embarked].fillna(C,inplaceTrue) 4.3 最简单的两个缺失值填充已经完成了下面要来填充年龄的缺失值了由于年龄的缺失值相对较多也不能直接使用全局均值/平均数来填充跟Fare字段的填充逻辑一致先在现有数据中寻找与Age相关的字段在现有字段中与年龄最相关的就是Name中的title了先在决定使用不同title对应的年龄的中位数进行填充由下图的Title-Age的密度曲线可以看出除了‘Miss’外其他的各个title的年龄密度曲线都比较集中将‘Miss’中Parch是否大于零划分为两类继续观察密度曲线如右图。现在来看Miss的年龄目睹曲线将会平滑一些。##Age字段缺失值填充def name(x): #先对Name字段进行处理构造解析title函数 str_1x.split(,)[1] str_2str_1.split(.)[0] str_3str_2.strip() return str_3data_1[title]data_1[Name].map(lambda x: name(x))figplt.figure(figsize(15,7))axesfig.add_subplot(1,2,1)data_1.loc[data_1[title]Mr,Age].plot(kindkde,axaxes)data_1.loc[data_1[title]Miss,Age].plot(kindkde,axaxes)data_1.loc[data_1[title]Mrs,Age].plot(kindkde,axaxes)data_1.loc[data_1[title]Master,Age].plot(kindkde,axaxes)data_1.loc[data_1[title]Dr,Age].plot(kindkde,axaxes)plt.legend((Mr,Miss,Mrs,Master,Dr),locbest)plt.title(Title-Age)plt.xlabel(Age)axes_2fig.add_subplot(1,2,2)data_1.loc[(data_1[title]Miss)(data_1[Parch]0),Age].plot(kindkde,axaxes_2)data_1.loc[(data_1[title]Miss)(data_1[Parch]0),Age].plot(kindkde,axaxes_2)plt.legend((Parch0,Parch0))plt.title(Miss/Parch-Age)plt.xlabel(Age)#先输出除去Miss字段的各Title的年龄中位数data_agepd.pivot_table(data_1,indextitle,valuesAge,aggfuncmedian)data_age.drop([Miss],axis0,inplaceTrue)title_sexdata_age.to_dict()[Age]data_1.set_index(title,inplaceTrue)data_1[Age].fillna(title_sex,inplaceTrue)data_1.reset_index(inplaceTrue)##对miss中age的缺失值进行填充data_1[Parch0]0data_1.loc[(data_1[title]Miss)(data_1[Parch]0),Parch0]1miss_agepd.pivot_table(data_1.loc[data_1[title]Miss],indextitle,valuesAge,columnsParch0,aggfuncmedian)data_1.loc[(data_1[title]Miss)(data_1[Parch]0)]9.5data_1[Age].fillna(25.5,inplaceTrue)Miss分Parch是否大于零的Age的中位数分别为25.5与9.54.4 现在对最后一个缺失值Cabin进行填充Cabin的数据比较特殊字符类型分类也比较多经观察仓位的首字母是可以提取出来作为特征使用的。Cabin空值较多用N来代替空值空值的产生应该是这一部分人本身就没有仓位导致的。data_1[Cabin].fillna(N,inplaceTrue)data_1[cabin_1]data_1[Cabin].map(lambda x : x[0])cabin_spd.pivot_table(data_1,indexcabin_1,columnsSurvived,valuesPassengerId,aggfunccount)cabin_s[存活率]cabin_s[1.0]/(cabin_s[0.0]cabin_s[1.0])data_1[cabin_1].replace({G:A,F:C,E:B,D:B,T:N},inplaceTrue)仓位的分类有点过多且各仓位的存活率是有相似性的将A,G仓归为A类C,F仓归为C类将B,E,D仓归为B类T仓归为N类。其中归为N类的记录有点多看看能不能再优化一下。下面看一下各仓位类型和Fare的密度曲线。figplt.figure(figsize(8,8))axesfig.add_subplot(1,1,1)data_1.loc[data_1[cabin_1]A,Fare].plot(kindkde,axaxes)data_1.loc[data_1[cabin_1]B,Fare].plot(kindkde,axaxes)data_1.loc[data_1[cabin_1]C,Fare].plot(kindkde,axaxes)data_1.loc[data_1[cabin_1]N,Fare].plot(kindkde,axaxes)plt.legend((A,B,C,N),locbest)通过曲线可以看出填充的N仓是有一部分凸起的且部分高价票的乘客也是N仓的现在将N仓中Fare240的改为B仓Fare80的改为C仓。data_1.loc[(data_1[cabin_1]N)(data_1[Fare]240),cabin_1]Bdata_1.loc[(data_1[cabin_1]N)(data_1[Fare]80),cabin_1]B优化后的曲线5、构造新特征以上已经将各变量的缺失值填充完毕现在就来到了最考验创造力的时刻构造新特征。在上文中我们还有几个变量没有用到Name,Parch,SibSp等字段。5.1Name字段清洗思路现有title分类过多对title进行分类聚类的规则就是按照title的实际意义进行分类分类规则如下title_dict{Mlle:Miss,Ms:Mrs,Dr:Officer,Dona:Royalty, Lady:Royalty,Mme:Mrs,the Countess:Royalty, Rev:Officer,Col:Officer,Major:Officer,Capt:Officer, Don:Royalty,Jonkheer:Royalty,Sir:Royalty}data_1[title].replace(title_dict,inplaceTrue)5.2 Parch与SibSp字段的清洗data_1[family_size]data_1[Parch]data_1[SibSp]1data_1[family_size].value_counts()def f_size(x): if x1: asingle elif x3 and x2: asmall elif x6: amedia else: alarge return adata_1[family_size_]data_1[family_size].map(lambda x :f_size(x))5.3 构造‘儿童’与‘母亲’字段将年龄12的作为儿童将titleMrs,parch1的作为母亲data_1[child]0data_1.loc[data_1[Age]12,child]1data_1[mother]0data_1.loc[(data_1[Parch]1)(data_1[title]Mrs),mother]15.4 构造高票价的字段将Fare大于高于200的构造一个新字段data_1[high_fare]0data_1.loc[data_1[Fare]200,high_fare]16 特征已经构造完了最后一步需要将one-hot编码了finall_dfdata_1[[PassengerId,Survived,Age,Fare,family_size,child, mother,high_fare]].copy()title_dfpd.get_dummies(data_1[title],prefixtitle)embarked_dfpd.get_dummies(data_1[Embarked],prefixEmbarked)pclass_dfpd.get_dummies(data_1[Pclass],prefixpclass)sex_dfpd.get_dummies(data_1[Sex],prefixsex)cabin_dfpd.get_dummies(data_1[cabin_1],prefixcabin)family_dfpd.get_dummies(data_1[family_size_],prefixfamily)finall_dfpd.concat([finall_df,title_df,embarked_df,pclass_df,sex_df,cabin_df,family_df],axis1)7 数据基本已经清洗完了还有最后一步数值型数据的规范化在选择分类器的时候会有一部分分类器是基于距离的所以数值型数据需要进行标准化一方面能够加快收敛的速度另一方面在计算距离的避免不同量纲带来的距离不统一的问题在此对‘Age’‘Family_size’采用最大最小化归一由于Fare的值分布不均匀采用z-score规范化finall_df[Age](finall_df[Age]-finall_df[Age].min())/(finall_df[Age].max()-finall_df[Age].min())finall_df[family_size](finall_df[family_size]-finall_df[family_size].min())/(finall_df[family_size].max()-finall_df[family_size].min())x_finall_df[Fare].max()finall_df[Fare]finall_df[Fare].map(lambda x: math.log(x1,10)/math.log(x_,10))finall_df[cabin]finall_df[cabin_n]/finall_df[cabin_n].max()
http://www.yutouwan.com/news/33035/

相关文章:

  • 页面设计规范网站优化报告
  • dedecms网站的下载宁波做网站seo
  • 全国网站打开速度网站建设公司推荐乐云seo
  • 打开无忧管理后台网站wordpress营销插件
  • 经典企业网站模板被代运营骗了怎么追回
  • 网站建设預算苏州大型网站设计公司
  • 电脑怎样做幻灯片的网站国外 优秀网站设计
  • 网站建设特定开发如何写一个可以做报价计算的网站
  • 网站 php .net网站免费申请建站
  • 做视频网站有什么五金外贸网站模板
  • 专业餐饮网站建设wordpress文章点赞
  • 做资源网站盈利点温州网站建设方案表
  • vs2015做网站国家信用信息公示系统查询入口
  • 网站建设流程案例网站以个人名义备案
  • 郑州七彩网站建设公司网站锚文本与标签
  • 酒店预订网站模板专业网页制作地址
  • 音乐盒网站源码wordpress免费托管
  • 自己怎么做云购网站吗软件外包专业就业方向
  • 网站建设免费免代码做机电预算的网站
  • php做网站难吗网站还难做啊
  • 常州网站推广多少钱广州市网站建站
  • wap手机网站建设方案.net做网站c#
  • 兰州网站分类导航16岁做分期网站
  • 个性个人网站模板聚名网域名注册
  • 网站游戏正规网站建设电商培训内容
  • 网站销售怎么做的wordpress评论嵌套样式修改
  • 做行程规划的旅行网站个人博客有哪些网站
  • 优秀电商设计网站小米新手机发布
  • 零基础源码建设网站jsp网站开发与设计摘要
  • 网页设计与网站建设作业答案环球贸易网站