当前位置: 首页 > news >正文

凤岗镇仿做网站北京又不让出京了

凤岗镇仿做网站,北京又不让出京了,招聘网站建设的意义,管理咨询项目一、引言 数据插值方法在数据处理和分析中扮演着至关重要的角色。它们可以帮助我们处理缺失数据#xff0c;使得数据分析更加准确和可靠。数据插值方法被广泛应用于金融、医疗、社会科学等领域#xff0c;以及工程和环境监测等实际应用中。 在本文中#xff0c;我们将探讨三… 一、引言 数据插值方法在数据处理和分析中扮演着至关重要的角色。它们可以帮助我们处理缺失数据使得数据分析更加准确和可靠。数据插值方法被广泛应用于金融、医疗、社会科学等领域以及工程和环境监测等实际应用中。 在本文中我们将探讨三种常用的数据插值方法MICE多重插补技术、MissForest随机森林插补技术等。通过对这两种方法的比较和分析我们旨在帮助读者更好地理解它们的优缺点以便在实际应用中做出明智的选择。 数据插值方法的选择直接影响到数据分析结果的准确性和可靠性因此对不同插值方法的深入了解具有重要意义。通过本文的阐述我们可以更好地理解MICE和MissForest的适用范围和局限性为实际问题的数据处理提供更科学、更可靠的参考。 总之本文将对MICE和MissForest等三种常用的数据插值方法进行深入剖析旨在为读者提供在实际应用中正确选择合适插值方法的依据。通过对它们的优缺点进行全面的比较可以更好地指导数据分析工作并为相关研究提供有益的借鉴。 二、R内置的简单值插补 2.1 任意常数插补 任意常数插补是一种简单的数据插补方法它用一个任意选择的常数如0或其他已知的数据来填补缺失值。 「优点」任意常数插补的优点在于它非常简单和直接。它不需要对数据进行复杂的计算或推断只需要将缺失值替换为指定的常数即可。此外该方法对于某些类型的数据如分类变量可能是合理且有效的选择。 「缺点」任意常数插补的缺点在于它忽略了真实数据的分布特性和相关性。由于使用相同的常数来填补所有的缺失值可能会导致插补后的数据集失去原本的变异性和相关性。这可能会影响后续数据分析的准确性和可靠性。 2.2 均数插补 均数插补是一种常见的数据插补方法它用变量的均值来填补缺失值。对于每个缺失值均数插补将变量的所有观察值的均值作为插补值。 「优点」均数插补的优点在于它简单易行计算方便。均数作为插补值可以保持数据的整体平均水平并且不会引入额外的变异性。此外均数插补可以在保持样本总体均值不变的情况下填补缺失值从而减少对整体结构的影响。 「缺点」均数插补的缺点在于它忽略了其他变量之间的相关性。如果一个变量的缺失值与其他变量有关联使用均值插补可能会导致结果的偏差。此外均数插补也无法解决缺失模式的问题可能会引入偏差。 2.3 中位数插补 中位数插补是一种常见的数据插补方法它用变量的中位数来填补缺失值。对于每个缺失值中位数插补将变量的所有观察值的中位数作为插补值。 「优点」中位数插补的优点在于它对于异常值的鲁棒性较好。由于使用中位数作为插补值它不受异常值的影响可以更好地保持数据的整体趋势和分布形态。 「缺点」中位数插补的缺点在于它同样忽略了其他变量之间的相关性。如果一个变量的缺失值与其他变量有关联使用中位数插补可能会引入偏差。此外中位数插补也无法解决缺失模式的问题可能会导致插补结果的不准确性。 2.4 示例展示 「数据集简介」 library(ggplot2)library(titanic)library(dplyr)library(cowplot)summary(titanic_train) 结果展示   PassengerId       Survived          Pclass          Name           Min.   :  1.0   Min.   :0.0000   Min.   :1.000   Length:891         1st Qu.:223.5   1st Qu.:0.0000   1st Qu.:2.000   Class :character   Median :446.0   Median :0.0000   Median :3.000   Mode  :character   Mean   :446.0   Mean   :0.3838   Mean   :2.309                      3rd Qu.:668.5   3rd Qu.:1.0000   3rd Qu.:3.000                      Max.   :891.0   Max.   :1.0000   Max.   :3.000                                                                                              Sex                 Age            SibSp           Parch        Length:891         Min.   : 0.42   Min.   :0.000   Min.   :0.0000   Class :character   1st Qu.:20.12   1st Qu.:0.000   1st Qu.:0.0000   Mode  :character   Median :28.00   Median :0.000   Median :0.0000                      Mean   :29.70   Mean   :0.523   Mean   :0.3816                      3rd Qu.:38.00   3rd Qu.:1.000   3rd Qu.:0.0000                      Max.   :80.00   Max.   :8.000   Max.   :6.0000                      NAs   :177                                         Ticket               Fare           Cabin             Embarked         Length:891         Min.   :  0.00   Length:891         Length:891         Class :character   1st Qu.:  7.91   Class :character   Class :character   Mode  :character   Median : 14.45   Mode  :character   Mode  :character                      Mean   : 32.20                                                            3rd Qu.: 31.00                                                            Max.   :512.33                        从上面可以看出Age变量存在很多的缺失值查看数据分布。 ggplot(titanic_train, aes(Age))   geom_histogram(color  #000000, fill  #2E9FDF)   ggtitle(Variable Age distribution)   theme_classic()   theme(plot.title  element_text(size  18)) 「数据插补」 value_completed - data.frame(  original  titanic_train$Age,  completed_zero  replace(titanic_train$Age, is.na(titanic_train$Age), 0),  completed_mean  replace(titanic_train$Age, is.na(titanic_train$Age), mean(titanic_train$Age, na.rm  TRUE)),  completed_median  replace(titanic_train$Age, is.na(titanic_train$Age), median(titanic_train$Age, na.rm  TRUE)))head(value_completed) 结果展示  head(value_completed)  original completed_zero completed_mean completed_median1       22             22       22.00000               222       38             38       38.00000               383       26             26       26.00000               264       35             35       35.00000               355       35             35       35.00000               356       NA              0       29.69912               28 接着我们通过图例来展示数据的分布是否有变化。 h1 - ggplot(value_completed, aes(x  original))    geom_histogram(fill  #ad1538, color  #000000, position  identity)    ggtitle(Original distribution)    theme_classic() h2 - ggplot(value_completed, aes(x  completed_zero))    geom_histogram(fill  #15ad4f, color  #000000, position  identity)    ggtitle(Zero-imputed distribution)    theme_classic() h3 - ggplot(value_completed, aes(x  completed_mean))   geom_histogram(fill  #1543ad, color  #000000, position  identity)   ggtitle(Mean-imputed distribution)   theme_classic()h4 - ggplot(value_completed, aes(x  completed_median))   geom_histogram(fill  #ad8415, color  #000000, position  identity)   ggtitle(Median-imputed distribution)   theme_classic()plot_grid(h1, h2, h3, h4, nrow  2, ncol  2) 从上图可以看出三种填补方法对原数据分布产生严重的影响可能会导致插补后的数据集失去原本的变异性和相关性。这可能会影响后续数据分析的准确性和可靠性。 三、MICE多重插补技术 3.1 MICE的基本原理和工作流程 MICEMultiple Imputation by Chained Equations是一种基于贝叶斯思想的多重插补技术用于处理缺失数据。它的基本原理是通过多次迭代根据已有数据的信息来估计缺失值并且不断更新估计模型。具体地MICE将变量分为两类需要插值的目标变量和其他辅助变量。然后对于每个目标变量MICE利用其他辅助变量的信息来进行插值并不断迭代直到收敛为止。 「pmm预测均值匹配」 PMM是一种基于模型的数据插补方法它通过建立预测模型来预测缺失值并根据预测结果从已有的观察值中选择一个最接近的均值进行匹配。 「优点」PMM的优点在于它能够考虑其他变量之间的相关性。通过建立预测模型PMM可以利用其他变量的信息来对缺失值进行预测从而更准确地插补缺失值。此外PMM还可以保持数据的分布特性和变异性使得插补后的数据更接近真实情况。 「缺点」PMM的缺点在于它对于模型选择和建立的要求较高。为了进行预测需要选择合适的模型并且需要考虑模型的拟合度和预测精度。如果选择的模型不准确或者样本量较小可能会导致插补结果的不可靠性。另外PMM对于缺失模式也比较敏感如果缺失模式与其他变量相关则插补结果可能会引入偏差。 「cart分类和回归树」 CART是一种基于决策树的数据插补方法它通过构建分类或回归树模型来预测缺失值并将预测结果作为插补值。 「优点」CART的优点在于它对于非线性关系和交互效应的建模能力较强。决策树可以自动选择重要的变量并且可以处理离散和连续型变量。此外CART还可以提供可解释的结果可以清晰地展示出变量之间的关系和重要性。 「缺点」CART的缺点在于它容易产生过拟合问题。决策树往往倾向于过度拟合训练数据导致在新数据上的预测性能下降。为了避免过拟合需要采用剪枝等技术进行调整。此外CART对于缺失模式也比较敏感如果缺失模式与其他变量相关则插补结果可能会引入偏差。 「laso.normLasso线性回归」 Lasso.norm是一种基于稀疏线性回归的数据插补方法它通过最小化目标函数来选择具有稀疏性的线性模型并利用线性模型进行缺失值的插补。 「优点」Lasso.norm的优点在于它能够进行变量选择和建模同时具有稀疏性。Lasso.norm可以自动选择重要的变量并将不重要的变量的系数置为零从而简化了模型并提高了解释性。此外Lasso.norm还可以处理高维数据和多重共线性问题。 「缺点」Lasso.norm的缺点在于它对于模型选择和参数调整的要求较高。Lasso.norm需要选择适当的正则化参数并考虑模型的拟合度和预测精度。如果选择的参数不合适或者样本量较小可能会导致插补结果的不可靠性。另外Lasso.norm对于缺失模式也比较敏感如果缺失模式与其他变量相关则插补结果可能会引入偏差。 3.2 MICE的优点 MICE的优点在于它能够适用于多变量数据并且可以保留数据间的相关性。相比于其他插值方法MICE可以提供更准确的结果并且能够使用更多的信息来插值。此外MICE还可以处理非正态分布的数据可以用于分类和回归问题。 3.3 MICE的缺点 MICE的主要缺点在于对于高维数据的计算复杂性。由于需要对每个变量进行插值因此随着变量数增加计算量也会大大增加。此外MICE对于缺失模式的假设比较严格如果缺失数据的模式与假设不符可能会导致插值结果不准确。 3.4 示例展示 library(mice)titanic_num - titanic_train %%  select(Survived, Pclass, SibSp, Parch, Age, Fare)#缺失数据可视化md.pattern(titanic_num)  mice_completed - data.frame(  original  titanic_train$Age,  completed_pmm  complete(mice(titanic_num, method  pmm))$Age,  completed_cart  complete(mice(titanic_num, method  cart))$Age,  completed_lasso  complete(mice(titanic_num, method  lasso.norm))$Age)head(mice_completed)h1 - ggplot(mice_completed, aes(x  original))    geom_histogram(fill  #ad1538, color  #000000, position  identity)    ggtitle(Original distribution)    theme_classic()h2 - ggplot(mice_completed, aes(x  completed_pmm))    geom_histogram(fill  #15ad4f, color  #000000, position  identity)    ggtitle(pmm-imputed distribution)    theme_classic()h3 - ggplot(mice_completed, aes(x  completed_cart))    geom_histogram(fill  #1543ad, color  #000000, position  identity)    ggtitle(cart-imputed distribution)    theme_classic()h4 - ggplot(mice_completed, aes(x  completed_lasso))    geom_histogram(fill  #ad8415, color  #000000, position  identity)    ggtitle(lasso-imputed distribution)    theme_classic()plot_grid(h1, h2, h3, h4, nrow  2, ncol  2) 结果展示  head(mice_completed)  original completed_pmm completed_cart completed_lasso1       22            22             22        22.000002       38            38             38        38.000003       26            26             26        26.000004       35            35             35        35.000005       35            35             35        35.000006       NA            28             24        37.65023 和内置插补方法相比mice插补后的数据更接近原始分布。优点需要注意的是laso.norm的插补方法存在小于0的情况和现实情况冲突因此如果您选择这种插补技术则需要取其绝对值。 四、MissForest随机森林插补 4.1 MissForest基本原理和工作流程 MissForest是一种基于随机森林的数据插补方法它通过利用多棵决策树来预测缺失值并不断迭代更新预测结果直到收敛为止。 其工作流程如下 对于含有缺失值的数据集首先对每个含有缺失值的变量将缺失值视为响应变量其他完整的变量视为特征变量构建随机森林模型。 利用已有的非缺失值作为训练集预测缺失值。 将预测得到的值作为缺失值的估计并更新数据集。 不断重复步骤2和步骤3直到达到收敛标准或者预设的迭代次数。 4.2 MissForest的优点 非线性关系适应性MissForest基于随机森林的模型能够捕捉非线性关系对于非线性关系的数据具有较好的适应性。 对异常值的鲁棒性由于随机森林模型对异常值具有一定的鲁棒性MissForest在处理含有异常值的数据时表现良好不易受到异常值的影响。 4.3 MissForest的缺点 计算时间较长对于较大的数据集MissForest需要构建多棵决策树并进行迭代更新因此在计算时间上可能会比较耗时。 对缺失模式的敏感性MissForest对于缺失模式较为敏感如果缺失模式与其他变量相关则可能会导致插补结果的偏差需要谨慎处理数据中的缺失模式。 4.4 示例展示 library(missForest)missForest_completed - data.frame(  original  titanic_num$Age,  completed_missForest  missForest(titanic_num)$ximp$Age)head(missForest_completed)h1 - ggplot(missForest_completed, aes(x  original))    geom_histogram(fill  #ad1538, color  #000000, position  identity)    ggtitle(Original distribution)    theme_classic()h2 - ggplot(missForest_completed, aes(x  completed_missForest))    geom_histogram(fill  #15ad4f, color  #000000, position  identity)    ggtitle(missForest-imputed distribution)    theme_classic()plot_grid(h1, h2, nrow  1, ncol  2) 结果展示  head(missForest_completed)  original completed_missForest1       22             22.000002       38             38.000003       26             26.000004       35             35.000005       35             35.000006       NA             27.72037 MissForest 插补后与原来的数据分布还是优点差距大部分值都在 20-40这个区间可能不是数据集插补最好的插补技术。 五、总结 「MICE、MissForest以及其他常用数据插值方法的优缺」 MICE具有灵活性能够根据数据集的特点进行模型选择和参数调整同时对于缺失模式的敏感性较低。但在处理非线性关系和大规模数据集时表现一般。 MissForest具有对非线性关系的适应性和对异常值的鲁棒性等优点但在处理较大数据集时可能会面临计算时间较长的问题同时对缺失模式较为敏感。 其他常用数据插值方法如KNN、PMM、CART、Lasso.norm等各有优缺点需要根据具体应用场景进行选择。 不同的数据插值方法具有不同的优点和局限性根据具体应用场景选择合适的方法可以更好地保证插值结果的准确性和可靠性。例如在处理非线性关系较强的数据集时可以优先考虑使用基于决策树或随机森林的方法而在处理缺失率较高的大规模数据集时则需要考虑方法的计算效率和可扩展性等因素。 *「未经许可不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有侵权必究。」
http://www.huolong8.cn/news/208327/

相关文章:

  • 学校建设网站费用申请在哪个网站可以学做甜点
  • 开发网站多少钱一个月销售型网站如何做推广
  • 建网站的英文大型网页游戏开发
  • iis怎么使用来建设一个网站上海网站搜索排名优化哪家好
  • 潍坊响应式网站建设要多久潜江网站搭建
  • 网站建设需求报告小程序制作视频教程
  • 华汇建设集团有限公司网站企业网站模板优化
  • 网站的建设时间表成都网页设计培训学校排名
  • 设计建设网站哪家好网站做程序员
  • 北京丰台网站建设网站建设说明书模板
  • 怎么自己免费创建网站汕头市企业网站建设教程
  • 网站开发技术案例个人网站设计与实现源码
  • 国泰君安官方网站建设集团平台公司是什么意思
  • 网站开发工具与环境删除windows wordpress
  • 手机网站开发教程pdf梓潼网站建设
  • 洛阳建设部官方网站软件ui设计培训学校
  • frp做网站gg模板网
  • 深圳印刷网站建设重庆房地产信息官网
  • 河北省城乡住房建设厅网站国家城乡与住房建设部网站
  • 上海网站建设的企wordpress 电台网站
  • 广告设计接单网站网站建设项目规划书
  • 企业首页网站属于什么类型网站微信开放平台官方网站
  • 网站建设 诺德中心临清建网站
  • 深圳做外贸网站哪家好咋做黄页网站
  • 做柜子网站建个电子商务网站多少钱
  • 天津网站建设制作品牌公司推广方案框架
  • 国内大中型网站建设知名公司c 可以用来做网站吗
  • 专业教学资源库网站建设工作什么网站可以申请做汉语老师
  • 足球直播网站开发定制wordpress主题根目录
  • wap自助建站排板天津优化网站