当前位置: 首页 > news >正文

成都seo网络优化公司seo怎么刷关键词排名

成都seo网络优化公司,seo怎么刷关键词排名,如何制作短视频教程,网易企业邮箱怎么找回密码是新朋友吗#xff1f;记得先点蓝字关注我哦#xff5e;数据挖掘中常用的数据清洗方法在数据挖掘过程中#xff0c;数据清洗主要根据探索性分析后得到的一些结论入手#xff0c;然后主要对四类异常数据进行处理#xff0c;分别是缺失值(missing value)#xff0c;异常值(… 是新朋友吗记得先点蓝字关注我哦数据挖掘中常用的数据清洗方法在数据挖掘过程中数据清洗主要根据探索性分析后得到的一些结论入手然后主要对四类异常数据进行处理分别是缺失值(missing value)异常值(离群点)去重处理(Duplicate Data)以及噪音数据的处理。1. 探索性分析探索性分析部分对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程在我做相关数据挖掘的过程中主要是利用python相关的科学计算库进行数据初步的探索例如数据类型缺失值数据集规模各特征下的数据分布情况等并利用第三方绘图库进行直观的观察以获取数据的基本属性与分布情况另外通过单变量分析与多变量分析可以初步探索数据集中各特征之间的关系以验证在业务分析阶段所提出的假设。2. 缺失值数据集中缺失值的获取方法可以直接通过pandas的自带的多种方法获取在大多数数据集中缺失值都普遍会存在因此对于缺失值的处理好坏会直接影响到模型的最终结果。如何处理缺失值主要依据在缺失值所在属性的重要程度以及缺失值的分布情况。①在缺失率少且属性重要程度低的情况下若属性为数值型数据则根据数据分布情况简单的填充即可例如若数据分布均匀则使用均值对数据进行填充即可若数据分布倾斜使用中位数填充即可。若属性为类别属性则可以用一个全局常量‘Unknow’填充但是这样做往往效果很差因为算法可能会将其识别为一个全新的类别因此很少使用。②当缺失率高(95%)且属性重要程度低时直接删除该属性即可。然而在缺失值高且属性程度较高时直接删除该属性对于算法的结果会造成很不好的影响。③缺失值高属性重要程度高主要使用的方法有插补法与建模法(1)插补法主要有随机插补法多重插补法热平台插补法以及拉格朗日插值法与牛顿插值法1随机插补法--从总体中随机抽取某几个样本代替缺失样本2多重插补法--通过变量之间的关系对缺失数据进行预测利用蒙特卡洛方法生成多个完整的数据集在对这些数据集进行分析最后对分析结果进行汇总处理3热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本)利用其中的观测值对缺失值进行插补。优点简单易行准确率较高缺点变量数量较多时通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层在层中对缺失值实用均值插补4拉格朗日差值法和牛顿插值法(2)建模法  可以用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。例如利用数据集中其他数据的属性可以构造一棵判定树来预测缺失值的值。一般而言数据缺失值的处理没有统一的流程必须根据实际数据的分布情况倾斜程度缺失值所占比例等来选择方法。在我做数据预处理过程中除了使用简单的填充法外与删除外更多情况下采用建模法进行填充主要在于建模法根据已有的值去预测未知值准确率较高。但建模法也可能造成属性之间的相关性变大可能影响最终模型的训练。3. 异常值(离群点)判断离群点除了可视化分析外(一般箱线图)还有很多基于统计背景下的方法且可视化观察不适合用数据量较多的情况。3.1 简单的统计分析这一步在EDA中完成只需要利用pandas的describe方法就可以实现通过数据集描述性统计发现是否存在不合理的值即异常值3.2 3∂原则--基于正态分布的离群点检测如果数据服从正态分布在3∂原则下异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) 0.003属于极个别的小概率事件。如果数据不服从正态分布也可以用远离平均值的多少倍标准差来描述。3.3 基于模型检测首先建立一个数据模型异常是那些同模型不能完美拟合的对象如果模型是簇的集合则异常是不显著属于任何簇的对象在使用回归模型时异常是相对远离预测值的对象3.4 基于距离通过在对象之间定义临近性度量异常对象是那些远离其它对象的对象优点简单易操作缺点时间复杂度为O(m^2)不适用于大数据集情况参数选择较为敏感不能处理具有不同密度区域的数据集因为它使用全局阈值不能考虑这种密度的变化3.5 基于密度当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。优点给出了对象是离群点的定量度量并且即使数据具有不同的区域也能够很好的处理缺点时间复杂度O(m^2)参数选择困难虽然算法通过观察不同的k值取得最大离群点得分来处理该问题但是仍然需要选择这些值的上下界。3.6 基于聚类基于聚类的离群点一个对象是基于聚类的离群点如果该对象不强属于任何簇。离群点对初始聚类的影响如果通过聚类检测离群点则由于离群点影响聚类存在一个问题结构是否有效。为了处理该问题可以使用如下方法对象聚类删除离群点对象再次聚类。优点① 基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的 ② 簇的定义通常是离群点的补因此可能同时发现簇和离群点缺点① 产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性② 聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大处理异常点的方法1删除异常值----明显看出是异常且数量较少可以直接删除2不处理---如果算法对异常值不敏感则可以不处理但如果算法对异常值敏感则最好不要用这种方法如基于距离计算的一些算法包括kmeansknn之类的。3平均值替代----损失信息小简单高效。4视为缺失值----可以按照处理缺失值的方法来处理4. 去重处理对于重复项的判断基本思想是“排序与合并”先将数据集中的记录按一定规则排序然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作一是排序二是计算相似度。目前在做竞赛过程中主要是用duplicated方法进行判断然后将重复的样本进行简单的删除处理。这块目前看到的博客与国外一些比赛的案例基本都采用直接删除进行处理没有看到过比较有新意的方法。5. 噪音处理噪音是被测变量的随机误差或者方差主要区别于离群点。由公式观测量(Measurement) 真实数据(True Data) 噪声 (Noise)。离群点属于观测量既有可能是真实数据产生的也有可能是噪声带来的但是总的来说是和大部分观测量之间有明显不同的观测值。噪音包括错误值或偏离期望的孤立点值但也不能说噪声点包含离群点虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而在一些应用(例如欺诈检测)会针对离群点做离群点分析或异常挖掘。而且有些点在局部是属于离群点但从全局看是正常的。对于噪音的处理主要采用分箱法于回归法进行处理(1) 分箱法分箱方法通过考察数据的“近邻”来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值因此它进行局部光滑。l 用箱均值光滑箱中每一个值被箱中的平均值替换。l 用箱中位数平滑箱中的每一个值被箱中的中位数替换。l 用箱边界平滑箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。一般而言宽度越大光滑效果越明显。箱也可以是等宽的其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用.(2) 回归法可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线使得一个属性能够预测另一个。多线性回归是线性回归的扩展它涉及多于两个属性并且数据拟合到一个多维面。使用回归找出适合数据的数学方程式能够帮助消除噪声。原文链接https://blog.csdn.net/jiazericky/java/article/details/8032222 点“在看”给我一个小心心
http://www.huolong8.cn/news/243253/

相关文章:

  • 淘客怎样做网站设计企业的网站
  • 建站网站怎么上传代码石家庄有哪些公司可以做网站
  • 网站建设怎么自学简单网站建设优化推广
  • 温岭建设阳光网站做系统和做网站哪个简单一些
  • 网站定制页面调整至居中aspcms园林绿化工程网站源码
  • 洪湖网站建设做58同城这样的网站有哪些
  • 那几个网站可以做h5深圳网络设计公司
  • 语言免费网站建设在5分钟内注册小程序
  • 工信部网站 地址泰州建设企业网站
  • 网站 js 广告代码大全wordpress func
  • 网站导航栏字体什么是关键词搜索
  • js网站分页怎么做北京免费网站开发维护
  • 网站营销dedecms的网站系统设计结论
  • 网站注册表单怎么做中国建筑论坛网
  • 佛山住房和城乡建设部网站公司方案
  • 贵阳网站开发哪家便宜网站建设域名申请
  • 响应式网站好吗网站模板 协会
  • 手机网站设计欣赏网站页面精美的网站
  • 泷澄建设集团网站专业做制作网站
  • 家电网站建设把自己做的网站发布
  • 海报素材库网站免费影视作品网站开发与设计
  • 个人网站备案 网站名称信息流广告公司一级代理
  • 票务系统网站模板如何自己开发一个自己的网站
  • 梦幻西游官方网站哈尔滨网站建设方案维护
  • 做视频的网站带模板个人网站整站源码下载
  • 华能集团网站建设方案项目分析网站开发云南
  • 潍坊市网站制作新乡 网站运营
  • 九江网站建设服务东莞网站上排名
  • 南昌网站建设资讯做微信小程序哪个网站好
  • 旅游网页设计模板网站免费云南网站建设500