当前位置: 首页 > news >正文

学校门户网站建设费用营销型网站建设模板下载

学校门户网站建设费用,营销型网站建设模板下载,中国洛阳网,高端网站源码机器学习入门系列#xff08;2#xff09;–如何构建一个完整的机器学习项目#xff0c;第三篇#xff01; 该系列的前两篇文章#xff1a; 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)机器学习数据集的获取和测试集的构建方法 分别介绍了确定项目终极目…机器学习入门系列2–如何构建一个完整的机器学习项目第三篇 该系列的前两篇文章 机器学习入门系列(2)–如何构建一个完整的机器学习项目(一)机器学习数据集的获取和测试集的构建方法 分别介绍了确定项目终极目标、选择损失函数、获取数据以及构建测试集接下来在进入选择算法和训练模型之前一个很重要的步骤就是特征工程它包括了对数据的预处理、特征提取、特征分析以及特征构建等几个步骤可以说能否训练一个好的模型除了选择合适的算法准备好数据也是非常关键的 由于篇幅问题所以这篇文章先介绍如何处理缺失值和图片数据扩充的问题下一篇文章会介绍处理异常值和类别不平衡的问题。 3 特征工程 何为特征工程呢顾名思义就是对原始数据进行一系列工程处理将其提炼为特征作为输入供算法和模型使用。 本质上讲特征工程是一个表示和展现数据的过程实际工作中特征工程的目的是去除原始数据中的杂质和冗余设计更高效的特征以刻画求解的问题与预测模型之间的关系。 特征工程的重要性有以下几点 特征越好灵活性越强。好的特征的灵活性在于它允许你选择不复杂的模型同时运行速度也更快也更容易和维护。特征越好构建的模型越简单。好的特征可以在参数不是最优的情况依然得到很好的性能减少调参的工作量和时间也就可以大大降低模型复杂度。特征越好模型的性能越出色。特征工程的目的本来就是为了提升模型的性能。 3.1 数据预处理 首先需要对数据进行预处理一般常用的两种数据类型 结构化数据。结构化数据可以看作是关系型数据库的一张表每列都有清晰的定义包含了数值型和类别型两种基本类型每一行数据表示一个样本的信息。非结构化数据。主要是文本、图像、音频和视频数据其包含的信息无法用一个简单的数值表示也没有清晰的类别定义并且每个数据的大小互不相同。 这里主要介绍结构化数据和图像数据两种数据的数据预处理方法。 3.1.1 处理缺失值 数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失两者都会造成分析结果的不准确。 缺失值产生的原因 信息暂时无法获取或者获取信息的代价太大。信息被遗漏人为的输入遗漏或者数据采集设备的遗漏。属性不存在在某些情况下缺失值并不意味着数据有错误对一些对象来说某些属性值是不存在的如未婚者的配偶姓名、儿童的固定收入等。 缺失值的影响 数据挖掘建模将丢失大量的有用信息。数据挖掘模型所表现出的不确定性更加显著模型中蕴含的规律更难把握。包含空值的数据会使建模过程陷入混乱导致不可靠的输出。 缺失值的处理方法 直接使用含有缺失值的特征当仅有少量样本缺失该特征的时候可以尝试使用删除含有缺失值的特征这个方法一般适用于大多数样本都缺少该特征且仅包含少量有效值是有效的插值补全缺失值 最常使用的还是第三种插值补全缺失值的做法这种做法又可以有多种补全方法。 均值/中位数/众数补全 如果样本属性的距离是可度量的则使用该属性有效值的平均值来补全 如果样本属性的距离不可度量则可以采用众数或者中位数来补全。 同类均值/中位数/众数补全 对样本进行分类后根据同类其他样本该属性的均值补全缺失值当然同第一种方法类似如果均值不可行可以尝试众数或者中位数等统计数据来补全。 固定值补全 利用固定的数值补全缺失的属性值。 建模预测 利用机器学习方法将缺失属性作为预测目标进行预测具体为将样本根据是否缺少该属性分为训练集和测试集然后采用如回归、决策树等机器学习算法训练模型再利用训练得到的模型预测测试集中样本的该属性的数值。 这个方法根本的缺陷是如果其他属性和缺失属性无关则预测的结果毫无意义但是若预测结果相当准确则说明这个缺失属性是没必要纳入数据集中的一般的情况是介于两者之间。 高维映射 将属性映射到高维空间采用独热码编码one-hot技术。将包含 K 个离散取值范围的属性值扩展为 K1 个属性值若该属性值缺失则扩展后的第 K1 个属性值置为 1。 这种做法是最精确的做法保留了所有的信息也未添加任何额外信息若预处理时把所有的变量都这样处理会大大增加数据的维度。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值缺点是计算量大大提升且只有在样本量非常大的时候效果才好。 多重插补 多重插补认为待插补的值是随机的实践上通常是估计出待插补的值再加上不同的噪声形成多组可选插补值根据某种选择依据选取最合适的插补值。 压缩感知和矩阵补全 压缩感知通过利用信号本身所具有的稀疏性从部分观测样本中回复原信号。压缩感知分为感知测量和重构恢复两个阶段。 感知测量此阶段对原始信号进行处理以获得稀疏样本表示。常用的手段是傅里叶变换、小波变换、字典学习、稀疏编码等 重构恢复此阶段基于稀疏性从少量观测中恢复原信号。这是压缩感知的核心 矩阵补全可以查看知乎上的问题–矩阵补全matrix completion的经典算法有哪些目前比较流行的算法是什么 手动补全 除了手动补全方法其他插值补全方法只是将未知值补以我们的主观估计值不一定完全符合客观事实。在许多情况下根据对所在领域的理解手动对缺失值进行插补的效果会更好。但这种方法需要对问题领域有很高的认识和理解要求比较高如果缺失数据较多会比较费时费力。 最近邻补全 寻找与该样本最接近的样本使用其该属性数值来补全。 3.1.2 图片数据扩充 对于图片数据最常遇到的问题就是训练数据不足的问题。 一个模型所能获取的信息一般来源于两个方面一个是训练数据包含的信息另一个就是模型的形成过程中包括构造、学习、推理等人们提供的先验信息。 而如果训练数据不足那么模型可以获取的信息就比较少需要提供更多的先验信息保证模型的效果。先验信息一般作用来两个方面一是模型如采用特定的内在结构比如深度学习的不同网络结构、条件假设或添加其他约束条件深度学习中体现在损失函数加入不同正则项第二就是数据即根据先验知识来调整、变换或者拓展训练数据让其展现出更多的、更有用的信息。 对于图像数据如果训练数据不足导致的后果就是模型过拟合问题即模型在训练样本上的效果不错但在测试集上的泛化效果很糟糕。过拟合的解决方法可以分为两类 基于模型的方法主要是采用降低过拟合风险的措施如简化模型从卷积神经网络变成逻辑回归算法、添加约束项以缩小假设空间如 L1、L2等正则化方法、集成学习、Dropout方法深度学习常用方法等基于数据的方法主要就是数据扩充(Data Augmentation)即根据一些先验知识在保持特点信息的前提下对原始数据进行适当变换以达到扩充数据集的效果。具体做法有多种在保持图像类别不变的前提下可以对每张图片做如下变换处理。 一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等这些变换对应着同一个目标在不同角度的观察结果对图像中的元素添加噪声扰动如椒盐噪声、高斯白噪声等颜色变换。比如在图像的 RGB 颜色空间进行主成分分析得到 3 个主成分的特征向量p1,p2,p3以及对应的特征值λ1,λ2,λ3然后在每个像素的 RGB 值上添加增量[p1,p2,p3]*[a1λ1,a2λ2,a3λ3]其中a1,a2,a3都是均值为 0 方差较小的高斯分布随机数改变图像的亮度、清晰度、对比度、锐度等。 上述数据扩充方法是在图像空间进行变换的也可以选择先对图像进行特征提取然后在图像的特征空间进行变换利用一些通用的数据扩充或者上采样方法例如 SMOTE(Synthetic Minority Over-sampling Technique)。 此外最近几年一直比较热门的 GAN生成对抗网络它的其中一个应用就是生成图片数据也可以应用于数据扩充。 最后还有一种方法可以不需要扩充数据利用迁移学习的做法也是如今非常常用的一个方法微调Finetuning即借用在大数据集如 ImageNet上预训练好的模型然后在自己的小数据集上进行微调这是一种简单的迁移学习同时也可以快速训练一个效果不错的针对目标类别的新模型。 小结 数据特征缺失和图片数据的不足都是机器学习任务中非常常见的问题因此需要好好掌握如何处理缺失值以及扩充图片数据的方法。 参考 《百面机器学习》第一章 特征工程机器学习之特征工程[数据预处理方法总结]Python数据分析三——数据预处理Python数据分析二——数据探索【Python数据分析基础】: 异常值检测和处理 欢迎关注我的微信公众号–机器学习与计算机视觉或者扫描下方的二维码大家一起交流学习和进步 往期精彩推荐 学习笔记 机器学习入门系列1–机器学习概览[GAN学习系列] 初识GAN[GAN学习系列2] GAN的起源[GAN学习系列3]采用深度学习和 TensorFlow 实现图片修复(上 数学学习笔记 程序员的数学笔记1–进制转换程序员的数学笔记2–余数程序员的数学笔记3–迭代法 Github项目 资源教程推荐 [Github 项目推荐] 一个更好阅读和查找论文的网站[资源分享] TensorFlow 官方中文版教程来了必读的AI和深度学习博客[教程]一份简单易懂的 TensorFlow 教程[资源]推荐一些Python书籍和教程入门和进阶的都有
http://www.yutouwan.com/news/229521/

相关文章:

  • 炫酷的移动端网站南宁网络企业网站
  • 网站怎么发内容优化重庆开县网站建设报价
  • 免费网页设计模板网站网站建设 职责
  • 网站开发和软件渭南建网站
  • 广东微信网站开发哪家好项目计划书ppt
  • 怎么进入网站开发模式古城区建设局网站
  • 网站设计制作的特点有哪些一键生成logo的网站
  • 免费大空间网站网站视频管理系统
  • 佛山市外贸网站建设公司中国空间站实时位置
  • 分类信息网站推广的意义北京最新发布会直播
  • 昆明网站建设推荐谁好呢vs2017网站开发
  • 展示网站如何做如何申请一个自己的网站
  • 网站开发实战第二章企业如何做好网站运营
  • 国外开发网站临沂做商城网站
  • html5网站代理中国建设银行贵州分行网站
  • 郑州网站建设技术网页制作详细设计
  • 私人免费网站怎么下载用家用电脑建设网站
  • html5网站修改网站建设的工具
  • 网站开发平面设计师岗位要求一个新品牌如何推广
  • 公司做网站需要提供什么条件企业网站的功能有哪些
  • 网站建设实训的报告手机详情页设计模板
  • jquery 购物网站汽车汽配网站建设
  • 泰安做网站建设的如何汉化wordpress
  • 大气宽屏的网站购物网站要多少钱
  • 做网站用的什么空间网站建设的网站分析怎么写
  • 学生做的网站成品如何建设网站使用
  • 营销型网站要素青岛建设大学招聘信息网站
  • 无锡有什么网站怎么自己在家做网站
  • 做卫浴软管的网站wordpress无编辑栏
  • 邢台企业网站建设咨询cms软件有什么功能