当前位置: 首页 > news >正文

设计网站排名创意设计图片

设计网站排名,创意设计图片,wordpress怎么新建模块,做网站的图片Pc端和手机端的区别决策树 决策树是一种基于树形结构的模型#xff0c;决策树从根节点开始#xff0c;一步步走到叶子节点#xff08;决策#xff09;#xff0c;所有的数据最终都会落到叶子节点#xff0c;既可以做分类也可以做回归。 特征选择 根节点的选择该用哪一个特征呢#xff…决策树 决策树是一种基于树形结构的模型决策树从根节点开始一步步走到叶子节点决策所有的数据最终都会落到叶子节点既可以做分类也可以做回归。 特征选择 根节点的选择该用哪一个特征呢接下来的节点呢我们的目标是根节点就像大当家一样可以更好的决策数据根节点下面的节点自然是二当家以此类推下去。所以需要找到一种衡量标准来计算通过不同特征进行分支选择后的分类情况找出最好的个当成根节点以此类推。 1.信息增益 首先介绍一下熵的概念熵是表示随机变量不确定性的度量。其实就是集合的混乱程度。举个例子A集合[1,1,1,1,1,1,1,2,2]B集合[1,2,3,4,5,6,7,8,9]显然A集合的熵值要低因为A里面只有两种类别相对稳定稳定一些B中种类很多熵值就会大很多。计算公式如下其中 D 表示样本集 K 表示样本集分类数pk表示第 k 类样本在样本集所占比例。Ent(D) 的值越小样本集的纯度越高。 下式表示用一个离散属性划分后对样本集的影响被称为信息增益Information Gain其中 D 表示样本集a 表示离散属性V 表示离散属性 a 所有可能取值的数量Dv表示样本集中第v种取值的子样本集。 当属性是连续属性时其可取值不像离散属性那样是有限的这时可以将连续属性在样本集中的值排序后俩俩取平均值作为划分点如下式所示其中 Ta表示平均值集合Dtv表示子集合当 v - 时表示样本中小于均值 t 的样本子集当 v 时表示样本中大于均值t的样本子集取划分点中最大的信息增益作为该属性的信息增益值。 Gain(D, a) 的值越大样本集按该属性划分后纯度的提升越高。由此可找到最合适的划分属性。 2.基尼系数 介绍一下基尼值如下式所示其中 D 表示样本集 K 表示样本集分类数pk表示第 k 类样本在样本集所占比例。Gini(D) 的值越小样本集的纯度越高。 下式表示用一个离散属性划分后对样本集的影响被称为基尼指数Gini Index其中 D 表示样本集a 表示离散属性V 表示离散属性 a 所有可能取值的数量Dv表示样本集中第 v 种取值的子样本集。 对于连续属性将连续属性排序后俩俩取平均值作为划分点如下式其中 Ta表示平均值集合Dtv表示子集合当 v - 时表示样本中小于均值 t 的样本子集当 v 时表示样本中大于均值 t 的样本子集取划分点中最小的基尼指数作为该属性的基尼指数值。 Gini_index(D, a) 的值越小样本集按该离散属性划分后纯度的提升越高。由此可找到最合适的划分属性。 3.均方误差 前面两种指标使得决策树可以用来做分类问题那么决策树如果用来做回归问题时就需要不同的指标来决定划分的特征这个指标就是如下式所示的均方误差MSE其中 Ta表示平均值集合ytv表示子集合标签当 v - 时表示样本中小于均值 t 的样本子集标签当 v 时表示样本中大于均值 t 的样本子集标签后一项为对应子集合标签的均值。 MSE(D, a) 的值越小决策树对样本集的拟合程度越高。由此可找到最合适的划分属性。 决策树剪枝策略 决策树剪枝的效果可以在以下几个方面体现 防止过拟合提高模型的泛化能力剪枝可以减少决策树的复杂性避免过度拟合训练数据。剪枝可以降低决策树的复杂度使其更具有泛化能力。剪枝后的树更加简单去除了过多的冗余信息和噪声更能捕捉数据中的一般规律而不是过多关注个别训练样本的特异性。 减少决策树的复杂度剪枝可以通过减少决策树的叶子节点数量和分支数量来简化模型。简化后的决策树更易于理解和解释并且可以减少计算和存储的需求。 提高模型的可解释性剪枝后的决策树更为简洁更容易理解和解释。剪枝可以去除决策树中的一些不必要的细节和分支使决策过程更加清晰明了。 1.预剪枝 边建立决策树边剪枝限制深度叶子节点个数叶子节点样本数信息增益量等。 2.后剪枝 建立决策树后再进行剪枝通过一定的衡量标准进行剪枝。叶子节点越多损失越大。 决策树实现 from sklearn import treeimport os import pandas as pd import numpy as np import sklearn import xgboost as xgbfrom utils.features import *import warnings warnings.filterwarnings(ignore)def load_datasets():pd.set_option(display.max_columns, 1000)pd.set_option(display.width, 1000)pd.set_option(display.max_colwidth, 1000)df pd.read_pickle(****.pickle)features darshan_featuresprint(df.head(10))df_train, df_test sklearn.model_selection.train_test_split(df, test_size0.2)X_train, X_test df_train[features], df_test[features]print(X_test)y_train, y_test df_train[value], df_test[value]print(y_test)return X_train, X_test, y_train, y_testdef model_train(X_train, X_test, y_train, y_test):# 决策树回归clf tree.DecisionTreeRegressor()# 拟合数据clf clf.fit(X_train, y_train)y_pred_test clf.predict(X_test)print(y_test)print(y_pred_test)error np.median(10 ** np.abs(y_test - y_pred_test))print(error)def main():X_train, X_test, y_train, y_test load_datasets()model_train(X_train, X_test, y_train, y_test)if __name__ __main__:main()
http://www.huolong8.cn/news/419388/

相关文章:

  • 最有名的免费建站平台排行榜新闻最新热点
  • 电子商务网站中最基本的系统是广西住房和城乡建设厅网站证件
  • 百度网站推广服务商网站开发所以浏览器兼容模式
  • 网站建设 公司 天津学校网站建设运行简介
  • 企业网站的cms北京软件开发公司招聘
  • 国家小城镇建设政策网站百度网站官网入口网址
  • 网站建设案例步骤高职院校高水平专业建设网站
  • 如何制作一个网站h5厦门市网站建设公司
  • 企业网站手机端模板互联网怎样赚钱
  • 南宁网站建设gxskm如何做网站搜索栏
  • 阿里云网站怎么做app推广员好做吗
  • 广州网站建设技术托管网页设计与制作用什么软件
  • 郑州营销网站建设设计推荐seo关键词优化
  • 网站域名不备案要证书有啥用大连凯杰建设有限公司官方网站
  • j2ee 做网站怎么制作网站论坛模板
  • 购物网站创业时是如何做宣传的产品设计毕业作品集
  • 做网站能挣钱不天元建设集团有限公司新中大i8
  • 深圳罗湖企业网站建设做游戏ppt下载网站有哪些内容
  • 做网站好还是小程序好商城网站建设那家好
  • 洛阳公司做网站线上平台名称大全
  • 自助建站上建的网站免费吗房屋产权地址备案在那个网站做
  • 网站流量怎么做河源市网站建设
  • 安徽网站优化小红书推广策略
  • 响应式网站的排版深圳品牌公寓
  • ionic做网站品牌建设和市场营销的区别
  • id97网站怎么做的安徽太基建设官方网站
  • 通过php获取手机网站访客的手机号码wordpress跨站脚本攻击漏洞
  • 装修网站建设案例电子商务网站建设的规划方案
  • 网站开发招标任务书用python做网站优点
  • 网站建设运营合同书网站配色表