当前位置: 首页 > news >正文

新网网站建设资料宿州网站建设价格

新网网站建设资料,宿州网站建设价格,自己做网站赚流量钱,建立网站的相关信息如何快速创建强大的可视化探索性数据分析#xff0c;这对于现在的商业社会来说#xff0c;变得至关重要。今天我们就来#xff0c;谈一谈如何使用python来进行数据的可视化#xff01;一旦你有了一个很好的被清理过的数据集#xff0c;下一步就是探索性数据分析(EDA)。EDA…如何快速创建强大的可视化探索性数据分析这对于现在的商业社会来说变得至关重要。今天我们就来谈一谈如何使用python来进行数据的可视化一旦你有了一个很好的被清理过的数据集下一步就是探索性数据分析(EDA)。EDA是确定数据可以告诉我们的过程我们使用EDA来查找模式、关系或异常情况以便指导我们后续的工作。然而在EDA中有很多的方法但最有效的工具之一是对图(也称为散点图矩阵)。散点图矩阵让我们看到了两个变量之间的关系。散点图矩阵是识别后续分析趋势的好方法幸运的是它们很容易用Python实现在本文中我们将通过使用seaborn可视化库在Python中进行对图的绘制和运行。我们将看到如何创建默认配对图以快速检查我们的数据以及如何自定义可视化以获取更深入的洞察力。该项目的代码在GitHub上以Jupyter Notebook的形式提供。在这个项目中我们将探索一个真实世界的数据集由GapMinder收集的国家级社会经济数据组成。Seaborn的散点图矩阵(Pairs Plots)在开始之前我们需要知道我们有什么数据。我们可以将社会经济数据用熊猫(Pandas)数据框加载并查看列每行数据代表一个国家在一年内的结果列中包含变量(这种格式的数据称为整洁数据)。有2个分类专栏(国家和大陆)和4个数字专栏。这些专栏包括life_exp是几年出生时的预期寿命pop是人口gdp_per_cap是以国际美元为单位的人均国内生产总值。虽然后面我们将使用分类变量进行着色但seaborn中的默认对图仅绘制了数字列。创建默认的散点图矩阵很简单我们加载到seaborn库并调用pairplot函数将它传递给我们的数据框我仍然惊讶于一行简单的代码就可以完成我们整个需求散点图矩阵建立在两个基本图形上直方图和散点图。对角线上的直方图允许我们看到单个变量的分布而上下三角形上的散点图显示了两个变量之间的关系。例如第二行中最左边的图表显示life_exp与年份的散点图。默认的散点图矩阵图经常给我们提供有价值的见解。我们看到人均预期寿命和人均GDP是正相关的这表明高收入国家的人们倾向于更长寿(尽管这当然不能证明导致其他人也是如此)。它也似乎看起来是全世界的预期寿命随着时间的推移而上升。为了在未来的图中更好地显示这些变量我们可以通过取这些值的对数来转换这些列虽然这种制图本身可以用于分析但我们可以发现通过对诸如大陆这样的分类变量进行数字着色使其更有价值。这在seaborn中非常简单我们所需要做的就是在hue中使用sns.pairplot函数调用使用关键字现在我们看到大洋洲和欧洲的人均预期寿命最高亚洲人口最多。请注意我们对人口和gdp的日志转换使这些变量正态分布从而更全面地表示值。上图更具信息性但仍然存在一些问题找不到叠加的直方图就像在对角线上那样它非常易于理解。显示来自多个类别的单变量分布的更好方法是密度图。我们可以在函数调用中交换柱状图的密度图。当我们处理它时我们会将一些关键字传递给散点图以更改点的透明度大小和边缘颜色。对角线上的密度图比堆积条更容易比较各大洲之间的分布。改变散点图的透明度可以提高可读性因为这些数字有相当多的重叠(称为重叠绘图)。作为pairplot默认的最后一个例子让我们通过绘制2000年后的年份来减少数据混乱。我们仍然会按照大陆分布着色但现在我们不会绘制年份列。为了限制绘制的列我们将一个列表传递vars给函数。为了说明情节我们还可以添加标题。这开始看起来很不错如果我们要进行建模我们可以使用这些图中的信息来帮助我们进行选择。例如我们知道log_gdp_per_cap与life_exp正相关所以我们可以创建一个线性模型来量化这种关系。对于这篇文章我们将坚持绘图如果我们想要更多地探索我们的数据我们可以使用PairGrid类自定义散点图矩阵。使用PairGrid进行自定义与sns.pairplot函数相反sns.PairGrid是一个类它意味着它不会自动填充我们的网格plot。相反我们创建一个类实例然后将特定函数映射到网格的不同部分。要用我们的数据创建一个PairGrid实例我们使用下面的代码这也限制了我们将显示的变量如果我们要显示它我们会得到一个空白图因为我们没有将任何函数映射到网格部分。有三个网格部分填写PairGrid上三角形、下三角形和对角线。要将网格映射到这些部分我们使用grid.map 部分中的方法。例如要将散点图映射到我们使用的上三角形该map_upper方法接受任何两个变量数组(如plt.scatter)和关联的关键字(如color)的函数。该map_lower方法完全相同但填充网格的下三角形。因为它需要在接受单个阵列(记住对角线仅示出了一个变量)的函数略有不同。一个例子是plt.hist我们用来填写下面的对角线部分在这种情况下我们在下三角形中使用2-D(密度图)的核密度估计值。放在一起这段代码给了我们下面的图使用PairGrid类的真正好处在于我们想要创建自定义函数来将不同的信息映射到图上。例如我可能想要将两个变量之间的Pearson相关系数添加到散点图中。为此我会编写一个函数它接受两个数组、计算统计量然后在图上绘制它。下面的代码显示了这是如何完成的(归功于这个Stack Overflow答案)我们的新函数映射到上三角形因为我们需要两个数组来计算相关系数(还要注意我们可以将多个函数映射到网格部分)。这会产生以下图形相关系数现在出现在散点图上方。这是一个相对直接的例子但我们可以使用PairGrid将我们想要的任何函数映射到图上。我们可以根据需要添加尽可能多的信息只要我们能够弄清楚如何编写函数作为最后一个例子这里是一个显示对角线而不是网格的汇总统计图。它显示了我们只做图标的总体思路除了使用库中的任何现有功能(例如matplotlib将数据映射到图上)之外我们还可以编写自己的函数来显示自定义信息。结论散点图矩阵是快速探索数据集中的分布和关系的强大工具。Seaborn提供了一个简单的默认方法可以通过Pair Grid类来定制和扩展散点图矩阵。在一个数据分析项目中价值的主要部分往往不在于浮华的机器学习而在于直观的数据可视化。散点图举证为我们提供了全面的数据分析是数据分析项目的一个很好的起点。数十款阿里云产品限时折扣中赶紧点击领劵开始云上实践吧本文由阿里云云栖社区组织翻译。文章原标题《visualizing-data-with-pair-plots-in-python》译者虎说八道审校袁虎。文章为简译更为详细的内容请查看原文。
http://www.huolong8.cn/news/165437/

相关文章:

  • 同学录网站开发的背景做网站维护难吗
  • 网站开发筛子游戏台州市住房和城乡建设规划局网站
  • 庆祝公司网站上线青岛网站网站建设
  • 增城做网站十大免费网页制作平台
  • 珠海外贸网站建设会员卡管理系统哪里买
  • 手机网站管理工具企业网站风格
  • 第寒网站建设邢台123招聘信息最新招聘信息网
  • 奉节网站建设公司南京本地网站
  • asp网站数据库位置网络营销对传统营销有哪些冲击
  • 一键生成各种app软件网站我优化
  • 沭阳奥体小区做网站的wordpress如何设置文章模板
  • 家居行业网站开发溧阳手机网站哪里做
  • 网站建设同步视频网站改版合同
  • 网站用什么颜色郑州百姓网免费发布信息
  • 宁波网站建设定制开发广告网站制作多少钱
  • 广州网站设计联系方式卖鞋做哪个网站好
  • 网站建设的后期维护问题wordpress 伪静态组件
  • 医院门户网站模板下载2023年房地产行业分析
  • 现代化公司网站建设中国建设银行官网站基金查询
  • 做爰全过程免费的教网站wordpress_DMS
  • 国外购物网站大全临沂网站建设哪家最好
  • 做花馍网站如何建立自己的手机网站
  • 网站开发需要哪些部门做美食的网站哪个好
  • 老山网站建设镇江网站建设制作方案
  • 网站建设评价标准成都专门做网站的公司
  • 观澜小学 网站建设福田公司在哪里
  • 哪个网站可以卖自己的设计网站横幅怎么制作教程
  • 网站首页修改点了网站域名会跳转
  • 做自己的网站需要什么浙江建设信息港电工证查询
  • 网站建设中怎么添加源码cp wordpress