当前位置: 首页 > news >正文

给网站做广告wordpress接入微软小冰

给网站做广告,wordpress接入微软小冰,制作app的流程,阿里巴巴网站的搜索引擎优化案例前言本文讲解了从零开始学习Python数据科学的全过程#xff0c;涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话。我是一名数据科学家#xff0c;在用SAS做分析超过5年后#xff0c;我决定走出舒适区… 前言本文讲解了从零开始学习Python数据科学的全过程涵盖各种工具和方法你将会学习到如何使用python做基本的数据分析你还可以了解机器学习算法的原理和使用说明先说一段题外话。我是一名数据科学家在用SAS做分析超过5年后我决定走出舒适区寻找其它有效的数据分析工具很快我发现了Python我非常喜欢编程这是我真正喜欢做的事情。事实证明编程并没有想象中的那么难。我在一周之内学习了Python的基本语法接着我一方面继续深入探索Python另一方面我帮助其他人学习这门语言。Python最初是一门简单的脚本语言但随着Python社区的不断发展壮大越来越多的开发者参与到Python工具库开发中来所以Python拥有了极其丰富的数据分析和挖掘第三方库。内容目录1、Python数据分析的基本概况为何使用Python做数据分析Python2.7还是Python3.7如何安装Python使用Python运行一段简单的代码如何使用Jupyter notebook2、Python数据结构和库Python数据结构Python循环结构和判断语句Python库3、使用Pandas做探索性分析Series和DataFrame数据结构介绍具体数据集案例分析4、Numpy基本概念Numpy常见函数使用5、使用Pandas和numpy做数据清洗处理数据集中的空值如何使用apply方法6、使用Matplotlib绘制图表Matplotlib介绍使用Matplotlib绘制简单的柱状图7、使用Scikit-learn建立预测模型逻辑回归算法决策树算法随机森林算法1、Python数据分析的基本概况为何使用Python做数据分析最近几年Python用作数据分析语言引起了非常多的关注一度超越R成为最受欢迎的数据科学工具。作为Python的使用者我支持Python作为数据分析工具有以下理由开源-免费安装使用语言简洁是一门真正的强大的编程语言非常强大的在线社区学习门槛低极其丰富的第三方数据科学库但它也有一些缺点Python是一种解释性语言而非编译性速度相对比较慢。但是考虑到在学习和代码上节省的时间Python依然是不二的选择。Python 2.7还是Python 3.7很多初学者还在纠结选择Python 2.7还是Python 3.7这两个版本有非常大的差异简直就是两种语言。它们各有各的优缺点取决于你使用的需求。为什么Python 2.7绝对优势的社区支持Python 2.x诞生于2000年已经被使用快20年许多公司依然在使用Python 2.7丰富的第三方库目前绝大部分第三方库都是建立在Python 2.x基础上的很多库并不支持Python 3.x版本。如果你将Python用于特定的应用程序如高度依赖外部模块的web开发那么建议使用Python 2.7为什么Python 3.7语法更加简洁和快速。Python开发人员改进了Python 2.x的缺点Python 3.x代表了Python未来发展的方向Python 2.7 只维护到2020年Python官方建议直接学习Python 3.x如果将Python作为数据科学工具我建议使用Python 3.x因为基本上所有的数据科学第三方库都已经支持Python 3.x。当然选择哪一个版本不是目的应当专注的是如何使用Python更好地服务于数据科学。如何安装Python这里两种安装方法可供参考直接去Python官网下载Python3.7安装包再选择安装自己需要的第三方库和编辑器或者你不想这么麻烦你可以选择安装Anaconda这是一个开源的Python发行版本其预装了180多个第三方库和依赖包第二种方法包含了数据科学用到的大部分工具包为你省去很多安装时间。这也是本教程建议初学者使用的安装方法 。选择Python开发环境一旦你安装好了python就需要选择开发环境用于Python编程这里有四个常用选择终端交互模式IDLE(默认环境)其它IDE如pycharmJupyter notebook(ipython)IDLE(默认环境)这里不对它们作具体比较读者可自行上网查询选择什么样的开发环境取决于你的需求。我建议初学者使用Jupyter notebook(ipython)作为Python数据分析的开发环境。Jupyter Notebook 是一个交互式笔记本本质是一个 Web 应用程序便于创建和共享程序文档支持实时代码数学方程可视化和markdown。用途包括数据清理和转换数值模拟统计建模机器学习等等。数据挖掘领域中最热门的比赛 Kaggle 里的资料都是Jupyter 格式。本教程也是使用Jupyter Notebook 作为代码环境。Jupyter Notebook编程界面使用Python运行一段简单的代码如何使用Jupyter NotebookAnaconda预装了Jupyter Notebook库所以安装Anaconda后就可以直接使用Jupyter Notebook。启动Jupyter Notebook有两种方法你可以在命令行中键入jupyter notebook再按enter键便可以进入Jupyter Notebook环境记住不要关闭命令行窗口否则Jupyter环境会失效。命令行键入jupyter notebook还可以在开始菜单Anaconda文件夹中直接双击Jupyter Notebook然后进入Jupyter Notebook主界面点击New新建点击Python 3就可以开始愉快的编程了。Jupyter Notebook主界面notebook界面你可以修改该notebook的名字添加或删除代码编辑框使用“Shift Enter” 或者“Ctrl Enter”快捷键运行代码。具体功能快捷键这里不做赘述可以去Jupyter Notebook 快捷键 查看。2、Python数据结构和库Python数据结构接下来要讲到Python的数据结构你应该尽可能熟悉它因为在接下来的数据分析代码中会经常用到这些数据结构。字符串Python 可以操作字符串。字符串有多种形式可以使用单引号(……)双引号(……)都可以获得同样的结果2。反斜杠\可以用来转义:字符串示例列表Python 中可以通过组合一些值得到多种复合数据类型。其中最常用的列表可以通过方括号括起、逗号分隔的一组值得到。一个列表可以包含不同类型的元素但通常使用时各个元素类型相同:列表示例元组可以看到列表和字符串有很多共同特性例如索引和切片操作。Python的元组与列表类似不同之处在于元组的元素不能修改。元组使用小括号列表使用方括号。元组创建很简单只需要在括号中添加元素并使用逗号隔开即可。元组示例字典另一个非常有用的 Python 內置数据类型是字典。字典在其他语言里可能会被叫做 联合内存 或 联合数组。与以连续整数为索引的序列不同字典是以 关键字 为索引的关键字可以是任意不可变类型通常是字符串或数字。如果一个元组只包含字符串、数字或元组那么这个元组也可以用作关键字。但如果元组直接或间接地包含了可变对象那么它就不能用作关键字。列表不能用作关键字因为列表可以通过索引、切片或 append() 和 extend() 之类的方法来改变。理解字典的最好方式就是将它看做是一个 键: 值 对的集合键必须是唯一的(在一个字典中)。一对花括号可以创建一个空字典{} 。另一种初始化字典的方式是在一对花括号里放置一些以逗号分隔的键值对而这也是字典输出的方式。以下是使用字典的一些简单示例字典示例Python循环结构和判断语句for循环和大多数编程语言一样Python也有for循环结构其被广泛使用在迭代方法中。Python 中的for语句与你在 C 或 Pascal 中可能用到的有所不同。Python 中的for语句并不总是对算术递增的数值进行迭代(如同 Pascal)或是给予用户定义迭代步骤和暂停条件的能力(如同 C)而是对任意序列进行迭代(例如列表或字符串)条目的迭代顺序与它们在序列中出现的顺序一致。如果在循环内需要修改序列中的值(比如重复某些选中的元素)推荐你先拷贝一份副本。对序列进行循环不代表制作了一个副本进行操作。切片操作使这件事非常简单如果写成for w in words:这个示例就会创建无限长的列表一次又一次重复地插入defenestrate。range函数如果你确实需要遍历一个数字序列内置函数range()会派上用场。它生成算术级数:if判断语句可能最为人所熟知的编程语句就是if语句了这是python中的判断语句。使用形式为if ... elif ... else ...可以有零个或多个elif部分以及一个可选的else部分。关键字 elif 是 else if 的缩写适合用于避免过多的缩进。一个if...elif...elif... 序列可以看作是其他语言中的switch或case语句的替代。现在你熟悉了Python中的循环结构和判断语句可以更进一步去学习更多的语法知识。如果每做一件事都需要从头开始写代码那么这将是一场噩梦比如你想要对一个列表里数字进行加法运算难道还要一个一个数字加起来吗这样的话你肯定不想学习python了。庆幸的是python有很多工具库可以帮助我们更加直接有效地解决问题。例如求数学中的阶乘你可以很简单的导入math模块使用已经编译好的阶乘函数当然在使用函数之前你必须要导入库和函数。话不多说一起来探索更多的Python库吧Python库在学习更酷炫实用的Python库之前第一步要知道什么是Python库。Python库是一个相关功能模块的集合里面包含各种函数方法用来解决复杂的问题。这些库分为两类标准库和第三方库标准库是Python内置库无需再安装如math、range第三方库需要另外安装如jupyter、pandas、numpy安装第三方库安装第三方库有两种方法第一种是pip方法pip是Python包管理工具自带无需安装提供了对Python 库的查找、下载、安装、卸载的功能。如果想安装pandas库你可以在命令行输入pip install pandas接下来等待自行下载安装。第二种是手动安装在python库集合里下载相关库文件并安装。导入库和库函数使用库之前需要将其导入Python环境。同样有两种方法可以做到(以math库为例)import math或者from math import *第一种方法导入整个库如果你需要使用库中的某个函数比如阶乘函数factorial那么需要用math.factorial()形式。第二种方法直接导入了math库的所有方法和函数直接factorial()就可以了。建议使用第一种方法用什么导入什么不浪费。最常用的数据科学库列表numpy它是一个由多维数组对象和用于处理数组的例程集合组成的库里面包含了大量的计算函数可以很轻松的进行科学计算。scipy科学计算的另一个核心库是 SciPy。它基于 NumPy其功能也因此得到了扩展。SciPy 主数据结构又是一个多维数组由 Numpy 实现。这个软件包包含了帮助解决线性代数、概率论、积分计算和许多其他任务的工具。此外SciPy 还封装了许多新的 BLAS 和 LAPACK 函数。pandas是基于NumPy 的一种工具该工具是为了解决数据分析任务而创建的具备强大的数据展示功能。Pandas 纳入了大量库和一些标准的数据模型提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现它是使Python成为强大而高效的数据分析环境的重要因素之一。matplotlib是一个Python 2D绘图库可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。Matplotlib可用于Python脚本Python和IPython shellJupyter笔记本Web应用程序服务器和四个图形用户界面工具包。只需几行代码即可生成绘图直方图功率谱条形图误差图散点图等。scikit-learn是一个机器学习库可以对数据进行分类回归无监督数据降维数据预处理等等包含了常见的大部分机器学习方法。StatsModelsStatsmodels 是一个 Python 模块它为统计数据分析提供了许多机会例如统计模型估计、执行统计测试等。在它的帮助下你可以实现许多机器学习方法并探索不同的绘图可能性。SeabornSeaborn 本质上是一个基于 matplotlib 库的高级 API。它包含更适合处理图表的默认设置。此外还有丰富的可视化库包括一些复杂类型如时间序列、联合分布图(jointplots)和小提琴图(violin diagrams)。PlotlyPlotly 是一个交互可视化库它可以让你轻松构建复杂的图形。该软件包适用于交互式 Web 应用程可实现轮廓图、三元图和三维图等视觉效果。BokehBokeh 库使用 JavaScript 小部件在浏览器中创建交互式和可缩放的可视化。该库提供了多种图表集合样式可能性(styling possibilities)链接图、添加小部件和定义回调等形式的交互能力以及许多更有用的特性。ScrapyScrapy 是一个用来创建网络爬虫扫描网页和收集结构化数据的库。此外Scrapy 可以从 API 中提取数据。由于该库的可扩展性和可移植性使得它用起来非常方便。TensorFlowTensorFlow 是一个流行的深度学习和机器学习框架由 Google Brain 开发。它提供了使用具有多个数据集的人工神经网络的能力。在最流行的 TensorFlow应用中有目标识别、语音识别等。在常规的 TensorFlow 上也有不同的 leyer-helper如 tflearn、tf-slim、skflow 等。KerasKeras 是一个用于处理神经网络的高级库运行在 TensorFlow、Theano 之上现在由于新版本的发布还可以使用 CNTK 和 MxNet 作为后端。它简化了许多特定的任务并且大大减少了单调代码的数量。然而它可能不适合某些复杂的任务。requestsrequests库是一个常用的用于http请求的模块它使用python语言编写可以方便的对网页进行爬取是学习python爬虫的较好的http请求模块。BlazeBlaze生态系统为python用户对大数据提供了高效计算的高层接口Blaze整合了包括Python的Pandas、NumPy及SQL、Mongo、Spark在内的多种技术使用Blaze能够非常容易地与一个新技术进行交互。现在你熟悉了Python了Python数据结构和库的使用接下来要用这些知识去解决一些简单的问题。比如说利用pandas去做数据探索用matplotlib可视化图表等等。未完待续本文部分翻译自Kunal Jain博客
http://www.huolong8.cn/news/261119/

相关文章:

  • 苏州建站推广公司怎么创造一个网站
  • 做网站技术服务合同北京建设信源咨询有限公司网站
  • 天津建设工程协会网站哈尔滨网站开发电话
  • 游戏平台网站制作搭建网站的方法
  • 怎么套模板 网站小程序发布流程怎么弄
  • 贵州网站推广电话wordpress 投稿 加标签
  • 购物网站开发总结报告安仁做网站
  • 微网站设计与开发购票网站模板
  • 网站建设是前端么一级a做爰片就在线手机看韩国网站
  • 网站网页设计引言做软装素材从哪些网站找
  • 网站域名和网址程序开发过程的四个步骤
  • 企云网站建设网站开发遇到的最大困难
  • 太原网站建设加q.479185700太原网站建设鸣蝉
  • 网站开发安装环境wordpress怎么把分类弄在左边
  • 医药招商网站大全杭州模板开发建站
  • 禅城顺德网站建设律所网站建设
  • 南京网站建设 雷烟台网站建设外贸
  • 网站搭建模板网上建设银行网站首页
  • 建设刷单网站平台手机app开发
  • 公司网站推广的方法晋江论坛兔区网友留言区
  • 网站设计网页设计公司app制作开发软件
  • 动态照片素材网站惠州网站建设教程
  • 第三方做农产品价格数据的网站网站策划书注意事项
  • 重庆工程建设造价信息网站贵州seo策略
  • itc 做市场分析的网站注册商标名字推荐
  • 北京网站设计制作关键词wordpress电影网教程
  • 外贸网站设计公司价格中国欧洲陆运专线
  • .net做网站用什么的多免费的个人简历模板pdf
  • 自己做的网站加载不出验证码c2c商城网站建设公司
  • 网站建设的关键要素网站建设及运营工作总结