集团网站怎么建设,网站设计需要什么,为什么用asp做网站,百度服务目录 一. numpy库二. pandas库读取文件并查看信息基础统计方法函数reset_index() 三. matplotlib四. SciPy五. scikit-learn六. statsmodels 一. numpy库
NumPy#xff08;http://numpy.org#xff09;是Numerical Python的简写#xff0c;是Python数值计算的基石。它提供多… 目录 一. numpy库二. pandas库读取文件并查看信息基础统计方法函数reset_index() 三. matplotlib四. SciPy五. scikit-learn六. statsmodels 一. numpy库
NumPyhttp://numpy.org是Numerical Python的简写是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。
二. pandas库
pandashttp://pandas.pyda ta.org提供了高级数据结构和函数这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。Pandas 这个名字来源于面板数据Panel Data与数据分析data analysis这两个名词的组合。
读取文件并查看信息
#pandas读取文件
import pandas as pd
dfpd.read_csv(11.csv)
dfpd.read_excel(11.xslx,sheet_nameyear) #读excel文件的year表
p pd.read_excel(.xlsx, header1) #设置header参数来指定目标行的数据为列标签跳过标题从0开始计数
df.head(20) #显示前20行
df.info() #检查变量信息和缺失值信息
pd.value_counts(df[name]) #计算name列的频率
#pandas读取某一单元格直接可以
df.values[2,2]基础统计方法
#pandas按列、行求和
df[行求和] df.iloc[:,3:6].sum(axis1)
df[列求和] df.iloc[:,3:6].sum(axis0)
#pandas获取指定单元格的值,row7column5
data_1 df.iloc[6,4]
#describe()函数可以查看数据的基本情况包括count非空值数、mean平均值、std标准差、max最大值、min最小值、25%、50%、75%分位数等。
infodata.describe()#nunique()和unique()Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法。
#unique()方法返回的是去重之后的不同值而nunique()方法则直接放回不同值的个数。data2 pd.Series([34,212,23,None,11,33,pd.NaT,11,22,34,33,22,34, np.NAN, np.NaN])
print(data2中不同值:, data2.unique())
print(data2中不同值的个数:, len(data2.unique()))
print(data2中不同值的个数:, data2.nunique())
print(data2中不同值的个数(包含空值):, data2.nunique(dropnaFalse))
函数reset_index()
在这里插入代码片DataFramePandas库 Pandas 的数据结构主要是Series一维数组DataFrame二维数组。DataFrame是由索引和内容组成
Pandas读取某列、某行数据——loc、iloc用法总结 link
三. matplotlib
python的2D绘图库。matplotlibhttp://matplotlib.org是最流行的用于制图及其他二维数据可视化的Python库。
import matplotlib.pyplot as plt
#更改饼图大小在plt.show()上方插入两行
fig plt.gcf()
fig.set_size_inches(10,10)
#对excel操作
https://blog.csdn.net/weixin_43673522/article/details/116403282
#seaborn的pairplotpyplot设置刻度字体大小以及标签字体大小 import … as … from…import…
PIL库 Image
numpy库
matplotlib.pyplot库
sklearn.datasets库
from matplotlib.pyplot import figure from mpl_toolkits.axes_grid1 import make_axes_locatable
四. SciPy
SciPyhttp://scipy.org是科学计算领域针对不同标准问题域的包集合。
五. scikit-learn
scikit-learn项目http://scikit-learn.org诞生于2010年目前已成为Python编程者首选的机器学习工具包。其中包含以下子模块。 分类SVM、最近邻、随机森林、逻辑回归等 回归Lasso、岭回归等 聚类k-means、谱聚类等 降维PCA、特征选择、矩阵分解等 模型选择网格搜索、交叉验证、指标矩阵 预处理特征提取、正态化
六. statsmodels
与scikit-learn相比statsmodels包含经典的高频词汇统计学、经济学算法。它所包含的模型如下。
回归模型线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等方差分析ANOVA· 时间序列分析AR、ARMA、ARIMA、VAR等模型非参数方法核密度估计、核回归统计模型结果可视化
statsmodels更专注于统计推理提供不确定性评价和p值参数。相反scikit-learn更专注于预测。