深圳网站建设深圳,seo产品优化推广,9款好评不断的网页设计工具,网站备案号是什么本篇文章给大家带来的内容是关于Python中数据预处理#xff08;代码#xff09;#xff0c;有一定的参考价值#xff0c;有需要的朋友可以参考一下#xff0c;希望对你有所帮助。1、导入标准库import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
2、…本篇文章给大家带来的内容是关于Python中数据预处理代码有一定的参考价值有需要的朋友可以参考一下希望对你有所帮助。1、导入标准库import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
2、导入数据集dataset pd.read_csv(data (1).csv) # read_csv读取csv文件
#创建一个包含所有自变量的矩阵及因变量的向量
#iloc表示选取数据集的某行某列逗号之前的表示行之后的表示列冒号表示选取全部没有冒号则表示选取第几列values表示选取数据集里的数据。
X dataset.iloc[:, :-1].values # 选取数据不选取最后一列。
y dataset.iloc[:, 3].values # 选取数据,选取每行的第3列数据
3、缺失数据from sklearn.preprocessing import Imputer #进行数据挖掘及数据分析的标准库Imputer缺失数据的处理
#Imputer中的参数missing_values 缺失数据定义怎样辨认确实数据默认值nan ;strategy 策略补缺值方式 mean-平均值 median-中值 most_frequent-出现次数最多的数 axis 0取列 1取行
imputer Imputer(missing_values NaN, strategy mean, axis 0)
imputer imputer.fit(X[:, 1:3])#拟合fit
X[:, 1:3] imputer.transform(X[:, 1:3])4、分类数据from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_XLabelEncoder()
X[:,0]labelencoder_X.fit_transform(X[:,0])
onehotencoderOneHotEncoder(categorical_features[0])
Xonehotencoder.fit_transform(X).toarray()
#因为Purchased是因变量Python里面的函数可以将其识别为分类数据所以只需要LabelEncoder转换为分类数字
labelencoder_yLabelEncoder()
ylabelencoder_y.fit_transform(y)
5、将数据集分为训练集和测试集from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.2,random_state0)
#X_train训练集的字变量,X_test测试集的字变量,y_train训练集的因变量,y_test训练集的因变量
#训练集所占的比重0.2~0.25某些情况也可分配1/3的数据给训练集train_size训练集所占的比重
#random_state决定随机数生成的方式随机的将数据分配给训练集和测试集random_state相同时会得到相同的训练集和测试集6、特征缩放#特征缩放两种方式一Standardisation(标准化二Normalisation正常化
from sklearn.preprocessing import StandardScaler
sc_XStandardScaler()
X_trainsc_X.fit_transform(X_train)#拟合,对X_train进行缩放
X_testsc_X.transform(X_test)#sc_X已经被拟合好了所以对X_test进行缩放时直接转换X_test
7、数据预处理模板
1导入标准库
2导入数据集
3缺失和分类很少遇到
4将数据集分割为训练集和测试集
5特征缩放大部分情况下不需要但是某些情况需要特征缩放
以上就是Python中数据预处理代码的详细内容更多请关注php中文网其它相关文章本文转载于博客园如有侵犯请联系aphp.cn删除