做网站前的准备什么,网站开发语言总结有哪些,电脑怎么建网站,创建个人网站的流程Task1 赛题理解
一、学习知识点概要
本次学习先是介绍了赛题的背景和概况#xff0c;题目以金融风控中的个人信贷为背景#xff0c;给所给的47列特征中#xff0c;根据贷款申请人的数据信息预测其是否有违约的可能#xff0c;以此判断是否通过贷款。随后介绍了比赛中的评…Task1 赛题理解
一、学习知识点概要
本次学习先是介绍了赛题的背景和概况题目以金融风控中的个人信贷为背景给所给的47列特征中根据贷款申请人的数据信息预测其是否有违约的可能以此判断是否通过贷款。随后介绍了比赛中的评价指标出现的相关知识点有
1.混淆矩阵Confuse Matrix
2.准确率Accuracy
3.精确率Precision
4.召回率Recall
5.F1 Score
6.P-R曲线Precision-Recall Curve
7.ROCReceiver Operating Characteristic
8.AUC(Area Under Curve)
9.KS(Kolmogorov-Smirnov)
二、学习内容
1.混淆矩阵Confuse Matrix
混淆矩阵是什么呢混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表以矩阵的形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。这个名字来源于它可以非常容易的表明多个类别是否有混淆。用于得出分类正确和错误的样本数量。一般的混淆矩阵是n×n的。
在我们要解的二元分类问题即判断一个东西是不是我们所认为的东西中混淆矩阵通常是2×2的。我们可以将分类的结果归为正类和负类或阳性和阴性先用我们构建出来的预测模型将样本进行分类然后再查看样本的真实分类将对比结果放入矩阵中。判断结果归类如下
1若一个实例是正类并且被预测为正类即为真正类TP(True Positive )2若一个实例是正类但是被预测为负类即为假负类FN(False Negative )3若一个实例是负类但是被预测为正类即为假正类FP(False Positive )4若一个实例是负类并且被预测为负类即为真负类TN(True Negative
矩阵中数据的填写可看下图 矩阵中的数据便为被判断为该种结果的样本个数。
2.混淆矩阵的延伸概念
单用一个混淆矩阵无法对模型进行准确全面的评价由此延伸出与混淆矩阵相关的概念有准确率Accuracy、精确率Precision、召回率Recall、F1 Score、P-R曲线
其计算公式如下
注意准确率并不适用于样本不均衡的情况
关于F1 Score的作用精确率和召回率是相互影响的精确率升高则召回率下降召回率升高则精确率下降如果需要兼顾二者就需要精确率、召回率的结合F1 Score
P-R曲线P-R曲线是描述精确率和召回率变化的曲线召回率为横轴精确率为纵轴。模型在为样本分类时会有一个置信度即表示该样本是正样本的概率。通过置信度就可以对所有样本进行排序再逐个样本的选择一个阈值在该样本之前的都属于正例该样本之后的都属于负例。每一个样本作为划分阈值时都可以计算对应的precision和recall那么就可以以此绘制曲线。 3.ROCReceiver Operating Characteristic
ROC为一种曲线以两种新出现的指标分别作为横轴和纵轴。ROC将假正例率FPR定义为 X 轴真正例率TPR定义为 Y 轴。
FPR在所有实际为阴性的样本中被错误地判断为阳性之比率 。 TPR在所有实际为阳性的样本中被正确地判断为阳性之比率。 ROC曲线的作用
I.ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
II.有助于选择最佳的阈值如何选择本次不做描述。ROC曲线越靠近左上角模型的准确性就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值其假正例和假反例总数最少。
III.可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中直观地鉴别优劣靠近左上角的ROC曲所代表的学习器准确性最高。
4.AUCArea Under Curve
AUCArea Under Curve被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个预测模型的效果更好而作为一个数值对应AUC更大的预测模型效果更好。
AUC就是曲线下面积在比较不同的分类模型时可以将每个模型的ROC曲线都画出来比较曲线下面积做为模型优劣的指标。ROC 曲线下方的面积(Area under the Curve)其意义是
1因为是在1x1的方格里求面积AUC必在0~1之间。
2假设阈值以上是阳性以下是阴性
3若随机抽取一个阳性样本和一个阴性样本分类器正确判断阳性样本的值高于阴性样本的概率 AUC 。
4简单说AUC值越大的分类器正确率越高。
从AUC 判断分类器预测模型优劣的标准 AUC 1是完美分类器。 AUC [0.85, 0.95], 效果很好 AUC [0.7, 0.85], 效果一般 AUC [0.5, 0.7],效果较低但用于预测股票已经很不错了 AUC 0.5跟随机猜测一样例丢铜板模型没有预测价值
5.KS(Kolmogorov-Smirnov)
在数理统计中可用于检验数据是否符合某种分布。在风控中KS常用于评估模型区分度。区分度越大说明模型的风险排序能力ranking ability越强。 K-S曲线与ROC曲线类似不同在于K-S曲线将真正例率和假正例率都作为纵轴横轴则由选定的阈值来充当。 公式为
一般情况KS值越大模型的区分能力越强但是也不是越大模型效果就越好如果KS过大模型可能存在异常。一般的评判标准如下
KS区分能力0.2以下基本无区分能力[0.2,0.4]一般(0.4,0.5]良好(0.5,0.6]较强(0.6,0.75]非常强0.75以上过高存疑三、学习问题与解答
初次看Task1的时候一下子冒出很多没见过的知识和名词感觉头都晕乎乎的。虽然里面已经列出了好一些概念但是它的定义、用来干什么、怎么用都还需要自己在去查去学习。比如一开始看到混淆矩阵TP、TN、FN、FP到底是什么意思单看是Task1很难看明白在百度上搜了之后也还是迷迷糊糊最后还是查找了各种文章学习之后才知道混淆矩阵的作用以及混淆矩阵该怎么样写。
现在出现的问题还有很多比如后面的Python代码还没看明白P-R曲线的阈值怎么选取以及选取阈值出来的作用是什么都不是很明白对这些知识还没有系统的了解。
四、学习思考与总结
思考下来就是需要学习的东西还有很多虽说是金融风控0基础的训练营但是对我这种在Task1里出现的知识和Python真正0基础的人来说挑战还是蛮大的。了解到的这些知识也不系统而且也是一知半解以后还需要多多与别人交流和学习。